La Curva de Aprendizaje, parte 8: creando conversaciones desde Japón para el mundo

Mientras Samsung sigue liderando en experiencias premium de IA móvil, visitamos sus centros de investigación globales para explorar cómo Galaxy AI ayuda a los usuarios a maximizar su potencial. Ahora, Galaxy AI soporta 16 idiomas, permitiendo a más personas expandir sus habilidades lingüísticas, incluso sin conexión, gracias a funciones como Traducción simultánea, Intérprete, Asistente de notas y Asistente de navegación. Pero, ¿qué implica el desarrollo del lenguaje de IA? En nuestra última visita a Polonia, vimos cómo los países europeos colaboran en sus objetivos. Ahora, estamos en Japón para entender cómo los desarrolladores se ajustan a nuevos escenarios y casos de uso.

El Instituto de Investigación y Desarrollo de Japón (SRJ) se estableció como un centro de I+D enfocado en hardware, como electrodomésticos y pantallas. Con la creciente demanda de innovación en IA a nivel global, SRJ en Yokohama también gestiona un laboratorio de desarrollo de software para crear la función de Traducción Simultánea de Galaxy AI, que desde el año pasado traduce automáticamente las llamadas de voz en tiempo real.

«La función de Traducción Simultánea es muy útil durante los viajes, como para quienes asistirán a los Juegos Olímpicos de este año en París», comenta Takayuki Akasako, director de Inteligencia Artificial de SRJ. «Actualmente estamos desarrollando un programa de reconocimiento de voz para turistas que visitarán los Juegos Olímpicos de París, entrenando el sistema para aprender sobre los eventos y las ubicaciones de los estadios para París 2024».

Comprensión del contexto en el reconocimiento de voz

Para aquellos que ya utilizan las funciones de traducción de Galaxy AI, estas pueden parecer muy útiles. Sin embargo, los desarrolladores detrás de ellas saben que la comunicación efectiva en el extranjero no siempre es fácil.

El equipo notó que el japonés tiene más homónimos que otros idiomas. Por ejemplo, ‘hashi’ (箸) puede significar ‘palillos’ y ‘hashi’ (橋) puede significar ‘puente’, siendo distinguibles por entonación. Pero términos como ‘turismo’ (観光), ‘costumbres’ (慣行), ‘público’ (公共) y ‘prosperidad’ (好況) deben interpretarse según el contexto.

«La interpretación se vuelve más compleja con contextos ambiguos, como nombres de lugares, personas, nombres propios, dialectos y números», dice Akasako. «Por eso, para mejorar la precisión del reconocimiento de voz, necesitamos una gran cantidad de datos».

«Siempre buscamos ajustar el modelo de IA para eventos y momentos clave a tiempo», agrega Akasako. «Con nuevas combinaciones de nombres y actividades, es crucial que el contexto sea claro al usar Galaxy AI».

Desafíos en la recopilación de datos eficientes

Reconocer qué datos son necesarios es solo una parte del desafío; recopilar esos datos es otro problema.

El equipo de SRJ solía usar datos grabados por personas para entrenar el motor de reconocimiento de voz para la Traducción Simultánea, pero esto no resultaba en una recopilación de datos suficiente.

Samsung Gauss, el modelo de lenguaje grande (LLM) de la compañía, utiliza guiones para estructurar oraciones con palabras o expresiones relevantes para cada escenario. Los datos recogidos con Samsung Gauss incluyen tanto grabaciones humanas como generación de voz text-to-speech (TTS), con verificación de calidad final realizada por personas. Este enfoque ha mejorado significativamente la eficiencia de la recopilación de datos.

«Cada vez que identificamos y resolvemos un problema, la precisión del reconocimiento de voz mejora notablemente», explica Akasako. «Nuestro objetivo es conectar a las personas sin importar dónde se encuentren, y las herramientas impulsadas por Galaxy AI asegurarán una comunicación más eficaz y entretenida».

Etiquetas de artículos:

samsung