Conversaciones multilingües en tiempo real

En ocasiones, un sueño no necesita más que un pequeño impulso para hacerse realidad.

Eso es exactamente lo que Eric Rudder y Peter Lee dieron al equipo de Traducción de Máquina hace cerca de un año.

Rudder, en aquel entonces director de investigación y estrategia en Microsoft, y Lee, director de Microsoft Research, se encontraban entre aquellos que habían visto las demostraciones de un proyecto de investigación diseñado para ofrecer conversaciones multilingües fluidas entre los hablantes de distintos idiomas. Las demos eran asombrosas, pues ofrecían la posibilidad de derribar las barreras del lenguaje que han impedido la comunicación entre los seres humanos durante cientos de años.

Rudder y Lee estaban convencidos: había llegado el momento de hacerlo realidad.

La tarea se adjudicó, entre otros, al equipo de Traducción de Máquina, ubicado en Redmond y dirigido por Arul Menezes.

Los exitosos avances logrados hasta la fecha por el equipo se presentaron el 27 de mayo durante una plática por el CEO de Microsoft, Satya Nadella, en Rancho Palos Verdes, Calif., en la Conferencia Code. Durante la conversación de Nadella con Kara Swisher y Walt Mossberg —del sitio web de tecnología Re/code— sobre la nueva era del cómputo personal, le pidió a Gurdeep Pall que lo acompañara en el escenario. Pall, el vicepresidente corporativo de Office Lync de Microsoft y el grupo de comunicación oral demostraron por primera vez ante el público la aplicación Skype Translator, con Pall conversando en inglés con Diana Heinrichs, una empleada de habla alemana de Microsoft.

La interacción destacó los avances continuos que ha logrado el equipo.

“Sentimos que la traducción oral es una evolución muy natural del trabajo en traducción de textos que hemos estado realizando”, dijo Chris Wendt, gerente de programas del equipo de Traducción por Máquina, que desde hace tiempo había estado presionando por un esfuerzo de incubación como ese.

“Es un proyecto emocionante”, afirma. “Claramente, agregar esa capacidad a Skype y permitir a la gente traducir conversaciones era la mejor manera de colocar esta tecnología en manos de los clientes”.

Han surgido muchos intentos a lo largo de los años, varios dentro de Microsoft Research, por demostrar dichos aspectos de la traducción de la voz humana. Pero ofrecer algo que pueda utilizarse en la vida real para adecuarse a la voz y expresiones de muchos usuarios diferentes y a las diferencias sutiles de los distintos idiomas —todo eso desarrollado a escala para atender las necesidades de los usuarios de Skype— ha sido considerado una tarea prácticamente imposible.

La capacidad de ofrecer Skype Translator inicialmente en Windows 8 a finales de este año como versión beta limitada ha requerido una serie de avances investigativos importantes en traducción, reconocimiento de voz y procesamiento de idiomas, además de las contribuciones de los equipos de ingeniería e investigación de Microsoft alrededor del mundo.

El equipo de Traducción de Máquina, responsable de la innovadora tecnología de traducción y servicio en la nube utilizados ampliamente en varios productos de Microsoft, ha permitido elevar el enfoque de One Microsoft a un nuevo nivel al utilizar las aportaciones de los investigadores y los ingenieros que trabajan en el servicio de voz de Microsoft. Asimismo, para desarrollar una nueva experiencia de usuario, el equipo formó una alianza profunda con los diseñadores y los ingenieros de Skype, en particular con el equipo de creación de prototipos dirigido por Jonas Lindblom.

“La parte más interesante de este proyecto fue que combinamos estas dos tecnologías bastante complejas por primera vez para brindar esta experiencia de usuario de punta a punta”, dijo Menezes.

Microsoft Research trabaja en la Traducción de Máquina desde hace más de 10 años. Los resultados iniciales se dieron con traducciones para la Base de Conocimientos de soporte para productos de Microsoft. La tecnología se ofreció para uso público como la máquina detrás del Traductor de Bing, lo cual impulsó el crecimiento y la popularidad de la herramienta desde su lanzamiento. En la actualidad, el Traductor de Bing se utiliza por millones de personas y es adoptado por empresas de todas partes del mundo.

Sobre la marcha, Menezes y los colegas de Microsoft han resuelto varias cuestiones del diseño del sistema y de la interfaz de usuario, incluyendo la reducción de la latencia y el desarrollo de retroalimentación visual para que el sistema de traducción se mejore continuamente por sí mismo con base en la retroalimentación del usuario.

“La tecnología solo es tan buena como los datos”, dice Menezes. “Una de las principales áreas de enfoque ha sido incrementar la cantidad y tipos de datos que se introducen en la capacidad de aprendizaje por máquina de esos sistemas”.

La necesidad de datos se sintió de manera intensa en el laboratorio de Beijing de Microsoft Research, donde el investigador Frank Seide ha estado aumentado de manera gradual la cantidad de horas de datos conversacionales que utiliza para perfeccionar la capacitación basada en su modelo. El trabajo que comenzó con un conjunto de 24 horas de datos ahora ha aumentado en forma significativa. Los innovadores modelos conversacionales y de expresión oral fueron críticos para permitir la comunicación fluida demostrada por Pall.

Los datos para la capacitación conversacional son difíciles de obtener, y el equipo tuvo que desarrollar nuevas técnicas de recolección de datos conversacionales. Un ejemplo, comenta Menezes, provino del análisis de las publicaciones en medios sociales.

“Nos expone a un género adicional”, dice. “La manera en que la gente escribe en los medios sociales no es la manera en que habla; sin embargo, hay una mezcla de jerga y de expresiones relacionados que puede ayudar a este sistema y hacerlo contemporáneo”.

También existe el problema de la falta de fluidez, es decir, la diferencia entre la manera en que la gente escribe y habla. Cuando habla, la gente utiliza muchas pausas y expresiones sin sentido que crean un puente entre sus ideas.

“No es tan sencillo como repetir una sola palabra”, dice Menezes. “En ocasiones, comienzas a decir una oración y de pronto, a la tercera palabra, vuelves al principio y la empiezas de nuevo. Ciertos idiomas son más difíciles que otros, en especial el español, donde las palabras deben tener concordancia de género”.

Desenmarañar tales conversaciones requiere mucha capacitación, así como la requiere determinar el momento en que termina una oración. La oración es la unidad básica en la traducción y, sin puntuación, puede ser complicado reconocerla. De hecho, es prácticamente imposible leer la transcripción de una conversación que carece de puntuación. El traductor también debe aprender a segmentar la entrada de las palabras.

“Eso es algo en lo que mi equipo lleva trabajando desde hace un año: resolver la diferencia entre la manera en que la gente habla y escribe”, dice Menezes. “Si tu sistema de traducción está enfocado en texto escrito, no tendrá un buen funcionamiento con el lenguaje hablado”.

Además de la traducción por máquina, el trabajo en la traducción del lenguaje hablado ha dependido de años de investigación y avances de ingeniería en varias otras áreas, principalmente en reconocimiento de voz, un área en la cual los investigadores dedicados al lenguaje hablado en los laboratorios de Microsoft en Beijing y Redmond han desempeñado un papel fundamental.

El camino hacia el Traductor de Skype partió de un logro importante en el otoño del 2010. Seide y su colega Kit Thambiratnam habían desarrollado un sistema llamado The Translating! Telephone para la traducción en vivo de lenguaje hablado a texto y la traducción de lenguaje hablado a lenguaje hablado de las llamadas telefónicas.

Otro paso importante fue el trabajo realizado por Dong Yu y Deng con el becario de maestría George Dahl, el cual consistió en utilizar senones (fragmentos pequeños de pronunciación) como los objetivos de la capacitación para las redes neuronales. Eso condujo a un impulso drástico en el desempeño y mejoró en 16% la precisión del reconocimiento del lenguaje hablado.

“Me sentí muy emocionado”, sonríe Yu, un investigador en Redmond, “principalmente porque había estado trabajado en esa área durante mucho, mucho tiempo, y era la primera vez que lograba un avance de esa escala en mi carrera”.

Seide se sintió impresionado e intrigado por los nuevos niveles de desempeño, y de ahí surgió una cercana colaboración entre los dos. Después de llevar a cabo algunos desarrollos nuevos, la precisión mejoró en 24%. Con el tiempo, otros cambios condujeron a una mejora de 42%. Estaban por lograr algo sin precedentes.

Llegado el momento, Seide tuvo que rediseñar su infraestructura para poder manejar tareas de gran escala. Él y su colega de Beijing, Gang Li, trabajaron en el desarrollo de la tecnología central para el reconocimiento del lenguaje hablado, particularmente en la construcción de modelos nuevos, cada uno de los cuales puede tomar semanas.

Uno de los desarrollos centrales detrás de la traducción de Skype se debe al investigador de Redmond, Li Deng. Invitó a Geoff Hinton, un profesor de la Universidad de Toronto, a visitar Redmond en el 2009 para trabajar en nuevos métodos de aprendizaje para redes neuronales con base en un par de ensayos seminales de Hinton y sus colaboradores en el 2006 que habían dado nueva vida al uso de las redes neuronales en el modelado y clasificación de señas.

¿Qué había cambiado? En primer lugar, la proliferación del big data había dado nueva vida a las redes neuronales. Ciertos métodos de aprendizaje por máquina que habían permanecido dormidos por años se reactivaron.

La “profundidad” también desempeñó un papel importante”, dice Deng. En la década de los 90, se pensaba que la clave del enfoque en redes neuronales para el reconocimiento del lenguaje hablado era una gran capa oculta de datos que podía utilizarse para aproximar los resultados y, de esa forma, mejorar el reconocimiento del lenguaje hablado.

“En esa época, la gente no sabía que utilizar muchas capas era cada vez más importante”, dice Deng. “Pero es así como se ven muchas partes de la estructura del cerebro”.

En enero del 2012, los investigadores de Microsoft escribieron juntos el ensayo Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition (Redes neuronales profundas preentrenadas y dependientes del contexto para el reconocimiento del lenguaje hablado con vocabulario grande) publicado en IEEE Transactions on Audio, Speech, and Language Processing. Era la primera vez que el término “redes neuronales profundas” se aplicaba en un trabajo como ese.

En la actualidad, ese término se ha convertido en algo normal dentro de los círculos de reconocimiento del lenguaje hablado. Hace cuatro años, la Conferencia Internacional IEEE sobre Acústica, Habla y Procesamiento de Señas presentó tres ensayos sobre redes neuronales profundas. La conferencia de este año presentó casi cien.

Ese ensayo, coescrito por Yu y Deng, entre otros, ha sido citado por otros tantas veces que recientemente ganó el premio 2013 IEEE Signal Processing Society Best Paper, un galardón que reconoce los mejores ensayos publicados en los últimos cinco años.

El uso del senone como la principal unidad para la decodificación del lenguaje hablado también generó beneficios. Compañías importantes —Microsoft incluida— habían invertido fuertes sumas para desarrollar la capacidad de manejar el lenguaje hablado. Esas infraestructuras se crearon antes de la llegada de las redes neuronales profundas. Los modelos anteriores se habían basado en el Gaussian Mixture Model, que producía un senone como el resultado.

El enfoque en DNN también contaba con un senone como el resultado, lo que permitió la reutilización eficiente de la infraestructura de cómputo existente.

Esas innovaciones han generado beneficios, ya que el Grupo de la Plataforma Bing de Microsoft las está utilizando para brindar las mejores experiencias de reconocimiento del lenguaje hablado para Cortana y otras experiencias basadas en el habla. Debido a que la precisión del reconocimiento se acerca cada más a las capacidades humanas, la alianza entre los grupos de Skype, de Microsoft Research y de la Plataforma Bing es crítica para proporcionar un servicio de traducción a los usuarios de Skype en todo el mundo.

La prueba de este enfoque One Microsoft para desarrollar el Traductor de Skype tuvo lugar el 25 de octubre del 2012 en Tianjin, China, durante la conferencia de cómputo de Microsoft Research. En una presentación magistral por Rick Rashid, el entonces director mundial de Microsoft Research, se estrenó públicamente el proyecto de traducción de lenguaje hablado a lenguaje hablado.

“Me aseguré de incluir pausar después de cada oración”, recuerda Rashid. “De esa forma, el público tenía tiempo de escuchar con claridad la versión en Mandarín de lo que yo estaba diciendo. Eso también significaba que había tiempo suficiente para que el público reaccionara. Recuerdo que escuché algunas exclamaciones de asombro provenientes de las dos primeras filas, además del aplauso y la aprobación del público en general. Fue sumamente conmovedor”.

Eso representó un momento decisivo en la evolución tanto del reconocimiento del lenguaje hablado como de la traducción por máquina.

“Pienso que esa demo anunció la llegada tanto del reconocimiento del habla de las redes neuronales profundas como el de la traducción del idiomas en tiempo real”, dice Rashid. “Definió el estándar de lo que podía lograrse y proporcionó un vistazo a un futuro donde el lenguaje dejaría de ser una barrera”.

“He sido fan de la ciencia ficción desde mis años preadolescentes. Ha sido muy emocionante ver que la tecnología que antes se considerada puramente ficticia ahora es una realidad”.

En la actualidad, Wendt es uno de los responsables de llevar esa tecnología a las masas. Ayuda a incorporar el enfoque One Microsoft en el desarrollo del Traductor de Skype, lo que incluye trabajar de cerca con sus colegas de Skype, Lindblom, Daniel Nitsche y Fredrik Furesjö. Con la ayuda de Steve Pearce de Skype y del investigador de Redmond, Shamsi Iqbal, el equipo fue capaz de optimizar el modelo de interacción para la experiencia.

“Lo que encontré interesante a medida que el equipo superaba muchos de los retos de diseño, investigación e ingeniería para llegar hasta aquí fue la manera en que la dinámica entre nosotros y la tecnología cambió con la llegada de una manera más natural de comunicarse”, dice Vikram Dendi, quien había formado parte del equipo de Traducción por Máquina antes de convertirse en el asesor de tecnología y estrategia de Lee. “Como usuario de la traducción tradicional de textos, era fácil culpar a la tecnología cuando se equivocaba y darme por vencido.

“Algo fascinante es la buena disposición de ambas partes por intentar comunicarse entre sí para trabajar con la tecnología y ayudarse a entender la traducción del lenguaje hablado. A pesar de encontrarse aún en versión beta, esta tecnología ha demostrado ser muy útil y funcional”.

Conversaciones multilingües en tiempo real

Publicaciones Relacionadas