Logros en el camino hacia Skype Translator

Microsoft anuncia y demuestra en público Skype Translator, desarrollado en conjunto por investigadores de Microsoft e ingenieros de Skype:

Permite conversaciones entre idiomas en tiempo real
Microsoft hace demostración de sus avances en conversaciones traducidas en tiempo real.

El grupo de producto de habla de Microsoft creó un producto de manera rápida basado en los avances en investigación del habla de la empresa para entregar el mejor reconocimiento del habla en su clase para Cortana y otras experiencias alimentadas por el habla en productos Microsoft. Con la exactitud en el reconocimiento cada vez más cerca de las capacidades humanas, la asociación entre Skype, Microsoft Research y el Grupo de Información de Plataforma de Microsoft, es crítica para entregar esta tecnología a los usuarios de Skype de todo el mundo.

Más: Esperando más de Cortana.

Skype celebra su décimo aniversario y alcanza más de 1.4 billones de minutos de llamadas de voz y video.

Más: Skype celebra una década de conversaciones significativas.

La investigación de Microsoft sobre la red neural profunda (DNN, por sus siglas en inglés) mejora Bing Voice Search para Windows Phone. Además, las inversiones de Microsoft en investigación de traducción de máquina, combinada con la plataforma de información de Bing y la arquitectura de escala web, impulsa las traducciones a través de un grupo de experiencias, que incluyen características en Bing, Office, SharePoint y Yammer.

Más: DNN Research mejora Bing Voice Search.

Se lanza el Hub de Microsoft Translator e implementa un modelo de auto servicio para construir un servicio de traducción automática de alta personalización entre dos idiomas. Este servicio basado en Azure beneficia a comunidades de idiomas, proveedores de servicio y corporaciones, para crear sistemas de traducción automática, para permitir a los hablantes de un idioma compartir y acceder a conocimiento con hablantes de cualquier otro idioma. Con la habilitación de traducción de idiomas que no están soportados en muchos de los principales motores de traducción, esto también mantiene vivos y en uso para futuras generaciones, idiomas que no son hablados por muchas personas.

Más: Microsoft Translator Hub: Traducción por todos para todos.

Ocho enunciados fue lo que tomó a Rick Rashid, fundador de Microsoft Research, para impresionar a una multitud de 2 mil estudiantes y profesores en Tianjin China. Décadas de DNN e investigación del habla culminaron en una impresionante traducción en vivo de la voz de Rashid que hablaba en inglés mientras la audiencia china escuchaba su voz en Mandarín. El sistema de reconocimiento del habla en el ensayo de la demostración mostró una tasa de error menor al 7%, algo similar a lo que haría una persona mientras toma notas palabra por palabra.

Más: Avances en reconocimiento del habla para la palabra escrita y traducida.

Un importante documento sobre transcripción del habla es creado por investigadores de Microsoft y presentado en Interspeech 2011. Los investigadores de Microsoft muestran métodos que mejoran el desempeño por más de 30% en comparación con métodos anteriores. En lugar de tener una palabra incorrecta en 4 o 5, la tasa de error se convierte en una palabra entre 7 u 8. Aunque aún se está lejos de la perfección, este es el cambio más importante en cuanto a exactitud en la última década.

Más: Frank Seide, Gang Li y Dong Yu, “Transcripción de habla conversacional a través de redes neurales profundas dependientes del contexto.”

Investigadores de Microsoft en Asia se intrigan con la noción de traducir la palabra hablada en la propia voz de la persona que habla.

A la par, la demostración del Teléfono The Translating! se hace de manera pública por primera vez en TechFest 2010, en donde se lleva a cabo una traducción en tiempo real de alemán a inglés con la voz de cada persona que habla.

Investigadores de Microsoft son pioneros en aprendizaje profundo a escala industrial al ser los primeros en conducir el desarrollo de tecnología industrial a gran escala en tareas de búsqueda por voz por medio de la combinación de la fortaleza de las DNN con la necesidad de la industria de producir soluciones de reconocimiento de voz que no sólo sean muy exactas sino también muy eficientes. El importante documento publicado sobre el trabajo fue reconocido por IEEE con el premio Best Paper Award 2013.

Más: George E. Dahl, Dong Yu, Li Deng y Alex Acero “Redes neurales profundas pre-entrenadas y dependientes del contexto para amplio reconocimiento de vocabulario hablado”, IEEE Transactions on Audio, Speech and Language Processing, Vol. 20, No. 1, Enero 2012.

Antes de 2009, casi todos los sistemas de reconocimiento del habla están basados en la técnica de modelos de mezcla Gaussiana (GMM, por sus siglas en inglés) con resultados decepcionantes en reconocimiento del habla. Pero a principios de la última parte de 2009, las cosas comenzaron a cambiar. El modelo DNN y un modelo profundo que Li Deng, investigador de Microsoft y otros colegas, desarrollaron con anterioridad, tiene interesantes y distintivos patrones de error en el reconocimiento. Este descubrimiento y la subsecuente colaboración los motivan a invertir de manera más importante, tiempo de investigación en DNN.

El Servicio de Traducción de Máquinas de Microsoft es lanzado, permite traducción a gran escala de contenido web.

Más: Presentamos: Windows Live Translator Beta.

Geoff Hinton comienza a utilizar DNN para aprendizaje de máquina en la Universidad de Toronto y publica dos textos importantes: “Algoritmo de rápido aprendizaje para redes de profunda creencia”, Hinton et al., Neural Computation, Julio 2006, y, “Reducir la dimensionalidad de los datos con redes neurales”, Hinton y R. R. Salakhutdinov, Science, julio de 2006.

Chris Quirk y Arul Menezes, investigadores de Microsoft, y Colin Cherry, investigador de la Universidad de Alberta desarrollan el enfoque de la máquina de traducción de sintáctica estadística que da una muestra del sistema de traducción de máquina de Microsoft.

Más: Dependencia de traducción en árbol: Frases informadas de manera sintáctica SMT.

Se lanza Skype. Por primera vez los usuarios pueden comunicarse a través de video, sin costo, por Internet. Una comunicación persona a persona sin precedente es habilitada.

Más: Skype en 10: Cómo una idea emprendedora en Estonia se transformó a sí misma (y al mundo).

El documento de Zens, Och y Ney “Traducción estadística de máquina basada en frases” simplifica y mejora la traducción de habla para futuros proyectos.

Los ataques en el World Trade Center dan pie al inicio de financiamiento DARPA a gran escala para reconocimiento del habla, traducción de máquina y procesamiento de lenguaje. El programa Explotación Global del Lenguaje Autónomo (GALE por sus siglas en inglés) combina el reconocimiento de habla, traducción de máquina, y extracción de información. El programa DARPA TRANSTAC demuestra la traducción habla a habla en un dispositivo portátil para frases cortas.

Tokuda et al. derivan el algoritmo de generación del parámetro del habla para síntesis de habla basados en HMM en “Generación de algoritmos de parámetro del habla para síntesis de habla basados en HMM”. Este método es perfeccionado más adelante por Frank Soong en Microsoft Research Asia.

Dragon Systems e IBM lanzan el primer software comercial para reconocimiento de vocabulario de habla continua, corre en una PC con Microsoft Windows. El reconocimiento del habla se vuelve disponible a una audiencia masiva.

Hunt y Black proponen síntesis sucesiva del habla para crear un audio que suene realista, en “Selección de unidad en sistema de síntesis sucesiva del habla con grandes bases de datos de habla”.

Primeros trabajos en los enfoques principales para el aprendizaje profundo ocurren cuando los esfuerzos financiados por el Gobierno experimentan con DNN. En particular, la Agencia de Investigación de Proyectos de Defensa Avanzada (DARPA) financia numerosos esfuerzos de investigación a gran escala en reconocimiento de habla. SRI International logra éxito con DNN en reconocimiento de habla.

Más: Larry Heck, Yochai Konig, M. Kernal Sonmez, y Mitch Weintraub, Robustez de distorsión de dispositivo telefónico en reconocimiento de habla a través de características de diseño discriminativo, en Speech Communication, Elsevier, 2000 Yochai Konig, Larry Heck, Mitch Weintraub, y M. Kernal Sonmez, Característica de extracción discriminativa no lineal para robusto reconocimiento del locutor independiente del texto, en RLA2C, 1998.

Brown et al. publican el texto “Un enfoque estadístico a la traducción de máquinas”, que sugiere construir sistemas de traducción de máquinas a través de métodos estadísticos basados en el análisis de grandes cantidades de datos, en lugar de enfoques anteriores basados en análisis sintáctico y manipulación. Comienza la era moderna de la traducción de máquina.

La investigación de redes neurales toma popularidad. Un algoritmo de propagación trasera es propuesto y se acepta de manera general.

Lalit Bahl, Frederick Jelinek y Jim Baker proponen un modelo de canal ruidoso para reconocimiento del habla, conocido después como Modelos Escondidos de Markov, que se convierten en las bases para los sistemas actuales de reconocimiento de habla. Trabajos en reconocimiento automático del habla comienzan en IBM en la Universidad Carnegie Mellon.

El Departamento de Defensa de Estados Unidos, la Fundación Nacional de Ciencia, y la Agencia Central de Inteligencia forman el Comité para el Procesamiento Automático del Lenguaje (ALPAC) para estudiar los trabajos en traducción de máquina. El financiamiento para los sistemas de traducción de máquinas es reducido después de que ALPAC reporta que ha encontrado que hay un número suficiente de traductores humanos para las necesidades actuales, y cuestiona la capacidad de hacer sistemas automatizados de alta calidad. El reporte menciona que “las recientes traducciones de máquinas de texto simple o seleccionado… fueron tan engañosamente favorables como han sido favorables de manera uniforme las ‘traducciones de máquina’ de texto científico general.

IBM y la Universidad de Georgetown demuestran un sistema computarizado de traducción ruso/inglés basado en seis reglas gramaticales y un vocabulario de 250 palabras. Traduce enunciados como “Mi pyeryedayem mislyi posryedstvom ryechyi.” a “We transmit thoughts by means of speech.” Comienza el financiamiento del Gobierno para la traducción de máquina.

El pionero de la traducción de máquinas, Warren Weaver, publica su memorándum, “Translation” en el que describe enfoques computarizados para realizar traducciones.

El éxito en romper códigos criptográficos en tiempo de guerra lleva a la creencia que métodos similares podrán ser exitosos para traducir de un idioma humano a otro.

Más historias

La IA generativa puede hacer que los servicios de viaje sean más accesibles para millones de indios: Sanjay Mohan, Group CTO, MakeMyTrip

Política de Discapacidad: un puente sobre la brecha de discapacidad

Emprendedores traen nuevas ideas y tecnologías para preservar el planeta

Tom Burt de Microsoft habla sobre geopolítica y ciberseguridad en la era de la IA