Ir al contenido principal

Logros en el camino hacia Skype Translator

SoundWaveYEARS_ARTMicrosoft anuncia y demuestra en público Skype Translator, desarrollado en conjunto por investigadores de Microsoft e ingenieros de Skype:

Video: Skype Translator en acción
Video: Skype Translator en acción

Cortana_Screenshots_Thumb

El grupo de producto de habla de Microsoft creó un producto de manera rápida basado en los avances en investigación del habla de la empresa para entregar el mejor reconocimiento del habla en su clase para Cortana y otras experiencias alimentadas por el habla en productos Microsoft. Con la exactitud en el reconocimiento cada vez más cerca de las capacidades humanas, la asociación entre Skype, Microsoft Research y el Grupo de Información de Plataforma de Microsoft, es crítica para entregar esta tecnología a los usuarios de Skype de todo el mundo.

 

SoundWaveYEARS_ARTSkype celebra su décimo aniversario y alcanza más de 1.4 billones de minutos de llamadas de voz y video.

La investigación de Microsoft sobre la red neural profunda (DNN, por sus siglas en inglés) mejora Bing Voice Search para Windows Phone. Además, las inversiones de Microsoft en investigación de traducción de máquina, combinada con la plataforma de información de Bing y la arquitectura de escala web, impulsa las traducciones a través de un grupo de experiencias, que incluyen características en Bing, Office, SharePoint y Yammer.

 

SoundWaveYEARS_ARTSe lanza el Hub de Microsoft Translator e implementa un modelo de auto servicio para construir un servicio de traducción automática de alta personalización entre dos idiomas. Este servicio basado en Azure beneficia a comunidades de idiomas, proveedores de servicio y corporaciones, para crear sistemas de traducción automática, para permitir a los hablantes de un idioma compartir y acceder a conocimiento con hablantes de cualquier otro idioma. Con la habilitación de traducción de idiomas que no están soportados en muchos de los principales motores de traducción, esto también mantiene vivos y en uso para futuras generaciones, idiomas que no son hablados por muchas personas.

Ocho enunciados fue lo que tomó a Rick Rashid, fundador de Microsoft Research, para impresionar a una multitud de 2 mil estudiantes y profesores en Tianjin China. Décadas de DNN e investigación del habla culminaron en una impresionante traducción en vivo de la voz de Rashid que hablaba en inglés mientras la audiencia china escuchaba su voz en Mandarín. El sistema de reconocimiento del habla en el ensayo de la demostración mostró una tasa de error menor al 7%, algo similar a lo que haría una persona mientras toma notas palabra por palabra.

 

SoundWaveYEARS_ARTUn importante documento sobre transcripción del habla es creado por investigadores de Microsoft y presentado en Interspeech 2011. Los investigadores de Microsoft muestran métodos que mejoran el desempeño por más de 30% en comparación con métodos anteriores. En lugar de tener una palabra incorrecta en 4 o 5, la tasa de error se convierte en una palabra entre 7 u 8. Aunque aún se está lejos de la perfección, este es el cambio más importante en cuanto a exactitud en la última década.

 

SoundWaveYEARS_ARTInvestigadores de Microsoft en Asia se intrigan con la noción de traducir la palabra hablada en la propia voz de la persona que habla.

Translating-Phone_ThumbA la par, la demostración del Teléfono The Translating! se hace de manera pública por primera vez en TechFest 2010, en donde se lleva a cabo una traducción en tiempo real de alemán a inglés con la voz de cada persona que habla.

Investigadores de Microsoft son pioneros en aprendizaje profundo a escala industrial al ser los primeros en conducir el desarrollo de tecnología industrial a gran escala en tareas de búsqueda por voz por medio de la combinación de la fortaleza de las DNN con la necesidad de la industria de producir soluciones de reconocimiento de voz que no sólo sean muy exactas sino también muy eficientes. El importante documento publicado sobre el trabajo fue reconocido por IEEE con el premio Best Paper Award 2013.

 

SoundWaveYEARS_ARTAntes de 2009, casi todos los sistemas de reconocimiento del habla están basados en la técnica de modelos de mezcla Gaussiana (GMM, por sus siglas en inglés) con resultados decepcionantes en reconocimiento del habla. Pero a principios de la última parte de 2009, las cosas comenzaron a cambiar. El modelo DNN y un modelo profundo que Li Deng, investigador de Microsoft y otros colegas, desarrollaron con anterioridad, tiene interesantes y distintivos patrones de error en el reconocimiento. Este descubrimiento y la subsecuente colaboración los motivan a invertir de manera más importante, tiempo de investigación en DNN.

 

SoundWaveYEARS_ARTEl Servicio de Traducción de Máquinas de Microsoft es lanzado, permite traducción a gran escala de contenido web.

Windows-Live-Translator_29052014_Thumb

 

 

SoundWaveYEARS_ARTGeoff Hinton comienza a utilizar DNN para aprendizaje de máquina en la Universidad de Toronto y publica dos textos importantes: “Algoritmo de rápido aprendizaje para redes de profunda creencia”, Hinton et al., Neural Computation, Julio 2006, y, “Reducir la dimensionalidad de los datos con redes neurales”, Hinton y R. R. Salakhutdinov, Science, julio de 2006.

 

SkypeTranslator_SoundWave_2005_ThumbChris Quirk y Arul Menezes, investigadores de Microsoft, y Colin Cherry, investigador de la Universidad de Alberta desarrollan el enfoque de la máquina de traducción de sintáctica estadística que da una muestra del sistema de traducción de máquina de Microsoft.

 

SkypeTranslator_SoundWave_2003_ThumbSe lanza Skype. Por primera vez los usuarios pueden comunicarse a través de video, sin costo, por Internet. Una comunicación persona a persona sin precedente es habilitada.

Skype-Logo_29052014_Thumb

 

SkypeTranslator_SoundWave_2002_ThumbEl documento de Zens, Och y Ney “Traducción estadística de máquina basada en frases” simplifica y mejora la traducción de habla para futuros proyectos.

 

SkypeTranslator_SoundWave_2001_ThumbLos ataques en el World Trade Center dan pie al inicio de financiamiento DARPA a gran escala para reconocimiento del habla, traducción de máquina y procesamiento de lenguaje. El programa Explotación Global del Lenguaje Autónomo (GALE por sus siglas en inglés) combina el reconocimiento de habla, traducción de máquina, y extracción de información. El programa DARPA TRANSTAC demuestra la traducción habla a habla en un dispositivo portátil para frases cortas.

 

SkypeTranslator_SoundWave_2000_ThumbTokuda et al. derivan el algoritmo de generación del parámetro del habla para síntesis de habla basados en HMM en “Generación de algoritmos de parámetro del habla para síntesis de habla basados en HMM”. Este método es perfeccionado más adelante por Frank Soong en Microsoft Research Asia.

 

SkypeTranslator_SoundWave_1997_ThumbDragon Systems e IBM lanzan el primer software comercial para reconocimiento de vocabulario de habla continua, corre en una PC con Microsoft Windows. El reconocimiento del habla se vuelve disponible a una audiencia masiva.

 

SkypeTranslator_SoundWave_1966_ThumbHunt y Black proponen síntesis sucesiva del habla para crear un audio que suene realista, en “Selección de unidad en sistema de síntesis sucesiva del habla con grandes bases de datos de habla”.

 

SoundWaveYEARS_ARTPrimeros trabajos en los enfoques principales para el aprendizaje profundo ocurren cuando los esfuerzos financiados por el Gobierno experimentan con DNN. En particular, la Agencia de Investigación de Proyectos de Defensa Avanzada (DARPA) financia numerosos esfuerzos de investigación a gran escala en reconocimiento de habla. SRI International logra éxito con DNN en reconocimiento de habla.

 

SkypeTranslator_SoundWave_1990_ThumbBrown et al. publican el texto “Un enfoque estadístico a la traducción de máquinas”, que sugiere construir sistemas de traducción de máquinas a través de métodos estadísticos basados en el análisis de grandes cantidades de datos, en lugar de enfoques anteriores basados en análisis sintáctico y manipulación. Comienza la era moderna de la traducción de máquina.

 

SoundWaveYEARS_ARTLa investigación de redes neurales toma popularidad. Un algoritmo de propagación trasera es propuesto y se acepta de manera general.

 

SkypeTranslator_SoundWave_1975_ThumbLalit Bahl, Frederick Jelinek y Jim Baker proponen un modelo de canal ruidoso para reconocimiento del habla, conocido después como Modelos Escondidos de Markov, que se convierten en las bases para los sistemas actuales de reconocimiento de habla. Trabajos en reconocimiento automático del habla comienzan en IBM en la Universidad Carnegie Mellon.

 

SkypeTranslator_SoundWave_1966_ThumbEl Departamento de Defensa de Estados Unidos, la Fundación Nacional de Ciencia, y la Agencia Central de Inteligencia forman el Comité para el Procesamiento Automático del Lenguaje (ALPAC) para estudiar los trabajos en traducción de máquina. El financiamiento para los sistemas de traducción de máquinas es reducido después de que ALPAC reporta que ha encontrado que hay un número suficiente de traductores humanos para las necesidades actuales, y cuestiona la capacidad de hacer sistemas automatizados de alta calidad. El reporte menciona que “las recientes traducciones de máquinas de texto simple o seleccionado… fueron tan engañosamente favorables como han sido favorables de manera uniforme las ‘traducciones de máquina’ de texto científico general.

SkypeTranslator_SoundWave_1954_ThumbIBM y la Universidad de Georgetown demuestran un sistema computarizado de traducción ruso/inglés basado en seis reglas gramaticales y un vocabulario de 250 palabras. Traduce enunciados como “Mi pyeryedayem mislyi posryedstvom ryechyi.” a “We transmit thoughts by means of speech.” Comienza el financiamiento del Gobierno para la traducción de máquina.

 

SkypeTranslator_SoundWave_1949_ThumbEl pionero de la traducción de máquinas, Warren Weaver, publica su memorándum, “Translation” en el que describe enfoques computarizados para realizar traducciones.

 

SkypeTranslator_SoundWave_1941-45_ThumbEl éxito en romper códigos criptográficos en tiempo de guerra lleva a la creencia que métodos similares podrán ser exitosos para traducir de un idioma humano a otro.