Desde búsqueda a traducción, la investigación en IA mejora los productos de Microsoft
Hasta hace poco, una compañía multinacional que buscaba ayudar a los clientes alrededor del mundo a reservar viajes internacionales habría tenido que construir chatbots separados desde cero para conversar en francés, hindi, japonés u otros idiomas.
Pero gracias a los avances en la investigación en inteligencia artificial que han permitido a los algoritmos analizar de manera más precisa los matices en la manera en que diferentes lenguajes expresan conceptos o estructuran enunciados, ahora es posible construir un solo bot y utilizar Microsoft Translator para traducir preguntas y respuestas con la suficiente precisión para su uso en varios países.
En los últimos años, los investigadores en aprendizaje profundo de Microsoft fueron los primeros en alcanzar la paridad humana en el desarrollo de algoritmos que pueden desempeñarse casi tan bien como una persona en puntos de referencia de investigación de pruebas de reconocimiento de habla conversacional, comprensión de lectura, traducción de artículos noticiosos y otras desafiantes tareas de entendimiento de lenguaje. Ahora, los beneficios de esos avances de investigación en IA se han abierto camino en productos que van desde Azure hasta Bing.
Los ingenieros de búsqueda han tomado prestadas lecciones de los investigadores de Microsoft AI que desarrollaron un nuevo modelo de red neural profunda que puede aprender múltiples tareas de entendimiento de lenguaje natural a la vez. Ellos han aplicado esas lecciones para mejorar respuestas a preguntas y subtítulos en los resultados de búsqueda de Bing y respuestas a preguntas en sitios corporativos de SharePoint. Un nuevo modelo IA que se desempeñó de buena manera en un reciente desafío de reconocimiento de interlocutor para reconocer oradores en un discurso de la vida real se ha incorporado a Speaker Recognition Cognitive Service de Azure.
“En realidad, ha sido la reciente introducción de nuevos modelos de aprendizaje profundo lo que ha permitido una mejora importante en el entendimiento de lenguaje”, comentó Eric Boyd, vicepresidente corporativo de Azure AI en Microsoft. “Los tipos de cosas que ahora podemos hacer en nuestros productos debido a estos avances en la investigación son cosas que antes no funcionaban tan bien o que de manera general no podíamos hacer”.
A través de la compañía, él puede señalar ejemplos de productos de Azure AI que crecieron a partir de desafíos que resolvieron los investigadores y que también resultaron ser útiles para los clientes – como las capacidades de aprendizaje automático automatizado de Azure que simplifican de manera vasta el proceso de construcción de un modelo o el Personalizer Cognitive Service de Azure que entrega contenido relevante a los usuarios de manera sencilla. El más reciente refuerzo al modelo de aprendizaje fue desarrollado de manera inicial por investigadores, probado de manera interna y construido de manera eventual en un producto para los clientes de la nube de Azure, comentó.
“Este espacio se mueve tan rápido que en verdad necesitas aprovechar el pensamiento más reciente, y es una posición de mucho privilegio tener el amplio ejército que tiene Microsoft Research de gente super talentosa que empuja los límites en estas maneras diferentes”, comentó Boyd. “Así que nuestro trabajo es en realidad descubrir los lugares más interesantes donde podamos aplicar eso a nuestros productos y, por otro lado, también darles guía sobre lo que en verdad haría la mayor diferencia para nosotros”.
Por ejemplo, en el campo de la traducción, los investigadores de Microsoft fueron los primeros en 2018 en demostrar que la IA podía igualar el desempeño humano en la traducción de artículos noticiosos de chino a inglés en un conjunto de pruebas utilizado de manera común. Tan pronto como el equipo consiguió ese histórico hito de investigación, comenzaron a adaptar el modelo para que funcionara en Microsoft Translator, que impulsa a un Azure Cognitive Service que tiene que trabajar de manera instantánea y traducir una amplia variedad de textos que van desde documentos de investigación histórica a sitios web de viajes y manuales de producción.
Las mejoras resultantes al producto fueron distribuidas en los primeros nueve pares de lenguaje en junio de 2019, para traducción de y a inglés, y en ocho nuevos lenguajes en noviembre del mismo año. Por ejemplo, las traducciones de inglés a francés han mejorado 9 por ciento, de inglés a hindú 9 por ciento, del bengalí al inglés un 11 por ciento, de urdu a inglés 15 por ciento y de inglés a coreano en un 22 por ciento. Incluso modelos que ya eran fuertes como portugués y sueco han visto ganancias significativas en calidad.
En un ejemplo, el modelo mejorado de traducción automática traduce de manera precisa un enunciado del francés al inglés así: “Arsenal manager Arsene Wenger believes ‘the signs are promising’ for his three injured midfielders who are due to recover for Sunday’s game against Chelsea.” El modelo previo lo traducía de esta manera: “Arsenal’s Director Arsene Wenger thinks ‘signs are promising’ for his three wounded terrain backgrounds that need to be plumb for the game against Chelsea on Sunday.”
Con este tipo de mejoras, es mucho más factible tomar, por ejemplo, un documento de recursos humanos que está escrito en un lenguaje, utilizar traducción automática para convertirlo en otro lenguaje y sólo publicar el documento sin ediciones adicionales, comentó Arul Menezes, ingeniero distinguido en Microsoft y fundador de Microsoft Translator. O para un ingeniero que trabaja en una fábrica con una pieza rota de equipo comunicarse con un experto en la oficina central que habla un lenguaje diferente.
“En verdad hemos comenzado a llegar al punto donde la traducción automática tan solo funciona y muchos clientes la utilizan para nuevas aplicaciones que antes pensaban que no eran posibles”, mencionó Menezes.
La evolución de investigación a producto
Una cosa es para un investigador de Microsoft utilizar todas las campanas y silbatos disponibles, además de la poderosa infraestructura de cómputo de Azure, para desarrollar un modelo de traducción automática basado en IA que pueda desempeñarse tan bien como una persona en un estrecho punto de referencia de investigación con grandes cantidades de datos. Otra cosa es hacer que ese modelo funcione en un producto comercial.
Para afrontar el desafío de la paridad humana, tres equipos de investigación utilizaron redes neurales profundas y aplicaron otras técnicas de entrenamiento innovadoras que imitan la manera en que las personas podrían hacer frente a un problema para brindar traducciones más fluidas y precisas. Estas incluyeron traducir enunciados de ida y vuelta en inglés y chino y después comparar resultados, así como repetir la misma traducción una y otra vez hasta que mejorara su calidad.
“En un principio, no tomábamos en cuenta si esta tecnología se podía entregar como un producto. Sólo nos preguntábamos si tomamos todo lo que hay en el fregadero y lo lanzamos al problema, ¿Qué tan bueno podría llegar a ser?”, comentó Menezes. “Así que se nos ocurrió este sistema de investigación que era muy grande, muy lento y muy costoso sólo para empujar los límites de lograr la paridad humana”.
“Desde entonces, nuestra meta ha sido descubrir cómo podemos llevar este nivel de calidad – o lo más cercano posible a este nivel de calidad – a nuestra API de producción”, comentó Menezes.
Alguien que utiliza Microsoft Translator teclea una oración y espera una traducción en milisegundos, mencionó Menezes. Así que el equipo necesitaba descubrir cómo hacer este grande y complicado modelo de investigación mucho más esbelto y rápido. Pero mientras trabajaban para encoger el sistema de investigación a nivel de algoritmo, también tuvieron que ampliar su alcance de manera exponencial – no sólo al entrenarlo en artículos noticiosos sino en todo desde manuales y recetas a artículos de enciclopedias.
Para conseguir esto, el equipo empleó una técnica llamada destilación de conocimiento, que involucra crear un modelo ligero de “estudiante” que aprende de traducciones generadas por el modelo “profesor” con todas las campanas y silbados, en lugar de las cantidades masivas de datos crudos paralelos en los que los sistemas de traducción automática están entrenados por lo general. La meta es diseñar el modelo estudiante para que sea mucho más rápido y menos complejo que su profesor, sin dejar de conservar la mayoría de la calidad.
En un ejemplo, el equipo encontró que el modelo estudiante utiliza un algoritmo simplificado de decodificación para seleccionar la mejor palabra traducida en cada paso, en lugar del método usual de búsqueda a través de un enorme espacio de traducciones posibles.
Los investigadores también desarrollaron un enfoque diferente al aprendizaje dual, que aprovecha los controles de traducción “de ida y vuelta”. Por ejemplo, si una persona que estudia japonés quiere revisar y ver si una carta que escribió a un amigo es precisa, tal vez quiera pasarla a través de un traductor de inglés para ver si hace sentido. Los algoritmos de aprendizaje automático también pueden aprender de este enfoque.
En el modelo de investigación, el equipo utilizó el aprendizaje dual para mejorar el resultado del modelo. En el modelo de producción, el equipo utilizó aprendizaje dual para limpiar los datos de los que aprendía el estudiante, en esencia al descartar pares de enunciados que representaban traducciones poco precisas o confusas, comentó Menezes. Esto preservó muchos de los beneficios de la técnica sin requerir mucho cómputo.
Con una gran cantidad de prueba y error e ingeniería, el equipo desarrolló una receta que permitió al modelo de estudiante de traducción automática – que tiene la simpleza suficiente para operar en una API de nube – entregar resultados en tiempo real que son casi tan precisos como el profesor más complejo, comentó Menezes.
Mejorar la búsqueda con aprendizaje multitarea
En el paisaje de IA que evoluciona de manera rápida, donde los nuevos modelos de entendimiento de lenguaje son introducidos y mejorados de manera constante por otros en la comunidad de investigación, los expertos de búsqueda de Bing siempre están en búsqueda de nuevas y prometedoras técnicas. A diferencia de los viejos tiempos, en los que las personas tecleaban y daban clic a través de una lista de ligas para llegar a la información que buscaban, los usuarios hoy buscan cada vez más a través de hacer preguntas – “¿Cuánto costaría la Mona Lisa?” o “¿Qué mordedura de araña es peligrosa?” – y esperan que la respuesta aparezca en la parte superior.
“Esto en realidad se trata de dar a los clientes la información correcta y ahorrarles tiempo”, comentó Rangan Majumder, gerente de programa de grupo de socios de búsqueda e IA en Bing. “De nosotros se espera que hagamos el trabajo a su nombre al escoger los sitios web más autorizados y extraer las partes del sitio web que en verdad muestran la respuesta a su pregunta”.
Para hacer esto, un modelo de IA no sólo tiene que escoger los documentos más confiables, también tiene que desarrollar un entendimiento del contenido dentro de cada documento, lo que requiere competencia en cualquier número de tareas de entendimiento de lenguaje.
En junio de 2019, los investigadores de Microsoft fueron los primeros en desarrollar un modelo de aprendizaje automático que sobrepasó el estimado del desempeño humano en el punto de referencia de la Evaluación General de Entendimiento del Lenguaje (GLUE, por sus siglas en inglés), la cual mide el dominio de nueve diferentes tareas de entendimiento de lenguaje que van desde análisis de sentimiento a similitud en el texto y respuesta a preguntas. Su solución Multi-Task Deep Neural Network (MT-DNN) empleó tanto destilado de conocimiento como aprendizaje multi tarea, lo que permite al mismo modelo entrenarse y aprender de múltiples tareas a la vez y aplicar en otras áreas el conocimiento obtenido en un área.
Los expertos de Bing incorporaron a finales de 2019 principios centrales a partir de esa investigación en su propio modelo de aprendizaje automático, el cual estiman ha mejorado las respuestas hasta un 26 por ciento de todas las preguntas enviadas a Bing en mercados de habla inglesa. También mejoró la generación de subtítulos – o las ligas y descripciones que están más abajo en la página – en 20 por ciento de esas solicitudes. El aprendizaje profundo multi tarea ha llevado a algunas de las más grandes mejoras en respuesta y subtitulado de preguntas de Bing, que de manera tradicional se hacían de manera independiente, al utilizar un solo modelo para desempeñar ambas.
Por ejemplo, el nuevo modelo puede responder la pregunta “¿Cuánto cuesta la Mona Lisa?” con una estimación numérica en negritas: $830 millones de dólares. En la respuesta a continuación, primero tiene que saber que la palabra costo busca un número, pero también tiene que entender el contexto dentro de la respuesta para elegir el estimado actual sobre el valor antiguo de 1962 de $100 millones de dólares. A través de entrenamiento multi tarea, el equipo de Bing construyó un solo modelo que selecciona la mejor respuesta, si debe lanzarla y qué palabras exactas poner en negritas.
A inicios de 2019, los ingenieros de Bing abrieron su código para pre-entrenar grandes representaciones de lenguaje en Azure. Al construir sobre ese mismo código, los ingenieros de Bing que trabajan en Project Turing desarrollaron su propia representación de lenguaje neural, un modelo general de entendimiento de lenguaje que es pre-entrenado para entender los principios clave del lenguaje y se reutiliza para otras tareas posteriores. Domina estas tareas al aprender cómo llenar los espacios en blanco cuando las palabras son removidas de los enunciados, similar al popular juego para niños Mad Libs.
Tomas un documento de Wikipedia, remueves una frase y el modelo tiene que aprender a predecir qué frase debería ir en el espacio en blanco sólo por las palabras que lo rodean”, comentó Majumder. “Y al hacer esto aprende sobre sintaxis, semántica y en ocasiones incluso sobre conocimiento. Este enfoque elimina otras cosas porque cuando lo afinas para una tarea específica, ya ha aprendido muchos de los matices básicos sobre el lenguaje”.
Para enseñar al modelo pre-entrenado cómo hacer frente a la respuesta a preguntas y la generación de subtítulos, el equipo de Bing aplicó el enfoque de aprendizaje multi tarea desarrollado por Microsoft Research para afinar el modelo en varias tareas a la vez. Cuando un modelo aprende algo útil de una tarea, puede aplicar esos aprendizajes a otras áreas, comentó Jianfeng Gao, gerente de investigación de socios en el grupo de aprendizaje profundo en Microsoft Research.
Por ejemplo, comentó, cuando una persona aprende a andar en bicicleta, tiene que dominar el balance, que también es una habilidad útil para esquiar. Apoyarse en esas lecciones del ciclismo puede hacer más sencillo y rápido aprender cómo esquiar, en comparación con alguien que no ha tenido esa experiencia, mencionó.
“En cierto sentido, tomamos prestada la manera en que los seres humanos trabajan. Conforme acumulas más y más experiencia en la vida, cuando enfrentas una nueva tarea puedes tomar toda la información que has aprendido en otras situaciones y aplicarla”, comentó Gao.
Como el equipo de Microsoft Translator, el equipo de Bing también utilizó destilado de conocimiento para convertir su grande y complejo modelo en un modelo más esbelto que tiene la rapidez y rentabilidad suficientes para trabajar en un producto comercial.
Y ahora, ese mismo modelo de IA que trabaja en Microsoft Search en Bing es utilizado para mejorar la repuesta a preguntas cuando la gente busca información dentro de su propia compañía. Si un empleado teclea una pregunta como “¿Puedo traer un perro al trabajo?” en la intranet de la compañía, el nuevo modelo puede reconocer que un perro es una mascota y extraer la política sobre mascotas de la compañía para ese empleado – incluso si la palabra perro nunca aparece en ese texto. Y puede presentar una respuesta directa a esa pregunta.
“Tal como podemos obtener respuestas de búsquedas de Bing desde la web pública, podemos utilizar ese mismo modelo para que entienda una pregunta que podrías tener mientras estás sentado en tu escritorio en el trabajo y lea tus documentos empresariales para darte una respuesta”, comentó Majumder.
Imagen principal: Las inversiones de Microsoft en investigación de entendimiento de lenguaje natural mejoran la manera en que Bing responde preguntas de búsqueda como “¿Cuánto cuesta la Mona Lisa?”. Imagen por Museo de Louvre /Wikimedia Commons.
Jennifer Langston escribe sobre investigación e innovación en Microsoft. Síganla en Twitter.