La inteligencia aprendida por las máquinas que permite a Skype Translator, Bing y Cortana, todos de Microsoft, cumplir tareas como traducir conversaciones, compilar conocimiento y entender la intención de palabras habladas, cada vez más encuentra su lugar en aplicaciones de terceros que la gente utiliza todos los días.
Estos avances en la democratización de la inteligencia artificial vienen en parte de Microsoft Cognitive Services, una colección de 25 herramientas que permite a los desarrolladores agregar características como emoción y detección de sentimientos, reconocimiento de visión y habla, y entendimiento de lenguaje a sus aplicaciones sin la necesidad de tener experiencia en aprendizaje automático.
“Cognitive Services toma todo el aprendizaje automático y la inteligencia de la IA que tenemos en esta empresa y las expone a los desarrolladores a través de API fáciles de utilizar, para que ellos no tengan que inventar la tecnología por sí mismos”, comentó Mike Seltzer, investigador en el Grupo de Investigación de Habla y Diálogo en el laboratorio de investigación de Microsoft en Redmond, Washington.
“En la mayoría de los casos, toma mucho tiempo, muchos datos, mucha experiencia y mucho cómputo, construir un modelo de vanguardia de aprendizaje automatizado”, explicó.
Como ejemplo, tomen una de las herramientas que lidia con el reconocimiento del habla. Seltzer y sus colegas han pasado más de una década en el desarrollo de algoritmos que permitan a la tecnología de reconocimiento de habla de Microsoft, desempeñarse de manera robusta en ambientes ruidosos, así como con la jerga, dialectos y acentos de grupos y ajustes de usuarios específicos.
La misma tecnología flexible ahora está disponible para desarrolladores de aplicaciones de terceros a través de Custom Speech Service, un Servicio Cognitivo que Microsoft lanzó como versión previa pública hace unos días.
Otros dos Servicios Cognitivos, Content Moderator y la API Bing Speech, se moverán a disponibilidad general para marzo de 2017, resaltó la empresa. Content Moderator permite a los usuarios poner en cuarentena y revisar datos como imágenes, texto o videos para poder filtrar material no deseado, como lenguaje o imágenes que pudieran ser ofensivas. La API Bing Speech convierte audio en texto, entiende intenciones y convierte el texto de nuevo a habla.
Cognitive Services, que permiten a los desarrolladores aplicar inteligencia a datos visuales como imágenes y video, son utilizados por los clientes para mejorar sus servicios. Por ejemplo, Prism Skylabs, empresa de inteligencia de negocios, utilizó la API Computer Vision en su aplicación Prism Vision, que ayuda a las organizaciones a buscar, a través de material de cámaras de seguridad y circuito cerrado, eventos específicos, elementos y gente.
Toda la colección de Cognitive Services se deriva de una campaña dentro de Microsoft para hacer accesible a nivel general su experiencia en inteligencia artificial y aprendizaje automático para toda la comunidad de desarrolladores, para crear experiencias deslumbrantes e inspiradoras para los usuarios finales, comentó Andrew Shuman, Vicepresidente Corporativo de Productos para la organización de IA e Investigación de Microsoft.
“Poder tener ahora software que observa a la gente, escucha, reacciona y está consciente del mundo físico alrededor de ellos, brinda un excelente avance en términos de crear interfaces más humanas, más naturales, más fáciles de entender y más aún, que sean de mayor impacto en una gran cantidad de escenarios”, comentó-
“Esta era a la que hemos arribado es en realidad una era de mejorar y traer más capacidades de cómputo para más gente de maneras más interesantes”.
Experiencia en narrativa
Tomen a Alexander Mejia como ejemplo. Conforme crecía, siempre se apresuraba para probar los juegos más recientes con las más recientes gráficas e innovaciones tecnológicas, perseguía la emoción que viene con mejores sonidos y resolución y las nuevas maneras de convertir contracciones corporales en acción en la pantalla.
En los años recientes, mientras trabajaba como director creativo en la industria de los videojuegos, los rumores de nuevas experiencias se desvanecieron, multiplicar el poder de cómputo falló en generar el doble de emoción por los juegos. “¿Qué es lo que sigue?”, se preguntó. “¿Cuál será el salto tecnológico que permitirá generar nuevas experiencias que sorprendan a los jugadores?”
Este cuestionamiento llevó a una demostración de la más reciente generación de tecnología de realidad virtual. Se colocó casco y fue llevado en un loco recorrido por una montaña rusa. El golpe de adrenalina regresó. La experiencia, comentó, fue visceral.
“Cuando estás en un mundo virtual crees que las cosas son reales”, comentó. “¿Qué pasaría si colocamos una persona frente a ti? ¿Tratarías de platicar con ella?”
La idea floreció en un plan de negocios. Mejia fundó su propia empresa, Human Interact, para desarrollar experiencias de narrativa en realidad virtual. Starship Commander, el título principal de la empresa, brinda control sobre la narrativa a los jugadores mientras vuelan por el espacio más rápido que la velocidad de la luz y conversan con personajes virtuales durante el recorrido.
Para conseguir una acción realista y acelerada, Mejia y sus colegas requerían un reconocimiento del habla preciso y responsivo.
“Lo tienes que hacer de tal manera que cada vez que alguien diga algo, [el motor de reconocimiento del habla] los entenderá y los llevará a la dirección correcta del guion,” explicó. “Y eso”, agregó, “es la magia de Microsoft Cognitive Services”.
Crear un modelo de habla personalizado
La moderna tecnología de reconocimiento del habla se apoya en los modelos estadísticos aprendidos por máquinas que aprovechan el poder del cómputo en la nube y cantidades masivas de datos para convertir pedazos de sonidos en un texto que es una transcripción precisa de las palabras habladas.
Por ejemplo, un modelo acústico es un clasificador que etiqueta pequeñas piezas de audio como uno de los fonemas numéricos, o unidades de sonido, en un lenguaje específico. Las etiquetas son combinadas con aquellas de las piezas vecinas para predecir qué palabra ha sido hablada en el lenguaje indicado, explicó Seltzer. Esa predicción está guiada por un diccionario que contiene cada palabra en el lenguaje indicado, separada por sus fonemas.
Mientras, un modelo de lenguaje refina aún más la predicción al ponderar qué tan común es cada palabra que ha sido predicha en el lenguaje indicado. Cuando el reconocedor lidia con palabras con sonidos similares, la probabilidad más alta va con la palabra más común. Estos modelos también consideran el contexto para realizar predicciones más robustas. “Si las palabras previas son ‘El jugador atrapó la’”, explicó Seltzer, “’pelota’ será más probable que ‘rebota’”.
El modelo acústico que impulsa al motor de vanguardia de reconocimiento del habla de Microsoft, es una red neural profunda, un clasificador inspirado por teorías sobre cómo el reconocimiento de patrones ocurre en el cerebro humano. El modelo está entrenado con miles de horas de audio y utiliza algoritmos avanzados que corren en la nube.
Hace unos días, el sistema de reconocimiento del habla de Microsoft consiguió un hito al reconocer palabras en una conversación tan bien como lo hace una persona. Este logro fue conseguido en una prueba estandarizada, o comparativa, que ha sido utilizada por investigadores en la academia y la industria por más de 20 años.
“Ahora, si tú tomas ese mismo sistema y lo colocas en una fábrica ruidosa y nunca ha visto habla en fábricas ruidosas, no hará un buen trabajo”, comentó Seltzer. “Ahí es donde entra Custom Speech Service”.
Este servicio permite al desarrollador personalizar los modelos acústicos y de lenguaje con los sonidos del ruidoso piso de fábrica y la jerga de los trabajadores de la misma. Por ejemplo, el modelo acústico puede ser entrenado para reconocer habla en medio del estruendo de hidráulicos y perforadoras y el modelo de lenguaje se actualizó para dar prioridad de peso a la jerga específica de la fábrica, tal como tuercas, tornillos y auto partes.
Debajo de la capota, Custom Speech Service aprovecha un algoritmo que cambia el reconocedor de habla existente de Microsoft por los datos suministrados por el desarrollador. Al comenzar a partir de modelos que han sido entrenados sobre cantidades masivas de datos, la cantidad requerida de datos específicos para la aplicación se reduce de manera importante. En casos donde los datos del desarrollador son insuficientes, el reconocedor regresa a los modelos existentes.
“La idea básica es que entre más enfocados estén los sistemas, se desempeñarán mejor”, comentó Seltzer. “El trabajo de Custom Speech Service es permitirles enfocar el sistema en los datos que les importan”.
Personalizado para la realidad virtual
Starship Commander, el título principal de Human Interact, toma lugar en un mundo de ciencia ficción que contiene palabras y nombres de lugares inventados. Cuando Mejia entrenó a Custom Speech Service sobre esas palabras y frase clave, encontró que el sistema cometió la mitad de errores que también cometió el software de habla a texto de código abierto que utilizó para construir un prototipo temprano de la experiencia de realidad virtual.
Mejia luego volteó a Language Understanding Service de Microsoft para enfrentar otra preocupación, entender la intención de lo que dicen los jugadores.
“Hay muchas maneras diferentes de decir ‘vamos’”, explicó. “Hay, ‘vamos; piloto automático; sácame de aquí; vamos más rápido que la luz; activa el hiperimpulsor.’ Todas estas son cosas diferentes que la gente dice para avanzar en el juego, en especial al calor del momento, porque en ocasiones no tienes mucho tiempo antes de que algo malo pase”.
Language Understanding Service, que se encuentra en la actualidad en versión previa pública, permite a los desarrolladores entrenar a un clasificador en un modelo aprendizaje automático para entender la intención del lenguaje natural al cargar un subconjunto de los tipos de cosas que los usuarios podrían pronunciar y etiquetarlas en una intención.
En el backend, el servicio aprovecha más de una década de investigación sobre cómo entrenar clasificadores con un conjunto limitado de datos, explicó Hussein Salama, Director del Laboratorio de Tecnología Avanzada de Microsoft en Cairo, Egipto, que lidera el desarrollo del servicio.
“Por lo general, uno necesita a un experto en aprendizaje automático para seleccionar la tecnología adecuada y brindar los conjuntos de datos correctos para entrenar a los clasificadores y luego evaluarlos”, comentó. “Con Language Understanding Service, hemos simplificado esto. Provean algunas expresiones, algunos ejemplos de frases con la intención, y luego Language Understanding Service puede comenzar a entrenar un modelo con una buena precisión para esa intención”.
Para Starship Commander, la personalización funcionó sin complicaciones, aprendió de los ejemplos cómo inferir la intención de comandos de lenguaje natural que no eran parte de los datos de entrenamiento. “De pronto da un poco de miedo lo bien que entiende las cosas para las que no fue entrenado”, comentó Mejia. “Es una IA”.
Información relacionada:
- Más información sobre Microsoft Cognitive Services
- Conozcan la visión de Microsoft de democratizar IA
- Lean sobre el logro de Microsoft en reconocimiento del habla
- Conozcan el Cognitive Toolkit de Microsoft
John Roach escribe sobre investigación e innovación de Microsoft. Síganlo en Twitter.