¿Qué es eso? El más reciente avance de Microsoft, ahora en Azure AI, describe imágenes tan bien como lo hacen las personas
Los investigadores de Microsoft han construido un sistema de inteligencia artificial que puede generar subtítulos para imágenes que son, en muchos casos, más precisos que las descripciones que las personas escriben. El avance en un desafío de referencia, es un hito en el esfuerzo de Microsoft por hacer sus productos y servicios inclusivos y accesibles para todos los usuarios.
“El subtitulado de imagen es una de las principales capacidades de la visión de cómputo, que puede habilitar a un amplio rango de servicios”, comentó Xuedong Huang, asociado técnico de Microsoft y director de tecnología de Azure AI Cognitive Services en Redmond, Washington.
El nuevo modelo está ahora disponible para los clientes a través de la oferta Azure Cognitive Services Computer Vision, que es parte de Azure AI, y permite a los desarrolladores utilizar esta capacidad para mejorar la accesibilidad en sus propios servicios. También ha sido incorporado en Seeing AI y comenzará a distribuirse más adelante en el año en Microsoft Word y Outlook, para Windows y Mac, y PowerPoint para Windows, Mac, y la web.
El subtitulado automático de imagen ayuda a los usuarios a acceder al contenido importante en cualquier imagen, desde una foto entregada en un resultado de búsqueda, hasta una imagen incluida en una presentación. Un avance de investigación como este puede mejorar esos resultados, aunque no significa que el sistema regresará resultados perfectos cada vez.
El uso de subtitulado de imagen para generar una descripción de una foto, conocido como texto alternativo (alt text), en una página web o un documento, es en especial importante para las personas con ceguera o baja visión, destacó Saqib Shaikh, gerente de ingeniería de software con el grupo de plataforma de IA de Microsoft en Redmond.
Por ejemplo, su equipo utiliza la capacidad mejorada de subtitulado de imagen en la aplicación de cámara parlante Seeing AI, para personas con ceguera o baja visión. La aplicación utiliza el subtitulado de imagen para describir fotos, incluidas aquellas de aplicaciones de redes sociales.
“De manera ideal, todos deberían incluir texto alternativo para todas las imágenes en documentos, la web, redes sociales, ya que esto permite a las personas que son ciegas acceder al contenido y participar en la conversación. Pero por desgracia, la gente no lo hace”, comentó Shaikh. “Así que hay varias aplicaciones que utilizan el subtitulado de imagen como una manera de llenar ese texto alternativo que falta”.
Subtitulado de objeto novedoso
El subtitulado de imagen es un desafío central en la disciplina de la visión computacional, uno que requiere que un sistema de IA entienda y describa el contenido, o acción, salientes en una imagen, explicó Lijuan Wang, gerente de investigación principal en el laboratorio de investigación de Microsoft en Redmond.
“En verdad necesitas entender lo que sucede, necesitas saber la relación entre objetos y acciones, y necesitas resumirla y describirla en un enunciado de lenguaje natural”, comentó.
Wang lideró al equipo que consiguió, y superó, la paridad humana en el punto de referencia de subtitulado de objeto novedoso a escala, o nocaps. Este punto de referencia evalúa los sistemas de AI en qué tan bien generan subtítulos para objetos en imágenes que no están en el conjunto de datos utilizado para entrenarlos.
Por lo general, los sistemas de subtitulado de imagen son entrenados con conjuntos de datos que contienen imágenes emparejadas con enunciados que describen las imágenes, en esencia, un conjunto de datos de imágenes subtituladas.
“El desafío nocaps es en verdad sobre ¿Cómo puedes describir esos objetos novedosos que no has visto en tus datos de entrenamiento?”, comentó Wang
Para cumplir el desafío, el equipo de Microsoft entrenó de manera previa un modelo de IA de gran tamaño con un conjunto enriquecido de datos de imágenes emparejadas con etiquetas de palabras, donde cada etiqueta estaba mapeada a un objeto específico de una imagen.
Los conjuntos de datos de imágenes con etiquetas de palabras en lugar de subtítulos completos son más eficientes de crear, lo que permitió al equipo de Wang alimentar muchos más datos en el modelo. El enfoque imbuyó al modelo con lo que el equipo llama un vocabulario visual.
El enfoque de entrenamiento previo en vocabulario visual, explicó Huang, es similar a preparar a un niño a leer primero a través de un libro de imágenes que asocie palabras individuales con imágenes, como una imagen de una manzana con la palabra “manzana” sobre ella y una imagen de un gato con la palabra “gato” sobre ella.
“En esencia, el entrenamiento previo en vocabulario visual es la educación necesaria para entrenar al sistema; tratamos de educar su memoria motora”, mencionó Huang.
El modelo de entrenamiento previo es luego afinado para subtitulado en el conjunto de datos de imágenes subtituladas. En esta etapa del entrenamiento, el modelo aprende cómo componer una oración. Cuando se le presenta una imagen que contiene objetos novedosos, el sistema de IA aprovecha el vocabulario visual para generar un subtítulo preciso.
“Combina lo que se aprendió en el entrenamiento previo y en la fase de ajuste para manejar objetos novedosos en la prueba”, comentó Wang.
Cuando fue evaluado en nocaps, el sistema de IA creó subtítulos que eran más descriptivos y precisos que los subtítulos para esas mismas imágenes que fueron escritos por personas, de acuerdo con los resultados presentados en un documento de investigación.
Envío rápido a producción
El nuevo sistema de subtitulado de imagen también es dos veces mejor que el modelo de subtitulado de imagen que ha sido utilizado en los productos y servicios de Microsoft desde 2015, de acuerdo con una comparación en otro punto de referencia de la industria.
Dados los beneficios del subtitulado mejorado de imagen para todos los usuarios de productos y servicios Microsoft, Huang aceleró la integración del nuevo modelo en producción en Azure.
“Llevamos este avance de IA a Azure como una plataforma para servir a un conjunto más amplio de clientes”, comentó. “No sólo es un avance en la investigación; el tiempo que tomó llevar este avance a producción en Azure también es un avance”.
Y añadió que alcanzar la paridad humana en el subtitulado de imagen continúa como un tema de logro de paridad humana a través de los sistemas cognitivos de IA en Microsoft.
“En los últimos cinco años”, mencionó Huang, “hemos conseguido cinco importantes paridades humanas: en reconocimiento de habla, en traducción automática, en respuesta a pregunta conversacional, en comprensión automática de lectura, y en 2020, a pesar de COVID-19, tuvimos la paridad humana en subtitulado de imagen”.
Imagen Principal: Legado: Un hombre sobre una patineta en el costado de un edificio. Nuevo: Un jugador de baseball atrapa una bola. Foto cortesía de Getty Images.
Contenido relacionado:
- Visiten Azure Cognitive Services para aprender más sobre la oferta de Computer Vision
- Lean: Subtitulado de objeto novedoso supera el desempeño humano en puntos de referencia
- Lean: Ahora las aplicaciones pueden narrar lo que ven en el mundo tal como lo hacen las personas
- Lean: Caen las barreras a medida que las tecnologías de habla y lenguaje de Microsoft salen del laboratorio
- Lean: Microsoft alcanza un hito histórico a través de usar IA para emparejar el desempeño humano en la traducción de noticias de chino a inglés
- Lean: Investigadores de Microsoft consiguen un hito en reconocimiento de habla conversacional
- Lean: Microsoft crea una IA que puede leer un documento y responder preguntas casi tan bien como lo hace una persona
John Roach escribe sobre investigación e innovación en Microsoft. Síganlo en Twitter.