Microsoft ayuda a las lenguas menos habladas a sobrevivir y crecer en el mundo digital

Boa Sr era el último lazo de unión con la cultura pre neolítica de 65.000 años de antigüedad de las islas Andamán, en el océano Índico. Cuando murió, su lengua lo hizo con ella. Y este no es un caso aislado.

Cada dos semanas, se pierde un idioma en alguna parte del mundo. Es el caso de los mundas, una comunidad de cerca de un millón de personas repartidas por los estados orientales indios de Jharkhand, Orissa y Bengala Occidental.

«Aprendí mundarí muy tarde porque mis padres vivían, por trabajo, en otro estado , así que no hablábamos la lengua en casa», explica la Dra. Meenakshi Munda, miembro de la comunidad Munda y profesora adjunta del departamento de antropología de una universidad de Ranchi, Jharkhand. «Entiendo lo importante que es la identidad para una comunidad y las generaciones más jóvenes están perdiendo su identidad porque no conocen su lengua».

*Kalika Bali, investigadora de MSR India, es experta en Procesamiento del Lenguaje Natural y dirige el Proyecto Ellora. Fotografía de Praveen Pillai para Microsoft.*

La comunidad Munda está preocupada por la longevidad de su idioma, ya que en las escuelas sólo se enseñan algunos más dominantes como bengalí, hindi y odiya. Aunque existe un alfabeto escrito para el mundarí, su contenido digital o su presencia en Internet son casi nulas, lo que ofrece aún menos incentivos para que la gente invierta en aprender la lengua.

Ante esta situación, los investigadores de Microsoft Research (MSR) en India han trabajado para crear ecosistemas digitales para diferentes lenguas -como el mundarí- que no tienen suficiente presencia en el mundo digital. «El objetivo de mi trabajo es que ninguna persona en este mundo esté excluida del uso de cualquier tecnología por hablar un idioma diferente», asegura Kalika Bali, de MSR India.

Kalika Bali-experta en procesamiento del lenguaje natural, el subcampo de lingüística e inteligencia artificial (IA) que se centra en entrenar sistemas informáticos para comprender idiomas hablados y escritos- y su equipo trabajan con comunidades locales y hablantes nativos para crear los conjuntos de datos que sirven de base para construir la tecnología de IA. Al involucrar a la comunidad en este proceso, crean un conjunto de información preciso y culturalmente relevante.

*Monojit Choudhury, científico principal de datos y ciencias aplicadas en Turing India, de Microsoft, inició la investigación sobre el Proyecto Ellora con Kalika Bali.*

Desde el principio, el idioma de Internet ha sido el inglés. Con la mejora del acceso y la demanda de contenidos en lenguas nativas, otras siete muy habladas -como el chino o el español- pueden equipararse al inglés en cuanto a compatibilidad tecnológica. Pero estas representan solo ocho de las casi 6.000 que hay en el mundo. Por lo tanto, el 88% de las lenguas no tienen suficiente presencia en Internet o, lo que es lo mismo, 1.200 millones de personas -el 20% de la población mundial- no pueden utilizar su idioma para navegar por el mundo digital.

«Como resultado, la brecha entre los que tienen y los que no tienen acceso es muy grande», explica Monojit Choudhury, científico principal de datos en Turing India de Microsoft y compañero de Bali.

Proyecto ELLORA

En el marco del proyecto ELLORA (Enabling Low Resource Languages), la creación de recursos digitales tiene una doble finalidad: preservar una lengua para la posteridad y garantizar que sus usuarios puedan participar e interactuar en el mundo digital.

El Proyecto ELLORA, puesto en marcha en 2015, empezó por lo básico. El primer paso fue determinar qué recursos estaban ya disponibles, como material impreso o literatura, y el alcance de la presencia digital. En un documento de 2020, los expertos crearon una clasificación en seis niveles, en la que el nivel superior representaba las lenguas ricas en recursos (como el inglés y el español), y los niveles inferiores reflejaban aquellas con pocos o ningún recurso.

Su trabajo consiste en recopilar los recursos necesarios para estas lenguas y crear modelos lingüísticos que satisfagan las necesidades digitales de sus hablantes. Para lograrlo, sus investigadores trabajan con las comunidades. «Ninguna tecnología lingüística puede aislarse de las personas que van a utilizarla», dice Bali.

En el caso del mundarí, los investigadores trabajaron junto al Indian Institute of Technology Kharagpur en 2018 y patrocinaron un estudio para averiguar qué necesita la comunidad para mantener viva la lengua. Lo que empezó como un simple juego de vocabulario para que los estudiantes aprendieran la lengua, pronto se convirtió en sofisticados proyectos tecnológicos.

Los investigadores de MSR están trabajando actualmente en una traducción de texto de hindi a mundarí, así como en un modelo de reconocimiento de voz que proporcionará a la comunidad acceso a más contenido en su idioma. También se está trabajando en un modelo de conversión de texto a voz, financiado bajo la iniciativa «Forward – Artificial Intelligence for all» de la Deutsche Gesellschaft für Internationale Zusammenarbeit (GIZ), en nombre del Ministerio de Cooperación Económica y Desarrollo alemán.

El equipo, dirigido por profesores del IIT Kharagpur, trabajó inicialmente con miembros de la comunidad para que tradujeran de forma manual frases del hindi al mundarí aunque, para agilizar el proceso, los expertos de Microsoft desarrollaron una nueva tecnología llamada “Traducción Automática Interneuronal” (INMT, del inglés Interneural Machine Translation) que ayuda a predecir la siguiente palabra cuando alguien está traduciendo del hindi al mundarí. «El INMT permite traducir de una lengua a otra con más eficacia. Si estoy traduciendo del hindi al mundarí, cuando empiezo a escribir en mundarí, me da sugerencias predictivas en la propia lengua. Es como el texto predictivo de los teclados de los smartphones, pero en dos idiomas», explica Bali.

Y, para crear el conjunto de datos de conversión de texto a voz, colaboraron con Karya, una plataforma de trabajo digital que permite capturar, etiquetar y anotar datos para crear modelos de machine learning e inteligencia artificial. El equipo identificó a un hablante masculino de mundarí y a la Dra. Munda como hablante femenina, a quienes dieron las frases traducidas para que las grabaran a través de la aplicación Karya en teléfonos Android. Las grabaciones, junto con el texto correspondiente, se suben de forma segura a la nube y los investigadores pueden acceder a ellas para entrenar modelos de conversión de texto en voz.

«La idea es que entre Microsoft Research, Karya y el Indian Institute of Technology Kharagpur dispongamos de datos para la traducción automática, el reconocimiento de voz y la síntesis de texto a voz, de modo que estas tres tecnologías puedan incorporarse al mundarí», dice Bali.

*Miembros de la comunidad Idu Mishmi colaboran con Pamir Gogoi (segundo por la derecha), becario de investigación de MSR India, en Hunli, Arunachal Pradesh. Foto de Niyaldeep Boruah para Microsoft.*

La conexión entre lengua y tecnología es clave porque, con el tiempo, podría permitir sistemas sofisticados de traducción en todas las lenguas en sitios web gubernamentales o plataformas de streaming, entre otras. Estos sistemas ya son una realidad para la lengua en la que estás leyendo este contenido.

Además del trabajo que están haciendo con la comunidad Munda, el Proyecto ELLORA está llevando a cabo otras iniciativas:

Ayudar a los hablantes de gondi, muy pocos de los cuales entienden otras lenguas, a acceder a la información. El proyecto ELLORA colaboró con los socios CGNETSwara e IIIT Naya Raipur para crear Adavasi Radio, un centro de noticias, vídeos y libros. El equipo creó 60.000 frases paralelas entre el gondi y el hindi, lo que ha permitido desarrollar un servicio de traducción automática.
Trabajar con la comunidad Idu Mishmi de Arunachal Pradesh, en el noreste de la India, para crear un diccionario digital de su lengua, que ahora tiene menos de 12.000 hablantes. El diccionario digital se utilizará en las escuelas para enseñar a los niños.

«Queremos reducir el tiempo que podría llevar a estas lenguas disponer de datos suficientes para aprovechar la tecnología, si se hiciera de otro modo«, afirma Bali. «Si la IA puede hacer cosas maravillosas para los hablantes del inglés, debería poder hacer lo mismo para cualquier otro ser humano que no hable ese idioma».

Microsoft ayuda a las lenguas menos habladas a sobrevivir y crecer en el mundo digital

Posts relacionados