Ir al contenido principal

Tecnología IA ayuda a estudiantes con sordera a aprender

Por: John Roach, News Center Corp.

ROCHESTER, NY – Conforme los últimos en llegar a la clase de biología general toman sus asientos, los subtítulos en tiempo real de las bromas de la profesora acerca de sentidos generales y especiales – “¿Qué receptor recibe el dolor? Todos”. – se desplazan a través de la parte baja de una presentación en PowerPoint proyectada en pantallas de pared a pared detrás de ella. Una intérprete se encuentra a unos metros de distancia e interpreta las palabras de la profesora en Lenguaje Americano de Señas (ASL, por sus siglas en inglés), el principal lenguaje utilizado por los sordos en Estados Unidos.

A excepción de los subtítulos en tiempo real en las pantallas frente al aula, esta es una clase típica en el Instituto Rochester de Tecnología (RIT, por sus siglas en inglés) en la parte norte de Nueva York. Alrededor de 1,500 estudiantes sordos y con dificultades para escuchar son una parte integral de la vida del campus en la extensa universidad, que cuenta con 15 mil alumnos. Casi 700 de los estudiantes con sordera o dificultades para escuchar toman cursos con estudiantes que sí pueden escuchar, entre ellos algunos en la clase de biología general con 250 estudiantes de la profesora Sandra Connelly.

Los subtítulos en las pantallas detrás de Connelly, que utiliza una diadema, son generados por Microsoft Translator, una tecnología de comunicación impulsada por IA. El sistema utiliza una forma avanzada de reconocimiento automático del habla para convertir lenguaje hablado puro – tartamudeos, murmullos y todo lo demás – en texto fluido y puntuado. La eliminación de disfluencias y la adición de puntuación llevan a traducciones de una mayor calidad a más de 60 lenguajes que la tecnología de traducción soporta. La comunidad de personas con sordera o con dificultades para escuchar, reconoció que este texto limpio y puntuado es una herramienta ideal para acceder al lenguaje hablado, en adición al ASL.

Microsoft se ha asociado con el Instituto Técnico Nacional para la Sordera del RIT, uno de los nueve colegios de la universidad, para probar el uso de la tecnología de habla y lenguaje impulsada por IA de Microsoft para apoyar a los estudiantes en el aula con sordera o dificultades para escuchar.

“La primera vez que vi esto funcionar, estaba muy emocionado, pensé, ‘Wow, puedo obtener información al mismo tiempo que mis compañeros que sí pueden escuchar’”, comentó Joseph Adjei, estudiante de primer año de Ghana que perdió la audición hace siete años. Cuando llegó al RIT, batalló con el ASL. Él comenta que los subtítulos proyectados en tiempo real en las pantallas detrás de Connelly en la clase de biología, le permitieron mantener el paso con la clase y aprender a escribir los términos científicos de manera correcta.

Adjei, quien ahora se encuentra en segundo semestre de biología general y continúa con su aprendizaje de ASL, se sienta al frente de la clase y de manera regular cambia su atención entre la intérprete, los subtítulos en la pantalla y las transcripciones en su teléfono móvil, que coloca sobre su escritorio. La combinación, explica, lo mantiene enganchado con la clase. Cuando no entiende algo del ASL, se apoya en los subtítulos, que le brindan otra fuente de información y el contenido que se perdió de la intérprete de ASL.

Los subtítulos, destaca, en ocasiones se pierden puntos cruciales para una clase de biología, como la diferencia entre “I” y “eye” (que se pronuncian de manera similar en inglés”. “Pero es mucho mejor que no tenerlos”. De hecho, Adjei utiliza la aplicación Microsoft Translator en su teléfono para que le ayude a comunicarse con sus compañeros que escuchan fuera de la clase.

“En ocasiones, cuando conversamos hablan muy rápido y no alcanzo a leer sus labios. Así que, tomo el teléfono y lo hacemos de esa manera para que yo pueda entender lo que sucede”, comentó.

IA para subtitulaje

Jenny Lay-Flurrie, jefa de accesibilidad en Microsoft, quien es sorda, comentó que el proyecto piloto con el RIT muestra el potencial de IA para impulsar a la gente con discapacidades, en especial a aquellas con sordera. Los subtítulos brindados por Microsoft Translator brindan otra capa de Comunicación que, junto con el lenguaje de señas, podría ayudar a la gente, incluida ella, a conseguir más, acotó.

El proyecto se encuentra en la etapa temprana de lanzamiento a las aulas. La clase de biología general de Connelly es una de las 10 que han sido equipadas para el servicio de subtitulaje en tiempo real impulsado por IA, que es un complemento para Microsoft PowerPoint llamado Presentation Translator. Los estudiantes pueden utilizar la aplicación Microsoft Translator desde su laptop, teléfono o tableta para recibir los subtítulos en tiempo real en el idioma de su elección.

“El lenguaje es el motor de la evolución humana. Mejora la colaboración, la comunicación y el aprendizaje. Al tener los subtítulos en el aula del RIT, ayudamos a todos a aprender mejor y a comunicarse mejor”, comentó Xuedong Huang, asociado técnico y jefe del grupo de habla y lenguaje para IA e Investigación en Microsoft.

Huang comenzó a trabajar en reconocimiento automático del habla en la década de los ochenta para ayudar a los 1.3 mil millones de personas en su país natal, China, a evitar escribir chino en teclados diseñados para lenguajes occidentales. La introducción del aprendizaje profundo para el reconocimiento del habla hace unos años, comentó, dio a la tecnología el habla la precisión humana, lo que llevo a un sistema de traducción que traduce noticias del chino al inglés y “a la confianza de presentar la tecnología para que todos la puedan utilizar a diario”.

Creciente demanda por servicios de accesibilidad

Cuando Gary Behm se inscribió en 1974, era uno de los cerca de 30 estudiantes que son sordos o tienen dificultades para escuchar y se registran para clases en el RIT. Los intérpretes de ASL traducían las palabras habladas de su profesor en lenguaje de señas, tal como lo hacen ahora en el campus. Él se graduó en ingeniería eléctrica y realizó una exitosa carrera en IBM. Se movió por todo el país, consiguió una maestría en ingeniería mecánica y formó una familia de tres hijos, dos de ellos con sordera, con su esposa, que también es sorda.

Una vez que sus niños crecieron y se fueron a la universidad, él y su esposa, a quien conoció en el NTID, encontraron su camino de vuelta a la escuela. Behm, un experimentado ingeniero mecánico computacional, comenzó a trabajar en tecnologías de accesibilidad para apoyar al creciente cuerpo de estudiantes del NTID, que ahora incluye a más de 1,500 estudiantes, de los cuales casi la mitad están registrados para clases en los otros ocho colegios del RIT.

“Estamos muy emocionados por ese crecimiento, pero estamos limitados por los servicios de accesibilidad que podemos brindar a esos estudiantes”, comentó Behm, que ahora es vicepresidente asociado interino de asuntos académicos en el NTID y director del Centro de Tecnología de Accesibilidad, el área llena de investigación e implementación de tecnologías emergentes de accesibilidad.

Una combinación de servicios de accesibilidad como los intérpretes y el subtitulaje en tiempo real ayudan a los estudiantes que son sordos o tienen problemas de escucha a que superen los obstáculos de involucramiento en las aulas y puedan mantener el ritmo de las clases. Los estudiantes que pueden escuchar, de acuerdo con Behm, dividen de manera rutinario su atención en el aula. Si el profesor escribe una ecuación en la pizarra mientras habla, por ejemplo, los estudiantes que escuchan pueden hacerlo y copian la ecuación en sus cuadernos de manera simultánea.

“Para una persona sorda, eso es imposible. Mi involucramiento está ligado a la intérprete”, comentó Behm. “Pero cuando un profesor dice algo como, ‘Vean la ecuación en la pizarra’, tengo que romper mi atención al intérprete y tratar de ver de qué ecuación hablan, verla y entenderla”.

“Para cuando regreso a retomar la información que fue transmitida por el intérprete, esta se ha ido”.

Para ayudar a resolver el problema del involucramiento, la universidad emplea a un equipo de tiempo completo de cerca de 140 intérpretes, que son críticos para la comunicación, y a más de 50 capturistas. Los capturistas utilizan una tecnología implementada por la universidad, llamada C-Print, para brindar transcripciones en tiempo real de las clases que son proyectadas en las laptops y tabletas de los estudiantes que son sordos o tienen problemas de escucha. Además, una flota de estudiantes toma notas que son compartidas para que los estudiantes con sordera o problemas de escucha puedan enfocarse en los intérpretes y los subtítulos durante la clase.

“La pregunta ahora es, ¿Podemos continuar con el incremento de nuestros servicios de accesibilidad?”, comentó Behm.

Conforme más estudiantes sordos o con dificultades para escuchar se inscriben a los programas académicos del RIT dispersos en los colegios de la universidad, el RIT y el NTID mantienen su compromiso de ayudar a los estudiantes a involucrarse por completo en la vida del campus. El RIT emplea al más grande equipo de intérpretes y profesionales capturistas de cualquier institución en el mundo y aún así, la demanda por servicios de accesibilidad va en aumento. Es por eso que Behm comenzó a buscar por otras soluciones viables, que incluían el reconocimiento automático del habla, conocido como ASR por sus siglas en inglés.

Reconocimiento automático del habla

La experimentación preliminar del centro con el ASR en la primavera de 2016 no cumplió las expectativas, de acuerdo con Brian Trager, alumno del NTID y ahora director asociado del CAT. El sistema que probaron la primera vez en el centro era tan poco preciso que no entendían lo que la gente decía, en especial cuando se discutían términos técnicos y científicos.

“Regresé al punto de sólo asentir con la cabeza”, comentó Trager, que es sordo y batalló durante su niñez para leer los labios. En ocasiones asentía con su cabeza aun cuando no tenía idea de qué trataba la conversación.

“Y no solo eso, el texto era difícil de leer”, continuó. “Por ejemplo, había un profesor que hablaba sobre el 11 de septiembre y el sistema lo interpretó como ‘uno-uno-nueve’ y lo mismo era para los años, lo mismo para cantidades de dinero. Eran datos crudos. Mis ojos se cansaban. No había puntos ni comas, no había una manera espacial de entender esto”.

Ese verano, un estudiante que trabajaba en el laboratorio del CAT experimentó con las ofertas de ASR de diferentes empresas tecnológicas. La de Microsoft se veía prometedora. “Los números como 11/9 en verdad aparecían como 11 diagonal 9, como lo escribirían ustedes, y 2001 aparecía como 2001. Tenía puntuación. Y estos detalles eran enormes porque el factor de legibilidad en verdad mejoraba. Es una diferencia enorme. Era algo mucho más cómodo y sencillo de acceder”, comentó Trager.

Los investigadores del CAT en NTID luego supieron de una versión beta de un Microsoft Cognitive Service llamado Custom Speech Service que mejora el reconocimiento automático del habla al permitir a los desarrolladores construir modelos de lenguaje personalizados para vocabulario de dominio específico. Los investigadores preguntaron acerca de unirse a la beta. En menos de 24 horas, recibieron un email de Will Lewis, gerente general técnico para la organización de investigación de traducción automática de Microsoft.

Modelos de lenguaje para el aula

Lewis y su equipo en Microsoft presentaron Microsoft Translator a los investigadores del CAT y a mediados de 2017 los equipos colaboraban en la construcción de modelos de lenguaje personalizado específicos al material del curso y comenzaron la prueba piloto de la tecnología en las aulas con el complemento Presentation Translator para PowerPoint.

Para construir los modelos, los investigadores minaron la base de datos de transcripciones de la universidad de más de una década de subtítulos de C-Print de clases específicas, así como notas que los profesores teclean en sus presentaciones de PowerPoint. La IA en Custom Speech Service utiliza estos datos para construir modelos sobre cómo son pronunciadas palabras específicas de dominio. Cuando un orador utiliza estas palabras, el sistema las reconoce y muestra el texto en la transcripción en tiempo real.

Chris Campbell es un alumno del NTID que ahora es profesor asociado de investigación en el CAT, donde lidera los esfuerzos de implementación de ASR en el centro. En el otoño de 2017, impartió un curso de fundamentos de programación a los estudiantes del NTID. Él enseña a través del Lenguaje Americano de Señas.

“En ocasiones, tenemos estudiantes en el NTID que no dominan el lenguaje de señas; ellos dependen del inglés. Así que para mi clase, solicité probar ASR para ver cómo funcionaría utilizar un intérprete”, comentó.

El intérprete utilizó una diadema y decía al micrófono todo lo que Campbell señalaba. Microsoft Presentation Translator proyectaba los subtítulos debajo de sus diapositivas de PowerPoint y en los dispositivos personales de sus estudiantes que corren la aplicación Microsoft Translator. Conforme Campbell señalaba, comenta, él veía cómo los ojos de sus estudiantes pasaban de los subtítulos, al intérprete y de regreso a él. La cantidad de tiempo que pasaban en cualquiera de las fuentes de información, acotó, dependía de qué tan cómodos se sentían los estudiantes con el ASL y con el nivel de escucha que tienen.

“Podía escuchar al intérprete y leer los subtítulos en mi laptop”, comentó Amanda Bui, una estudiante que tiene problemas de escucha y no domina el ASL y no tuvo ningún tipo de servicio de accesibilidad en Fremont, California. “Para mí era más fácil aprender los lenguajes de codificación”.

Accesibilidad para todos

Connelly, la profesora de biología general, ve la tecnología de subtitulaje automático como una forma de aumentar, y no de reemplazar, el trabajo de los intérpretes de ASL. Esto es debido a que ASL, que puede expresar diferentes palabras en un solo gesto, es menos agotador que la lectura. Pero cuando es utilizada en combinación con intérpretes, la tecnología incrementa el acceso para un rango más amplio de estudiantes en el aula, en especial para aquellos que no tienen dominio del ASL como Joseph Adjei, su estudiante de Ghana.

Además, ella agrega, Microsoft Translator permite a los estudiantes guardar las transcripciones, lo que ha transformado la manera en que toda su clase se relaciona con los materiales del curso.

“Ellos saben cualquier palabra boba que dije hoy”, ella menciona. “La clase ya no es de una sola fuente. Ahora estoy frente a ellos, pero también me tienen en papel, en forma de texto. Ha cambiado la manera en que llegan a mi oficina. No llegan y dicen ‘Me perdí esa palabra’ o ‘Me perdí esa definición’. Llegan con ‘No sé por qué esto aplica a esto’. Ha cambiado el foco para nosotros”.

Los estudiantes que pueden escuchar revisan los subtítulos en clase para obtener material que pudieron haber perdido y guardar las transcripciones como ayuda para estudio, agregó Connelly. Cuando el estudiante con sordera en su clase de biología evolutiva que realizaba el piloto del sistema ASR durante el otoño abandonó el curso, Connelly desactivó los subtítulos. Los estudiantes que escuchan reclamaron. Presentation Translator estuvo activo todo el semestre.

Jenny Lay-Flurrie comentó que ama este tipo de historias porque refuerzan el valor de invertir en la accesibilidad.

“Desde una perspectiva pura de diseño de ingeniería de producto”, ella mencionó, “si diseñan para la accesibilidad, diseñan para todos, incluidas las más de mil millones de personas con discapacidades”.

Un agradecimiento especial a Cynthia Collward, intérprete en el RIT, por brindar los servicios de interpretación.

Imagen principal: Sandra Connelly enseña biología general en RIT mientras Andrea Whittemore interpreta sus palabras en Lenguaje American de Señas. Microsoft Presentation Translator brinda subtitulaje en tiempo real en la pantalla detrás de ella. Foto por John Brecher.

Artículos relacionados: