¿Me hablas a mí? Azure AI da vida a personajes icónicos con Custom Neural Voice

¿Alguna vez han deseado poder saltar dentro de su cartón animado favorito e interactuar con personajes como Bugs Bunny que los entretienen en la pantalla?

Bienvenidos a la AT&T Experience Store en Dallas, donde un Bugs Bunny de tamaño real, y de alta definición, los saluda por su nombre y les dice que necesita su ayuda para encontrar varias zanahorias doradas escondidas dentro de la tienda. Gracias al 5G, la realidad aumentada, la inteligencia artificial y una Custom Neural Voice creada con tecnología Microsoft Azure AI, Bugs sigue sus instrucciones para navegar por la tienda en busca de zanahorias, mientras habla con ustedes en tiempo real.

La tecnología que permite que tal conversación fluya de manera natural es la capacidad de texto a voz dentro de Speech, un Azure Cognitive Service, que ahora está disponible a nivel general.

“Una de las cosas que escuchamos de nuestros clientes es que les gusta la idea de comunicarse con sus clientes a través del habla”, comentó Eric Boyd, vicepresidente corporativo para Azure AI Platform en Microsoft. “El habla ha sido bastante robótica a lo largo de los años. La voz neural ha sido un gran paso Adelante para que suene en verdad natural”.

Para AT&T, la experiencia inmersiva de Bugs Bunny era una oportunidad de deleitar a los clientes, a la vez que demuestra las capacidades de su red celular 5G. La red hace posible que Bugs aparezca de manera rápida en HD y que se mueva por la habitación con fluidez.

El habla ha sido bastante robótica a lo largo de los años. La voz neural ha sido un gran paso adelante para que suene en verdad natural.

“Tratamos de probar a los clientes que hay algo en la 5G que la hace diferente y mejor que la red 4G”, comentó Jay Cary, vicepresidente de innovación de producto y movilidad 5G para AT&T. “Tiene una potencia enorme de cómputo, velocidades más altas y una menor latencia. Se sintió como una manera en verdad asombrosa de hacer realidad el potencial de la red y la tecnología”.

Bugs Bunny es el primer personaje animado al que AT&T ha dado vida con Custom Neural Voice, pero es probable que no sea el último. Cary se anima un poco cuando habla sobre las posibilidades: personajes que cobran vida desde la caja de cereal, que les leen cuentos, miran dibujos animados a su lado o que les muestran el vecindario.

“Nos encanta la idea de combinar el entorno físico con el entorno virtual”, comentó.

Para crear la voz personalizada, un actor de voz aprobado para Bugs entró al estudio para grabar alrededor de 2 mil frases y líneas, con la orientación del equipo de Microsoft, mencionó Cary.

Luego, el equipo de Warner Bros., “los expertos en Bugs Bunny”, como los llama Cary, trabajó con el equipo de Microsoft para hacer iteraciones en la voz, para asegurarse que refleja con precisión la personalidad de Bugs Bunny y todas sus inflexiones.

“Queríamos asegurarnos que en verdad representara cómo se sentiría Bugs en el mundo real”, comentó Cary. “Se siente como una conversación de la vida real, con una velocidad natural, que puedes tener con un amigo. Se siente bastante real”.

Transparencia irreal

Una conversación con Bugs Bunny podría sentirse real, pero todos sabemos que no lo es: porque Bugs es un personaje de ficción. Esa es una distinción importante, y una que Microsoft es muy cuidadoso de proteger en cada aplicación de la tecnología. Hay una razón clave por la que Custom Neural Voice es de acceso limitado, lo que significa que los clientes interesados deben aplicar y ser aprobados por Microsoft para usar la tecnología. En este caso, la disponibilidad general significa que está lista para producción y que está disponible en más regiones de nube de Azure, no que esté disponible para el público en general.

Si bien muchos usos de Custom Neural Voice involucran a un personaje ficticio, en ocasiones un cliente quiere que la voz sea de una persona real, como un autor que lee su propio libro. Incluso en esos casos, es importante que la gente sepa que la voz es sintética, por lo que Microsoft incluye un requisito de divulgación en su contrato.

“Requerimos que los clientes dejen muy claro que es una voz sintética o, cuando no es obvio de inmediato en el contexto, que revelen de manera explícita que es sintética en una manera que sea percibida por los usuarios y no que esté enterrada dentro de los términos”, comentó Sarah Bird, líder de IA responsable para Cognitive Services dentro de Azure AI.

Otra voz ficticia a la que le da vida el texto a voz neural es Flo, el ícono de la marca Progressive Insurance desde hace mucho tiempo.

Flo, ícono de la marca Progressive — Para llevar capacidades de conversación de voz a su chatbot Flo, Progressive Insurance creó una voz sintética con Custom Neural Voice. Imagen cortesía de Progressive Insurance.

Hace unos años, la compañía lanzó un chatbot Flo en Facebook Messenger, con la personalidad alegre y los extravagantes chistes que los clientes esperan del personaje de vendedor interpretado por Stephanie Courtney en los anuncios de TV desde 2008. Cuando la empresa comenzó a explorar el potencial de usar una conversación de voz para interactuar con los clientes, Flo fue la elección natural.

“Una de las principales áreas de interés de Progressive es que queremos que nuestra marca y productos estén disponibles donde y cuando la gente quiera”, comentó Matt White, gerente de tecnología e innovación en el grupo de experiencia de adquisiciones de Progressive. “Por eso pusimos a Flo en Facebook Messenger, y es por eso que comenzamos a explorar lo que es posible con la voz y los parlantes inteligentes”.

Progressive ya utilizaba tecnología de Azure AI para impulsar al chatbot, y tenía sentido colocar el servicio de texto a voz neural en la parte superior, comentó White.

La disponibilidad general de Custom Neural Voice incluye controles técnicos para ayudar a prevenir el uso indebido del servicio. Como parte del guion de grabación de voz que envía un cliente para crear la voz personalizada, el actor de voz hace una declaración en la que reconoce que comprende la tecnología y está consciente de que el cliente hace una Custom Neural Voice. Esa grabación es comparada con los datos de entrenamiento a través de tecnología de verificación del hablante para asegurarse que las voces coincidan antes de que un cliente pueda comenzar a entrenar la voz. Microsoft también requiere por contrato que sus clientes obtengan el consentimiento del talento de voz.

“Hicimos varios estudios y tuvimos interacciones con la industria de la actuación de voz y los especialistas en ética en el campo para llegar a un conjunto de pautas y formas en las que queremos asegurarnos de que se utilice esta tecnología”, comentó Boyd.

Un compromiso con la responsabilidad

Los términos contractuales, la limitación de acceso a los clientes aprobados y la realización de la verificación del hablante en archivos de audio, son tres formas en las que Microsoft protege contra el uso indebido de la tecnología. El rol de Bird dentro de Microsoft es ayudar a desarrollar protocolos y equipos de soporte para desarrollar, de manera responsable, características y productos dentro de Azure Cognitive Services, así como impulsar a los clientes para que los usen de manera responsable.

“En verdad queremos demostrar cómo podemos crear estas tecnologías que tienen este impacto positivo mientras nos aseguramos que no causamos daño al mundo”, mencionó Bird.

Microsoft realiza evaluaciones de impacto para determinar riesgos potenciales. Una vez que los riesgos han sido identificados, se crean características y procesos para abordarlos. En el caso de Custom Neural Voice, tales salvaguardas incluyen el proceso de revisión para cada caso de uso potencial, un código de conducta, y la verificación que compara los archivos de reconocimiento del talento de voz con los archivos de audio de entrenamiento.

Bird comentó que el equipo también trabaja en una manera de integrar una marca de agua digital dentro de una voz sintética para indicar que el contenido fue creado con Azure Custom Neural Voice.

Estas características técnicas y de políticas están en línea con el compromiso de Microsoft con la IA responsable. Ese compromiso incluye Notas de Transparencia, que comunican los propósitos, capacidades y limitaciones de un sistema de IA.

“Como creadores de esta tecnología, tenemos la obligación de asegurarnos de que se utilice de manera responsable”, comentó Boyd. “Nos tomamos muy en serio la IA responsable; es uno de nuestros principios fundamentales. Y somos cuidadosos con los socios con los que trabajamos para asegurarnos de que sigan las pautas”.

Construir una voz personalizada

Entonces, ¿Cómo varias frases grabadas se convierten en una voz con un sonido natural que puede decir cualquier cosa?

Las grabaciones son utilizadas para crear una fuente de sonidos, o fonemas. Es algo similar a una fuente en una computadora que contiene letras y caracteres que se combinan para formar palabras y oraciones.

Pero el texto a voz neural va más allá de unir sonidos para formar palabras.

“El verdadero avance tecnológico es el uso eficiente del aprendizaje profundo para procesar el texto y asegurarse que la prosodia y la pronunciación sean precisas”, comentó Xuedong Huang, asociado técnico de Microsoft y director de tecnología de Azure AI Cognitive Services. “La prosodia es lo que debería ser el tono y duración de cada fonema. Los combinamos de manera fluida para que puedan reproducir la voz que suena como la persona original”.

El verdadero avance tecnológico es el uso eficiente del aprendizaje profundo para procesar el texto y asegurarse que la prosodia y la pronunciación sean precisas. La prosodia es lo que debería ser el tono y duración de cada fonema. Los combinamos de manera fluida para que puedan reproducir la voz que suena como la persona original.

Xuedong Huang — Escuchen una demostración de una Custom Neural Voice, creada con Huang y su equipo en Microsoft. Imagen cortesía de Scott Eklund/Red Box Pictures.

El aprendizaje profundo es un subconjunto del aprendizaje automático, en el que a las máquinas se les enseña a aprender y analizar datos de una manera similar a los humanos. “Profundo” se refiere a la profundidad de las capas de redes neurales, que se inspiran en nuestra comprensión de cómo funciona el cerebro. Estas capas sobre capas de redes neurales trabajan en conjunto para desempeñar tareas complejas de manera rápida, al mapear secuencias de datos juntas y aprender de cada tarea. Más capas dentro de una red neural crean mejores resultados.

En el texto a voz neural, una red neural convierte el texto de entrada en una secuencia acústica, codifica y decodifica y predice la prosodia, mientras que otra red neural convierte esa secuencia acústica en habla. Entre las dos, hay alrededor de 50 capas.

Dado que las dos redes neurales pueden predecir de manera simultánea la prosodia correcta y sintetizar la voz, esto resulta en una voz con un sonido más natural.

Por supuesto, no todo el mundo necesita una voz personalizada creada solo para ellos. Microsoft también tiene más de 120 voces neurales preconstruidas, en más de 50 idiomas, para los clientes que desean agregar de manera rápida una funcionalidad de lectura en voz alta o dar voz a un chatbot.

‘Desbloquear el potencial creativo de las personas’

En esencia, Custom Neural Voice es una tecnología creativa, comentó Bird. Ella está más entusiasmada con sus posibilidades en educación, como leer libros o enseñar un nuevo idioma.

Microsoft trabajó con una organización no lucrativa en Beijing, China, para utilizar Custom Neural Voice y un equipo de voluntarios para generar contenido de audio de IA que se donaría al Centro de Servicios para personas con Discapacidades Visuales de Beijing Hongdandan, que proporciona recursos para personas con ceguera o baja visión.

Duolingo, una empresa de aprendizaje de idiomas, usa Custom Neural Voice como parte de su esfuerzo por personalizar el aprendizaje de idiomas mediante la introducción de un elenco de personajes dentro de la plataforma de aprendizaje. El diverso grupo de nueve incluye a Lily, una adolescente inexpresiva y de mal humor, y Junior, un joven precoz que es demasiado inteligente para su propio bien.

La compañía pasó por cientos de iteraciones de personajes, con el objetivo de que reflejaran la base de culturas de los usuarios de todo el mundo, y que al mismo tiempo se alinearan de manera visual con Duo, el personaje principal de la aplicación desde hace mucho tiempo.

“Duolingo es utilizado en todo el mundo, y queremos que las personas se sientan conectadas y comprometidas con la aplicación”, comentó Severin Hacker, CTO de Duolingo.

Duolingo creó un elenco de nueve personajes — Duolingo utilizó Custom Neural Voice para ayudar a dar vida a nueve nuevos personajes dentro de la plataforma de aprendizaje de idiomas. Imagen cortesía de Duolingo.

La forma y otros aspectos de diseño de cada personaje dieron forma a su personalidad, y todos comparten algunos elementos con Duo: una forma corporal única, pies separados, ojos grandes y una construcción simple. Dar voz a los personajes fue el toque final en un extenso proceso de creación de personajes.

“La voz es muy importante cuando se aprende un idioma”, comentó Hacker. “Fue en particular importante para nosotros, como aplicación de aprendizaje de idiomas, que expusiéramos a nuestros aprendices a voces y acentos auténticos, y pudimos hacerlo con esta tecnología”.

La compañía ha trabajado con actores de voz para crear fuentes de voz personalizadas para cada personaje. El año pasado, Duolingo presentó la voz de Lily en inglés y español, y a Junior en inglés. De manera eventual, todos los nueve personajes serán presentados en inglés, español, francés, alemán y japonés. Los aprendices de idiomas pueden esperar escuchar a nuevos personajes, como Bea, una viajera del mundo tipo A, y a Vikram, un devoto esposo y pastelero, a finales de este año.

Custom Neural Voice también puede ser usada para crear una fuente de voz personalizada que no imite de manera directa a una persona o personaje existente.

“Tenemos la capacidad de crear voces compuestas y experimentar con la creación de voces que nunca existirían en realidad, al reunir lo mejor de diferentes orígenes”, comentó Bird. “Esta es la tecnología que desbloquea el potencial creativo de las personas”.

Bird y Boyd creen que la tecnología Custom Neural Voice abrirá puertas para un compromiso más profundo, ya sea a través del entretenimiento, la información o la educación.

“Una de las cosas en verdad emocionantes sobre la IA es que nos sorprenden de manera constante las formas en que se puedes usar, que van más allá de lo que imaginamos en un principio”, mencionó Boyd. “Es en verdad emocionante ver lo que la gente puede hacer con ella”.

Conozcan más:

John Roach contribuyó para este texto.

Imagen principal: Visitantes de la AT&T Experience Store, en Dallas, pueden interactuar con Bugs Bunny y otros personajes en realidad aumentada. Bugs habla con los clientes a través de una voz sintética creada con Custom Neural Voice, una capacidad dentro de Azure Cognitive Services. LOONEY TUNES y todos sus personajes y elementos relacionados © y ™ de Warner Bros. Entertainment Inc. (s21).

¿Me hablas a mí? Azure AI da vida a personajes icónicos con Custom Neural Voice

Más historias

La IA generativa puede hacer que los servicios de viaje sean más accesibles para millones de indios: Sanjay Mohan, Group CTO, MakeMyTrip

Política de Discapacidad: un puente sobre la brecha de discapacidad

Emprendedores traen nuevas ideas y tecnologías para preservar el planeta

Tom Burt de Microsoft habla sobre geopolítica y ciberseguridad en la era de la IA