Las empresas crean asistentes de voz personalizados, gracias a los servicios cognitivos de Microsoft Azure AI

Bugs Bunny
  • Custom Neural Voice es un servicio con el que los desarrolladores pueden crear voces personalizadas para reforzar la estrategia de su marca e interactuar con sus clientes.
  • Para un uso responsable de la IA, Microsoft ofrece este servicio con acceso limitado y, así, proteger los derechos de las personas y la sociedad, fomentando la transparencia y contrarrestando la proliferación de contenidos engañosos.
  • De la mano de Microsoft y Warner Bros, Bugs Bunny ha sido el primer personaje animado al que la compañía de telecomunicaciones AT&T ha dado vida con Custom Neural Voice.

Microsoft ha anunciado la disponibilidad de Custom Neural Voice, un servicio cognitivo de la plataforma de Azure AI -dentro del servicio de Speech- con el que los desarrolladores podrán crear voces personalizadas aprovechando el lenguaje natural y a través de innovadores modelos neuronales “Text-to-Speech” (TTS) de Microsoft.

De esta manera, Microsoft cubre la necesidad de que las empresas puedan comunicarse con sus clientes por medio de asistentes de voz de forma más efectiva, reforzando su estrategia de marca y aumentando la conexión emocional con sus audiencias. De la misma forma, la compañía lleva a cabo un gran avance dejando atrás las voces robóticas que se han estado utilizando hasta ahora y consiguiendo que sean totalmente naturales; todo ello gracias al 5G, la realidad aumentada, la inteligencia artificial y Microsoft Azure.

El proceso consiste en la grabación de miles de frases de la mano de actores de voz expertos en doblaje. A partir de ahí, las grabaciones se utilizan para crear una fuente de sonidos y fonemas, algo parecido a una fuente que contiene letras y caracteres que se combinan para formar palabras y frases. Aun así, la conversión neural de texto a voz va mucho más allá de juntar sonidos para formar palabras.

«El verdadero avance tecnológico es el uso eficiente del aprendizaje profundo para procesar el texto y asegurarse de que la prosodia sea precisa y correcta«, señala  Xuedong Huang, miembro técnico de Microsoft y director de tecnología de Azure AI Cognitive Services. «La prosodia es lo que se conoce como lo que debe ser el tono y la duración de cada fonema. Los combinamos de una manera fluida para que puedan reproducir la voz que suena como la de la persona original«.

IA, un compromiso de responsabilidad

Microsoft ha realizado una investigación en la que ha consultado a profesionales del mundo del doblaje, locutores y expertos en ética para establecer una serie de directrices a la hora de usar esta tecnología. En este sentido, y como parte del guion que los clientes envían para crear las voces personalizadas, el profesional que pone su voz a disposición de la plataforma declara que entiende la tecnología y el uso que se va a hacer de su voz. Esa grabación se compara con las frases obtenidas del entrenamiento que se ha hecho anteriormente, utilizando la tecnología de verificación de diálogo, para asegurarse de que las voces coinciden antes de que el cliente pueda utilizarlas. Por su parte, Microsoft también exige que los clientes obtengan el consentimiento de los locutores.

Se trata de un servicio de acceso limitado con el objetivo de ayudar a proteger los derechos de las personas y la sociedad, fomentar la transparencia y contrarrestar la proliferación de contenidos engañosos. Esto significa que los clientes interesados deben solicitar y recibir la aprobación de Microsoft para utilizar la tecnología. Así, la compañía pone en práctica los principios de la IA responsable con funciones como Fairlearn, InterpretML y SmartNoise, ayudando a los clientes a crear modelos de aprendizaje automático que sean fáciles de entender, proteger y controlar.

Aunque muchos usos de Custom Neural Voice implican un personaje de ficción, a veces los clientes quieren que la voz sea de una persona real. Según explica Sarah Bird, responsable de IA de los Servicios Cognitivos dentro de Azure AI, la compañía exige a los clientes que dejen muy claro que se trata de una voz sintética o, cuando no sea obvio en el contexto, que lo revelen explícitamente de una manera que sea perceptible para los usuarios.  Aun así, la compañía está trabajando también en una forma de incrustar una marca de agua digital en las mismas voces para indicar que el contenido se ha creado con su servicio.

Azure AI da vida a personajes emblemáticos

Sin ir más lejos, la compañía de telecomunicaciones estadounidense AT&T ha dado vida a su primer personaje animado por medio de Custom Neural Voice: Bugs Bunny. En una de sus tiendas de Dallas (EE.UU.), los clientes pueden interactuar en tiempo real con el dibujo del célebre conejo a tamaño natural y en alta definición por todo el establecimiento.

Para crear la voz personalizada, un actor de doblaje aprobado por Warner Bros acudió al estudio para grabar 2.000 frases aproximadamente. El equipo trabajó con Microsoft para repetir la voz, asegurándose de que reflejara con precisión la personalidad de Bugs Bunny y todas sus inflexiones.

 

Para más información, visita el post de Leah Culler, editora del blog de Microsoft AI for Business & Tech.

Tags: , ,

Posts relacionados

Big data para grandes animales: cómo la Inteligencia Artificial está ayudando a salvar a las jirafas en peligro de Tanzania

Microsoft presenta GIRAFFE (acrónimo en inglés de Reidentificación Generalizada Basada en Imágenes mediante IA para la Extracción de Rasgos de Fauna), una herramienta de código abierto creada por nuestro equipo de Microsoft AI for Good Lab, en colaboración con el Wild Nature Institute. Su objetivo: ayudar a los conservacionistas a seguir y proteger a las jirafas en peligro de extinción en Tanzania.

Gears of War: Reloaded ya está disponible

Gears of War: Reloaded ya está disponible para Xbox Series X|S, Xbox en PC, Xbox Cloud Gaming, Steam y PlayStation 5, y desde el primer día con Game Pass Ultimate y PC Game Pass con compatibilidad con Xbox Play Anywhere. 

Quantum-Safe Security: avanzando hacia la criptografía de próxima generación

Microsoft ha lanzado su programa Quantum Safe para preparar sus sistemas y los de sus clientes ante los riesgos de la computación cuántica, que podría comprometer la criptografía actual; la iniciativa incluye el desarrollo de algoritmos resistentes, colaboración con organismos internacionales, actualizaciones en productos como Windows y Azure, y una hoja de ruta para completar la transición antes de 2033.

Xbox anuncia la fecha de lanzamiento de las portátiles ROG Xbox Ally

Hoy, durante la retransmisión de Xbox en gamescom 2025, Xbox ha anunciado que ROG Xbox Ally y ROG Xbox Ally X se lanzarán el 16 de octubre, previo a la campaña de Navidad. Revelados por primera vez  a principios de este año en Xbox Games Showcase, estos dispositivos ofrecen una era de juegos portátiles que hace que sea más fácil que nunca acceder a tus juegos favoritos de Xbox, Battle.net y otras tiendas de PC líderes dondequiera que vayas.