Você está falando comigo? Azure AI dá vida a personagens icônicos com Voz Neural Customizada

pernalonga em realidade virtual

Por Leah Culler

Você já desejou entrar no seu desenho animado favorito e interagir com personagens como o Pernalonga?

Bem-vindo à AT&T Experience Store em Dallas, onde um Pernalonga em tamanho real de alta definição o cumprimenta pelo nome e diz que precisa de sua ajuda para encontrar várias cenouras douradas escondidas pela loja. Graças ao 5G, realidade aumentada, Inteligência Artificial e uma Voz Neural Customizada criada com a tecnologia Microsoft Azure AI, o Pernalonga segue suas orientações para navegar pela loja em busca de cenouras, conversando com você em tempo real.

A tecnologia que faz com que essa conversa flua naturalmente é o recurso de texto para fala neural dentro de Fala, um Serviço Cognitivo do Azure, e que agora está disponível para todos.

“Uma das coisas que ouvimos de nossos clientes é que eles gostam da ideia de se comunicar com os clientes deles por meio da fala”, disse Eric Boyd, vice-presidente corporativo da plataforma Azure AI da Microsoft. “A fala tem sido muito robótica ao longo dos anos. A voz neural é um grande salto para torná-la realmente natural.”

Para a AT&T, a experiência imersiva do Pernalonga foi uma oportunidade de encantar os clientes e, ao mesmo tempo, demonstrar as capacidades de sua rede de celular 5G. A rede possibilita que os personagens apareçam em HD rapidamente e se movam pela sala sem problemas.

“Estamos tentando provar aos consumidores que há algo no 5G que o torna diferente e melhor do que uma rede 4G”, disse Jay Cary, vice-presidente de inovação de produto e mobilidade 5G da AT&T. “Ele tem um grande poder de computação, velocidades mais altas e menor latência. Pareceu uma maneira realmente incrível de dar vida ao potencial da rede e da tecnologia.”

O Pernalonga é o primeiro personagem animado que a AT&T trouxe à vida com a Voz Neural Customizada, mas provavelmente não será o último. Cary fica bastante animado ao falar sobre as possibilidades: personagens ganhando vida da caixa de cereal, lendo histórias para você, assistindo desenhos animados ao seu lado ou mostrando a vizinhança.

“Adoramos essa ideia de combinar o ambiente físico com o ambiente virtual”, disse ele.

Para criar a voz personalizada, um dublador do Pernalonga entrou no estúdio para gravar cerca de 2.000 frases e falas, com orientação da equipe da Microsoft, disse Cary.

A equipe da Warner Bros. – “os especialistas do Pernalonga”, como Cary os chama – trabalhou com a equipe da Microsoft para iterar na voz, garantindo que refletisse com precisão a personalidade do personagem e todas as suas inflexões.

“Queríamos ter certeza de que realmente representava o que Pernalonga sentia no mundo real”, disse Cary. “Parece uma velocidade natural, como uma conversa que você pode ter com um amigo. Parece muito real.”

Transparência irreal

Uma conversa com Pernalonga pode parecer real, mas todos sabem que não é – porque ele é um personagem fictício. Essa é uma distinção importante e que a Microsoft tem o cuidado de proteger em cada aplicação da tecnologia. Esse é um dos principais motivos pelos quais a Voz Neural Customizada tem acesso limitado, o que significa que os clientes interessados ​​devem se inscrever e ser aprovados pela Microsoft para usar a tecnologia. Nesse caso, disponibilidade geral significa que ele está pronto para produção e disponível em mais regiões de nuvem do Azure, e não que ele esteja disponível para o público em geral.

Embora muitos usos da Voz Neural Customizada envolvam um personagem fictício, às vezes um cliente deseja que a voz seja uma pessoa real, como um autor lendo seu próprio livro. Mesmo nesses casos, é importante que as pessoas saibam que a voz é sintética, por isso a Microsoft inclui um requisito de divulgação em seu contrato.

“Exigimos que os clientes deixem bem claro que se trata de uma voz sintética ou, quando não for imediatamente óbvio no contexto, que divulguem explicitamente que é sintética de uma forma que seja perceptível pelos usuários e não oculta em termos”, disse Sarah Bird, líder de IA responsável pela Serviços cognitivos no Azure AI.

mulher sentada no sofá

Para trazer recursos de conversação de voz para seu chatbot Flo, ícone de marca de longa data da Progressive Insurance, a empresa crou uma voz sintética usando a Voz Neural Customizada. Imagem cortesia da Progressive Insurance.Alguns anos atrás, a empresa lançou um chatbot da Flo no Facebook Messenger, completo com a personalidade radiante e espirituosidade peculiares que os clientes esperam do personagem de vendedor interpretado por Stephanie Courtney em anúncios de TV desde 2008. Quando a empresa começou a explorar o potencial de usar uma conversa de voz para interagir com os clientes, Flo foi a escolha natural.

“Uma das principais áreas de interesse da Progressive é que queremos disponibilizar nossa marca e produtos onde e quando as pessoas quiserem”, disse Matt White, gerente de tecnologia e inovação do grupo de experiência de aquisição da Progressive. “É por isso que colocamos Flo no Facebook Messenger, e é por isso que começamos a explorar o que é possível com voz e alto-falantes inteligentes.”

A Progressive já estava usando a tecnologia Azure AI para alimentar o chatbot, e fazia sentido colocar o serviço de texto para fala neural no topo, disse White.

A disponibilidade geral da Voz Neural Customizada inclui controles técnicos para ajudar a prevenir o uso indevido do serviço. Como parte do script de gravação de voz que um cliente envia para criar a voz personalizada, o dublador faz uma declaração reconhecendo que ele entende a tecnologia e está ciente de que o cliente está fazendo uma voz neural customizada. Essa gravação é comparada com os dados de treinamento usando tecnologia de verificação de alto-falante para garantir que as vozes coincidam antes que um cliente possa começar a treinar a voz. A Microsoft também exige contratualmente que os clientes obtenham o consentimento do talento vocal.

“Fizemos uma série de estudos e interagimos com a indústria de dublagem e especialistas em ética na área, para chegar a um conjunto de diretrizes e maneiras que queremos e ter certeza de que essa tecnologia seja usada”, disse Boyd.

Um compromisso com a responsabilidade

Os termos contratuais, a limitação do acesso a clientes aprovados e a execução da verificação do alto-falante em arquivos de áudio são três formas de proteção da Microsoft contra o uso indevido da tecnologia. A função de Bird na Microsoft é ajudar a desenvolver protocolos e equipes de suporte no desenvolvimento responsável de recursos e produtos dentro dos Serviços Cognitivos do Azure, bem como capacitar os clientes a usá-los com responsabilidade.

“Nós realmente queremos demonstrar como podemos criar essas tecnologias que têm esse impacto positivo, ao mesmo tempo que nos certificamos de que não estamos causando danos ao mundo”, disse Bird.

A Microsoft realiza avaliações de impacto para determinar os riscos potenciais. Depois que os riscos são identificados, recursos e processos são criados para lidar com eles. No caso da Voz Neural Customizada, tais salvaguardas incluem o processo de revisão para cada caso de uso potencial, um código de conduta e a verificação comparando os arquivos de reconhecimento de talento de voz com os arquivos de áudio de treinamento.

Bird disse que a equipe também está trabalhando em uma maneira de incorporar uma marca d’água digital em uma voz sintética para indicar que o conteúdo foi criado com uma voz neural customizada do Azure.

Esses recursos técnicos e de política estão de acordo com o compromisso da Microsoft com a IA responsável. Esse compromisso inclui Notas de Transparência, que comunicam as finalidades, capacidades e limitações de um sistema de IA.

“Como criadores dessa tecnologia, temos a obrigação de garantir que ela seja usada com responsabilidade”, disse Boyd. “Levamos a IA responsável muito a sério; é um dos nossos princípios fundamentais. E temos cuidado com os parceiros com quem trabalhamos para garantir que sigam as diretrizes.”

Construindo uma voz customizada

Então, como um monte de frases gravadas se tornam uma voz de som natural que pode dizer qualquer coisa?

As gravações são usadas para criar uma fonte de sons ou fonemas. É um pouco semelhante a uma fonte em um computador contendo letras e caracteres que você combina para formar palavras e frases.

Mas o texto-para-fala neural vai muito além de juntar sons para formar palavras.

“O verdadeiro avanço da tecnologia é o uso eficiente do aprendizado profundo para processar o texto para garantir que a prosódia e a pronúncia sejam precisas”, disse Xuedong Huang, pesquisador técnico da Microsoft e diretor de tecnologia da Azure AI Cognitive Services. “A prosódia é qual deve ser o tom e a duração de cada fonema. Nós os combinamos de uma maneira perfeita para que possam reproduzir a voz que soa como a pessoa original.”

O aprendizado profundo é um subconjunto do aprendizado de máquina, no qual as máquinas são ensinadas a aprender e analisar dados de maneira semelhante aos humanos. “Profundo” refere-se à profundidade das camadas de redes neurais, que são inspiradas por nossa compreensão de como o cérebro funciona. Essas camadas e mais camadas de redes neurais trabalham juntas para executar tarefas complexas rapidamente, mapeando sequências de dados e aprendendo com cada tarefa. Mais camadas em uma rede neural criam melhores resultados.

No texto-para-fala neural, uma rede neural converte o texto de entrada em uma sequência acústica, codificando e decodificando e prevendo prosódia, enquanto outra rede neural converte essa sequência acústica em fala. Entre os dois, existem cerca de 50 camadas.

Como as duas redes neurais podem prever simultaneamente a prosódia certa e sintetizar a voz resulta em uma voz de som mais natural.

Claro, nem todo mundo precisa de uma voz personalizada criada apenas para eles. A Microsoft também tem mais de 120 vozes neurais pré-construídas em mais de 50 idiomas para clientes que desejam adicionar rapidamente a funcionalidade de leitura em voz alta ou dar voz a um chatbot.

‘Desbloqueando o potencial criativo das pessoas’

Em sua essência, a Voz Neural Customizada é uma tecnologia criativa, disse Bird. Ela está ainda mais animada com as possibilidades na educação, como na leitura de livros ou no ensino de um novo idioma.

A Microsoft trabalhou com uma organização sem fins lucrativos em Pequim, China, usando a ferramenta e uma equipe de voluntários para gerar conteúdo de áudio de IA a ser doado ao Centro de Serviços para Deficientes Visuais de Beijing Hongdandan, que fornece recursos para pessoas cegas ou com baixa visão.

A Duolingo, uma empresa de aprendizagem de idiomas, está usando a ferramenta como parte de seu esforço para personalizar o aprendizado de idiomas, introduzindo um elenco de personagens na plataforma de aprendizagem. O diversificado grupo de nove inclui Lily, uma adolescente impassível e temperamental, e Júnior, um jovem precoce que é muito inteligente.

A empresa passou por centenas de iterações de personagens, com o objetivo de fazer com que eles refletissem a base de usuários de culturas ao redor do mundo enquanto se alinhavam visualmente com Duo, o personagem principal de longa data do aplicativo.

“O Duolingo é usado em todo o mundo e queremos que as pessoas se sintam conectadas e engajadas com o aplicativo”, disse Severin Hacker, CTO do Duolingo.

animação
Duolingo usou Voz Neural Personalizada para ajudar a dar vida a nove novos personagens na plataforma de aprendizagem de idiomas. Imagem cortesia do Duolingo.

A forma e outros aspectos do design de cada personagem informam sua personalidade, e todos eles compartilham alguns elementos com Duo: uma forma de corpo única, pés separados, olhos grandes e uma construção simples. Dar voz aos personagens foi o toque final em um extenso processo de criação de personagens.

“A voz é muito importante ao aprender um idioma”, disse Hacker. “Foi particularmente importante para nós, como um aplicativo de aprendizagem de línguas, expor nossos alunos a vozes e sotaques autênticos, e podemos fazer isso com esta tecnologia.”

A empresa tem trabalhado com dubladores para criar fontes de voz personalizadas para cada personagem. No ano passado, o Duolingo apresentou a voz de Lily em inglês e espanhol, e a de Junior em inglês. Eventualmente, todos os nove personagens serão apresentados em inglês, espanhol, francês, alemão e japonês. Os alunos de línguas podem esperar ouvir de novos personagens, incluindo Bea, um viajante do mundo tipo A, e Vikram, um marido dedicado e chef pasteleiro, ainda este ano.

A Voz Neural Customizada também pode ser usada para criar uma fonte de voz personalizada que não imita diretamente uma pessoa ou personagem existente.

“Temos a capacidade de criar vozes compostas e experimentar a criação de vozes que nunca existiriam de fato, reunindo o melhor de diferentes origens”, disse Bird. “Esta é a tecnologia que está revelando o potencial criativo das pessoas.”

Bird e Boyd acreditam que a tecnologia de voz neural personalizada abrirá portas para um envolvimento mais profundo, seja por meio de entretenimento, informação ou educação.

“Uma das coisas realmente empolgantes sobre a IA é que ficamos constantemente surpresos com as maneiras como você pode usá-la, muito além do que imaginávamos originalmente”, disse Boyd. “É muito emocionante ver o que as pessoas podem fazer com isso.”

 

Saber mais:

John Roach contribuiu para esta postagem.

Imagem superior: Os visitantes da AT&T Experience Store em Dallas podem interagir com Pernalonga e outros personagens em realidade aumentada. O personagem fala com os clientes usando uma voz sintética criada usando Voz Neural Customizada, um recurso dentro dos Serviços Cognitivos do Azure. LOONEY TUNES e todos os personagens e elementos relacionados © & ™ Warner Bros. Entertainment Inc. (s21).

Tags: , , , , ,

Posts Relacionados