Barreiras caem quando as tecnologias de fala e linguagem da Microsoft saem do laboratório

Por John Roach

Will Lewis demonstra tradução em tempo real
Will Lewis, gerente de programa da equipe do Microsoft Translator, demonstra a tradução em tempo real com Amanda Song, gerente de programa, no Conversations on AI, evento da Microsoft em San Francisco. Foto de John Brecher/Microsoft

 

A Microsoft incorporou sistemas de alto nível para tradução entre chinês, alemão e inglês, baseados em pesquisas inovadoras, em suas tecnologias de tradução para o público, anunciou a empresa na terça-feira, 13.

A nova tecnologia de tradução é um dos vários avanços recentemente transferidos dos laboratórios de pesquisa da Microsoft para as mãos dos consumidores.

Essas tecnologias “estão tornando este mundo um lugar melhor”, disse Xuedong Huang, membro técnico da Microsoft Nuvem e IA, que lidera o grupo de Fala e Linguagem.

Os novos sistemas de tradução para chinês, alemão e inglês, por exemplo, são baseados em pesquisas pioneiras em tradução automática que usaram redes neurais avançadas para alcançar a paridade humana na tradução de artigos do chinês para o inglês. Os engenheiros de computação da Microsoft adaptaram esse sistema de pesquisa ao conjunto de tecnologias de tradução disponível nos Serviços Cognitivos do Azure, incluindo o aplicativo Microsoft Translator e o plug-in Presentation Translator para PowerPoint.

A equipe planeja aplicar a tecnologia a idiomas adicionais suportados pelo Microsoft Translator nos próximos meses.

A equipe de Huang também atualizou recentemente um sistema de reconhecimento de fala para o inglês que está disponível por meio dos Serviços de Fala dos Serviços Cognitivos do Azure. O recurso foi adaptado de um sistema de pesquisa que atingiu a paridade humana em transcrições de conversas telefônicas humanas gravadas, que os testes de benchmark demonstraram serem “inigualáveis”, observou Huang.

Para dar voz a essas palavras e idiomas, a equipe de Huang desenvolveu e disponibilizou em preview nos Serviços Cognitivos do Azure um sistema neural de síntese de texto para fala que gera vozes digitais a partir de textos quase indistinguíveis das gravações de pessoas. A tecnologia pode ser usada para tornar as interações com chatbots e assistentes virtuais mais naturais e envolventes, converter textos digitais como e-books em audiolivros e aprimorar a navegação no carro, por exemplo.

O grupo de Fala e Linguagem também mostrou recentemente um novo protótipo de dispositivo audiovisual que aproveita um avanço chamado de “reconhecimento de fala de campo distante aprimorado pela visão” para produzir transcrições precisas mesmo quando as pessoas não estão falando diretamente em um microfone. A tecnologia de campo distante está disponível para desenvolvedores por meio do Dispositivos de Fala SDK.

Embora este ainda seja um projeto de pesquisa, Huang disse que o protótipo do dispositivo da Microsoft que aproveita essa tecnologia poderia permitir mais digitalização em reuniões. As traduções em tempo real permitem que pessoas que falam idiomas diferentes conversem naturalmente em tempo real, sem a necessidade de manter um dispositivo próximo à boca, por exemplo. O sistema também gera transcrições em tempo real com cada alto-falante automaticamente identificado. Essas transcrições são pesquisáveis, permitindo que as pessoas que não puderam comparecer à reunião descubram quem disse o quê.

“Isso vai aumentar a produtividade e a eficiência”, disse Huang.

John Roach escreve sobre pesquisa e inovação da Microsoft.

Tags:

Posts Relacionados