Conquista histórica: pesquisadores da Microsoft alcançam paridade humana no reconhecimento de voz em conversas

Por Allison Linn //

A Microsoft registrou um grande avanço no reconhecimento de voz ao criar uma tecnologia que reconhece as palavras em uma conversa, da forma como as pessoas as pronunciam.

Em artigo publicado recentemente, uma equipe de pesquisadores e engenheiros da Microsoft Artificial Intelligence and Research relatou um sistema de reconhecimento de voz que comete erros iguais ou menos que os transcritores profissionais. Os pesquisadores reportaram uma taxa de erro de palavras (word error rate – WER) de 5,9%, menor que a de 6,3% relatada no mês passado.

A taxa de erro de 5,9% é igual a de pessoas às quais solicitou-se que transcrevessem a mesma conversa e é a menor já registrada em relação ao padrão Switchboard para tarefa de reconhecimento de voz.

“Alcançamos a paridade humana”, afirma Xuedong Huang, cientista-chefe de reconhecimento de voz da empresa. “Isso é uma conquista histórica.”

Esse marco significa que, pela primeira vez, um computador pode reconhecer as palavras em uma conversa da mesma forma que uma pessoa. A equipe superou o objetivo definido há um ano e as expectativas de todos.

“Cinco anos atrás, eu não imaginaria que poderíamos conseguir realizar isso. Eu realmente não pensaria que isso seria possível”, afirma Harry Shum, vice-presidente executivo que comanda o grupo Microsoft Artificial Intelligence and Research.

O marco chega após décadas de pesquisa em reconhecimento de voz, começando nos anos 70 com a DARPA, agência americana responsável por realizar avanços tecnológicos para atender a interesses de segurança nacional. Nas décadas seguintes, a maioria das empresas de tecnologia e muitas organizações de pesquisa se juntaram à busca.

“Essa conquista é o ponto alto de quase vinte anos de esforço”, afirma Geoffrey Zweig, que gerencia o grupo de pesquisa de Fala & Diálogo.

Esse marco terá implicações maiores para produtos de uso pessoal e de negócios que podem ser melhorados significativamente com o reconhecimento de voz. Isso inclui dispositivos de entretenimento como o Xbox, ferramentas de acessibilidade como transcrições instantâneas de áudio para texto e assistentes pessoais digitais, como a Cortana.

“Isso tornará a Cortana mais poderosa, tornando-a a assistente mais inteligente possível”, afirma Shum.

Paridade, não perfeição

O feito não significa que o computador reconhece todas as palavras perfeitamente. E os humanos também não conseguem. Significa que a taxa de erro – ou a taxa na qual o computador confunde uma palavra, como “ser” por “ter” ou “a” por “ao” – é a mesma que você espera de uma pessoa ouvindo a mesma conversa.

Zweig atribui a conquista ao uso sistemático da mais nova tecnologia de redes neurais em todos os aspectos do sistema.

O impulso que levou os pesquisadores a esse patamar foi o uso de modelos neurais de linguagem nos quais palavras são representadas como vetores contínuos no espaço e palavras como “rápido” e “ágil” ficam próximas.

“Isso permite que o modelo generalize muito bem de palavra em palavra”, afirma Zweig.

“Um sonho se torna realidade”

Redes neurais profundas usam grandes quantidades de dados – chamadas conjuntos de treinamento – para ensinar sistemas computacionais a reconhecer padrões de insumos, como imagens ou sons.

Para atingir a marca de paridade humana, a equipe usou o Kit de Ferramentas de Rede Computacional (Computational Network Toolkit – CNTK) da Microsoft, um sistema feito em casa para a aprendizagem profunda, que a equipe de pesquisa colocou à disposição no GitHub por meio de uma licença de código aberto.

Huang disse que a capacidade do CNTK de processar rapidamente algoritmos de aprendizagem profunda em vários computadores rodando com um chip específico, chamado de unidade de processamento gráfico, melhorou muito a velocidade de realização das pesquisas e, finalmente, alcançou a paridade humana.

Os ganhos foram rápidos porque a equipe percebeu a caminho do que estava e era difícil parar de trabalhar. Huang disse que a marca foi alcançada próximo das 3h30 da manhã; ele descobriu quando acordou algumas horas mais tarde e viu um post vitorioso em uma rede social privada.

“Foi um sonho que se tornou realidade para mim”, disse Huang, que vem trabalhando em reconhecimento de voz por mais de três décadas.

Essa notícia veio na mesma semana em que outro grupo de pesquisadores da Microsoft, focado em visão computacional, atingiu outra marca. A equipe ganhou o primeiro lugar no desafio de segmentação de imagem COCO, que julga quão bem uma tecnologia pode determinar onde certos objetos estão numa imagem.

Baining Guo, diretor-geral adjunto da Microsoft Research Ásia, disse que a segmentação é particularmente difícil porque a tecnologia deve delimitar com precisão o limite onde um objeto aparece em uma imagem.

“Essa é a parte mais difícil de descobrir na imagem “, disse ele.

Os resultados da equipe, construídos no premiado sistema de rede neural muito profundo que os especialistas em visão computacional da Microsoft conceberam no ano passado, foi 11% melhor do que o segundo colocado e um avanço significativo sobre o primeiro lugar obtido pela Microsoft em 2015.

“Nós continuamos a ser líderes na área de reconhecimento de imagem”, disse Guo.

Do reconhecimento à verdadeira compreensão

Apesar dos grandes avanços nos últimos anos, tanto no reconhecimento de voz quanto no de imagem, os pesquisadores alertam que ainda há muito trabalho a ser feito.

Zweig disse que os pesquisadores estão trabalhando em maneiras de se certificar de que o reconhecimento de voz funciona bem em mais situações da vida real. Isso inclui lugares onde há uma grande quantidade de ruído de fundo, como uma festa ou ao dirigir na estrada. Eles também vão se concentrar em melhores maneiras de ajudar a tecnologia a atribuir nomes aos alto-falantes individuais quando várias pessoas estão falando, e em certificar-se de que funciona bem com uma grande variedade de vozes, independentemente da idade, do sotaque ou da habilidade.

A longo prazo, os pesquisadores vão se concentrar em maneiras de ensinar os computadores não apenas a transcrever os sinais acústicos que saem da boca das pessoas, mas a compreender as palavras que estão dizendo. Isso daria à tecnologia a capacidade de responder a perguntas ou agir com base no que é dito.

“A próxima fronteira é passar do reconhecimento para o entendimento”, disse Zweig.

Shum notou que estamos nos afastando de um mundo onde as pessoas devem entender os computadores para um mundo em que os computadores devem nos entender. Ainda assim, ele advertiu, a verdadeira inteligência artificial ainda está no horizonte distante.

“Vai ser muito mais tempo, muito mais além na estrada até que os computadores possam entender o verdadeiro significado do que está sendo dito ou mostrado”, disse Shum.

Siga Harry Shum e Xuedong Huang no Twitter.

Allison Linn é redatora sênior na Microsoft. Siga-a no Twitter.

Tags: ,

Posts Relacionados