Por Xuedong Huang //
A equipe de pesquisadores da Microsoft especializada em voz e diálogo anunciou no ano passado um marco histórico em reconhecimento de voz conversacional, quando o Switchboard alcançou a paridade humana. Isso significa que criamos uma tecnologia capaz de reconhecer palavras em uma conversa da mesma forma que os transcritores humanos profissionais.
Depois que nosso sistema de transcrição atingiu a taxa de erro de 5,9% por palavra, também medida em seres humanos, outros pesquisadores conduziram seu próprio estudo, usando um processo de multitranscrição mais envolvente, que resultou na taxa de paridade humana de erro de 5,1% por palavra. Esse percentual foi consistente com a pesquisa anterior, cujo resultado havia mostrado que os humanos conseguem níveis mais altos de acerto com as palavras faladas porque se esforçam e prestam mais atenção. Agora, estou feliz em anunciar que nossa equipe de pesquisa alcançou a mesma taxa de erro de 5,1% com nosso sistema de reconhecimento de voz. Esse é um novo marco para o setor, superando substancialmente o nível de precisão que conseguimos no ano passado. Um relatório técnico publicado no último fim de semana mostra os detalhes do sistema.
O Switchboard é um repositório de conversas telefônicas gravadas que a comunidade de pesquisa de voz tem usado há mais de 20 anos para comparar sistemas de reconhecimento de fala. A tarefa envolve a transcrição de conversas entre estranhos que discutem temas como esportes e política.
Na comparação com o nível de precisão do ano passado, reduzimos nossa taxa de erro em cerca de 12%, usando uma série de melhorias em nossos modelos acústicos e de linguagem baseados em rede neural. Também apresentamos um modelo adicional CNN-BLSTM (rede de convolação neural combinada com memória bidirecional de longo e curto prazo) para a modelagem acústica melhorada. Além disso, nossa abordagem para combinar previsões de múltiplos modelos acústicos agora faz isso nos níveis de quadro/senone e palavra.
Fortalecemos o modelo de linguagem do reconhecedor usando todo o histórico de uma sessão de diálogo para prever o que pode vir em seguida, permitindo que o modelo se adapte ao tópico e ao contexto local de uma conversa.
Nossa equipe também se beneficiou do uso do software mais escalável de aprendizado profundo disponível, o Microsoft Cognitive Toolkit 2.1 (CNTK), para explorar modelos de arquiteturas e otimizar os hiperparâmetros de nossos modelos. O investimento da Microsoft em infraestrutura de computação em nuvem, especificamente as Azure GPUs, ajudou a melhorar a eficácia e a velocidade com que poderíamos treinar nossos modelos e testar novas ideias.
Atingir um nível de igualdade com humanos e com a mesma precisão tem sido uma meta de pesquisa nos últimos 25 anos. A vontade da Microsoft de investir em pesquisa a longo prazo está sendo recompensada em produtos e serviços para nossos clientes, como Cortana, Presentation Translator e Microsoft Cognitive Services. É muito gratificante para nossas equipes de pesquisa ver nosso trabalho usado por milhões de pessoas diariamente.
Muitos grupos de pesquisa no setor e na academia estão fazendo um excelente trabalho no reconhecimento de fala. Nosso próprio esforço se beneficiou muito com o progresso da comunidade como um todo. Embora a obtenção de uma taxa de erro de 5,1% por palavra no reconhecimento de fala no Switchboard seja uma conquista significativa, a comunidade de pesquisa ainda tem muitos desafios a vencer, como alcançar níveis de reconhecimento humano em ambientes ruidosos com microfones distantes, identificar o discurso acentuado ou estilos de fala e idiomas para os quais apenas dados de treinamento limitados estão disponíveis. Além disso, temos muito trabalho a fazer no ensino de computadores, não apenas para transcreverem as palavras faladas, mas também para entender seu significado e intenção. Passar do reconhecimento ao entendimento do discurso é a próxima grande fronteira para a tecnologia da fala cruzar.
Xuedong Huang é Technical Fellow na Microsoft.