Qual é a visão da Microsoft para a IA de conversação? Computadores que entendem você

Mulher dialoga com um assistente inteligente

Mulher dialoga com um assistente inteligente que a ajuda a lidar com compromissos futuros em seu calendário. O assistente usa tecnologia de aprendizado de máquina criada pela Semantic Machines, que a Microsoft adquiriu em maio de 2018 e incorporará em todos os seus produtos e ferramentas de IA de conversação. (Foto: Microsoft)

 

John Roach

Os assistentes inteligentes atuais estão cheios de habilidades. Eles podem verificar previsão do tempo, condições do tráfego e resultados esportivos. Podem tocar música, traduzir palavras e enviar mensagens de texto. Podem até fazer cálculos, contar piadas e ler histórias. Mas, quando se trata de conversas que levam a algum lugar maior, as rodas travam.

“Você tem de procurar combinações mágicas de palavras para conseguir que várias coisas aconteçam, e descobre que muitas das funções que espera que a coisa faça, ela simplesmente não consegue”, disse Dan Roth, vice-presidente corporativo e ex-CEO da Semantic Machines, que a Microsoft adquiriu em maio de 2018.

Por exemplo, Roth explicou, os sistemas atuais podem adicionar um novo compromisso ao seu calendário, mas não se engajam em um diálogo de ida e volta com você sobre como conciliar uma solicitação de reunião de alta prioridade. Eles também são incapazes de usar informações contextuais para ajudá-lo a tomar decisões, como verificar o tempo antes de agendar uma reunião à tarde no pátio de uma cafeteria próxima.

A próxima geração de tecnologias de assistentes inteligentes da Microsoft será capaz de fazer isso, aproveitando avanços em inteligência artificial de conversação e aprendizado de máquina produzidos pela Semantic Machines.

A equipe revelou sua visão para o próximo salto na tecnologia de interface de linguagem natural esta semana na Microsoft Build, conferência anual para desenvolvedores, em Seattle, e anunciou planos para incorporar essa tecnologia em todos os seus produtos e ferramentas de IA de conversação, incluindo a Cortana.

Ensinar contexto e conceitos

Interfaces de linguagem natural são tecnologias que visam permitir nossa comunicação com os computadores da mesma forma que falamos uns com os outros. Quando as interfaces de linguagem natural funcionarem como Roth e sua equipe imaginam, nossos computadores vão nos entender, conversar conosco e fazer o que queremos que eles façam, da mesma forma que a maioria das pessoas consegue entender uma solicitação complexa que requer algumas ações.

“Sermos capazes de nos expressar da maneira como evoluímos para nos comunicar e podermos amarrar isso em todos esses sistemas realmente complicados sem ter que saber como eles funcionam é a promessa e a visão das interfaces de linguagem natural”, disse Roth.

Dan Roth
Dan Roth, vice-presidente corporativo da Microsoft e ex-CEO da Semantic Machines, disse que a tecnologia de sua equipe permitirá que os computadores nos entendam, conversem conosco e façam o que queremos que eles façam. (Foto: Dana Quigley para a Microsoft)

A tecnologia de linguagem natural nos assistentes inteligentes atuais, como a Cortana, aproveita o aprendizado de máquina para entender a intenção do comando de um usuário. Uma vez determinada a intenção, um programa manuscrito – uma especialidade – é acionado seguindo um conjunto predeterminado de ações.

Por exemplo, a pergunta “Quem venceu a partida de futebol de hoje entre Liverpool e Barcelona?” solicita um conhecimento esportivo que segue as regras de um script pré-codificado para preencher campos para o tipo de esporte, informações solicitadas, data e equipes. “Será que vai chover neste fim de semana?” solicita um conhecimento de tempo e segue regras pré-script para obter a previsão de fim de semana.

Como as regras para essas trocas são manuscritas, os desenvolvedores devem antecipar todas as maneiras pelas quais o conhecimento pode ser usado e escrever um roteiro para cobrir cada cenário. A incapacidade dos humanos de roteirizar todos os cenários possíveis limita o escopo e a funcionalidade das especialidades, explicou Roth.

A tecnologia da Semantic Machines estende o papel do aprendizado de máquina além das intenções por todo o percurso até habilitar o que o sistema faz. Em vez de um programador tentar escrever uma habilidade que planeje para cada contexto, o sistema Semantic Machines aprende a funcionalidade a partir dos dados.

Em outras palavras, a tecnologia Semantic Machines aprende como mapear as palavras das pessoas para as etapas computacionais necessárias para realizar as tarefas solicitadas.

Por exemplo, em vez de executar um programa escrito manualmente para obter a pontuação da partida de futebol, a abordagem da Semantic Machines começa com pessoas que mostram ao sistema como obter pontuações esportivas em vários contextos de exemplo para que ele possa aprender a buscar resultados esportivos.

Além disso, os métodos de aprendizado de máquina permitem que o sistema generalize a partir de contextos que viu para novos contextos, aprendendo a fazer mais coisas de várias maneiras. Se aprender como obter pontuações esportivas, por exemplo, também pode obter previsões do tempo e relatórios de tráfego. Isso porque o sistema aprendeu não apenas uma habilidade, mas o conceito de como coletar dados de um serviço e apresentá-los de volta ao usuário.

Isso está faltando nos assistentes inteligentes atuais, programados para fazer uma lista de coisas isoladas que um programador antecipou. O aprendizado de máquina nesses sistemas se concentra principalmente em palavras que desencadeiam uma habilidade, explicou o technical fellow da Microsoft, Dan Klein, líder reconhecido no campo do processamento de linguagem natural e professor de ciência da computação na Universidade da Califórnia em Berkeley.

“Eles não estão focados em aprender como fazer coisas novas ou misturar e combinar as coisas que já conhecem para apoiar novos contextos”, disse Klein, que também foi cofundador e cientista-chefe da Semantic Machines.

Conversa dinâmica

Como o sistema Semantic Machines pode aprender como fazer coisas novas, ele pode se envolver mais facilmente em uma conversa dinâmica com uma pessoa, acessando e reunindo conteúdo relevante, contexto e conceitos de fontes diferentes para fornecer respostas, apresentar opções e produzir resultados.

O sistema Semantic Machines também tem uma memória para acompanhar o contexto em uma conversa e a chamada capacidade full duplex para falar e ouvir ao mesmo tempo, a fim de manter o diálogo fluindo.

“Tudo o que você diz é contextualizado pelo que veio antes, de modo que você possa fazer coisas mais complicadas: mudar de ideia, explorar”, disse Klein. “Além disso, quando as coisas se contextualizam o suficiente, a noção de uma habilidade começa a se dissolver.”

Isso ocorre porque a noção de habilidades restringe as interações aos silos de dados, enquanto a conversa verdadeira depende da conexão de dados de todo o lugar. A tecnologia Semantic Machines orquestra a coleta de dados e a realização de tarefas no backend, mantendo um diálogo fluido e natural com o usuário no frontend.

Reorganizar sua programação para acomodar uma reunião de alta prioridade, por exemplo, exige dados de agenda e dados de diretório para determinar quem é gratuito, quando, além de dados contextualmente relevantes, como clima, cafés e tráfego próximos para descobrir onde encontrar e sentar-se e quando sair para chegar no horário.

“Quando você começa a deixar as coisas evoluírem e se conectarem contextualmente, a noção de uma habilidade é muito limitada”, disse Klein. “Fazer as coisas envolve misturar e combinar.”

Construindo com linguagem natural

Na Build, a Microsoft apresentou um aplicativo de calendário com tecnologia Semantic Machines, que pode organizar o seu dia com um assistente inteligente numa experiência mais fluida, natural e poderosa. A mesma tecnologia pode ser aplicada a qualquer experiência de conversação e, eventualmente, possibilitará conversas em todos os produtos e serviços da Microsoft.

Isso se baseará nos recursos atuais da Cortana, como fornecer respostas a perguntas, oferecer visualizações do seu dia e ajudar você em seus dispositivos, de telefone a laptop e a alto-falante inteligente.

Uma vez incorporada na Cortana, por exemplo, a tecnologia pode fazer com que as coisas sejam feitas no Office mais relacionadas com o que você precisa fazer e menos sobre como realizar tarefas em determinados aplicativos.

“Queremos que seja menos carga cognitiva, menos sentir que tenho que ir ao PowerPoint para isso ou Word para aquilo, ou Outlook para isso e Teams para aquilo, e mais sobre as preferências e intenções pessoais”, disse Andrew Shuman, vice-presidente corporativo da Microsoft para Cortana.

Além disso, acrescentou Roth, a tecnologia será disponibilizada pelo Microsoft Bot Framework. Sua equipe está atualmente criando uma maneira de os desenvolvedores que trabalham nessa estrutura migrarem seus dados existentes para o mecanismo de conversação com máquinas semânticas quando estiverem prontos.

“Como desenvolvedor, você pode começar a construir essas experiências sozinho”, disse ele. “Podemos, coletivamente, mover, com base nessa tecnologia, além dessa noção de habilidades e silos e simples programas manuscritos para o tipo de interfaces de linguagem natural fluidas como as de Star Trek que todos nós queremos.”

John Roach escreve sobre pesquisa e inovação da Microsoft.

Tags: , ,

Posts Relacionados