Como um telefonema: XiaoIce, chatbot social da Microsoft na China, faz avanços em conversas naturais

Por Allison Linn //

Usuária experimenta a nova funcionalidade da XiaoIce, chatbot social da Microsoft na China

Quando as pessoas interagem com a maioria dos assistentes digitais pessoais ou chatbots, a experiência é muito parecida com falar em um walkie-talkie ou em mensagens de texto: primeiro uma pessoa diz ou escreve algo, e depois a outra digere essa informação e responde.

Li Zhou, engenheiro-chefe da XiaoIce

É eficaz, mas Li Zhou, engenheiro-chefe da XiaoIce, chatbot social de Inteligência Artificial (IA) da Microsoft, muito popular na China, observa que isso tem uma grande desvantagem.

“As pessoas não falam dessa maneira”, disse Zhou.

Ao contrário, ele observa, quando a maioria das pessoas está ao telefone ou conversando pessoalmente, elas estão conversando e ouvindo ao mesmo tempo – geralmente prevendo como a outra pessoa pode terminar uma frase e talvez interrompendo alguém quando apropriado ou quebrando um silêncio constrangedor para oferecer um novo pensamento com base nas informações que estão reunindo.

Agora, a Microsoft acredita ter criado o primeiro avanço tecnológico que pode permitir que as pessoas conversem com um chatbot baseado em IA de forma mais semelhante à experiência natural de falar ao telefone com um amigo.

A empresa recentemente incorporou esses avanços à XiaoIce, chatbot social que tem mais de 200 milhões de usuários na Ásia, e está trabalhando para aplicar os mesmos avanços a outros chatbots sociais, incluindo a Zo, nos Estados Unidos.

Ying Wang, diretor da Microsoft que supervisiona a Zo

No jargão das telecomunicações, o avanço permite que a XiaoIce opere em “full duplex” –termo que se refere à capacidade de se comunicar em ambas as direções simultaneamente, como uma ligação telefônica. Essa modalidade difere da “half duplex”, que é mais parecida com a experiência de walkie-talkie, em que apenas uma pessoa pode falar de cada vez.

Zhou disse que a nova atualização, que a Microsoft chama de “sentido de voz full-duplex”, também expande a capacidade da XiaoIce de prever o que a pessoa com quem ela está conversando dirá a seguir. Isso a ajuda a tomar decisões sobre como e quando responder a alguém que está conversando com ela, um conjunto de habilidades que é muito natural para as pessoas, mas ainda não é comum em chatbots.

“Esta é a arte da conversa que as pessoas usam no cotidiano”, disse Zhou.

O sentido de voz full duplex reduz o tempo de atraso não natural que pode, às vezes, tornar as interações com os chatbots estranhas ou forçadas.

“Isso realmente acelera suas respostas para ser muito mais natural”, disse Ying Wang, diretor da Microsoft que supervisiona a Zo.

Além disso, a nova tecnologia significa que os usuários não precisam usar uma “palavra de ativação” (geralmente, o nome do chatbot) toda vez que respondem durante as conversas.

Di Li, gerente-geral da Microsoft para a XiaoIce

O avanço se baseia em algumas outras habilidades que a XiaoIce desenvolveu, como a capacidade de pausar uma coisa que está fazendo – contando uma história, por exemplo – para fazer outra coisa, como acender uma luz. Ela pode então lembrar-se de voltar a contar a história – mais uma vez, da mesma forma que uma pessoa pode trocar de assunto por alguns instantes, mas depois retornar ao tópico original.

Di Li, gerente-geral da Microsoft para a XiaoIce, disse que todas essas melhorias fazem parte do esforço da Microsoft de construir chatbots sociais baseados em Inteligência Artificial que entendam as necessidades emocionais e intelectuais das pessoas. Isso é fundamental para as metas gerais de XiaoIce, Zo e outros chatbots sociais da Microsoft em todo o mundo, incluindo Ruuh, na Índia, e Rinna, no Japão e na Indonésia.

Ao contrário dos assistentes focados na produtividade, como a Cortana, os chatbots sociais da Microsoft são projetados para funcionar em sessões mais longas e mais conversacionais com os usuários. Eles têm senso de humor, podem conversar, jogar, lembrar detalhes pessoais e se envolver em brincadeiras interessantes com as pessoas, como você faria com um amigo.

Li observou que o sentido de voz full duplex é o tipo de avanço que ajuda a tornar bem-sucedidos esses tipos de conversa.

“Porque é muito natural, faz o usuário se sentir bem relaxado”, disse ele.

Allison Linn é redatora sênior na Microsoft.

Fotos: cortesia da Microsoft

Tags: , , , , ,

Posts Relacionados