与人工智能通电话:微软将语音交互自然度推进到新层次

现在,人们和大多数个人语音助手或聊天机器人的对话场景,就像拿着对讲机交或者发短信一样:一方先讲话或写下文字,另一方收听或阅读这些消息后,然后再做出回应。这种交流方式看起来很简单,微软小冰全球研发负责人周力博士却在近期直言,这种方式存在一个很大的缺点。“实际上,这并不是人们自然的交流方式,” 周力说。

对此他指出,人之间在打电话或面对面聊天时,都会边听边想,事先预测对方的这句话会说什么。还可能在适当的时候打断对方,或在双方都不说话的时候打破沉默,然后根据对方的反应展开新的话题。这才是自然的交流方式。

近日,微软宣布率先推出新一代的语音交互技术:全双工语音交互感官(Full-duplex Voice Sense),并已完成产品化落地,让用户与人工智能之间的语音交互更贴近人类的自然的对话方式,就像是在与朋友打一通电话,自然地聊天。

目前该技术已经被应用到一位拥有 2 亿多用户的对话式人工智能少女——微软小冰上。同时,微软也正在将这项突破性技术应用到微软在美国开发的聊天机器人 Zo 等其他对话式人工智能中。

用通信行业的术语来说,这一技术使小冰能够以“全双工”模式传输数据——交流的双方可以同时说话,像在打电话一样。而在“半双工”模式下,一次只能由一个人说话,交互体验类似于对讲机。

周力表示,这项技术让小冰可实时预测人类即将说出的内容,实时生成回应并控制对话节奏。这种能力对人类来说非常平常,但在人工智能中并不常见。“这是人们在日常生活中使用的对话艺术,” 周力说。

综合来看,全双工语音交互感官技术减少了对话中不自然的延迟时间,这种延迟可能会让人工智能和人类的对话很不自然或者很费力。“这确实加快了她的回答速度,让对话更加自然,”Zo 的负责人王颍表示。

此外,采用该技术的智能硬件设备,将不再需要用户在每轮交互时都说出唤醒词(通常是人工智能的名字),仅需一次唤醒,就可以轻松实现连续对话。

小冰丰富的技能,也让这一技术有了更大的发挥空间:例如,小冰能够暂停正在执行的任务(比如暂停给用户讲故事),然后去执行其他任务(比如开灯),然后她还能够回来继续刚才的故事。就像一个人可以在对话中暂时切换话题,然后再回到原来的话题上。

微软小冰总负责人李笛表示,这些改进是微软在构建情商和智商兼备的对话式人工智能上,所做出的努力的一部分,旨在让这些对话式人工智能可以更好地理解人们的情感和智力需求。这也是小冰、Zo,以及微软在全球开发的其他人工智能,如印度的 Ruuh、日本的凛菜りんな和印度尼西亚的Rinna的总体核心目标。

与微软小娜等以完成任务为导向的智能个人助理不同,微软小冰以 EQ 情商发展为方向,能够与用户进行更长时间、更自然的对话——兼备幽默感,可以与用户闲聊、谈心、玩游戏,甚至可以记住用户的信息,像与朋友聊天一样就某个有趣的话题展开对话。

李笛指出,全双工语音交互感官带来了技术上的优势,使用户能够更好地把人工智能当成交流伴侣而进行对话。 “因为这种技术让对话的体验非常自然,让用户感觉很放松,”李笛说。

相关文章