與人工智慧通電話:微軟將語音交互自然度推進到新層次

現在,人們和大多數個人語音助理或聊天機器人的對話場景就像拿著對講機或發簡訊一樣:一方先講話或寫下文字,另一方收聽或閱讀這些訊息後再做出回應。這種交流方式看起來很簡單,微軟小冰全球研發負責人周力博士卻在近期直言,這種方式存在一個很大的缺點:「實際上,這並不是人們自然的交流方式。」周力說。

對此他指出,人與人之間在打電話或面對面聊天時,都會邊聽邊想,事先預測對方的這句話會說什麼。還可能在適當的時候打斷對方,或在雙方都不說話時打破沉默,然後根據對方的反應展開新的話題,這才是自然的交流方式。

近日,微軟宣布率先推出新一代的語音交互技術:全雙工語音交互感官(Full-duplex Voice Sense),並已完成讓產品落地,使用戶與人工智慧之間的語音交互能更貼近人類自然的對話方式,就像是在與朋友打一通電話,自然地聊天。

目前該技術已經被應用到一位擁有2億多使用者的對話式人工智慧少女微軟小冰上。同時,微軟也正在將這項突破性的技術應用到微軟在美國開發的聊天機器人Zo等其他對話式人工智慧中。

用通訊產業的術語來說,這一技術使小冰能夠以「全雙工」模式傳輸數據。交流的雙方可以同時說話,像在打電話一樣,而在「半雙工」模式下,一次只能由一個人說話,交互體驗類似於對講機。

周力表示,這項技術可以讓小冰預測人類即將說出的內容,生成回應並控制對話節奏。這種能力對人類來說非常平常,但在人工智慧中並不常見。「這是人們在日常生活中使用的對話藝術,」周力說。

綜合來看,全雙工語音交互感官技術減少了對話中不自然的停頓,這種停頓可能會讓人工智慧和人類的對話很不自然或非常費力。「這確實加快了她的回答速度,讓對話更加自然。」Zo的負責人王穎表示。

此外,採用該技術的智慧硬體設備將不再需要使用者在每輪對話時都說出喚醒詞(通常是人工智慧的名字)。僅需一次喚醒,就可以輕鬆達成連續對話。

小冰豐富的技能,也讓這一技術有了更大的發揮空間:例如,小冰能夠暫停正在執行的任務(例如暫停為使用者講故事),然後去執行其他任務(例如開燈),然後還能回來繼續剛才的故事。就像一個人可以在對話中暫停話題,之後再回到原來的話題上。

微軟小冰總負責人李笛表示,這些進步是微軟在構建情商和智商兼備的對話式人工智慧上所做出的努力的一部分,旨在讓這些對話式人工智慧可以更好地理解人們的情感和智力需求。這也是小冰、Zo以及微軟在全球開發的其他人工智慧,如印度的Ruuh、日本的凛菜りんな和印度尼西亞的Rinna的整體核心目標。

與微軟小娜等完成任務導向的智慧個人助理不同,微軟小冰以EQ情商發展為方向,能夠與使用者進行更長時間、更自然的對話兼具幽默感,可以與使用者閒聊、談心、玩遊戲,甚至可以記住使用者的資訊,像跟朋友聊天一樣就某個有趣的話題展開對話。

李笛指出,全雙工語音交互感官帶來了技術上的優勢,讓使用者能更好地把人工智慧當成交流伴侶進行對話。「因為這種技術讓對話的體驗非常自然,讓使用者感覺很放鬆。」李笛說。

Tags: , ,

相關文章