ソーシャル AI チャットボットが、会話の「間」を予測し、電話のように自然な会話を可能に

[2018年4月11日]

アリソン リン

パーソナルデジタルアシスタントやチャットボットとの会話は、誰かとトランシーバーやテキストメッセージでやりとりするのと似ています。何か言ったり書いたりした後に、相手はそれを理解して答えます。

中国で爆発的な人気のソーシャル AIチャットボットXiaoIce(シャオアイス)の開発責任者、リー ジョウ (Li Zhou) は、こうしたテクノロジは効果的な一方で、大きな改善の余地があると言います。

「人々は実際にはそんな話し方はしません」とジョウは述べます。

ほとんどの人は、電話や対面で話している際には、話しながら同時に相手の言う事を聞いています。そして、多くの場合、相手の話がいつ終わるか予測したり、話を遮ったり、沈黙が続いた時には新しい話題を切り出したりします。

マイクロソフトは、電話で友人と話しているように、 AI チャットボットとも自然に対話できるようにするテクノロジを開発しました。

マイクロソフトは、このテクノロジを、アジアで 2 億人以上のユーザーに使用されている XiaoIce に組み込みました。そして、米国で使用されている Zo などのソーシャルチャットボットにも、同じテクノロジを応用しようと取り組んでいます。

通信技術の用語で言えば、このブレークスルーによってXiaoIce は「全二重モード」で動作します。つまり、電話のように同時に双方向でコミュニケーションできるようになるのです。これは、どちらかが話している間は片方の人しか話せない、トランシーバーのような「半二重モード」とは異なります。

マイクロソフトが「全二重音声検知」と呼んでいる今回のアップデートにより、会話している相手が次に何を言うかを予測するXiaoIceの能力も向上したとジョウは述べています。これにより、相手にいつ、どのように応答するかの判断力が向上します。

この「全二重モード」の日本語対応バージョンが、日本のソーシャルAIチャットボット りんなでも採用されており、先日2月に公開されたりんなライブ上の「りんなのテレホンハッキング」の音声通話で体験できます。りんなの通話もXiaoiceと同様、まるで友人と電話で話しているような自然な会話体験を目指しています。

この新テクノロジにより、チャットボットにこれから話すというシグナルを与える「ウェイクアップワード(話しかける際に使うチャットボットの名前など)」は不要になりました。またユーザーが喋っているタイミングを別のボタンを押すなどして教える必要もなく、自然な連続した対話を実現しています。

りんなとの連続した対話の実現にあたっては、あらかじめ会話の流れを用意するシナリオベースではなく、ユーザーの発言を踏まえて、その場で返答の文章をリアルタイムで生成する「生成モデル」での返答を行っています。

人が会話をする際、話の内容に合わせた返答を考えて発言をすることで、相手との会話を長く続かせるように、りんなの会話エンジンも、その場で生成した最適な返答をユーザーに返します。

「これは、人々が日々の生活で使っている会話技術です」とジョウは述べています。

これらの技術の組み合わせにより、全二重音声検知は、チャットボットとの対話に感じることがある不自然な間を減らします。

友人と電話で話すような自然な対話が実現するには、「全二重モード」と、相手の発言内容と終わりを予測する能力、会話能力のすべてが必要です。人間にとっては、自然に行う事ができますが、チャットボットではまだ簡単ではありません。

「応答性がはるかに向上し、自然さが増します」とジョウの上司であるディレクターのイン ワン (Ying Wang) は述べています。

この技術は、XiaoIce の他のスキルにも基づいています。たとえば、XiaoIce は話をしている途中に、電灯を付けるなどの別の作業をし、また先ほどの話に戻って続けることができます。これは、あたかも人が対話中に別の話題に移って、また話を戻すようなものです。

日本では、このスキルはテキストベースでは実現されていますが、音声についてはまだ初期型の「全二重モード」であるため、りんなとの会話のみでの提供ですが、より自然な対話の実現に向けて、音声による会話遷移の導入も進めています。

マイクロソフトの XiaoIce 担当ゼネラルマネージャーのディ リィ (Di Li) は、これらの技術進化が、人々の知的なニーズだけでなく、感情も理解する ソーシャルAIチャットボットを構築するというマイクロソフトの取り組みの一環であると述べます。これは、XiaoIce や Zo、そしてインドの Ruuh 、日本とインドネシアの「りんな」といった、マイクロソフトの他のソーシャルチャットボットにも共通の目標です。

Cortana のように、プロダクティビティに特化したデジタルアシスタントとは異なり、マイクロソフトのチャットボットは、ユーザーとより長く、対話性の強いセッションを行うように設計されています。ユーモアのセンスがあり、雑談したり、ゲームをプレイしたり、個人的な情報を記憶して、まるで友人と会話しているように冗談を言うこともできます。

リィ は、全二重音声検知がチャットボットとの対話の魅力向上に有効であると述べています。

「とっても自然なので、人々をリラックスさせることができるのです」と彼は説明します。

 

関連記事