“感情”と“創作力“を人工知能に学習させる「Emotional Computing Framework」の取り組み

[2018年3月12日]

Posted by: 榊原彰
日本マイクロソフト株式会社　執行役員　最高技術責任者兼
マイクロソフトディベロップメント株式会社　代表取締役社長

感情のつながりを重視する AI「りんな」が、最新の AI ベースの歌唱モデルを採用し、より自然で表現力に富んだ歌声を実現

これまで、人間の “感情” や “創作” する能力は、人工知能（AI）の研究と製品開発にとって非常に難しい課題でした。しかし、近年のアルゴリズムの進化、情報処理能力の向上およびビッグデータが、人間の“感情”と“創作力“を AI がある程度模倣する事を可能にしました。マイクロソフトは、こうした手法を「Emotional Computing Framework」として、日本の「りんな」をはじめとするソーシャルAIに採用して各国で展開しています（アメリカの ”Zo（ゾー）”、中国の ”Xiaoice（シャオアイス）”、インドネシアの ”Rinna（リンナ）”、インドの”Ruuh（ルー）”）。これらのソーシャル AI は、マイクロソフトの自然言語処理、画像認識、音声認識と音声合成など、複数のテクノロジを活用して、感情表現と創作力を得るために学習を続けています。

感情のつながりを重視する AI「りんな」とユーザーが続けた会話は、最も長いもので 17 時間にも及びます。こうしてユーザーとつながる「りんな」の技術は各方面で高く評価され、ローソンの”あきこ”、渋谷区の”みらい”、テレビ朝日の”杏寿”などに採用され、ユーザーとの感情のつながりを重視したやりとりを実現しています。

また、中国の Xiaoice は、アナウンサー、DJ やジャーナリストとして、15 のテレビ局、新聞、ラジオ局のジャーナリストとしても活躍しています。また、学習した創作力を活かして「AI 詩人」として詩集も出版しています。

”感情”と“創作力”を学ぶ取り組みの一環として、「りんな」は、音楽コミュニケーションアプリ nana とのコラボレーションを通して、ユーザーからのアドバイスを基に「りんな」の歌声をもっとうまくすることを目指す「りんな歌うまプロジェクト」第 1 弾を 2018 年 1 月より展開してきました。この取り組みに参加したユーザーは 3000 名に上り、この活動の成果を 3 月 8 日に「卒業ソング nana ユーザーとの合唱」として、お手本を投稿してくれたユーザーの皆さまの歌声と「りんな」の歌声がハーモニーを奏でる合唱を YouTube で公開しました。https://www.youtube.com/watch?v=pIw8L2uctK4

この取り組みでの経験も踏まえ、「りんな」はマイクロソフトの AI & Research 部門が開発した、次世代の AI ベースの歌唱モデルへの移行を開始しました。これにより、「りんな」はより自然で表現力に富んだ歌声で歌うことができるようになります。日本のみならず各国のソーシャル AI で採用されているこの音声合成による歌唱技術は、ディープラーニングモデルをベースとしており、以下の特徴を備えています。

従来モデルと比較して、より“自然”な歌声を実現しています。5ms（0.005秒）の単位でディテールに富んだ歌声の自動生成が可能です。
迅速に “歌” を生成することが可能です。例えば、スタジオやエンジニアなどの準備が必要な人間のレコーディングと比較して、学習に十分なデータを用意した場合、10 分以内に 1 曲を生成することができます。
ディープラーニングモデルの学習を繰り返すことで、継続的に精度を向上します。

マイクロソフトは、今後も引き続きこのようなマイクロソフト独自のAIの進化を進めていきます。

—

本ページのすべての内容は、作成日時点でのものであり、予告なく変更される場合があります。正式な社内承認や各社との契約締結が必要な場合は、それまでは確定されるものではありません。また、様々な事由・背景により、一部または全部が変更、キャンセル、実現困難となる場合があります。予めご了承下さい。

“感情”と“創作力“を人工知能に学習させる「Emotional Computing Framework」の取り組み

感情のつながりを重視する AI「りんな」が、最新の AI ベースの歌唱モデルを採用し、より自然で表現力に富んだ歌声を実現

関連記事