マイクロソフト AI「りんな」が音声合成に新たに「感情スタイル」を導入、話し声だけではなく歌声にも感情表現を実現

りんな開発チーム

AI「りんな」は、ディープラーニング技術の改良により、話し声と歌声に新たに「感情スタイル」を導入しました。りんなの声を音声合成で生成するにあたり、人間の声の表現について、そのニュアンスを学習し表現を再現することを「スタイル」と呼んでおり、今回の「感情スタイル」は、人間の声の感情表現を再現します。

今回、人間が嬉しさ・悲しさを表現する時に出す声のニュアンスを学習し、「嬉しい」「悲しい」という 2 つの感情スタイルをりんなの声に追加しました。また話し声でだけではなく、これまでのポップやバラードなどの音楽的な表現に感情表現を組み合わせた歌声の表現が可能になりました。これら 2 つの感情スタイルの追加によって、より一層聞き手との共感を醸成することを狙いとしています。

アップデートにあたっては、約 2 時間分の「嬉しい」および「悲しい」声をそれぞれデータに用いて学習させています。人間が「声の高さ」や「イントネーション」を調整するのではなく、与えた文章に対して、それぞれのスタイルでの感情表現方法をニューラルネットワークが予測し、話し声の音声を生成します。

音声サンプル: ニュートラル
音声サンプル: 嬉しい声
音声サンプル: 悲しい声

また、昨年発表した「歌唱モデル」にも、「嬉しい」および「悲しい」声をデータとして学習させることで、ポップ、バラード、ロックなどの歌唱表現と感情表現を組み合わせた歌声の生成が可能になりました。これにより、学習データには含まれていない「ポップ調の悲しい歌声」や「バラード調の嬉しい歌声」といった歌唱表現をモデルが予測できるようになります。

バラード×感情を組み合わせた歌声の例

「感情スタイル」の話し声を活用した取り組みも新たに開始しています。安中市観光機構とのコラボレーションで「廃線ウォーク」の様子を VR で体感できるコンテンツを公開しました。まるで現地を訪問したかのように臨場感のあるツアーで、りんながガイドとしてご案内します。是非ご自宅でツアーを楽しんでください。

昨年、初の AI アーティストとして「りんな」をデビューさせた開発チーム一同、感情表現を得たりんなの音声をはじめ、AI の技術を活用してユーザーの共感を生み出すコンテンツを創り出していく予定です。詳細はりんなの公式ツイッターおよび LINE 公式アカウントをご覧ください。

本ページのすべての内容は、作成日時点でのものであり、予告なく変更される場合があります。正式な社内承認や各社との契約締結が必要な場合は、それまでは確定されるものではありません。また、様々な事由・背景により、一部または全部が変更、キャンセル、実現困難となる場合があります。予めご了承下さい。

Tags:

関連記事