「私に話しているの?」Azure AI が Custom Neural Voice により有名キャラクターを現実の世界に
※ 本ブログは、米国時間 2 月 3 日に公開された “Are you talking to me? Azure AI brings iconic characters to life with Custom Neural Voice” の抄訳を基に掲載しています。
お気に入りのアニメの世界に入り込んでバッグス・バニーのようなキャラクターと話してみたいと思ったことはありませんか?
ダラスにある AT&T Experience Store はその夢をかなえてくれます。HD 映像に映し出された実物大バッグス・バニーがあなたの名前を呼び、あなたの助けを受けて店舗に隠された金のニンジンを見付け出します。5G、拡張現実、人工知能、そして、Microsoft Azure AI のテクノロジを使った Custom Neural Voice により、バッグスはあなたの指示に従ってニンジンを探し、あなたとリアルタイムで会話をします。
このような自然な対話の流れを実現するテクノロジが、Azure Cognitive Service の Speech の一機能、ニューラル音声合成です。この機能は現在一般利用が可能となっています。
マイクロソフトの Azure AI Platform 担当コーポレートバイスプレジデント、エリック ボイド (Eric Boyd) は、「顧客との音声コミュニケーションを求めるお客様の声がありましたが、長年にわたり機械合成された音声はとても人工的でした。音声を自然にする上でニューラル音声合成は大きな進化です」と言います。
AT&T にとって、バッグス・バニーによる没入感のある体験は、顧客を楽しませながら 5G ネットワークの優位性を示す良いチャンスでした。5G ネットワークにより、HD のバッグスが瞬時に表示され、室内をスムーズに動き回ることができます。
AT&T の 5G 製品とモビリティイノベーション担当バイスプレジデント、ジェイ ケアリー (Jay Cary) 氏は「消費者のお客様に 4G ネットワークと比較した 5G の素晴らしさを理解していただきたいと思っています。このシステムでは強力なコンピューティング能力、高速通信、低遅延を組み合わせています。ネットワークとテクノロジの可能性をわかりやすく示す最良の方法に思えます」と述べています。
バッグス・バニーは、AT&T が Custom Neural Voice を使って実現した最初のアニメーションキャラクターです。しかし、これが最後というわけではありません。ケアリー氏は様々なアイデアにわくわくしています。シリアルの箱からキャラクターが登場する、本を読んでくれる、隣で一緒にアニメを見てくれる、近所を案内してくれる、などです。
「物理世界と仮想世界を融合するというアイデアをとても気に入っています」と彼は言います。
カスタム音声を作成するためには、バッグスの公式声優が、マイクロソフトの開発チームの指示に従ってスタジオでおよそ 2,000 の台詞を録音します。
次に、ワーナーブラザーズのチーム (ケアリー氏は「バッグス・バニー専門家」と呼んでいます) が、マイクロソフトのチームと協力し、合成音声がバッグス・バニーのアクセントと個性を忠実に再現しているかを繰り返し確認します。
「バッグスがあたかも現実世界にいるかのように見せたいと考えていました。友達と会話しているかのような自然なスピードで話すことができます。とてもリアルです」とケアリー氏は言います。
透明性の追求
バッグス・バニーとの会話はとてもリアルに感じられますが、それが現実でないことは誰でも知っています。バッグスは架空のキャラクターだからです。これは重要な点であり、マイクロソフトはテクノロジのあらゆるアプリケーションの保護に注意を払っています。これが、Custom Neural Voice が限定利用であり、このテクノロジを使用するためには事前にマイクロソフトの許可を得なければならない理由です。このテクノロジの「一般利用可能」とは、Azure クラウドの多くのリージョンで本番運用可能になっているという意味であって、誰もが使用できるという意味ではありません。
Custom Neural Voice の利用形態の多くが架空のキャラクターに基づくものですが、実在の人物を使用したいケースもあります。たとえば、著者が自著を読み上げるなどです。このような場合でも、人々が合成音声であることを知っていることが重要です。これが、マイクロソフトが契約に情報開示の条項を含めている理由です。
Azure AI Cognitive Services の Responsible AI 担当責任者のサラ バード (Sarah Bird) は、「お客様に合成音声であることを明確に理解してもらいたいと思っています。それが明確でない状況では、合成音声であることをユーザーにわかりやすい形で表示しなければなりません」と述べています。
合成音声により命を吹き込まれた架空のキャラクターのもう 1 つの例が、長きにわたり Progressive Insurance の広告キャラクターとして使われてきた Flo です。
数年前、同社は、Facebook Messenger 内に Flo のチャットボットを立ち上げました。2008 年からテレビ広告で女優のステファニー コートニー (Stephanie Courtney) によって演じられてきた、明るい性格と独特のユーモアがそのまま再現されています。同社が、顧客との対話に音声を活用しようと考えた時に Flo を選ぶのは当然のことでした。
Progressive の Acquisition Experience グループ担当テクノロジ/イノベーションマネージャの マット ホワイト (Matt White) 氏は、「弊社の重要な関心事の 1 つとして人々が求める時にはいつでもどこでも弊社のブランドと商品が提示されているようにしたいということがあります。これが、Flo を Facebook Messenger でも提供し、音声とスマートスピーカーを使った実験を開始した理由です」と述べています。
Progressive は、既に Azure AI のテクノロジを使ったチャットボットを提供しており、その上で合成音声サービスを提供することは自然なことだとホワイト氏は述べます。
Custom Neural Voice の一般利用可能サービスには、サービスの不適切な使用を防ぐための技術的制御機能が含まれています。独自音声作成のために顧客が提供した録音用スクリプトの一部として、声優はこのテクノロジの意味を理解しており、顧客が Custom Neural Voice を提供することになることを認識しているという趣旨の声明を出します。声紋鑑定テクノロジにより、この声明の録音データが学習データと比較され、マッチした場合のみに学習を開始することができます。また、マイクロソフトは声優の承諾を書面でも取得ことを義務付けてもいます。
「マイクロソフトは多くの調査、そして、声優業界やこの分野の倫理専門家との対話を行ない、このテクノロジの使い方に関するガイドラインを作成しました」とボイドは述べています。
責任へのコミットメント
マイクロソフトは、このテクノロジの不正利用を防ぐために、契約条項、許可された顧客のみの限定利用、音声ファイル提供者による認証という 3 つの方法を採用しています。マイクロソフトにおけるバードの役割は、Azure Cognitive Services 内の機能と製品の開発を責任ある形で行ない、顧客にも責任を持って利用してもらうための規約とサポートチーム構築することです。
「大きな価値をもたらすこのテクノロジの開発手法を示すと同時に、社会に害をもたらさないことを保証する必要があります」とバードは述べています。
マイクロソフトは潜在的リスクを把握するために影響分析を行ないました。リスクが把握されると、それに対応するための機能とプロセスが作成されました。Custom Neural Voice のケースでは、そのような安全対策には、潜在的ユースケースに対するレビュープロセス、行動規範文書、声優による承認のファイルと訓練用音声ファイルの比較などがあります。
合成音声が Azure Custom Neural Voice で作成されたことを示すウォーターマークを埋め込む手法も検討していると、バードは言います。
そのような機能やポリシーは、マイクロソフトの責任ある AI へのコミットメントと整合するものです。このコミットメントには、AI システムの目的、能力、限界を明記した透明性に関する注記が含まれています。
「このテクノロジの考案者として、マイクロソフトはそれが責任ある形で使用されるよう保証する義務を負っています。マイクロソフトは責任ある AI の課題に真摯に対応しており、自社の中核的信条の 1 つと位置付けています。また、パートナーにもガイドラインに確実に従うことを義務付けています」とボイドは述べています。
カスタム音声の構築
では、どうすれば、録音した多数のフレーズによって何でも自然に話すことができる音声を作り出せるのでしょうか?
録音は「音素」、いわば音のフォントを作るために使用されます。これは、コンピューターにおける文字フォントを組み合わせてどのような文章でも作ることができるのに似ています。
しかし、自然な音声合成のためには、単に音をつなぎ合わせる以上のことが必要です。
Azure AI Cognitive Services 担当テクニカルフェロー兼 CTO ゼドン ファン (Xuedong Huang) は、「真のテクノロジブレークスルーは、プロソディーや発音が正確になるように、テキスト処理に深層学習を効率的に使う点にあります。プロソディーとは各音素の高さや長さのことです。これらをシームレスに処理することで、あたかも本人が話しているような音声を再現することができます」と述べています。
深層学習は機械学習の一分野です。機械学習では、機械が人間と同じようにデータの学習や分析を行なうよう訓練されます。「深層」とはニューラルネットワークの階層が深いことを意味します。人間の脳の機能に触発された考え方です。ニューラルネットワークが複雑な作業を迅速に処理し、データの組み合わせを調整し、各作業から学んで行きます。ニューラルネットワークの階層を深くすれば精度を増すことができます。
ニューラル音声合成では、1 つのニューラルネットワークが入力テキストを処理し、プロソディーを予測し、一連の音に変換します。そして、もう 1 つのニューラルネットワークが、その一連の音を音声に変換します。両者の間にはおよそ 50 の階層があります。
2 つのニューラルネットワークが同時に適切なプロソディーを予測し、音声を合成するため、自然な合成音声を得ることができます。
もちろん、誰もが独自の音声を必要としているわけではありません。マイクロソフトは、読み上げ機能やチャットボットの音声機能を直ちに必要とするお客様向けに 50 カ国語以上による 120 種以上の構成済みのニューラル合成音声を提供しています。
人々の創造性を解放する
Custom Neural Voice の中核にあるのは創造的テクノロジだとバードは言います。彼女は、本の読み上げや言語の学習などの教育分野での可能性に最も期待しています。
マイクロソフトは北京の視覚障碍者を支援する Beijing Hongdandan Visually Impaired Service Center に寄贈するために、Custom Neural Voice を使用して、ボランティアのチームによる音声ファイルの作成を行なっています。
言語教育企業の Duolingo は、学習プラットフォーム上でキャラクターを使用することで言語教育をパーソナライズする取り組みの一環として、Custom Neural Voice を使用しています。9 人の多様なキャラクターには、無愛想なティーンエイジャーの Lily や自分の優秀さを持て余してしている Junior などがいます。
同社は、各キャラクターが世界中のユーザーの文化とマッチし、かつ、同アプリの長きにわたるメインキャラクター Duo のビジュアルとマッチするようレビューを数 100 回繰り返しました。
Duolingo CTO の セベリン ハッカー (Severin Hacker) 氏は、「Duolingo は世界中で使用されており、人々にアプリとの連帯感を持ってもらいたいと考えています」と述べています。
各キャラクターのデザインは、Duo のユニークな体型、分離した足、大きな目、単純な造形といった特性を兼ねつつ、独自の個性を持っています。長期にわたるキャラクター制作プロセスの最終ステップが独自の声を与えることです。
「言語を学習する時、音声はきわめて重要です。学習者が正しい音声とアクセントに触れられなければなりませんが、このテクノロジではそれが可能です」とハッカー氏は述べています。
同社は、複数の声優と協力し、各キャラクター向けに独自の音声フォントを作成してきました。昨年、Duolingo は、英語とスペイン語による Lily の声と英語による Junior の声を発表しました。最終的には、9 人の全キャラクターの声が、英語、スペイン語、フランス語、ドイツ語、日本語で提供される予定です。また、今年の終盤には、旅行好きの Bea、良き夫でもあるパティシエの Vikram などの新キャラクターが登場する予定です。
Custom Neural Voice は、実在の人物やキャラクターを直接的にまねるのではない音声フォントの作成にも使用できます。
「音声の組み合わせを行なうことも可能であり、異なる種類の音声を組み合わせることで実在しなかった音声を作り出す実験を行なっています。このテクノロジは人々の創造性を解放してくれます」とバードは述べています。
バードもボイドも、Custom Neural Voice が、エンターテインメント、情報提供、教育などの様々な分野においてエンゲージメントを向上する可能性を開いてくれると考えています。
「AI が素晴らしい点の 1 つは、最初は予想していなかった新しい利用法が常に生まれてくる点です。人々が生み出す新たな応用にはわくわくさせられます」とボイドは述べています。
Learn more:
- Get a technical overview on the Microsoft Tech Community blog
- The building blocks of Microsoft’s responsible AI program
- Progressive gives voice to Flo’s chatbot, and it’s as no-nonsense and reassuring as she is
- Azure AI – Cognitive Services, Speech
—
本ページのすべての内容は、作成日時点でのものであり、予告なく変更される場合があります。正式な社内承認や各社との契約締結が必要な場合は、それまでは確定されるものではありません。また、様々な事由・背景により、一部または全部が変更、キャンセル、実現困難となる場合があります。予めご了承下さい。