Microsoft Translator と Skype 翻訳(Skype Translator)において、AI を活用した日本語の音声リアルタイム翻訳機能が利用可能に

[2017年4月7日]

Posted by: 榊原 彰
執行役員 最高技術責任者

マイクロソフトは、Microsoft Translator アプリや Skype 翻訳(Skype Translator) など、 Microsoft Translator を活用したすべてのアプリとサービスにおいて、日本語をテキスト翻訳および音声翻訳の双方が可能な 10 番目のサポート言語として追加します。

この新機能により、日本を訪れる観光客、そして、観光やビジネスで海外を旅行する日本の人々にとって、言語の壁を取り除く総合的なサービスとソリューションが提供されます。
ここ数年間、日本を訪れる観光客の数は着々と増加しています。今後数年間に数々の世界的なスポーツイベントが開催され、その数はさらに増加するでしょう。それにともない、日本と海外のコミュニケーション機会も増加していきます。こうした状況を支援するため、マイクロソフトは、数年前に AI による日本語の音声認識と機械翻訳への投資を行なうことを決定しました。本日(4 月 7 日)、Microsoft Translator の製品ラインと、Skype 翻訳(Skype Translator) など、このテクノロジを活用した他のすべてのマイクロソフト製品において、このブレークスルーをすべての人に提供します。

今回の発表により、日本語を話す人々は、既にサポートされている 9 言語(アラビア語、中国語(マンダリン)、英語、フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語、ロシア語)を話す人々と、リアルタイムに対話ができるようになります。

以下の機能が、ユーザー、開発者、企業に対し提供されます。

  • Microsoft Translator アプリ(Windows、Android、iOS 版)Microsoft Translator ライブ機能 を活用して、自分のデバイスやブラウザ上(http://translate.it) で、対面型のリアルタイムの翻訳が可能になります。
  • Skype for Windows と Skype Preview for Windows 10 で提供される Skype 翻訳(Skype Translator) の機能により、他の Skype ユーザーや電話 (SkypeOut の購入が必要)を通して、自分の言語と他言語をリアルタイムに翻訳した通話を行なうことができます。
  • 開発者は、Azure で提供される Cognitive Services API ファミリーである Microsoft Translator API を自身のアプリやサービスに統合できます。
  • 新たにリリースされた Microsoft Translator PowerPoint アドイン (プレビュー版) により、PowerPoint から Translator のライブ機能を直接使用することで、リアルタイムでプレゼンテーションに字幕を付けることができます。

space

Microsoft Translator ライブ機能のご紹介

space

音声翻訳の仕組み

音声翻訳は、単純に音声認識エンジンを翻訳エンジンに接続するよりもはるかに複雑です。マイクロソフトは、2014 年 12 月に Skype 翻訳(Skype Translator) を提供開始し、2015 年に Microsoft Translator API とアプリを提供開始しましたが、新しい言語の追加には、特定の追加作業が必要でした。マイクロソフトの AI と自然言語処理の専門家チームは、あらゆる言語が持つ固有の特性に対応する必要がありました。

音声翻訳は、マイクロソフトの独自技術 TrueText によって音声認識用と機械翻訳用の 2 つの異なるタイプの AI を組み合わせることで実現されます。TrueText は認識された音声を機械翻訳で翻訳可能な形で変換します。

以下のアニメーションで示したように、音声はまずマイクロソフトの世界最高レベルの音声認識ニューラルネットワークシステムへと送られます。このシステムは、人間の自然な対話を扱えるよう設計されており、人間がコンピューターに音声で命令を与えるような単純なシステムではありません。
この最初のステップでは、自然言語の専門家が「ディスフルエンシ(disfluencies)」と呼ぶものを含んだテキストが生成されます。ディスフルエンシとは、私たちが話すときに(多くは無意識のうちに)繰り返し発生しているつなぎ言葉であり、日本語では「えーと」、英語では ”um” などの言い淀みに相当します。TrueText は、このようなディスフルエンシを削除し、完全な文章に必要な文頭や特定名詞の大文字化や、句読点の追加を行ない、翻訳ステージでの適切な処理を可能にします。
次に、TrueText の出力が機械学習による 2 番目の AI 機能に送られ、完全な文章の文脈を利用し、より流暢で人間らしく聞こえる翻訳が行なわれます。
最後のステップで、テキスト読み上げ機能がこのテキストを音声に変換します。

space
これは最初のステップに過ぎません

ユーザーの皆さんは、Outlook アドインを使用して、AI のパワーを電子メールの翻訳に活用できます。また、Microsoft Edge のアドインを使用して、自分の言語でウェブサイトをチェックできます。短い文章をWebサイト(www.bing.com/translator) を使用して翻訳したり、単語の意味を調べたり、文章や画像を PCやスマホなど、各種デバイス向けの Microsoft Translator アプリで翻訳できます。
この新しい 2 段階の AI を活用したテクノロジを使用した Skype 翻訳(Skype Translator) を使って、世界中の誰とでもやり取りできるようになります。また、Microsoft Translator のライブ機能を使用して、多言語で議論したり、プレゼンテーションを行なったり、さらには、来日した観光客向けに通訳することも可能です。Azure 上の Microsoft Translator Speech API を使用して、AI による音声翻訳機能を自分のアプリやサービスに取り込み、マイクロソフトが投入してきた数十年の開発成果を活用することもできます。
この新しいテクノロジは膨大な可能性を秘めています。あらゆる AI 関連テクノロジに言えることですが、機械学習システムは使用されるにつれて進化します。進化とともに、生活やビジネスでの有用性も増していき、AI の民主化が提供する真の価値が提供されていくことになるでしょう。
Microsoft Translator を活用したアプリやサービスの家庭、職場、旅行先での活用方法についての追加情報はこちらをご参照ください。

追加情報

本コンテンツのすべての内容は、作成日時点でのものであり、予告なく変更される場合があります。正式な社内承認や各社との契約締結が必要な場合は、それまでは確定されるものではありません。また、様々な事由・背景により、一部または全部が変更、キャンセル、実現困難となる場合があります。予めご了承下さい。

Tags:

関連記事