「みんなのAI」Microsoft Cognitive Services の広がり

[2017年2月10日]

2017年2月7日に米国で公開されたブログの抄訳をベースにしています

Posted by : ジョン ローチ (John Roach)

マイクロソフトの Skype Translator や Bing 、Cortana において会話の翻訳や知識の集約、話し言葉の理解などを実現している機械学習機能が、人々が毎日使用するサードパーティのアプリケーションでも活用されることが増えています。

このAIの民主化の発展の一端を担うのが、Microsoft Cognitive Services です。Microsoft Cognitive Services は、開発者に機械学習の知識がまったくなくても、感情検知や画像認識、音声認識、自然言語理解などの機能をアプリケーションに追加できる、25種のツールから構成されます。

「Cognitive Servicesは、マイクロソフトが持つすべての機械学習とAI関連の機能を使いやすい API を介して公開しており、開発者はこれらのテクノロジを自分で開発する必要はありません」とワシントン州レドモンドにあるMicrosoft Research  Speech and Dialog Research Group 主任研究者であるマイク ゼルツァー (Mike Seltzer)は述べています。

「ほとんどの場合、最先端の機械学習モデルを構築するには、多くの時間やデータ、専門知識、計算時間を必要とします」とゼルツァーは説明します。

音声認識のツールを例に取ってみましょう。ゼルツァーと同僚たちは、マイクロソフトの音声認識テクノロジがノイズの多い環境でも確実に動作し、特定のユーザーグループや環境における専門用語、方言、訛りにも対応できるアルゴズムを開発するのに、10年以上を費やしてきました。

マイクロソフトが火曜日にパブリックプレビューとしてリリースした Cognitive Servicesの Custom Speech Service を通して、サードパーティアプリケーションの開発者も同じ柔軟なテクノロジを利用できるようになります。

他にも Content ModeratorBing Speech API の2つのCognitive Servicesが、来月に一般に公開される予定です。Content Moderator は、画像やテキスト、動画などのデータを隔離し、検閲することで、不快感をもたらす可能性がある言葉や画像などを排除することができます。Bing Speech API は、音声をテキストに変換し、話し手の意図を理解した上で、テキストを音声に変換します。

アンドリュー シューマン (Andrew Shuman)
Microsoft AI and Research 担当コーポレートバイスプレジデント

画像や動画などのビジュアルデータに対してインテリジェンスを適用できる Cognitive Services は、顧客のサービス強化に活用され始めています。たとえば、ビジネスインテリジェンスソリューションを提供する Prism Skylabs は、自社の Prism Vision アプリケーション内で  Computer Vision API を使用し、監視カメラの映像からの特定の事象や人の発見を支援しています。

Cognitive Servicesは、開発者コミュニティが人工知能と機械学習の専門知識を利用できるようにし、エンドユーザーに快適で力強い体験を提供するというマイクロソフト社内の取り組みから生まれたものだと、AI and Research 担当コーポレートバイスプレジデントのアンドリュー シューマン (Andrew Shuman) は述べます。

「観察し、聞き取り、反応して、周囲の物理的世界に精通するソフトウェアを手に入れることは、インターフェースをより人間的で自然に理解しやすくし、多様なシナリオに対応できるようにするためのブレークスルーにつながります」とシューマンは説明します。

「私たちが飛び込もうとしているのは、より多くの人々のためにより多くの興味深い方法でコンピューターの機能を活用できる時代です」

 

ストーリーテリング体験

アレクサンダー メヒーア (Alexander Mejia) の例を取って見ましょう。子供のころ、彼は常に最新のグラフィックスと技術革新を備えた最新のゲームで遊び、より良いサウンドや解像度、画面への入力テクノロジの進化から生まれる、新たな興奮を求めていました。

最近、ゲーム業界でクリエイティブディレクターとして働く中で、彼は、新たな体験から得られる興奮が減りつつあると感じていました。コンピューティングパワーが倍になっても、ゲームのおもしろさは倍になっていなかったのです。「次になすべきことは何なのか?ゲーマーを驚かせる新たな体験を生み出すテクノロジの進化とは何なのか?」と彼は考えました。

この疑問が、最先端のバーチャルリアリティ(仮想現実)テクノロジのデモンストレーションに繋がりました。ヘッドギアを装着し、ジェットコースターによる激しい体験をすると、アドレナリンが噴出し、心の底から興奮できました。

「仮想世界の中のものはリアルに見えます。目の前に人を置くとどうなるでしょうか。あなたは話しかけようとしますか?」とメヒーアは言います。

このアイデアはビジネスプランとして結実し、メヒーアは、バーチャルリアリティストーリー体験を作り出すために、 Human Interact を創業しました。同社の主力タイトルStarship Commanderは、プレイヤーが光速より速く宇宙を移動し、出会ったすべての仮想キャラクターに話しかけることで物語が進みます。

リアルで高速なアクションを実現するために、メヒーアたちには正確で応答性の良い音声認識機能が必要でした。

「音声認識エンジンは、誰がいつ何を言うかわからない中で、それを理解して物語を適切な方向に進めて行かなければなりません。そして、これこそが Microsoft Cognitive Services による魔法なのです」とメヒーアは説明します。

 

独自の音声認識モデルの構築

現代の音声認識テクノロジは、クラウドコンピューティングのパワーと大量のデータを活用して、音声の断片をテキストに変換する機械学習の統計モデルに依存しています。

たとえば、音響モデルは、特定言語の音素、または音の一つとして音声の短い断片をラベル付けする分類器です。ラベルは隣の断片と組み合わされ、対象言語のどの言葉が話されているのかを予測するとゼルツァーは説明します。この予測は、対象言語のすべての単語を音素に分解して格納している辞書に基づいて行なわれます。

一方、言語モデルは、予測されたすべての単語の対象言語における頻度に基づいて重み付けを行ない、予測の精度向上を図ります。認識プログラムが似たような発音の複数の言葉を区別する場合には、より使用頻度が高い言葉の方に高い確率が割り当てられます。これらのモデルはさらに正確な予測を行なうために文脈も考慮します。「前の単語が、”The player caught the”であったならば、”fall”よりも”ball”の可能性が高いと判定されます」とゼルツァーは解説します。

マイクロソフトの最新の音声認識エンジンで採用された音響モデルは、人間の脳内で行なわれているパターン認識の理論にヒントを得た分類器であるディープニューラルネットワークです。このモデルは、クラウド上で稼働する高度なアルゴリズムを使用し、何千時間分の音声を学習しています。

最近、マイクロソフトの音声認識システムは、会話内の単語を人間と同じレベルで認識するというマイルストーンを達成しました。これは、20年以上にわたり、学会や産業界の研究者が使用してきた標準的なベンチマークで達成されました。

「たとえ同じシステムでも、騒々しい工場の環境を学習していなければ、適切な認識を行なうことができません。Custom Speech Service が有利なのはこの点です」とゼルツァーは述べます。

このサービスにより、開発者は、音響モデルと言語モデルを、騒がしい工場で行なわれる専門用語の会話向けにカスタマイズすることができます。たとえば、音響モデルを、油圧やドリルの騒音の中でも音声を認識するよう学習させることができ、言語モデルを工場に特有の用語(たとえば、ナット、ボルト、自動車の部品名)に高い優先順位を与えるよう更新できます。

Custom Speech Service は、マイクロソフトの既存の音声認識プログラムを開発者が提供するデータで学習させるアルゴリズムを活用しています。大量のデータで学習済みのモデルから始めることで、必要なアプリケーション固有のデータ量を大幅に削減できます。開発者のデータだけで不十分な場合には、認識プログラムは既存モデルを流用します。

「基本的な考え方は、システムの集中化が進むほど、パフォーマンスは向上することです。Custom Speech Service の仕事は、利用者にとって最も重要なデータにシステムを集中させることにあります」とゼルツァーは説明します。

バーチャルリアリティに向けたカスタマイズ

前述の Human Interact の主力タイトル Starship Commander は、架空の言葉や地名を含むSFの世界が舞台です。メヒーアが、これらのキーワードを使って Custom Speech Service を学習させている時、彼は、初期プロトタイプ構築で使用していたオープンソースの音声テキスト変換ソフトウェアと比較して、エラー率が半分であることに気づきました。

次に、メヒーアは、もうひとつの課題、つまり、ゲームプレイヤーの意図を理解するという課題の解決のために、マイクロソフトの Language Understanding Service に目を向けました。

「”let’s go”を意味する多くの言い回しがあります。”let’s go”や”autopilot”、”get me out of here”、”let’s go faster than light”、”engage the hyper-drive”などです。これらは、みなゲームの中で移動する時に人々が発する言葉です。急いでピンチから脱出しなければならない時は、興奮した状態で言葉が発せられることもあります」とメヒーアは説明します。

現在パブリックプレビュー中の Language Understanding Service は、ユーザーが発声する可能性がある言葉の一部を開発者がアップロードし、その言葉に意図をタグ付けすることで、機械学習モデルの分類器に自然言語中の意図を理解するよう学習させることができます。

このサービスのバックエンドには、限定的なデータで分類器を学習させることを目的とした10年以上にわたる研究成果を活用していると、サービスの開発を統率するエジプト カイロの Advanced Technology Lab ディレクター、フセイン サラマ (Hussein Salama) は説明します。

「通常、適切なテクノロジを選び、適切なデータを提供して、分類機能を学習させ、評価することは機械学習の専門家が必要です。マイクロソフトは、これをLanguage Understanding Serviceにより単純化しました。いくつかの音声、そして、いくつかのフレーズとの意図との関係を提供すると、Language Understanding Service はその意図に対して高精度なモデルの学習を始めることができます」とサラマは述べています。

Starship Commander において、カスタマイズの作業はシームレスに進み、学習データに含まれていない自然言葉の意図をサンプルから学習させることができました。「今までに学習させたことのないことを適切に理解してくれるのには、恐ろしくもなります。まさに人工知能です」とメヒーアは語っています。

 

参考情報:

• More information about  Microsoft Cognitive Services
• Learn about Microsoft’s vision to democratize AI
• Read about Microsoft’s speech recognition milestone
• Check out the Microsoft Cognitive Toolkit

本コンテンツのすべての内容は、作成日時点でのものであり、予告なく変更される場合があります。正式な社内承認や各社との契約締結が必要な場合は、それまでは確定されるものではありません。また、様々な事由・背景により、一部または全部が変更、キャンセル、実現困難となる場合があります。予めご了承下さい。

関連記事