マイクロソフトの研究者が音声認識の新たなマイルストーンを達成

[2017年8月20日]

Posted by: ゼドン ファン (Xuedong Huang)
マイクロソフト テクニカルフェロー

昨年、マイクロソフトの音声と対話の研究グループが、Switchboard 会話音声認識のタスクにおいて、人間と同等の正確性を達成したことを発表しました。これは、プロの書記と同じレベルで単語を認識できるテクノロジを開発できたことを意味します。

マイクロソフトの聴き取りシステムは、人間と同等の 5.9 パーセントの誤認識率を達成しました。その後、他の研究者たちが実施したより複雑な複数の認識プロセスを使用した別の研究により、人間の誤認識率が 5.1 パーセントを達成する必要があるとの結果が得られました。これは、人間がより注意深く努力することで、言葉をより高いレベルで言葉を認識できるようになるという過去の研究結果と一致しています。本日、マイクロソフトの研究チームが開発した音声認識システムによる 5.1 パーセントの誤認識率が達成されたことを発表します。これは業界の新たなマイルストーンであり、マイクロソフトが昨年達成した正確性を大きく上回ります。今週末に発行されたテクニカルレポートで本システムの詳細が解説されています。

Switchboard は、音声関連研究コミュニティが 20 年以上にわたり音声認識システムのベンチマークに使用してきた、電話音声を録音した集合体(コーパス)です。認識タスクには、見知らぬ人同士によるスポーツや政治などについての会話の文字化などが含まれます。

ニューラルネットベースの音響と言語モデルを改良することで、マイクロソフトは昨年と比較して誤認識率を約 12 パーセント削減できました。音響モデルの改良のために CNN-BLSTM (Convolutional Neural Network combined with Bidirectional Long-Short-Term Memory:双方向長・短期記憶と組み合わせた畳み込みニューラルネットワーク)モデルが採用されました。さらに、複数の音響モデルの予測を組み合わせるアプローチが、フレーム/セノンのレベルと単語のレベルの両方で行なわれるようになりました。

また、認識プログラムの言語モデルが次の言葉を予測する上で対話セッションの全履歴を利用できるよう強化することで、対話のトピックや場所の文脈情報をモデルが効率的に取り込めるようになりました。

マイクロソフトの研究チームは、モデルアーキテクチャーの探索やハイパーパラメータの最適化のために、現在入手可能な最も拡張性に優れた深層学習向けソフトウェアである Microsoft Cognitive Toolkit 2.1 (CNTK) からも大きな恩恵を受けました。さらに、マイクロソフトのクラウドコンピューティング基盤、特に Azure GPU への投資が、モデルの学習と新しいアイデアのテストの効率性と迅速性の向上に大きく貢献しました。

過去 25 年間において、人間と同等の正確性を達成することが研究開発の目標でした。マイクロソフトの研究開発に対する長期的投資が今結実し、CortanaPresentation TranslatorMicrosoft Cognitive Services などの製品やサービスによりお客様に価値を提供しています。マイクロソフトの研究成果が何百万人もの人々に毎日利用されているということは、研究チームにとっても大変うれしいことです。

音声認識の進化が、多国籍の聴衆に向けて講演をリアルタイムで翻訳できる Speech Translator などのサービスを生み出しました。

 

産業界そして学術界の多くの研究グループが、音声認識分野で素晴らしい活動を行なっており、マイクロソフトの研究成果もコミュニティ全体の進歩から大きな恩恵を受けています。Switchboard 音声認識タスクで 5.1 パーセントの誤認識率を達成したことは大きな進歩ですが、音声関連研究コミュニティには、騒音が多い環境でマイクが遠い場合の認識、訛りの強い音声の認識、学習データが限定的な言語やスタイルの認識など、まだ多くの対応すべき課題があります。さらに、話された言葉を文字起こしするだけではなく、その意味と意図を理解できるよう学習させるためにも多くの研究が必要です。会話の認識から理解への進展は、音声テクノロジにおける次の重要なフロンティアです。

 

関連記事
テクニカルレポート:The Microsoft 2017 Conversational Speech Recognition System(英語)
歴史的成果: マイクロソフトの研究者が対話型音声認識において人間と同等の成績を達成
ブログ:Microsoft researchers achieve speech recognition milestone(英語)
Twitter:@Xuedong Huang

本ページのすべての内容は、作成日時点でのものであり、予告なく変更される場合があります。正式な社内承認や各社との契約締結が必要な場合は、それまでは確定されるものではありません。また、様々な事由・背景により、一部または全部が変更、キャンセル、実現困難となる場合があります。予めご了承下さい。

Tags:

関連記事