コンテンツへ移動

AI が画像を人間と同じレベルで解説: マイクロソフトのブレイクスルーを Azure AI に搭載

※ 本ブログは、米国時間 10 月 14 日に公開された “What’s that? Microsoft’s latest breakthrough, now in Azure AI, describes images as well as people do” の抄訳です。

マイクロソフトの研究者が、画像キャプションを生成する人工知能システムを構築しました。同システムが生成するキャプションは、人間が書く解説よりも正確なことが多いというのです。基準への挑戦においてこのような飛躍的進歩を遂げたことは、マイクロソフトがすべてのユーザーのことを考慮し、すべてのユーザーにとって使いやすい製品やサービスを作ろうとしている取り組みの中でも画期的な出来事です。

「画像キャプションは、コンピュータビジョンの中核機能のひとつで、幅広いサービスに適用できます」と、ワシントン州レドモンドのマイクロソフト本社にてテクニカルフェロー 兼 Azure AI Cognitive Services 担当最高技術責任者を務めるゼドン フアン (Xuedong Huang) は語ります。

この新たなモデルが、Azure AI の一部である Azure Cognitive Services の Computer Vision サービスを通じて利用できるようになりました。この機能によって開発者は、自社サービスのアクセシビリティを向上させることができます。同機能は Seeing AI との連携も可能で、今年後半には Windows および Mac 版の Microsoft Word および Outlook、そして Windows、Mac、ウェブ版の PowerPoint に実装される予定です。

自動画像キャプション機能により、すべてのユーザーが画像内の重要なコンテンツにアクセスしやすくなります。対象となる画像は、検索結果として表示される写真からプレゼンテーション内の画像までさまざまです。このような研究の進化によって結果は改善されますが、システムが毎回完璧な結果を出すとは限りません。

画像キャプションを使ってウェブページやドキュメント内にて写真の解説を生成することは、alt text (代替テキスト) と言われています。この手法は、特に目の不自由な人や弱視の人にとって重要な機能だと、マイクロソフトのレドモンド本社で AI プラットフォームグループのソフトウェアエンジニアリングマネージャーを務めるサーキブ シャイフ (Saqib Shaikh) は語ります。

例えばシャイフのチームでは、目の不自由な人や弱視の人に向けた Seeing AI トーキングカメラアプリにて、改善された画像キャプション機能を利用しています。同アプリでは画像キャプションを使い、ソーシャルメディアアプリの写真を含めさまざまな写真を解説しています。

「ドキュメントやウェブ、ソーシャルメディア内の全画像に代替テキストを含めるのが理想です。そうすれば、目が不自由な人もコンテンツにアクセスして会話に参加できるためです。しかし、残念ながらそのような状況には至っていません」とシャイフは話します。「ただ、代替テキストが存在しない場合に画像キャプションを使い、そのような役目を果たすアプリはいくつか存在します」

新たなオブジェクトにキャプションをつける

レドモンドのマイクロソフトリサーチラボにてプリンシパルリサーチマネージャーを務めるリウアン ワン (Lijuan Wang) によると、画像キャプションはコンピュータビジョン分野の中で中核的な課題となっており、画像内における顕著なコンテンツやアクションを理解し解説する AI システムが必要だといいます。

「実際に何が起こっているのか理解する必要がありますし、モノと行動の関係を把握しなければなりません。その上で、自然言語の文章として要約し記述する必要があるのです」とワンは語ります。

ワンが率いた研究チームでは、nocaps という斬新な大規模オブジェクトキャプション技術にて、人間の領域を超えるベンチマークを達成しました。このベンチマークでは、AI システムの訓練に使われたデータセットには含まれていない画像内のオブジェクトに対し、どれだけうまくキャプションを生成できるか評価しています。

画像キャプションシステムは通常、画像とその画像を解説する文章とを組み合わせたデータセットで訓練されます。つまり、キャプションつき画像のデータセットで訓練されるのです。

「nocaps では、訓練データでは見たことがない新たなオブジェクトをどう記述できるかという点が課題となります」とワンは話します。

この課題に対しマイクロソフトのチームでは、豊富な画像データセットと単語のタグを組み合わせ、大規模な AI モデルを事前に訓練しました。それぞれのタグには、画像内の特定のオブジェクトがマッピングされていました。

完全なキャプションではなく単語のタグによる画像データセットを使うことで、作成がより効率的に進み、ワンのチームは多くのデータをモデルにフィードできたのです。このアプローチにより、同チームではビジュアルボキャブラリ (視覚語彙) というものをモデルに植え付けました。

ビジュアルボキャブラリを事前訓練するアプローチは、子どもが読書できるよう準備する際、まず絵本を使って個々の単語を画像と関連付ける方法と似ているとフアンは語ります。例えば、リンゴの絵の下に「リンゴ」と書いてあったり、ネコの絵の下に「ネコ」と書かいてあったりする本を使うような方法です。

「ビジュアルボキャブラリの事前訓練は、基本的にシステムの訓練に必要となる教育です。わがチームでは、この運動メモリを教育しようとしているのです」とフアンは語ります。

事前訓練されたモデルは、その後キャプションのついた画像のデータセットを使い、キャプション付けに向けて微調整されます。この段階の訓練で、モデルは文章の構成方法を学びます。新しいオブジェクトを含む画像が提示されると、AI システムはビジュアルボキャブラリを駆使して正確なキャプションを生成します。

「AI システムは、事前訓練と微調整の両方で学んだことを組み合わせ、テストしながら新たなオブジェクトを処理します」とワンは述べています。

研究論文にて提示された結果によると、この AI システムを nocaps で評価したところ、同システムが作成したキャプションは、同じ画像について人間が記述したキャプションよりも、より的確に解説しており、より正確だったことがわかりました。

本番への適用に向けた迅速な取り組み

別の業界ベンチマークでも比較したところ、この新しい画像キャプションシステムは、2015 年以来マイクロソフトの製品やサービスで使われてきた画像キャプションモデルよりも 2 倍高い性能を示しました。

マイクロソフトの製品やサービスの全ユーザーに改良版画像キャプションが提供できるというメリットを考慮し、フアンは迅速に新モデルを Azure の本番環境に統合しようとしています。

「この AI の進化を、プラットフォームとして Azure に統合し、より幅広いお客様にサービスを提供したいと考えています」とフアンは語ります。「これは単に研究上だけで進化を遂げているのではありません。このような進化を Azure の本番環境に移行させるまでの時間に関しても、飛躍的な進化を遂げたといえるのです」

画像キャプションで人間のレベルを達成しましたが、マイクロソフトの認知 AI システム全体で人間の領域に到達するという目標は継続していると、フアンは付け加えます。

「この 5 年間に、5 つの主要な分野で人間の領域に到達しました。それは、音声認識、機械翻訳、会話型の質疑応答、機械解読、そして 2020 年コロナ禍にも関わらず到達した画像キャプションの分野です」とフアンは述べています。

本ページのすべての内容は、作成日時点でのものであり、予告なく変更される場合があります。正式な社内承認や各社との契約締結が必要な場合は、それまでは確定されるものではありません。また、様々な事由・背景により、一部または全部が変更、キャンセル、実現困難となる場合があります。予めご了承下さい。