「データ砂漠」の縮小に向けて: 障碍のある人のことも考慮した AI システムを構築するための取り組み

ジェニファーラングストン (Jennifer Langston)

※ 本ブログは、米国時間 10 月 12 日に公開された “Shrinking the ‘data desert’: Inside efforts to make AI systems more inclusive of people with disabilities” の抄訳です。

マイクロソフトのプリンシパルソフトウェア・エンジニアリングリードで、Seeing AI の開発者、サーキブシャイフ (Saqib Shaikh) 撮影ジョンブレッカー (John Brecher)

サーキブシャイフ (Saqib Shaikh) によると、彼のように目が不自由な人は、さまざまなものがどこにあるか把握できるよう、非常によく整頓して生活を送っているといいます。例えば、いつも鍵や財布、杖などの必需品を、同じ場所に置いているとのことです。

ただ、時には物が散らかることもあります。子どもが失くしてしまったぬいぐるみを探すのを手伝ってほしいと言うこともあるでしょうし、道にあった同じ形のゴミ箱の位置が入れ替わることや、パーティーでコートがごちゃまぜになることもあります。

現在マイクロソフトの Seeing AI アプリを利用している人であれば、スマートフォンのカメラを例えば会議室のテーブルなどに向けてかざし、そこに写っているものがパソコンか、水のボトルか、電源コードか、電話かといった説明を聞くことができます。Seeing AI を開発したチームに所属するマイクロソフトのエンジニアであるシャイフは、このアプリを動かしている機械学習アルゴリズムを使って、個人特有の物体も認識できるのではないかと考えました。

目の不自由な人に向けてパーソナライズされた物体認識に取り組むには、機械学習アルゴリズムを訓練する関連データが必要ですが、最近まで十分な関連データは存在しませんでした。そこで、マイクロソフトの AI for Accessibility という助成金を受けているロンドン大学シティ校では、Object Recognition for Blind Image Training (ORBIT: 目の不自由な人に向けた物体認識の画像トレーニング) という研究プロジェクトを開始し、目の不自由な人や弱視の人が投稿した動画を使って公開データセットをゼロから作成しようとしています。

データは、新しいアルゴリズムを訓練してテストするために使われ、携帯電話やマスク、台所用品など、個人にとって重要な物体を認識し位置が特定できることを目指します。

「データがなければ機械学習は成り立ちません」と、ORBIT のリーダーで、ロンドン大学シティ校のヒューマンコンピュータインタラクションデザインセンターにて上級講師を務めるシモーネストゥンプフ (Simone Stumpf) 氏は語ります。「AI の中でも比較的新しいこのような分野を変革するにあたり、誰もが使えるような大規模なデータは全く存在しませんでした」

障碍のある人のコミュニティで働く研究者や開発者にとって共通の障壁となっているのは、障碍のある人を代表するようなデータや、障碍のある人も含めたデータが存在しないことです。データの欠如が要因で、日々の作業を支援するようなインテリジェントなソリューションを開発したり、意思決定の歪みにつながる偏見の拡大を防ぐような AI システムを構築したりするのが困難となっているのです。

「私たちはデータ砂漠の中にいます」と、マイクロソフトのプリンシパルイノベーションアーキテクトリードであるメアリーベラード (Mary Bellard) は語ります。ベラードは AI for Accessibility プログラムも監督している人物です。「AI や障碍のある人と共にすばらしいことをやりたいという情熱やエネルギーはあふれているのに、十分なデータが存在しないのです」

「車があって、その中には荷物も積まれていて出かける準備もできているのに、ガソリンが入っていないようなものです。アイデアを実現するのに十分なデータがないのです」

データ砂漠の縮小に向け、マイクロソフトの研究者らは過去 1 年半にわたり、障碍のある人も含めたよりインクルーシブな AI システムの構築方法を調査し提案してきました。またマイクロソフトは、AI for Accessibility の助成金を受けている機関に資金提供すると同時に協力し、より代表的なトレーニングデータセットを作成したり使用したりする取り組みを進めてきました。それが ORBIT や、テキサス大学オースティン校の研究者と取り組んでいる Microsoft Ability Initiative へとつながっているのです。

マイクロソフトのプリンシパルイノベーションアーキテクトリードで、AI for Accessibility プログラムを監督しているメアリーベラード (Mary Bellard) 写真提供メアリーべラード

マイクロソフトでは、これを業界全体の問題と捉えており、単一のプロジェクトや組織で解決できるものではないと考えています。しかし、この問題に取り組み始めた新たな協力関係も生まれています。

マイクロソフトリサーチが公開した AI Fairness and Disability (AI の公平性と障碍) に関する研究ロードマップと、昨年ニューヨーク大学の AI Now Institute と共催した障碍、偏見、そして AI に関するワークショップにて明らかになったことがあります。それは、インクルーシブなデータによって訓練されていない主流の AI アルゴリズムでは、障碍のある人にはうまく機能しなかったり、むしろ害を及ぼしたりする可能性のある分野が多数存在するということです。

もし自動運転車の歩行者検出アルゴリズムが、例えば車椅子に乗っている人や、高齢のため姿勢や歩き方の異なる人の例を提示されていなかったとしたらどうでしょう。アルゴリズムはそういった人を避けるべきものだと正しく認識しなかったり、安全に道を横断するのに必要な時間がどれくらいか正確に見積もることができなかったりする可能性があると、研究者は指摘しています。

採用プロセスに使われる AI モデルが求職者の人格を読み取ったり感情を解釈したりする際も、自閉症の症状がある人や感情表現が異なる人の反応を見誤り、適切な候補者であるにも関わらずふるい落としてしまう可能性があります。手書き文字を読み取るアルゴリズムは、パーキンソン病や震えの症状がある人には対応できないかもしれません。ジェスチャー認識システムは、手足を切断した人や異なる体型を持つ人の姿に混乱してしまう可能性があります。

一部の障碍のある人がインテリジェントテクノロジを早期に採用することもよくありますが、そのシステムがどう機能すべきか伝えるデータには、そうした人たちの存在が適切に反映されていないことが多いと研究者は述べています。

「テクノロジを強く求めているコミュニティでは、高い確率で発生するエラーも許容することがよくあります」と、Microsoft Research Ability Team のマネージャーでプリンシパルリサーチャーを務めるメレディスリンゲルモリス (Meredith Ringel Morris) は話します。「不完全な AI システムにも価値はありますが、よりインクルーシブなデータに基づいて訓練されていれば、より多くのことが提供でき、よりうまく機能するのです」

最先端技術を促進

AI for Accessibility の助成金を受けているテキサス大学オースティン校の助教授、ダナグラリ (Danna Gurari) 氏は、VizWiz データセットの開発に着手した際、まさにそのようなことを目指していたといいます。VizWiz データセットには、目の不自由な人や弱視の人が投稿した何万件もの写真や質問が含まれています。その写真や質問は、元来カーネギーメロン大学の研究者が開発したアプリに投稿されたものでした。

質問はあらゆる領域にまたがっています。「この牛乳の賞味期限はいつですか?」といったことから、「このシャツには何と書かれていますか?」や、「私の指先は青いですか?」「この雲は嵐の前触れでしょうか?」「このグリルの練炭は準備万端でしょうか?」「この誕生日カードにはどんな絵が描かれていますか?」といったことまでさまざまです。

このアプリは本来インターネット上の人からの回答をクラウドソーシングしていたものですが、グラリ氏はそのデータを使い、目の不自由な人の撮影した写真をコンピュータビジョンアルゴリズムで解釈する方法を改善できないかと考えました。

AI for Accessibility の助成金を受けているテキサス大学オースティン校の助教授、ダナグラリ (Danna Gurari) 氏。VizWiz データセットを開発した同氏は、情報学部の画像・映像コンピューティンググループ責任者も務めています。

こうした質問の多くは、安全に飲める市販薬の量を判断するといったように、文字を読む必要のあるものです。コンピュータビジョンの研究では、こういった課題は物体認識や低品質の写真の解釈とは別問題として扱われることが多かったのです。しかし、実世界の写真をうまく解説するには統合的なアプローチが必要だとグラリ氏は述べています。

また、コンピュータビジョンアルゴリズムは、通常インターネットからダウンロードした写真の大規模な画像データセットで学習します。その写真の多くは目が見える人が撮影したもので、撮影者の興味が反映され、中心にピントが合っているものです。

しかし、完璧な画像だけで訓練されたアルゴリズムは、目の不自由な人が撮影した写真に何が写っているかうまく説明できない可能性があります。写真がぼやけていたり、中心がずれていたり、逆光になっているかもしれないためです。それに目の不自由な人は、例えばシャツがきれいか汚れているかといったことのように、目の見える人であればそのような分類をしようとは思わないような細かい部分を知りたいと思うこともあるのです。

「ある人にとって何が意味のあることなのかは通常よくわからないものです。だからこそ、こうした技術を目の不自由な人や弱視の人のコミュニティに向けて設計するだけでなく、こうした人たちと共に設計することが重要なのです」と、テキサス大学オースティン校にて情報学部の画像・映像コンピューティンググループ責任者も務めているグラリ氏は話します。

グラリ氏のチームでは、オリジナルの VizWiz データセットを整理するという大量の作業をこなし、機械学習アルゴリズムのトレーニングに使えるようにしました。その際に取り組んだこととしては、不適切な画像の削除や新しいラベルの調達、個人情報の浄化のほか、音声の質問を文字に翻訳し、誰の声か認識されないようにするといったようなことも行いました。

グラリ氏のチームは、助成金を受けると同時にマイクロソフトの研究者とも協力し、画像キャプションアルゴリズムを訓練して検証、テストするための新たな公開データセットを開発しました。このデータセットには、目の不自由な人や弱視の人が撮影した 3 万 9000 枚以上の画像が含まれており、それぞれの画像に 5 つのキャプション候補がつけられています。また同チームでは、誰かが投稿した画像がぼやけていたり、不明瞭だったり、光が十分に当たっていなかったりした場合はすぐに認識し、再度撮り直す方法を提案するようなアルゴリズムにも取り組んでいます。

今年前半にマイクロソフトは、他業界や学術研究者を対象とした公開チャレンジの場を設け、VizWiz データセット上で参加者の画像キャプションアルゴリズムをテストしました。その結果、ある共通評価指標では、最もパフォーマンスの高いアルゴリズムが以前の最先端技術より 33％改善したことがわかりました。

「これにより、目の不自由な人に向けたキャプションの最先端技術がさらに前進します」と、Seeing AI のリードエンジニアであるシャイフは語ります。シャイフは、AI for Accessibility の助成金を受けている組織と協力し、その組織が持つデータセットも活用してアプリを改善しようとしているのです。

	A 5 euro bill on a red table.		Black oven temperature knob that is currently in the off position.		A brown window planter with white flowers and yellow flowers that have died.
	A person holding a plush toy of a cartoon dinosaur in their hand.		A fresh banana that is a little green and mostly yellow.		A crayon colored drawing of a vase with flowers.

写真の右側に示されている例のように、VizWiz 画像キャプションデータセットは各画像に対して 5 つのキャプション候補を提示します。これによってコンピュータビジョンアルゴリズムの学習が進み、目の不自由な人や弱視の人が投稿した写真を認識して何が写っているか説明できるようになります。写真は Creative Commons 4.0 ライセンスに基づいて提供されています。

インクルーシブなデータセットを誰もが利用できるように

AI システムは、与えられたデータに基づいて世界をモデル化するため、データのパターンにマッチしない人は見落とされたり、大きく差別されたりする可能性があります。性別や人種に関しては、AI コミュニティでもこうしたシステムの公平性を改善する必要があることを認め、そのための取り組みも進んでいます。ただその一方で、障碍のある人もインクルーシブにして考えることについては、未だかなり初期段階にあると研究者は指摘しています。

マイクロソフトリサーチでは、問題の範囲と改善への道を定義する多面的な取り組みを始め、昨年はニューヨーク大学の AI Now Institute とワークショップも共催しました。このワークショップには、障碍のある学者や活動家、機械学習の事業家、コンピュータサイエンスの研究者が集まり、障碍のある人を特別な存在や例外として扱わないような AI システムを作る方法について議論を始めました。

マイクロソフトリサーチのシニアプリンシパルリサーチャー、ケイトクロフォード (Kate Crawford) は、「これは、AI システムが何を持って『普通』と定義するのか、誰がそれを決めるのかという問題です」と話します。クロフォードは、社内の AI グループにて Fairness, Accountability, Transparency and Ethics (FATE: 公平性、説明責任、透明性、倫理) 部門を共同設立した人物です。

クロフォードは、求職者のビデオ面接を評価し、「うまくいく」従業員とはどのように話し行動するか提案する予測採用システムを例に挙げています。

「そのシステムは、特定の能力や行動が標準的だから望ましい人物だと示唆するデータに基づいて訓練されていないでしょうか。障碍のある人や何か少し違う人は、訓練データと異なるという理由で、採用候補者として低く評価されていないでしょうか。こうしたことに気づく必要があり、対処していかなくてはならないのです」とクロフォードは述べています。

その目標達成に向け、マイクロソフトの研究者が調査している分野があります。それは、AI システムの訓練に一般的に使われる公開データセットの中に、80 歳以上の人のデータがどの程度含まれているかということです。このような調査を行うのは、年齢と障碍の相関性が高いためです。また、モリスは同僚と共に検索アルゴリズムを調整し、ディスレクシア (読字障碍) の人に向けてより良い検索結果を提示する方法も模索しています。

昨年の夏マイクロソフトは、障碍に対する技術の専門家であるコロラド大学ボールダー校のコンピュータサイエンス准教授であるショーンケイン (Shaun Kane) 氏を客員研究員として迎え入れ、車椅子を使用している人や手足を切断した人、運動障碍のある人、またアルゴリズムを訓練した例とは異なる体の形態を持つ人のことを、インテリジェント感知システムがなぜうまく認識できないのか、なぜ適切に反応できないのかについて共同で調査しました。

また、マイクロソフトと助成金対象となった組織は、実際の課題にどう対処するか模索し、障碍のある人から AI の訓練データを収集する倫理的アプローチも構築しています。マイナスイメージや負い目を感じて障碍の状態を公表したくない人もいるため、プライバシーの維持が最優先となります。

ストゥンプフ氏のチームでは、ORBIT のデータセットに投稿された動画に個人を特定する情報が不用意に含まれていないか確認しています。また、それぞれのモノをどのように撮影するかを示した詳細なマニュアルも作成しました。複数の角度からの映像が必要だったのと、視力のある人がサポートしなくてもデータを収集できるようにしたかったためです。

同チームは、イギリス国内で実施したプロジェクトの第 1 段階にて、この種のデータセットとしては最大となる数千本の動画を収集しました。10 月中旬には、第 2 段階のデータ収集を全世界で展開する予定です。

「研究者としてイノベーションを起こせるような優れたデータを得ることと、多くの人がこれから使おうとするテクノロジを皆で推進できるようにすることとのバランスをどう保つかについては未だ模索中です。しかもそのテクノロジは、難しすぎてもルールが多すぎてもいけないのです」と、英マイクロソフトリサーチケンブリッジにてプリンシパルリサーチャーを務めるセシリーモリソン (Cecily Morrison) は話します。「もしプロセスが難しかったり退屈だと感じたりすると、皆『AI は自分には合っていない』と考えてしまうでしょう」

モリソンは、共同リーダーを務める Project Tokyo というプロジェクトにて、目の不自由な人や弱視の人が自分の置かれた環境を把握するのに AI がどう役立つかについて研究しています。そこでモリソンはストゥンプフ氏のチームと協力し、より少ない例から学習できるアルゴリズムを開発し、幅広い応用につなげようとしています。

ストゥンプフ氏が目指しているのは、ORBIT データセットを公開し、さまざまな状況で日常生活を向上させることです。例えば、目の不自由な人が初めて友人宅を訪問する際、GPS システムを使ったナビゲーションアプリでは近くまで来ていることしかわからないのです。

「住所に示された位置に来ていても、それが本当に友人宅なのか、それとも他の人の家なのか判別しなくてはなりません」とストゥンプフ氏。「友人宅の玄関の写真やその他特徴的な場所の写真があれば、パーソナライズされた物体認識技術を使い、自分にとって重要な場所を特定できるのです」

Top image: VizWiz データセットには、目の不自由な人や弱視の人が撮影した写真が含まれています。例えば、この画像にあるベッドカバーの上に置かれたぬいぐるみや本などです。これは、コンピュータビジョンアルゴリズムを訓練し、より正確な情報を提供するためのものです。写真は Creative Commons 4.0 ライセンスに基づいて提供されています。

ジェニファーラングストン (Jennifer Langston) は、マイクロソフトの研究やイノベーションについて執筆しています。Twitter でも情報発信しています。

—

本ページのすべての内容は、作成日時点でのものであり、予告なく変更される場合があります。正式な社内承認や各社との契約締結が必要な場合は、それまでは確定されるものではありません。また、様々な事由・背景により、一部または全部が変更、キャンセル、実現困難となる場合があります。予めご了承下さい。

ジェニファー ラングストン (Jennifer Langston)

※ 本ブログは、米国時間 10 月 12 日 に公開された “Shrinking the ‘data desert’: Inside efforts to make AI systems more inclusive of people with disabilities” の抄訳です。

データは、新しいアルゴリズムを訓練してテストするために使われ、携帯電話やマスク、台所用品など、個人にとって重要な物体を認識し位置が特定できることを目指します。

「車があって、その中には荷物も積まれていて出かける準備もできているのに、ガソリンが入っていないようなものです。アイデアを実現するのに十分なデータがないのです」

マイクロソフトでは、これを業界全体の問題と捉えており、単一のプロジェクトや組織で解決できるものではないと考えています。しかし、この問題に取り組み始めた新たな協力関係も生まれています。

最先端技術を促進

インクルーシブなデータセットを誰もが利用できるように

クロフォードは、求職者のビデオ面接を評価し、「うまくいく」従業員とはどのように話し行動するか提案する予測採用システムを例に挙げています。

同チームは、イギリス国内で実施したプロジェクトの第 1 段階にて、この種のデータセットとしては最大となる数千本の動画を収集しました。10 月中旬には、第 2 段階のデータ収集を全世界で展開する予定です。

関連情報

ジェニファー ラングストン (Jennifer Langston) は、マイクロソフトの研究やイノベーションについて執筆しています。Twitter でも情報発信しています。

—

More Stories

マイクロソフト、OpenAI の GPT-5 を一般ユーザー、開発者、エンタープライズ向け製品に統合

海から空へ: 天気予報を超えるマイクロソフトの Aurora AI 基盤モデル

マイクロソフト、データセンター冷却の環境影響を「ゆりかごから墓場まで」で定量化する新しい研究を発表

マイクロソフトの AI ビジョンを形作った 15 のマイルストーン

ジェニファーラングストン (Jennifer Langston)

※ 本ブログは、米国時間 10 月 12 日に公開された “Shrinking the ‘data desert’: Inside efforts to make AI systems more inclusive of people with disabilities” の抄訳です。

ジェニファーラングストン (Jennifer Langston) は、マイクロソフトの研究やイノベーションについて執筆しています。Twitter でも情報発信しています。