データのデバッグ:現実世界を反映するように AI を訓練する方法

[ブログ投稿日:2017年12月4日]

Posted by:ジョン ローチ (John Roach)

マイクロソフト ニューヨーク研究所 上級研究員ハンナ ウォラック (Hanna Wallach) ーPhoto by John Brecher

人工知能(AI)は、より速くテキストを入力したり、より良い写真を撮影したりするために支援しており、企業における人材採用や裁判の判決など、重要な意思決定にも利用されるケースが増えています。これにともない、マイクロソフトや機械学習コミュニティの研究者は、AI システムの開発に使用されるデータが、現実世界を適切に反映し、意図せぬバイアスの混入を防ぎ、透明性、プライバシー、セキュリティを尊重して扱われることが求められています。

データは機械学習の燃料と言えます。マイクロソフトのニューヨーク研究所の上級研究員ハンナ ウォラック (Hanna Wallach) は、データは機械学習モデルを訓練するために使用される現実世界を表現していると説明します。ウォラックは、12 月 4 日から 9 日にカリフォルニア州ロングビーチで開催される Annual Conference on Neural Information Processing Systems の共同議長です。“NIPS” として知られるこの会議には、産業界と学術界から数千人のコンピューターサイエンティストが、データから学習するシステムにフォーカスした AI 分野である機械学習について議論するために出席する予定です。

他の共同議長と共に公正性、説明責任、透明性に関する NIPS の新議題を紹介したウォラックは次のように述べています。「私たちは、データセットがあたかも明確な境界を持つ厳格に定義されたものであるかのように議論を進めてしまいがちです。しかし、現実には、機械学習が社会に普及し、データセットが社会的プロセスなどの実世界のシナリオから抽出されるケースが増すにつれ、明確な境界がなくなっています。データセットを構築したり選択したりする時には、『このデータセットはモデル化の対象を適切に表現できているのか』を自問する必要があります。」

マイクロソフトのニューヨーク研究所の主任研究員ケイト クロフォード (Kate Crawford) はこの問題を「バイアス問題」と呼び、NIPS ではこのテーマを中心とした招待講演を行う予定です。

「データを収集する人々は『このデータは男性と女性の行動を表している、このデータはあらゆる人間の行動や顔を表している』というような判断を行います。データセットはこのような判断に基づいて作成されます。訓練用データセットに関する興味深い事実は、それが常に人間が必然的に持つ過失やバイアスを伴っているということです」とクロフォードは述べます。

また、研究者たちは、AI 研究者間における多様性の必要性という別の関連する課題にも取り組んでいます。多様性が高いチームが多様な問題を選択することで、より革新的な結果が得られるという研究結果があります。NIPS と同時開催される 2 つのイベントがこの課題に対応します。ひとつは第 12 回を迎えた Women in Machine Learning Workshop であり、共同創設者であるウォラックが機械学習と社会科学の融合に関する招待講演を行います。もうひとつは、マイクロソフトのニューヨーク研究所の博士研究員ティムニット ゲブル (Timnit Gebru)が創設した Black in AI ワークショップです。

「誰が真実を発見したかは問題ではなく、発見される真実はただひとつだけ存在するという科学分野もあります。AI の分野は必ずしもそうではありません。まず研究者としてどのような問題を解決したいかを定義しますが、もし研究者の多様性がなければ、少数の似通った人々が重要と考える狭い範囲の問題だけを解決してしまい、世界中の多くの人々が直面する問題に対応できないリスクが生じます」とゲブルは述べています。

マイクロソフト ニューヨーク研究所の博士研究員 ティムニット ゲブル (Timnit Gebru) ーPhoto by Peter DaSilva

 

機械学習のコア

NIPS の中核は、機械学習モデルとその訓練に使われるデータに関する研究成果についての数百もの論文を発表する学術会議です。

マイクロソフトの研究者は採用された会議論文のうち 43 件の著者または共同著者になっています。合成 DNA に格納されたデータの取得の最新動向やユーザーのプライバシーを犠牲にすることなくユーザーのデバイスからテレメトリーのデータを反復的に取得する方法といったあらゆるいテーマが扱われています。

過去 30 年間に NIPS で発表された論文のほとんどが何らかの形でデータを扱っていることをウォラックは指摘し、「最近の機械学習はもはや合成されたデータセットや標準データセットを使用した純粋な学術界のトピックではなくなっています。むしろ、私たちの生活のあらゆる局面に関連する存在になっています」と述べます。

機械学習モデルを現実世界の問題や課題に適用することによって、公正性、説明責任、透明性へのフォーカスが重要になってきます。

マイクロソフトのニューヨーク研究所の上級研究員ジェン ウォートマン ボーン (Jenn Wortman Vaughan) は次のように述べています。「どのニュースを読むべきか、どの商品を買うべきか、ローン審査が通るかどうかなど、人々はアルゴリズムが生活に与える影響についてより強く意識するようになっています。このような意識の高まりにより、アルゴリズムが実際に何をしているのか、どこからデータを得ているのかに対する関心が高まるのも当然と言えます。」

バイアスによる問題

クロフォードは、データとは誰もが目で見て認識できるような形で世界に存在するものではないと説明します。むしろ、データとは作られるものです。科学者が、自然界のデータをカタログ化し始めた時には情報をデータとして認識していたとクロフォードは指摘します。今日では、科学者はデータを人間の歴史の構成要素ともみなしています。

NIPS におけるクロフォードの招待講演では、司法機関で使用されていた、収監された犯罪者の再犯率を予測するアルゴリズムに、アフリカ系アメリカ人に対するバイアスがあったことを示した報道機関 ProPublica の調査 などの事例を紹介し、そのようなバイアスにどのように対応すべきかを議論します。

「単に信号を増幅したり、畳み込みニューラルネットワークをチューニングしたりすることでこの問題を解決することはできません。構造的差別の歴史とこれらのシステムにおけるバイアスを深く理解する必要があります」とクロフォードは述べています。

クロフォードは、バイアスに対応する方法のひとつとして、AI システムの考案、設計、展開、規制において、そのあらゆる影響を考慮した社会システム分析と呼ばれるアプローチを採用することを提唱しています。最近、彼女は Nature 誌の論考でこのアプローチについて解説しています。

これは、コンピューターサイエンティストだけで解決できる問題ではないことをクロフォードは指摘します。クロフォードはニューヨーク大学に拠点を置く全く新しい学際研究機関である AI Now Institute の共同創設者です。同機関は、AI、機械学習、アルゴリズムによる意思決定の社会的影響の研究のために、11 月に社会学者、コンピューターサイエンティスト、法律家、経済学者、エンジニアを集結して立ち上げられました。

マイクロソフト ニューヨーク研究所 上級研究員ジェン ウォートマン ボーン (Jenn Wortman Vaughan) ー Photo by John Brecher

 

解釈可能な機械学習

AI と機械学習に関する懸念に対応する方法のひとつは、AI システムの人間による解釈を容易にすることで透明性を高めることです。NIPS においてニューヨーク研究所の研究者ボーンは、機械学習の非専門家にとって機械学習モデルを解釈しやすく、理解しやすくしてくれる要素に関する、彼女と同僚たちによる大規模な実験について紹介します。

「ここでのポイントはアルゴリズムによる予測に透明性を加えることで、意思決定者が特定の予測が行われた理由を理解できるようにすることです」とボーンは述べます。

たとえば、モデルに対する特徴や入力の数が、モデルが間違いを起こした時に人がそれを発見できる能力に影響するでしょうか?モデルがどうやって予測をしたかが見える方がブラックボックスである場合よりも、人々はモデルを信用するようになるでしょうか?

「この研究は、意思決定者がモデルの訓練に使用したデータ、そして、モデルの予測に本質的に伴う不確実性を理解できるよう支援するツールの開発に向けた最初のステップです」とボーンは述べています。

マイクロソフトのワシントン州レドモンド研究所のディスティングイッシュトエンジニアであり、シンポジウムの共同主催者であるパトリス シマード (Patrice Simard) は、解釈可能な機械学習の領域は、問題を単純でわかりやすいステップから構成される小さな問題に分割する技術を学ぶコンピュータープログラミングの世界からヒントを得るべきであると述べています。「しかし、機械学習の世界は大きく遅れを取っています。まだ、適切な基盤がありません」と彼は述べます。

キャッチアップのためにシマードは機械教育(マシンティーチング)と呼ぶ手法を提唱します。すなわち、大量のデータからパターンを検出させるのではなく、問題を解決する時に機械に特徴を提供します。たとえば、良いか悪いかだけを指定した数百万の自動車のイメージを使って自動車購入の機械学習モデルを訓練するのではなく、燃費や衝突安全性などの特徴をモデルに教えるのだとシマードは説明します。

この教育戦略は意図的なものであり、機械学習モデルの訓練に使用された概念の階層が結果として得られるとシマードは付け加えます。

研究者の多様性

AI システムに意図しないバイアスが潜り込むことを防ぐひとつの方法が研究分野での多様性を推進することであると、NIPS と共同開催される Black in AI ワークショップの共同主催者であるゲブルは述べます。「AI の訓練に関する人々の知識が世界中の地域、性別、人種で分散していることが重要です」と彼女は説明します。

NIPS プログラムの共同議長のウォラックは、2005 年に開催された彼女にとって 4 回目のNIPS プログラムにおいて研究者の多様性の重要性を認識しました。その時初めて彼女は他の 3 人の女性とホテルの部屋をシェアしました。その 1 人はボーンであり、残りの 2 人はルームメイトと共に Women in Machine Learning を共同創設した人物でした。同会議は 12 回目を迎え、2008 年からワークショップを NIPS と共同開催しています。今年は 650 名以上の女性が参加する予定です。

Women in Machine Learning Workshop においてウォラックは、社会科学の分野に機械学習を適用し、コミュニティへの帰属や議論のトピックなど本質的に観測できない理論的構成要素を測定するというテーマに関する招待講演を行います。

「社会という文脈におけるデータを扱う時には必然的に倫理、公正性、説明責任、透明性、プライバシーといった課題を考慮することが重要になります」とウォラックは述べます。

ーーー

本ページのすべての内容は、作成日時点でのものであり、予告なく変更される場合があります。正式な社内承認や各社との契約締結が必要な場合は、それまでは確定されるものではありません。また、様々な事由・背景により、一部または全部が変更、キャンセル、実現困難となる場合があります。予めご了承下さい。

Tags:

関連記事