責任ある機械学習機能で AI システムの信頼性構築に取り組むマイクロソフト

ジョン ローチ (John Roach)

※ 本ブログは米国時間 5 月 19 日に公開された ”Microsoft responsible machine learning capabilities build trust in AI systems, developers say” の抄訳です。

経営者であれば、お客様の不正行為を告発することが非常に難しいことは誰でもわかると思います。スカンジナビア航空 (SAS) の不正検知部門のメンバーが、同社のロイヤリティポイントプログラムで不正を働こうとするお客様を告発する場合も、捜査員はその事件に確かな証拠があるという確信を求めてきます。

「何か不正があるとうっかり言ってしまい、実際に不正がなかったとしたら、より大きなダメージを受けてしまいます」と、スウェーデン ストックホルムに本社を置く SAS にてデータ分析および人工知能担当責任者を務めるダニエル エンバーグ (Daniel Engberg) 氏は語ります。

SAS は現在、新型コロナウイルスによって発生する COVID-19 の感染速度を抑えようと、運航スケジュールを縮小し機内サービスも制限しています。規制前の SAS は、1 日 800 便以上を出航させており、年間 3000 万人の乗客を運んでいました。通常業務の再開を待つ中、同社のロイヤリティプログラム EuroBonus の整合性を保つことが最重要事項だとエンバーグ氏は述べています。

エンバーグ氏によると、EuroBonus で詐欺行為を行う人物は、自身の特典旅行の予約に使うためか売却するためか、できるだけ多くのポイントを迅速に獲得しようとするとのことです。不正が発生した場合、正規のお客様がロイヤリティプログラムで座席を申請する機会が失われ、SAS の貴重な事業収益も損なわれることになります。

現在、EuroBonus の不正の大半は、エンバーグ氏と同氏のチームが Microsoft Azure Machine Learning で構築した AI システムによって発覚しています。Microsoft Azure Machine Learning は、機械学習モデルを構築して訓練し、展開するためのサービスで、理解しやすく、保護や制御も容易にできるようになっています。

SAS の AI システムは、リアルタイムのフライトやトランザクション、特典の申請、その他のデータの流れを、数千ものパラメータによって機械学習モデルで処理し、不審な行動パターンを見つけ出しています。

モデルの予測を理解し、手がかりを追って立件するにあたり、不正検知部門は InterpretML ツールキットをベースとした解釈可能性という Azure Machine Learning の機能を活用しています。この機能により、あるケースでどのパラメータが最も重要かが明確になります。例えば、ゴーストアカウントでポイントを貯め、フライトを予約するという詐欺を示唆するパラメータを指すこともあるでしょう。

モデルの解釈可能性は、機械学習の謎を解くことにもつながり、さらにはモデルの予測に対する自信と信頼性が高まることにもなると、エンバーグ氏は語ります。

「こうしたモデルの信頼性を高めれば、モデルを使う人も増え、機械学習によるメリットを実際に享受できるようになります」とエンバーグ氏。「説明可能性のために説明できるということではありません。お客様と自社の従業員の双方に対し、このモデルが何をしているのか、またこのモデルがどのようなポジションを取っているのかといった知見を提供できるということなのです」

A graphic for Azure Machine Learning, three sections for Understand, Control, and Protect

機械学習ソリューションを理解し、保護して制御する

ワシントン州レドモンドのマイクロソフトで Microsoft Azure AI 担当コーポレートバイスプレジデントを務めるエリック ボイド (Eric Boyd) は、過去数年間で機械学習は研究室から主流へと場を移し、博士号を持つデータサイエンティスト向けのニッチな領域から、すべての開発者が参加できるものへと変化したと述べています。

マイクロソフトが Azure Machine Learning を構築したのは、データサイエンス領域の専門知識を持つ開発者が AI システムを構築し展開できるようにするためでした。ボイドによると、今ではすべての開発者が、説明が簡単で差別的でなく、プライバシー規制に準拠した AI システムを構築するよう求められることが増えてきたといいます。

「自分のモデルが公平性を保っているか自分でちゃんと評価したかどうかや、特定のモデルがなぜこのような予測をしているのか自分で本当に理解できているかどうかといったことを、適切に見極めるのは非常に難しいことです」とボイドは語ります。

こうした課題を乗り越えるため、マイクロソフトは本日、責任ある機械学習のイノベーションを発表します。これは、機械学習のライフサイクル全般にわたり、開発者が構築したモデルを自身で理解し、保護し、制御できるというものです。この機能は、Azure Machine Learning からアクセスできるほか、オープンソースとして GitHub でも公開しています。

モデルの行動を理解する機能には、SAS が EuroBonus ロイヤリティプログラムの不正検出に利用している InterpretML ツールキットをベースとした解釈可能性機能も含まれています。

またマイクロソフトは、AI システムの公平性を評価し改善する機能が含まれている Fairlearn ツールキットを、6 月に Azure Machine Learning に統合するとしています。

さらにマイクロソフトは、差分プライバシー用ツールキットの WhiteNoise を開発者に実験用として提供することも発表します。WhiteNoise は、GitHub でオープンソースとして入手できるほか、Azure Machine Learning からもアクセス可能です。差分プライバシー機能は、ハーバード大学量的社会科学研究所および同大学工学部の研究者と共同で開発したものです。

差分プライバシー技術は、名前や生年月日といった個人情報が保護されていることを統計的に保証しつつ、個人データから知見を引き出せるようにするものです。

例えば、差分プライバシーにより、病院グループが協力してより優れたがん治療の有効性に関する予測モデルを構築できるようになると同時に、病院情報のプライバシーを保護する法的要件を遵守し、個別の患者データがモデルから流出しないようにできるのです。

また、Azure Machine Learning には、開発者がモデルの構築や訓練、展開といったプロセス全体を追跡し自動化できるよう、制御機能が組み込まれています。機械学習とオペレーション (MLOps) として幅広く知られるこの機能は、監査証跡を提供して組織が規制やコンプライアンス要件を満たせるよう支援します。

「MLOps は、機械学習の運用面と再現可能な側面を中心に考えられたものです」とボイドは語ります。「実行したさまざまな実験や、そこで設定したパラメータ、構築時に使ったデータセットなどを追跡してくれます。その情報を使って、同じものが再構築できるようになります」

Sarah Bird standing in front of a city skyline with a river in the background

コンテキストバンディットと責任

2010 年代半ば頃、ニューヨークのマイクロソフト研究所でサラ バード (Sarah Bird) は仲間と共にコンテキストバンディットという機械学習技術に取り組んでいました。コンテキストバンディットとは、時間をかけて特定のタスクがどんどんうまく実行できるようになる方法を模索実験で学習するというものです。

例えば、ニュースサイトを訪問した人が猫のストーリーをクリックした場合、コンテキストバンディットはこの人に猫のストーリーをより多く提示するよう学習します。学習を続けるにあたり、バンディットはその人に対し、スポーツチームの Jacksonville Jaguars にまつわる話や、ヒットミュージカル「キャッツ」の話を提示するといった実験を行います。その人がどのストーリーをクリックするかが、次の学習データポイントとなり、よりパーソナライゼーションが進むことになります。

「うまくいけば素晴らしい結果が出て、これまでにないほどパーソナライゼーションが進みます」と、現在はリーダーとして Azure AI への責任ある AI の取り組みを進めているバードは話します。「お客様と話し、営業チームと協力した上で、この新規研究技術を試したいお客様がいるか探っていきました」

それが、営業からの話でバードはいったん立ち止まることになりました。潜在的なお客様が、コンテキストバンディットを使って就職の面接や保険金請求の裁定プロセスを最適化させたいといったアイデアを寄せたのですが、多くの人がコンテキストバンディットの仕組みを理解していないことにバードは気づいたのです。

「こういった用途での実験は倫理的に大丈夫なのかと考えるようになりました」とバードは振り返ります。

この疑問が発端となり、AI における公平性、説明責任、透明性、倫理性を研究するグループ (FATE: Fairness, Accountability, Transparency and Ethics in AI) の仲間と議論することになり、実験倫理の歴史と、強化学習が示唆することについての共同研究につながりました。強化学習は、コンテキストバンディットのベースとなった機械学習の一種なのです。

「コンテキストバンディットは、実際のユースケースでも使える十分な技術なので、もし人の生活に影響を与えるような実際のユースケースに使用する場合は、公正かつ安全であることを確認するべきだと思います」とバードは話します。彼女は現在、責任ある機械学習を全開発者が使えるようなツールの構築にフルタイムで注力しています。

ハスキーとオオカミの実験でモデルを騙す

ここ数年で、倫理的な AI の研究は世界中で爆発的に広がりました。主要な業界の集まりではモデルの公平性と解釈可能性が注目の話題となり、学術文献には責任ある機械学習ツールが掲載されるようになりました。

例えば 2016 年は、現在レドモンドのマイクロソフト研究所でシニアリサーチャーを務めているマルコ トゥリオ リベイロ (Marco Tulio Ribeiro) が、分類子の予測を解説する技術を学会論文で発表しました。これは、写真内の物体を分類するよう訓練されたコンピュータビジョンモデルのようなものです。

この技術を実証するにあたり、リベイロは分類子に対し、写真の背景が雪の場合は「オオカミ」と予測し、雪がない場合は「ハスキー」と予測するよう故意に訓練しました。その上で、背景がほぼ雪でいっぱいのオオカミの写真と、背景にほとんど雪のないハスキーの写真でモデルを実行し、機械学習の専門家に結果を見せて 2 つの質問を投げかけました。それは、このモデルが信頼できるかどうか、そしてこのモデルはどのように予測しているのかという質問です。

A collage of images of wolves and huskies that a machine learning model tried to decipher

リベイロによると、機械学習専門家の多くはモデルが信頼できると述べ、モデルがオオカミやハスキーを予測した理由として、オオカミの歯の方が尖っているといった理論を展開したといいます。背景が要因の可能性もあると指摘した専門家は半数以下で、雪に着目した人はほとんどいませんでした。

「その後、解説を提示しました。それを見たところ全員が納得し、『なんだ、背景を見ていたのか』と言ったのです」とリベイロ。「概念が証明されました。専門家でも悪いモデルに騙されることがあるということです」

リベイロの解説技術の改良版は、Azure Machine Learning にて解釈可能性を利用する開発者であれば誰もが利用できる解釈可能性機能のひとつとなっており、SAS の不正検知部門が EuroBonus ロイヤリティプログラムの不正を立件するために活用しているツールキットです。

SAS が Azure Machine Learning で構築している他の AI ソリューションには、航空券の販売を予測するものや、機内販売の生鮮食品の在庫を最適化するシステムなどがあります。COVID-19 の感染拡大スピードを抑える世界的な取り組みの一環として、現在は生鮮食品の販売が停止されていますが、停止前には生鮮食品ソリューションによって食品廃棄物が 60% 以上削減されました。

エンバーグ氏と、同氏のもとで働くデータ分析および人工知能チームでは、今も機械学習モデルの構築、訓練、テストを続けています。そこでは、解釈可能性と公平性に向けた Azure Machine Learning 機能のさらなる実験も行われています。

「お客様や私たち個人に影響を与えるような分野に踏み込むにつれ、公平性や説明可能な AI、責任ある AI といった概念の重要度がより高まってくると感じます」とエンバーグ氏は述べています。

不公平性の評価と緩和

Fairlearn ツールキットの機能の多くは、FATE に所属するバードの仲間が開発したものです。この機能により、開発者は性別や肌の色、年齢、その他の特徴に基づき、さまざまなタイプの人間に関するモデルのパフォーマンスを分析できるようになりました。

「アプリケーションにおける公平性の意味に関するすばらしいアイデアがあっても、モデルが非常に複雑なため、あるグループでは他のグループほどうまくいかないということに気づかないこともあるでしょう」とバードは話します。「Fairlearn はこのような課題を見つけ出せるのです」

Eric Boyd stands with arms folded in a white background

保証、税務、取引、顧問サービスにおけるグローバルリーダーの  EY は、自動融資判断用に同社が構築した機械学習モデルにて、Fairlearn ツールキットの公平性機能を試験導入しました。

このモデルは、銀行の住宅ローン裁定データでトレーニングを行いました。そのデータには、取引履歴や支払履歴、信用調査所の情報も含まれています。この種のデータは、一般的にお客様のローン返済能力や返済意志を評価するために使われます。ただし、これには規制上の課題や法的問題、さらには特定層からの申請に対し公正な判断が下されない可能性があるといった懸念も出てきます。

そこで EY では Fairlearn を活用し、生物学的性別におけるモデルのアウトプットが公平であるかどうかを評価しました。Fairlearn では、結果をビジュアルでインタラクティブなダッシュボードに表示するのですが、そこには男女で融資の決定に 15.3% ポイントの差があり、男性の方が優位であることが示されていました。

Fairlearn ツールキットにより、EY のモデリングチームは複数の修正モデルを急いで開発して訓練し、公平性とモデルの精度との間における一般的な妥協点を可視化しました。同チームでは最終的に、全体的な精度を最適化して維持しつつ、男女差を 0.43% ポイントにまで抑えた最終モデルに到達しました。

モデルの不公平性を評価し緩和する開発者の能力は、金融業界全体で重要になってきているとボイドは語ります。

「規制当局がこうしたモデルを注視している様子がより頻繁に伺えるようになりました」とボイド。「運営を継続させるには、先進的な実践に従っていることや、データセットの公平性を向上させようと懸命に取り組んでいることについて、文書化し証明できるようにすることが不可欠です」

責任ある機械学習

バードは、機械学習によって世界はより良い方向に進むと考えていますが、責任を優先し中心とした手法でモデルを構築するツールやリソースがすべての開発者に必要だと述べています。

例えば、COVID-19 の患者データセットを収集し、新型コロナウイルスによる深刻な合併症リスクが高い人を予測する機械学習モデルを構築するという共同研究が医療コミュニティ内で行われたとしましょう。

こうしたモデルを導入するには、導入前に開発者が機械学習の意思決定の手法を把握し、医師や患者にプロセスを説明できるようにしておかなくてはならないとバードは語ります。また、開発者は公平性も評価し、例えば男性のリスクが高まるといった既知の情報をモデルが確実に把握していることも確認しておいた方がいいとしています。

「男性のリスクが高いことを予測しないモデルなど必要ありません。そんなものはひどいモデルです」とバード。「その上で、当たり前ですがモデルが訓練に使った人のデータを公表しないようにしなくてはなりません。それには差分プライバシーが必要となります」

関連情報

本ページのすべての内容は、作成日時点でのものであり、予告なく変更される場合があります。正式な社内承認や各社との契約締結が必要な場合は、それまでは確定されるものではありません。また、様々な事由・背景により、一部または全部が変更、キャンセル、実現困難となる場合があります。予めご了承下さい。

Tags: ,

関連記事