コンテンツへ移動
レッド チームはハッカーのように考え、AI の安全を守る

レッド チームはハッカーのように考え、AI の安全を守る

スザンナ レイ (Susanna Ray)

※本ブログは、米国時間 7 月 24 日に公開された “Red teams think like hackers to help keep AI safe” の抄訳を基に掲載しています。

本ブログは、マイクロソフトの「Building AI Responsibly (責任ある AI の構築)」シリーズの一環であり、AI の導入に関する重要な懸念事項と、当社が責任ある AI のプラクティスおよびツールによってそれらにどのように対処しているかを探求しています。

ChatGPT や Copilot のような AI ツールが、世界中のあらゆる職種の人々の働き方を一変させたように、それらはレッド チーム、つまりハッカーのように考えることでテクノロジを安全かつセキュアに保つサイバーセキュリティの専門家グループの形も変えました。

生成 AI は、多言語での会話、物語の執筆、写実的な画像の作成といった能力を持つ一方で、偏ったまたは不正確な結果を提供したり、悪意のある人々が新たな方法で不和を引き起こしたりする可能性があるなど、潜在的な危険も伴います。これらのリスクに対処するため、マイクロソフトの AI レッド チームは、潜在的な危害を特定し軽減するための新規かつ広範なアプローチを採用しました。

「セキュリティ、責任あるAI、そして AI の安全性という広範な概念は、同じコインの異なる面だと考えています。」と、マイクロソフトの AI レッド チームを率いるラム シャンカール シバ クマール (Ram Shankar Siva Kumar) は述べています。「AI システムが顧客の手に渡る前に、すべてのリスクを普遍的かつ一元的に把握することが重要です。なぜなら、これは大規模な社会技術的な影響を及ぼす領域だからです。」

「レッド チーミング」という用語は冷戦時代に作られたもので、米国防総省はレッド チームをソビエト連邦、ブルー チームを米国とその同盟国に見立ててシミュレーション演習を行いました。数十年前、サイバーセキュリティのコミュニティがこの用語を採用し、テクノロジを破壊、破損、悪用しようとする敵対者を演じるレッド チームを編成しました。これは、問題が発生する前に潜在的な弊害を発見し、修正することを目的としています。

シバ クマールが 2018 年にマイクロソフトの AI レッド チームを結成した際、彼はサイバーセキュリティの専門家を集めて脆弱性を積極的に探るという従来のモデルに従いました。これは、当社がすべての製品やサービスで行っている方法と同じです。

同時に、フォルーグ プールサブジ (Forough Poursabzi) は社内の研究者たちを率いて、責任ある AI の視点から、新しい別の角度で研究に取り組んでいました。その研究では、生成技術が意図的に、またはモデルのトレーニングや評価時に見落とされたシステム的な問題によって有害である可能性があるかどうかを調査していました。これは、レッド チームがこれまで対処しなければならなかった要素ではありませんでした。

2 つのグループはすぐに、協力することでより強力になることに気づき、神経科学者、言語学者、国家安全保障の専門家、そして多様な背景を持つ数多くの専門家を加えて、セキュリティリスクと社会的な危害リスクの両方を評価する、より広範なレッド チームを結成しました。

“AI システムがお客様の手に渡る前に、すべてのリスクを普遍的かつ一元的に把握することが重要です”

マイクロソフト AI レッド チーム責任者 ラム シャンカール シバ クマール

「責任ある AI のレッド チーム活動を正しく行うためには、幅広い視点が必要です。」と、エンジニアリングと調査における AI、倫理、影響 (Aether) チームのシニア プログラム マネージャーであるプールサブジは述べています。このチームは、マイクロソフトの責任ある AI の全エコシステムを活用し、生成 AI 技術に関連する新たなリスクや長期的な考慮事項を調査しています。

専任 AI レッド チームはテクノロジを構築するチームとは異なり、その拡大された監視対象には、システムにハルシネーションを生成させようとする敵対者や、不適切または不正確なデータによる有害、攻撃的、または偏った出力も含まれます。

チームメンバーは、いたずらをするクリエイティブなティーンエイジャーから、データを盗もうとする既知の敵対者まで、様々な人格を想定して、盲点を明らかにし、リスクを発見します。チームメンバーは世界中におり、フラマン語からモンゴル語、テルグ語まで、合わせて 17 の言語で微妙な文化的背景や地域特有の脅威に対応しています。

また、彼らはシステムを単独で侵害しようとするだけでなく、大規模言語モデル (LLM) を使って他の LLM に対して自動攻撃も行います。

“責任ある AI のレッド チーム活動を正しく行うためには、幅広い視点が必要です”

エンジニアリングと調査における AI、倫理、影響 (Aether) チーム
シニア プログラム マネージャー フォルーグ プールサブジ

このグループは、Counterfit や Python Risk Identification Toolkit for generative AI (PyRIT) などのオープンソース フレームワークを今年初めにリリースし、専門知識の深さに幅を持たせました。これにより、社外のセキュリティ専門家や機械学習エンジニアも潜在的なリスクを把握することができます。これらのツールは、限られたリソースである専門のレッド チームメンバーがより効率的かつ生産的に活動できるよう支援します。また、チームは自身の経験から得たベストプラクティスも公開し、これから始める他の人々をサポートしています。

マイクロソフトの AI レッド チームは問題を発見すると、それを責任ある AI 測定チーム (Responsible AI Measurement Team) に送り、その問題がどれほどの脅威であるかを評価します。その後、内部の専門家やグループが問題に対処し、安全な AI のための 3 段階のアプローチであるリスクのマッピング、測定、管理を完遂します。

「私たちの活動は、様々な種類の危害を防ぐことを目的としています。」とシバ クマールは言います。「私たちは迅速に適応し、再構築します。それが成功の秘訣です。変化の力が押し寄せるのを待つのではなく、先手を打つのです。」

AI のハルシネーションに関する Building AI Responsibly ストーリーはこちらからご覧ください。

マイクロソフトの責任ある AI の取り組みについてはこちらをご覧ください。

リード イラスト: Makeshift Studios / Rocio Galarza

本ページのすべての内容は、作成日時点でのものであり、予告なく変更される場合があります。正式な社内承認や各社との契約締結が必要な場合は、それまでは確定されるものではありません。また、様々な事由・背景により、一部または全部が変更、キャンセル、実現困難となる場合があります。予めご了承下さい。