跳過主内容

Microsoft AI 紅隊共同建構更安全的 AI 未來

軟體安全性的關鍵在於紅隊演練 (Red Teaming)。廣義而言,紅隊演練是模擬現實世界中的對手及其工具、策略和流程的實踐,以識別風險、揭露盲點、驗證假設,並改善系統的整體安全狀態。Microsoft在紅隊演練新興技術方面擁有豐富的歷史,而其目標是主動識別出技術中的缺陷。隨著 AI 系統變得更加普遍,Microsoft於 2018 年成立了 AI 紅隊:這是一個由跨學科專家組成的團隊,致力於以攻擊者的思維方式思考並檢測 AI 系統的缺陷。

我們正分享團隊中的最佳實踐,以便他人可以從Microsoft的經驗中受益。這些最佳實踐可以幫助安全團隊主動尋找 AI 系統中的缺陷,制定出深度防禦的策略,並制定計劃以隨著生成式 AI 系統的發展而演進和提升安全狀態。

AI 紅隊演練的實施已經發展成為一個更廣泛的含義:它不僅涵蓋了對安全漏洞的探測,還包含對其他系統缺陷的探測,例如潛在有害內容的生成。AI 系統帶來了新的風險,紅隊演練的核心是理解這些新風險,例如提示詞注入和生成毫無根據的內容。在Microsoft,AI 紅隊演練不僅僅是一個檢測方式,它代表著「負責任 AI」原則的基礎:正如Microsoft總裁兼副主席 Brad Smith 所宣布的:「Microsoft承諾所有高風險的 AI 系統在部署之前都會經過獨立的紅隊演練」。

此文的目標是說明 AI 紅隊演練與傳統紅隊演練的相似與相異之處,為安全專業領域人士提供相關背景知識。我們希望更多的組織能夠對其自身的 AI 系統進行紅隊演練,並相互提供如何更有效地利用傳統紅隊和 AI紅隊的相關見解。

紅隊演練讓 AI 實施更安全

在過去的幾年中,Microsoft的 AI 紅隊團隊一直致力於分享內容,以使安全領域的專業人士能夠全面且主動地思考如何安全使用 AI 系統。在 2020 年 10 月,Microsoft與MITRE以及其他產業和學術合作夥伴合作發布了他們所共同開發出的對抗性機器學習威脅矩陣,這是一個可以賦予安全分析師檢測、回應和處理威脅的能力的框架。同樣在 2020 年,Microsoft創建了 Microsoft Counterfit 也對其進行開源,這是一款用於測試 AI 系統安全性的自動化工具,有助於讓整個產業提高 AI 解決方案的安全性。隨後,我們在2021年發布了 AI 安全風險的評估框架,除了更新 Counterfit 之外,還幫助組織進一步完善其圍繞 AI 系統安全性的安全實踐。在今年初,我們宣布與合作夥伴進一步合作,幫助組織了解 AI 系統的相關風險,以便組織能安全地使用它們,其中包含將Counterfit整合到 MITRE 工具中,以及與 Hugging Face 合作開發一個針對 AI的安全掃描工具,目前該工具可以在 GitHub 上使用。

安全相關的紅隊演練是範疇更廣的負責任AI (RAI) 紅隊演練努力耕耘的一部分,該工作重點在於Microsoft 的公平性、可靠性和安全性、隱私和安全、包容性、透明度和問責制等AI 原則。這些集體性的工作將直接影響我們向客戶交付 AI 產品的方式,例如:在新的 Bing Chat體驗發布之前,數十名負責 AI 安全性的專家花了數百小時探測新的安全和負責任 AI 的風險。以上測試是在團隊平時遵循的常規、密集的軟體安全實踐,以及RAI 專家在開發 Bing Chat之前由對基本的 GPT-4 模型進行的紅隊演練等等之外的工作。紅隊演練的結果替產品交付前的風險評估提供了系統性的基礎,也協助建立了一定範圍內的緩解措施。

紅隊演練指南和資源

AI 紅隊演練通常在兩個層級進行:在基本模型層級(例如GPT-4)或在應用程式層級(例如使用 GPT-4 的 Security Copilot)。這兩者有各自的優勢:例如,對模型進行紅隊演練有助於在早期階段找出模型的誤用方式,定義模型的能力範圍,並了解模型的限制。這些見解可以直接應用到模型開發的過程中,以改進未來的模型版本,同時也可以快速了解最適合的應用程式。而應用層級的 AI 紅隊演練則是採用系統觀點,基礎模型只是其中的一部分。例如,在對 Bing Chat進行 AI 紅隊演練時,由 GPT-4 提供支援的整個搜尋體驗都在範圍內,並被偵測是否有故障。透過包含整個應用程式特定的安全觸發器來執行,這有助於識別超出模型層級安全機制的故障。

當我們針對安全和負責任的 AI 風險進行探測,探測結果說明了威脅甚至良性使用如何影響 AI 系統的完整性、機密性、可用性和負責性。這種結合的安全和負責任 AI 觀點不僅有助於主動識別問題,還能透過測量並了解這些問題在系統中的普遍性,並制定相應的解決策略。以下是有助於打造Microsoft AI 紅隊計劃的關鍵經驗收穫:

  1. AI 紅隊演練的應用範圍更廣。AI 紅隊演練現在是涵蓋安全和 RAI 結果的總稱。AI紅隊演練與傳統紅隊演練有著相同目標,因為他們的安全組件都將模型作為向量。因此,一些目標可能包括竊取基礎模型。但 AI 系統也具有新的安全漏洞,需要特別關注,例如提示詞注入和中毒等。除了安全目標外,AI 紅隊演練還包括探測公平性問題(例如刻板印象)和有害內容(例如美化暴力)。AI 紅隊演練有助於及早識別這些問題,以便我們可以預先計畫防禦投資的計劃。
  2. AI 紅隊演練專注於來自惡意和良性角色的問題。以紅隊演練新 Bing 為例。在新的 Bing 中,AI 紅隊演練不僅專注於惡意對手如何透過以安全為中心的技術和各式攻擊手法破壞 AI 系統,還專注於在用戶與系統互動時如何生成有害的內容。因此,與傳統的安全紅隊演練只關注惡意對手不同, AI 紅隊演練更廣泛地考慮不同角色與故障機制。
  3. AI 系統不斷演變。AI 應用程式經常發生變化。例如,在大型語言模型應用中,開發人員可能會根據回饋而更改元提示(ML 模型的底層指令)。儘管傳統軟體系統也會改變,但根據我們的經驗,AI 系統的變化速度更快。因此,重要的是需對 AI系統進行多輪的紅隊演練,並在時間內建立系統性、自動化的測量和監控系統。
  4. 以紅隊演練測試生成式 AI 系統需要多次嘗試。在傳統的紅隊演練中,使用不同工具或技術且在兩個不同的時間點輸入相同的指令時,始終會產生相同的輸出。換句話說,一般情況下,傳統的紅隊演練的結果是確定的。然而,生成式 AI 系統是機率性的。這意味著進行兩次相同的輸入可能會提供不同的輸出,因為生成式 AI 的機率性本質上就允許更廣泛的創意輸出。這也使得紅隊演練變得棘手,因為提示可能不會在第一次嘗試中導致故障,但在隨後的嘗試中可能會成功(在顯示安全威脅或RAI損害時)。正如Brad Smith在他的部落格中提到的,我們解決這個問題的一種方法是在同一操作中進行多輪紅隊演練。現在,Microsoft更致力投資於自動化,以協助擴大我們的操作,以及能量化風險程度的一種系統性測量策略。
  5. 緩解 AI 故障需要深度防禦。就像在傳統安全中,像網路釣魚等問題需要各種技術緩解措施,例如將主機強化到可以智慧識別惡意 URI,修復透過 AI 紅隊演練發現的故障也需要採用深度防禦方法。這包括使用分類器來標記潛在有害內容、使用元提示來引導行為,以及在對話場景中限制對話漂移。

以負責任和安全的方式建立技術是Microsoft的DNA。去年,Microsoft慶祝了「可信賴運算」備忘錄發布 20 週年,該備忘錄要求Microsoft提供「像電力、供水服務和電信等標準服務一樣可用、可靠和安全」的產品。AI正在成為21世紀最具變革性的技術,但與任何新技術一樣,AI 也面臨新的威脅。我們透過保護自己的產品贏得客戶信任,這仍然是我們進入這個新時代的指導原則,而AI 紅隊也是這項努力的前沿和中心。我們希望這篇文章能夠鼓舞其他組織透過紅隊演練負責任且安全地整合 AI 技術。


原文網址:Microsoft AI Red Team building future of safer AI