KI-Tools wie ChatGPT und Copilot haben die Arbeitswelt und viele andere Bereiche unseres Lebens stark verändert. Das gilt auch für die sogenannten Red Teams – Gruppen von Cybersicherheitsexpert*innen die wie Hacker*innen denken, aber daran arbeiten die Sicherheit von Technologien zu gewährleisten.
Die Fähigkeit der generativen KI in mehreren Sprachen zu kommunizieren, sich Geschichten auszudenken und sogar fotorealistische Bilder zu erzeugen, hat die Bedrohungslage im Cyberbereich verschärft. Das Problem reicht von der Verbreitung ungenauer, manipulierter oder falscher Informationen bis hin zu vollkommen neuen Methoden, die es Kriminellen oder böswilligen Akteuren möglich machen, erhebliche Schäden anzurichten. Diese neuen Risiken sind auch der Grund für den neuen, breit angelegten Ansatz des AI Red Team von Microsoft, welches versucht potenzielle Schäden zu erkennen und begrenzen.
„Wir glauben, dass Sicherheit, verantwortungsvolle KI und ein umfassendes KI-Sicherheitskonzept drei Seiten derselben Medaille sind“, sagt Ram Shankar Siva Kumar, der Leiter des KI Red Teams bei Microsoft. „Wir brauchen einen umfassenden Überblick über alle Risiken eines KI-Systems, bevor es in die Hände der Kunden gelangt. Hier kommen wir in einen Bereich, der massive soziotechnische Auswirkungen haben kann.“
Der Begriff „Red Teaming” wurde während des Kalten Krieges geprägt, als in Simulationsübungen des US-Verteidigungsministeriums rote Teams die Sowjetunion und blaue Teams die USA und ihre Verbündeten darstellten. In der Cybersicherheit gibt es diesen Begriff schon seit einigen Jahrzehnten, wobei rote Teams hier den Gegner*innen spielen, der versucht Technologien zu hacken, zu beschädigen oder zu missbrauchen. Ziel ist es, potenzielle Schwachstellen zu erkennen und zu beheben, bevor es zu Problemen kommt.
Als Siva Kumar schon vor fünf Jahren, in 2019, das AI Red Team von Microsoft gründete, orientierte er sich an einem traditionellen Modell, bei dem Cybersicherheitsexpert*innen zusammenkommen und proaktiv nach Schwachstellen suchen. Gleichzeitig führte ein Team von Forscher*innen unter der Leitung von Forough Poursabzi, Managerin im Team für KI-Ethik und -Auswirkungen, Studien aus einer neuen Perspektive durch: Die Forscher*innen nahmen eine verantwortungsbewusste KI-Perspektive ein, um herauszufinden, ob die generative Technologie schädlich sein könnte – entweder absichtlich oder aufgrund systemischer Probleme in den Modellen, die während des Trainings und der Evaluierung übersehen wurden. Dies waren Herausforderungen, mit denen die roten Teams bis dahin nicht konfrontiert worden waren. Den verschiedenen Gruppen wurde schnell klar, dass sie gemeinsam stärker sein würden. Sie schlossen sich darum zu einem größeren Red Team zusammen, damit sie neben den normalen Sicherheitsrisiken auch die Risiken für die Gesellschaft einschätzen konnten.
Ram Shankar Siva Kumar, Leiter des KI Red Teams bei Microsoft
Das AI Red Team arbeitet dabei unabhängig von den Entwickler*innen der Technologie. Der erweiterte Aufgabenbereich der Teammitglieder umfasst unter anderem auch fiktive Gegner*innen, die versuchen, ein System zu Halluzinationen zu zwingen. Die Teammitglieder befassen sich auch mit der potenziellen Gefahr schädlicher, beleidigender oder manipulierter Ergebnisse wegen unzureichender oder ungenauer Daten. Dabei schlüpfen sie in verschiedene Rollen: Die des kreativen Teenagers, der einen Streich spielt, bis hin zur Rolle bekannter Cyber-Gegner*innen, der*die Daten zu stehlen versucht. Ziel ist es immer, blinde Flecken zu erkennen und Risiken zu entlarven. Um unterschiedlichen kulturellen Kontexten und regionalspezifischen Bedrohungen durch künstliche Intelligenz Rechnung zu tragen, ist das Team global aufgestellt. Die Mitglieder sprechen insgesamt 17 Sprachen – von Flämisch über Mongolisch bis Telugu. Sie versuchen nicht nur Systeme zu kompromittieren, sondern nutzen auch große Sprachmodelle (LLMs) für automatisierte Angriffe auf andere LLMs.
Ram Shankar Siva Kumar, Leiter des KI Red Teams bei Microsoft
Die Gruppe erweitert und teilt ihr Fachwissen, zum Beispiel durch die Veröffentlichung von Open-Source-Frameworks wie Counterfit und dem Python Risk Identification Toolkit for generative AI (PyRIT). Damit hilft sie Sicherheitsexpert*innen und Ingenieur*innen für maschinelles Lernen außerhalb des Unternehmens bei der Identifizierung potenzieller Risiken. Diese Expert*innen, die in Organisationen in der ganzen Welt als Red Teams arbeiten, können mit diesen Tools effizienter und produktiver arbeiten – was dringend notwendig ist, denn in vielen Unternehmen sind die Ressourcen um solche Red Teams aufzustellen sehr begrenzt. Deshalb hat das Microsoft-Team auch Best Practices veröffentlicht, die anderen den Einstieg erleichtern.
Stellt das Red Team ein Problem fest, wenden sich die Teammitglieder an das Responsible AI Measurement Team, das die potenzielle Bedrohung bewertet. Anschließend befassen sich weitere interne Expert*innen und Gruppen mit dem Problem, um den dreistufigen Ansatz für eine sichere künstliche Intelligenz zu vervollständigen: Mapping, Measurement und Risk Management.
„Unsere Arbeit umfasst eine Vielzahl von Schadensfällen, die wir zu identifizieren versuchen“, sagt Siva Kumar. „Wir passen uns schnell an – das ist unser Erfolgsrezept. Wir können nicht darauf warten, dass sich die Kräfte des Wandels durchsetzen – wir müssen ihnen zuvorkommen.“
Hier können Sie mehr über Microsofts Responsible AI herausfinden. Den Originalbeitrag auf Englisch finden Sie hier.
Dieser Beitrag kommt aus der Microsoft-Reihe “Building AI Responsibly”, die die wichtigsten Fragen beantwortet wie man KI verantwortungsvoll einsetzen kann und erklärt wie Microsoft Systeme und Tools für den verantwortungsvollen Umgang mit AI entwickelt. Den ersten Beitrag der Serie über KI Halluzinationen können Sie hier lesen.
Foto Credit: Microsoft