Messungen sind entscheidend, um KI auf Kurs zu halten

Als Hanna Wallach anfing, verschiedene Machine-Learning-Modelle zu testen, waren die Aufgaben klar definiert und einfach zu bewerten. Hat das Modell die Katzen auf einem Bild richtig identifiziert? Hat es richtig vorhergesagt, wie verschiedene Zuschauer*innen einen Film bewertet haben? Hat es die Worte richtig verstanden und transkribiert, die jemand gerade gesagt hat?

Was bei der Bewertung der Leistungsfähigkeit dieser Modelle Sinn machte, funktioniert nicht bei generativer KI – den neuen, großen Sprachmodellen (Large Language Models, LLMs) die direkt mit Menschen interagieren können. Darum hat Wallach als Forscherin bei Microsoft eine neue Herangehensweise: Sie bewertet die Antworten der KI danach, ob sich potenziell Risiken ergeben. Statt einer klar definierten Metrik spricht sie von „verschwommenen menschlichen Konzepten“, wie zum Beispiel Fairness oder psychologische Sicherheit.

Dieser neue Ansatz KI-Risiken zu messen bzw. zu definieren, zu bewerten und sicher zu lösen berücksichtigt sowohl soziale als auch technische Elemente der Interaktion zwischen generativer Technologie und Menschen. Die Sicherheit der KI zu gewährleisten, wird damit viel komplexer, aber auch wichtiger.

„Ein großer Teil der Arbeit meines Teams besteht darin, herauszufinden, wie Ideen aus den Sozialwissenschaften im Zusammenhang mit verantwortungsvoller KI genutzt werden können“, sagt Wallach. „Man kann die technischen Aspekte der KI nicht durchdringen, ohne die sozialen Aspekte zu verstehen und umgekehrt.“

Ihr Expert*innenteam für Angewandte Wissenschaft bei Microsoft Research analysiert Risiken, die durch Kundenfeedback, andere Forscher*innen, die Produkt- und Richtlinienteams von Microsoft und das AI Red Team des Unternehmens aufgedeckt werden – also eine Gruppe von Technolog*innen und Expert*innen, die KI-Systeme auf Herz und Nieren prüfen, um herauszufinden, wo Fehler auftreten könnten.

Wenn potenzielle Probleme auftauchen – zum Beispiel mit einem voreingenommenen KI-System das in der Küche immer nur Frauen oder als CEO immer nur Männer zeigt – werden Wallachs Team und andere Mitarbeitende des Unternehmens aktiv, um den Kontext und das Ausmaß dieser Risiken abzuschätzen und um zu verstehen, wie sich solche Fehler oder Voreingenommenheit in verschiedenen Interaktionen mit dem System manifestieren könnten.

Wenn andere Teams Lösungen für Risiken entwickeln, denen Nutzer*innen ausgesetzt sein könnten, misst ihre Gruppe erneut die Reaktionen des Systems, um sicherzustellen, dass die vorgenommenen Änderungen funktionieren.

Wallach und ihre Kolleg*innen müssen sich dabei manchmal mit sehr nebulösen Konzepten auseinandersetzen, zum Beispiel ob und – falls ja, warum – eine KI bestimmte Personengruppen stereotypisiert oder herabsetzt. Ihr Ansatz kommt aus der Linguistik und den Sozialwissenschaften, und versucht klare Definitionen festzulegen und gleichzeitig kontroverse Inhalte zu berücksichtigen – ein Prozess der „Systematisierung“ genannt wird. Sobald sie ein Risiko definiert oder systematisiert haben, beginnen die Forscher*innen, es mit Hilfe von Annotationstechniken oder Methoden zur Identifizierung von Systemantworten in simulierten und realen Interaktionen zu messen. Anschließend bewerten sie diese Reaktionen, um festzustellen, ob das KI-System zufriedenstellend funktioniert oder nicht.

Die Arbeit des Teams hilft bei technischen Entscheidungen und liefert den Microsoft-Technologen detaillierte Informationen mit deren Hilfe sie Korrekturmaßnahmen entwickeln. Basierend auf dieser Metrik kann dann das Management entscheiden, ob und wann ein System einsatzbereit ist.

Wie können wir wissen, ob unsere Abhilfemaßnahmen und Lösungen wirksam sind, wenn wir sie nicht messen? Das ist derzeit die wichtigste Frage bei verantwortungsbewusster KI.

Sarah Bird, Chief Product Officer für verantwortungsbewusste KI bei Microsoft

Da generative KI-Systeme mit Texten, Bildern und anderen Modalitäten arbeiten, die die Gesellschaft und die Welt um uns herum repräsentieren, wurde Wallachs Team aus vielen verschiedenen Fachrichtungen rekrutiert. Zu ihrer Gruppe gehören angewandte Wissenschaftler*innen mit einem Hintergrund in Informatik und Linguistik, die untersuchen, wie verschiedene Arten von Risiken zum Vorschein kommen können. Sie arbeiten mit Forscher*innen, Expert*innen, Politikberater*innen, Ingenieur*innen und anderen zusammen, um möglichst viele Perspektiven und Hintergründe einzubeziehen.

Weil KI-Systeme immer häufiger eingesetzt werden, wird es immer wichtiger, dass sie auch Randgruppen angemessen repräsentieren. Im vergangenen Jahr arbeitete ihr Team beispielsweise mit dem Team des Chief Accessibility Officer von Microsoft zusammen, um die Fairnessrisiken in Bezug auf Menschen mit Behinderungen zu verstehen. Sie begannen damit, eingehend zu untersuchen, was es bedeutet, Menschen mit Behinderungen fair zu repräsentieren, und wie die Reaktionen von KI-Systemen Ableismus widerspiegeln könnten. Das Team arbeitete auch mit führenden Persönlichkeiten aus diesen Gruppen zusammen, um die Erfahrungen von Menschen mit Behinderungen im Umgang mit KI besser zu verstehen.

Mit Hilfe einer klaren Metrik können diese Erkenntnisse systematisiert für die Risikobewertung und Überarbeitung von Systemen verwendet werden, um dann auch später diese Technologie zu überwachen, damit Menschen mit Behinderungen bessere KI-Erfahrungen haben.

Eines der neuen methodischen Werkzeuge, an deren Entwicklung Wallachs Team beteiligt war, Azure AI Studio Safety Evaluations, nutzt selbstgenerierende KI; dies ist ein Durchbruch, der es ermöglicht, immer komplexere und weit genutzte Systeme kontinuierlich zu messen und zu überwachen, sagt Sarah Bird, Chief Product Officer für verantwortungsvolle KI bei Microsoft.

Man kann die technischen Aspekte der KI nicht verstehen, ohne die sozialen Aspekte zu verstehen und umgekehrt.

Hanna Wallach, Forscherin bei Microsoft

„Sobald das Tool die richtigen Eingaben erhalten und trainiert hat, wie es die Ausgaben eines KI-Systems identifizieren kann, führt es Rollenspiele durch, z. B. als jemand, der versucht, unangemessene sexuelle Inhalte zu erhalten. Anschließend werden die Antworten des Systems anhand von Richtlinien geprüft, die das Risiko sorgfältig und systematisiert untersuchen. Die resultierenden Bewertungen werden dann mithilfe von Metriken aggregiert, um das volle Ausmaß des Risikos zu bewerten. Expertengruppen überprüfen die Tests regelmäßig, um sicherzustellen, dass sie korrekt sind und mit den Einschätzungen von Menschen übereinstimmen“, sagt Bird.

„Das KI-System so zu trainieren, dass es sich wie ein Experte verhält, ist eine Aufgabe, die viel Arbeit und Innovation erfordert und deren Entwicklung wirklich herausfordernd ist und Spaß macht“, sagt sie. Für Microsoft sind diese wissenschaftlichen Metriken ein sich rapide entwickelndes Feld, in die das Unternehmen weiter investieren wird.

Microsoft-Kunden können das Tool auch nutzen, um zu messen, wie ihre Chatbots oder andere KI-Systeme im Vergleich zu ihren spezifischen Sicherheitszielen abschneiden.

„Die Evaluierung ist das robuste Element, das uns hilft zu verstehen, wie sich ein KI-System im großen Maßstab verhält“, sagt Bird. „Wie können wir wissen, ob unsere Maßnahmen und Lösungen effektiv sind, wenn wir sie nicht messen? Dies ist zurzeit die wichtigste Frage, die wir bei der Entwicklung verantwortungsvoller KI beantworten müssen.“

Lesen Sie unsere ersten beiden Artikel der Serie über KI-Halluzinationen und Red Teaming.

Erfahren Sie mehr über die Arbeit von Microsoft im Bereich verantwortungsvolle KI.

Illustration von Makeshift Studios / Rocio Galarza. Der Beitrag wurde erstmals am 9. September 2024 veröffentlicht.

Mehr Geschichten

Red Teams denken wie Hacker – um die KI sicherer zu machen