Warum KI manchmal falsch liegt – und was wir dagegen tun können
Ungefähr zu der Zeit, als das Sprachmodell GPT-4 für Schlagzeilen sorgte, weil es standardisierte Tests mit Bravour bestand, unterzogen Forscher*innen von Microsoft weitere KI-Modelle einer anderen Art von Tests, mit denen sie die Modelle dazu bringen wollten, Informationen zu fälschen.
Um dieses als „Halluzinationen“ bekannte Phänomen zu bekämpfen, haben sie großen Sprachmodellen (LLM) im Rahmen einer wissenschaftlichen Studie eine Aufgabe zur Textsuche gestellt und darüber die Antworten der Modelle verbessert. Anhand dieser Studie fanden die Wissenschaftler*innen eine neue Methode, um solche Fälle, in denen LLMs von den Daten abweichen, mit denen sie trainiert wurden, zu verringern.
Die Studie ist auch ein Beispiel dafür, wie Microsoft Lösungen zum Messen, Erkennen und Minimieren von Halluzinationen entwickelt und steht so für die Anstrengungen des Unternehmens, KI zu einer sicheren, vertrauenswürdigen und ethischen Technologie zu machen.
„Microsoft möchte sicherstellen, dass man jedem seiner KI-Systeme vertrauen und sie effektiv nutzen kann“, sagt Sarah Bird dazu, Chief Product Officer für Responsible AI im Unternehmen. „Bei uns arbeiten zahlreiche Expert*innen, und wir verfügen über die notwendigen Ressourcen. Daher sehen wir uns als Wegbereiter, um herauszufinden, wie neue KI-Technologien verantwortungsvoll genutzt werden können – und dann allen anderen zu ermöglichen, dies auch zu tun.“
Halluzinierende KI
Technisch gesehen sind Halluzinationen „substanzlose“ Inhalte, die sich nicht aus den Trainingsdaten großer Sprachmodelle ableiten lassen. Das Modell verändert in diesen Fällen die Daten oder fügt Informationen hinzu, die nicht in den Daten enthalten sind.
Es gibt durchaus Use Cases, in denen solche Halluzinationen sinnvoll sind: Wenn jemand mithilfe eines KI-Sprachmodells zum Beispiel eine Science-Fiction-Geschichte schreiben möchte oder unkonventionelle Ideen zu Themen wie Architektur oder Programmierung sucht. In diesen Fällen ist die Phantasie der Sprachmodelle absolut willkommen.
Aber viele Unternehmen, die KI-Assistenten entwickeln, brauchen sie, um verlässliche, fundierte Informationen in Szenarien wie medizinischen Zusammenfassungen und Bildungsaufgaben zu liefern. Hier ist Genauigkeit entscheidend.
Microsoft bietet Tools gegen halluzinierende KI an
Aus diesem Grund hat Microsoft eine Reihe von Tools entwickelt, die substanzlose Informationen von KI überwinden sollen. Die Tools basieren auf dem Know-how aus der Entwicklung eigener KI-Produkte wie Microsoft Copilot.
Die Ingenieur*innen von Microsoft haben Monate damit verbracht, dem Sprachmodell von Copilot mit Bing-Suchdaten und über sogenannte “Retrieval Augmented Generation” ein solides Fundament zu geben. Dabei handelt es sich um eine Technik, die einem Modell aktuelle Daten oder Informationen hinzufügt, ohne es dafür neu trainieren zu müssen.
Die Antworten, der Index und die Ranking-Daten von Bing helfen Copilot dabei, genauere und relevantere Antworten zu liefern – zusammen mit Quellen, die es Benutzer*innen ermöglichen, Informationen nachzuschlagen und zu überprüfen.
„Das Modell ist erstaunlich gut darin, Informationen zu verarbeiten, aber wir denken nicht, dass es die Quelle der Antwort sein sollte“, sagt Sarah Bird. „Wir sind der Meinung, dass die Daten die Quelle der Antwort sein sollten. Der erste Schritt zur Lösung des Problems bestand also darin, dem Modell frische, hochwertige und genaue Daten zur Verfügung zu stellen.“
Ken Archer, Principal Product Manager Responsible AI bei Microsoft
Microsoft hilft seinen Kunden jetzt mit fortschrittlichen Tools dabei, dasselbe zu tun. So hilft zum Beispiel die Funktion „On Your Data“ im Azure OpenAI Service Unternehmen, ihre generativen KI-Anwendungen mit eigenen Daten in einer sicheren Unternehmensumgebung zu betreiben. Über andere in Azure AI verfügbare Tools können unsere Kunden ihre KI-Anwendungen über den gesamten Lebenszyklus absichern. Mit dem Evaluierungsdienst messen unsere Kunden die Sicherheit von Anwendungen in der Produktion anhand von vordefinierten Sicherheitskennzahlen. Und Vorlagen für Sicherheitssystemmeldungen erleichtern es Ingenieur*innen, ein Modell anzuweisen, sich auf die Datenbeschaffung zu konzentrieren.
Microsoft hat darüber hinaus ein Echtzeit-Tool angekündigt, um in Anwendungen, die auf Unternehmensdaten zugreifen, in großem Umfang substanzielles Wissen zu erkennen. Damit lassen sich zum Beispiel Chat-Assistenten für den Kundenservice und Tools zur Dokumentenzusammenfassung verbessern. Das Tool für Azure KI Studio stützt sich auf ein Sprachmodell, das darauf spezialisiert ist, Antworten anhand von Quelldokumenten zu bewerten.
Microsoft entwickelt außerdem eine neue Funktion, um Instanzen ohne substanzielles Wissen in Echtzeit zu blockieren und zu korrigieren. Erkennt die Funktion einen Fehler, schreibt sie die Informationen auf der Grundlage von Daten automatisch um.
„An der Spitze der Entwicklung generativer KI zu stehen, verlangt von uns, dass wir die Verantwortung und die Möglichkeit haben, unsere eigenen Produkte sicherer und zuverlässiger zu machen und die Tools dafür auch unseren Kunden zur Verfügung zu stellen“, kommentiert Ken Archer, Principal Product Manager Responsible AI bei Microsoft, die neuen Tools.
Sarah Bird, Chief Product Officer für Responsible AI bei Microsoft
Forscher*innen wie Ece Kamar, Geschäftsführerin des Labors AI Frontiers von Microsoft Research, unterstützen diese Ziele. Geleitet von den Grundsätzen Microsofts für ethische KI hat ihr Team die oben genannte Studie veröffentlicht, die die Reaktionen der Modelle verbessert hat. In einer weiteren Studie entdeckte das Lab zudem eine neue Methode zur Vorhersage von Halluzinationen, bei der untersucht wurde, wie die Modelle auf Benutzereingaben achten.
„Es stellt sich die grundlegende Frage: Warum halluzinieren KI-Sprachmodelle?“, sagt Ece Kamar. „Und gibt es Möglichkeiten, genaue Einblicke in die Modelle zu bekommen und zu sehen, wann genau das Halluzinieren beginnt? Wir betrachten diese Fragen aus wissenschaftlicher Sicht, denn wenn wir verstehen, warum es passiert, können wir über neue Architekturen und Modelle nachdenken, bei denen diese Halluzinationen nicht mehr auftreten.“
Kamar sagt auch, dass LLMs eher über Fakten halluzinieren, wenn diese in den Internet-Trainingsdaten nicht oder nur eingeschränkt enthalten sind. Deshalb ist die Aufmerksamkeitsstudie ein wichtiger Schritt auf dem Weg zum Verständnis der Mechanismen und Auswirkungen von substanzlosen Inhalten.
„Da KI-Systeme Menschen bei kritischen Aufgaben und beim Informationsaustausch unterstützen, müssen wir jedes Risiko ernst nehmen, das diese Systeme darstellen können“, sagt Kamar. „So versuchen wir, KI-Systeme zu entwickeln, die Gutes in der Welt bewirken.“
Erfahren Sie mehr über die Arbeit von Microsoft im Bereich Responsible AI.
Dieser Beitrag ist der erste in einer Serie über verantwortungsvolle KI-Entwicklung, in der wir die Herausforderungen beim Einsatz von KI untersuchen und die Lösungswege von Microsoft im Rahmen seiner Bemühungen um ethische KI aufzeigen.
Den Originalbeitrag von Vanessa Ho in englischer Sprache finden Sie hier.