Open-Source-Forschung: Microsoft schafft Datensätze und Metriken für künstliche Intelligenz

Wer Anwendungen mit künstlicher Intelligenz (KI) entwickelt, steht oft vor dem Problem, keine Daten für das Testen und Trainieren der Algorithmen zu haben. Der Grund: Solche Forschungen sind oft so neu, dass es einfach noch keine Daten dafür gibt.

Meine Kollegin Samira Ebrahimi Kahou hat gemeinsam mit ihrem Team bei dem Microsoft-Research-Unternehmen Maluuba im kanadischen Montreal eine Lösung dafür gefunden: Mit dem FigureQA dataset stellen sie der KI-Community eine riesige Anzahl von Datensätzen mit mehr als einer Million Frage-Antwort-Pärchen für das Entwickeln von Spracherkennungs-Tools zur Verfügung. Zum Open-Source-Datenpaket gehören auch Metriken und Tools zum Testen von KI-Systemen.

Adam Atkinson, Microsoft Research Maluuba, Yoshua Bengio, University of Montreal, Samira Ebrahimi Kahou, Microsoft Research Maluuba (v.l.)
Adam Atkinson, Microsoft Research Maluuba, Yoshua Bengio, University of Montreal, Samira Ebrahimi Kahou, Microsoft Research Maluuba (v.l.)

Ein Miteinander bei KI-Projekten: Geteiltes Wissen ist absolut erfolgskritisch – auch wenn das nicht für alle Daten gilt

Normalerweise sind Daten für Forschungs- und Entwicklungsprojekte eher vertraulich und Ergebnisse bleiben meistens im Haus, heißt es aus dem Microsoft-Forscherteam. Bei KI ist das offensichtlich anders: Hier sind Unternehmen und Wissenschaftler so eng miteinander verflochten, dass es eher ein Mit- als ein Ohneeinander gibt. Begünstigt wird die Kooperation durch den Umstand, dass es sich nicht um personenbezogene Daten mit besonderen Schutzpflichten handelt, sondern um generische Datensätze, die allenfalls geistiges Eigentum von Unternehmen sind, aber eben keinen Datenschutzbestimmungen unterliegen.

Viele Unternehmen arbeiten gerade an KI-Projekten und so ist es absolut sinnvoll, seine Erkenntnisse nicht zu verstecken, sondern mit anderen zu teilen, um schneller und weiter vorwärts zu kommen. Viele Experten teilen diese Haltung. Mehr noch: Für viele von ihnen sind kollaborative Ansätze für die Zukunft von KI absolut erfolgskritisch. Schließlich kann nicht jede Organisation alle Ideen selbst haben und ausprobieren. Am Ende profitieren von dem geteilten Wissen alle!

So entwickelte beispielsweise das Team um Christian Federmann, Senior Program Manager Microsoft Translator, den Microsoft Speech Language Translation Korpus. Dieser beinhaltet unter anderem Audiodaten, Transkripte und Übersetzungen für Englisch, Französisch und Deutsch – kürzlich mit zusätzlichen Sprachpaaren für Chinesisch und Japanisch aktualisiert. Mit diesen frei verfügbaren Daten können nun Forscherteams in aller Welt zweisprachige Konversations-Sprachübersetzungssysteme wie die Microsoft Translator Live-Funktionen oder den Skype Translator mit realen Daten testen.

Allerdings gilt das nicht für alle Daten in KI-Projekten. Wer schützenswerte Daten nicht öffentlich teilen möchte, sollte den Ansatz von SwiftKey kennen: Über GitHub bietet das seit dem vergangenen Jahr zu Microsoft gehörende Unternehmen ein Set von Metriken an, die Entwickler für alle Arten der Beurteilung von Datensätzen nutzen können. Damit stehen ihnen standardisierte Benchmarks zur Verfügung, mit denen sie die eigenen Fortschritte mit den Ergebnissen anderer Projekte messen und vergleichen können.

Details zu den beiden spannenden Lösungsansätzen findet ihr in dem Blogpost „AI’s sharing economy: Why Microsoft creates publicly available datasets and metrics“ meiner Kollegin Allison Linn (@allisondlinn) auf dem Microsoft-AI-Blog!


Ein Beitrag von Pina Kehren
Communications Manager Mixed Reality, AI & Data Platform
Pina Kehren - Open-Source-Forschung: Datensätze und Metriken für KI

Tags: ,

Weitere Infos zu diesem Thema

21. Januar 2025
Red-Teaming von 100 generativen KI-Produkten

Vor kurzem hat das Microsoft „Red Team für KI“ zentrale Erkenntnisse aus seiner Arbeit im Whitepaper „Lessons from Red Teaming 100 Generative AI Products“ veröffentlicht. Red Teams sind spezialisierte Gruppen von Sicherheitsexpert*innen, die die Rolle eines potenziellen Angreifers übernehmen, um Schwachstellen aufzudecken und schließen zu helfen. 

16. Januar 2025
Copilot ist jetzt in Microsoft 365 Personal und Family enthalten

Microsoft geht einen weiteren großen Schritt in Richtung KI-gestützter Produktivität: Ab sofort ist Copilot in den Microsoft 365 Personal- und Family-Abonnements enthalten – eine Erweiterung, die Millionen von Abonnent*innen weltweit neue KI-Möglichkeiten eröffnet.

15. Januar 2025
Innovation im Einklang mit dem EU AI Act

Die Microsoft AI Tour machte vor Kurzem in Brüssel, Paris und Berlin Station. Dort trafen sich auch viele europäische Organisationen. Sie waren von den Möglichkeiten der neuesten KI-Technologien begeistert und arbeiten bereits an deren Implementierung. Gleichzeitig wurde deutlich: 2025 wird ein entscheidendes Jahr, denn mit dem Inkrafttreten des weltweit ersten umfassenden KI-Gesetzes beginnt ein neues Kapitel der digitalen Regulierung.

6. Dezember 2024
Sechs KI-Trends, von denen wir 2025 noch mehr sehen werden

Künstliche Intelligenz (KI) hat sich längst als unverzichtbares Werkzeug in Beruf und Alltag etabliert. Im Jahr 2025 wird sie jedoch weit mehr sein: KI wird neue Möglichkeiten eröffnen, komplexe Herausforderungen lösen und den Fortschritt in Wissenschaft und Gesellschaft beschleunigen.