Bildbeschreibungen sind wichtig, damit Bilder auch für Menschen mit Sehbehinderung zugänglich sind. Azure AI erzeugt diese Beschreibungen selbstständig und oft sogar detaillierter, als ein Mensch das könnte.
„Ein Bild sagt mehr als 1.000 Worte“, lautet ein bekanntes Sprichwort. Für Menschen mit Sehbehinderungen gilt genau das Gegenteil: Worte machen das Bild überhaupt erst erkennbar. Für Bilder im Internet oder in PowerPoint-Präsentationen gibt es daher die sinnvolle Möglichkeit, über sogenannte Alt- und Title-Texte Informationen zum Inhalt von Bildern in Worten auszudrücken und damit Menschen einzubeziehen, die Bilder nicht visuell erfassen können.
Microsoft Produkte und Services sollen allen Menschen zugänglich sein. Unsere Forscher*innen haben daher ein neues System mit künstlicher Intelligenz (KI) entwickelt, das automatisch Beschreibungen für Bilder erzeugt. Und nicht nur das: Sie sind in vielen Fällen sogar genauer als ein von Menschen formulierter Text.
Integration in bestehende Microsoft Dienste und Seeing AI
Das Feature steht über die Azure Cognitives Services zur Verfügung, die Teil der KI-Plattform von Azure sind. Es wird noch im Laufe dieses Jahres in Word und Outlook (Windows und OSX) sowie für PowerPoint (Windows, OSX und Web) integriert.
Die verbesserte Bildbeschreibungsfunktion kommt zukünftig auch in Microsofts Kamera-App Seeing AI zum Einsatz. Dort wird die Funktion verwendet, um den Nutzer*innen der Apps Fotos zu beschreiben.
Mehr über die Herausforderungen bei der Entwicklung und weitere Einblicke dazu im Blogbeitrag meines Kollegen John Roach.
Weitere lesenswerte Beiträge
- Novel object captioning surpasses human performance on benchmarks
- Apps can now narrate what they see in the world as well as people do
- Barriers fall as Microsoft’s speech and language technologies exit the lab
- Microsoft reaches a historic milestone, using AI to match human performance in translating news from Chinese to English
- Microsoft researchers achieve new conversational speech recognition milestone
- Microsoft creates AI that can read a document and answer questions about it as well as a person
Ein Beitrag von Pina Meisel
Communications Manager AI & Innovation