„Was ist das?“ Azure AI beschreibt Bilder jetzt genauso gut wie ein Mensch

Drei Getreidehalme werden von der Sonne angestrahlt

Bildbeschreibungen sind wichtig, damit Bilder auch für Menschen mit Sehbehinderung zugänglich sind. Azure AI erzeugt diese Beschreibungen selbstständig und oft sogar detaillierter, als ein Mensch das könnte.

„Ein Bild sagt mehr als 1.000 Worte“, lautet ein bekanntes Sprichwort. Für Menschen mit Sehbehinderungen gilt genau das Gegenteil: Worte machen das Bild überhaupt erst erkennbar. Für Bilder im Internet oder in PowerPoint-Präsentationen gibt es daher die sinnvolle Möglichkeit, über sogenannte Alt- und Title-Texte Informationen zum Inhalt von Bildern in Worten auszudrücken und damit Menschen einzubeziehen, die Bilder nicht visuell erfassen können.

Microsoft Produkte und Services sollen allen Menschen zugänglich sein. Unsere Forscher*innen haben daher ein neues System mit künstlicher Intelligenz (KI) entwickelt, das automatisch Beschreibungen für Bilder erzeugt. Und nicht nur das: Sie sind in vielen Fällen sogar genauer als ein von Menschen formulierter Text.

Integration in bestehende Microsoft Dienste und Seeing AI

Das Feature steht über die Azure Cognitives Services zur Verfügung, die Teil der KI-Plattform von Azure sind. Es wird noch im Laufe dieses Jahres in Word und Outlook (Windows und OSX) sowie für PowerPoint (Windows, OSX und Web) integriert.

Die verbesserte Bildbeschreibungsfunktion kommt zukünftig auch in Microsofts Kamera-App Seeing AI zum Einsatz. Dort wird die Funktion verwendet, um den Nutzer*innen der Apps Fotos zu beschreiben.

Mehr über die Herausforderungen bei der Entwicklung und weitere Einblicke dazu im Blogbeitrag meines Kollegen John Roach.

Weitere lesenswerte Beiträge


Ein Beitrag von Pina Meisel
Communications Manager AI & Innovation

Pina Meisel als Portrait-Bild

Tags: , , ,

Weitere Infos zu diesem Thema

25. April 2024
Phi-3: Neue Maßstäbe für die Möglichkeiten kleiner Sprachmodelle

Wir stellen Phi-3 vor, eine von Microsoft entwickelte Produktfamilie offener KI-Modelle. Phi-3-Modelle sind die leistungsfähigsten und kosteneffizientesten kleinen Sprachmodelle (Small Language Models, SLMs) auf dem Markt und übertreffen Modelle der gleichen und nächsthöheren Größe in einer Vielzahl von Sprach-, Argumentations-, Codierungs- und Mathematik-Benchmarks.

10. April 2024
Besuchen Sie Microsoft auf der Hannover Messe 2024!

Vom 22. bis 26. April findet erneut die weltweit wichtigste Industriemesse in Hannover statt. Auch Microsoft wird dieses Jahr wieder mit mehr als 25 Kunden und Partnerunternehmen auf seinem 1.000 Quadratmeter großen Stand vertreten sein. Ein Schwerpunkt ist dabei der Einsatz von künstlicher Intelligenz in der Industrie und wie Unternehmen die Technologie bereits erfolgreich in der Praxis einsetzen.