Zeichnen auf Zuruf: Microsoft-Bot malt mithilfe von KI

Wenn dir jemand sagt: „Zeichne einen gelben Vogel, der einen kurzen Schnabel und schwarze Flügel hat“ – Wie gehst du vor? Höchstwahrscheinlich wirst du zunächst die Umrisse eines Vogels skizzieren, darauf achten, dass der Schnabel kurz ist und den Körper gelb ausmalen. Bis auf die Flügel, denn die sollen ja schwarz sein, versteht sich. Wenn du ein ambitionierter Maler bist, kommst du vielleicht noch auf die Idee, das Tier in eine passende Umgebung zu setzen. Microsoft-Forscher haben nun einen Zeichenbot entwickelt, der genau das kann.

Gemäß einer bestimmten Beschreibung, die beispielsweise durch einen Sprachbefehl oder einen Text gegeben wird, erzeugt der Zeichenbot von Microsoft ein Bild. Nicht nur das: Jedes Bild wird dank Künstlicher Intelligenz um Details ergänzt, die in der Zeichenanleitung fehlen – beispielsweise um einen Ast, auf dem der Vogel sitzt.

„Wichtig ist zu verstehen, dass unser Bot im Gegensatz zu Bing keine Bilder aus dem Internet sucht oder sich ein neues Bild zusammen kopiert, sondern Pixel für Pixel etwas Neues kreiert. Die Bilder, die unser Bot erzeugt, sind quasi das Ergebnis der Vorstellungskraft unseres Computers“, erklärt Xiaodong He, Forschungsleiter im Deep Learning Technology Center im Microsoft-Forschungszentrum in Redmond, Washington. Dadurch ist der Bot eine Schnittstelle von visueller und sprachlicher Intelligenz.

Künstliche Intelligenz des Zeichenbots arbeitet mit Kontrollmechanismus

Der Bot-Technologie liegt das sogenannte Generative-Adversarial-Network-Verfahren, kurz das GAN-Verfahren, zugrunde. Es vereint zwei Modelle des maschinellen Lernens in sich: Zum einen wird ein Bild aus einer Textbeschreibung generiert (Generator). Im zweiten Schritt wird dann, basierend auf den Textbeschreibungen, die Richtigkeit und Qualität des erstellten Bildes beurteilt (Discriminator). Auf diese Weise ist gewährleistet, dass der Zeichenbot in der Lage ist, visuelle Darstellungen und Beschreibungen einander zuzuordnen. Hierfür wurde er mit einer Vielzahl an Bildern und den dazu passenden Beschreibungen trainiert.

GAN-Verfahren um Funktion der Aufmerksamkeit erweitert

Allerdings funktioniert das einfache GAN-Verfahren nur bei wenig komplexen Bildbeschreibungen einwandfrei. Sobald die Anleitung mehrere Einzelheiten enthält, wird die Methode anfällig für Fehler, da das System nur einen einzigen Input aufnehmen kann. Dies führt dazu, dass Detailinformationen verloren gehen und die Bildergebnisse ungenau werden.

Menschen hingegen sind in der Lage auch komplexe Anweisungen umzusetzen, indem sie alle Abschnitte einer Anweisung beachten. Dieses menschliche Konzept der Aufmerksamkeit wurde mathematisch auf die GAN-Methode übertragen, indem jede Anleitung in ihre einzelnen Wörter und Bestandteile zerlegt wird und diese dann bestimmten Bildbereichen zugeordnet werden. In diesem Fall spricht man dann von der Aufmerksamkeits-GAN (AttnGAN). Basierend auf dem erweiterten GAN-Modell kann die Künstliche Intelligenz auch ein gewisses Allgemeinwissen entwickeln. So lernt die Maschine beispielsweise anhand ihrer Trainingsdaten, dass Vögel häufig auf einem Ast sitzend abgebildet werden und lernt, dass diese Tiere einer solchen Umgebung zugeordnet werden können.

Praktische Einsatzbereiche des Zeichenbots

In Zukunft könnten Zeichenbots zum Beispiel Architekten oder Designern als Assistent zur Hand gehen oder in Bildbearbeitungsprogramme integriert werden.

Obwohl die AttnGAN-Methode noch nicht vollständig ausgereift ist, stellt sie eine deutliche Verbesserung zum herkömmlichen GAN-Verfahren dar und ist ein weiterer Meilenstein auf dem Weg zu einer Intelligenz, die uns im Alltag unterstützen kann. „Sprache und Bild stellen die zwei wichtigsten Grundvoraussetzungen dafür dar, dass der Mensch und die Künstliche Intelligenz künftig miteinander interagieren können“, so Xiaodong He.

Ausführliche Informationen unter: https://blogs.microsoft.com/ai/drawing-ai/

Verwandte Themen:


Ein Beitrag von Christina Sailer
Trainee Business and Consumer Communications

Christina Sailer: Zeichenbot mal auf Zuruf

Tags: ,

Weitere Infos zu diesem Thema

19. März 2024
Innovations for the manufacturing industry: these are the winners of the Microsoft Intelligent Manufacturing Award 2024 with Roland Berger

The winners of the Microsoft Intelligent Manufacturing Award (MIMA) 2024 have been announced. This is the fifth time that Microsoft Germany and the strategy consultancy Roland Berger have awarded their coveted prize to pioneering solutions for the manufacturing industry. The winners were selected by a high-ranking jury of experts from industry, science and consulting.

19. März 2024
Innovationen für die Fertigungsindustrie: Das sind die Gewinner des Microsoft Intelligent Manufacturing Award 2024 mit Roland Berger

Die Gewinner des Microsoft Intelligent Manufacturing Award (MIMA) 2024 stehen fest. Schon zum fünften Mal haben Microsoft Deutschland und die Unternehmensberatung Roland Berger zukunftsweisende Lösungen für die Fertigungsindustrie mit ihrem begehrten Preis ausgezeichnet. Die Gewinner wurden von einer hochrangigen Jury mit Fachleuten aus Industrie, Wissenschaft und Beratung ausgewählt.

18. März 2024
KI-Rechenzentren für das Rheinische Revier und ganz Deutschland: Microsoft stellt Pläne in NRW vor und startet Qualifizierungsoffensive

„Auf gute Nachbarschaft!“ – mit diesen Worten läutete der nordrhein-westfälische Ministerpräsident Hendrik Wüst heute am Standort der künftigen Microsoft-Rechenzentren das Zeitalter der künstlichen Intelligenz (KI) im Rheinischen Revier ein. In Elsdorf (Rhein-Erft-Kreis) präsentierte Wüst gemeinsam mit Microsoft-Deutschlandchefin Marianne Janik die Pläne, wie Nordrhein-Westfalen (NRW) zu einer führenden KI-Region wird.