Zeichnen auf Zuruf: Microsoft-Bot malt mithilfe von KI

Wenn dir jemand sagt: „Zeichne einen gelben Vogel, der einen kurzen Schnabel und schwarze Flügel hat“ – Wie gehst du vor? Höchstwahrscheinlich wirst du zunächst die Umrisse eines Vogels skizzieren, darauf achten, dass der Schnabel kurz ist und den Körper gelb ausmalen. Bis auf die Flügel, denn die sollen ja schwarz sein, versteht sich. Wenn du ein ambitionierter Maler bist, kommst du vielleicht noch auf die Idee, das Tier in eine passende Umgebung zu setzen. Microsoft-Forscher haben nun einen Zeichenbot entwickelt, der genau das kann.

Gemäß einer bestimmten Beschreibung, die beispielsweise durch einen Sprachbefehl oder einen Text gegeben wird, erzeugt der Zeichenbot von Microsoft ein Bild. Nicht nur das: Jedes Bild wird dank Künstlicher Intelligenz um Details ergänzt, die in der Zeichenanleitung fehlen – beispielsweise um einen Ast, auf dem der Vogel sitzt.

„Wichtig ist zu verstehen, dass unser Bot im Gegensatz zu Bing keine Bilder aus dem Internet sucht oder sich ein neues Bild zusammen kopiert, sondern Pixel für Pixel etwas Neues kreiert. Die Bilder, die unser Bot erzeugt, sind quasi das Ergebnis der Vorstellungskraft unseres Computers“, erklärt Xiaodong He, Forschungsleiter im Deep Learning Technology Center im Microsoft-Forschungszentrum in Redmond, Washington. Dadurch ist der Bot eine Schnittstelle von visueller und sprachlicher Intelligenz.

Künstliche Intelligenz des Zeichenbots arbeitet mit Kontrollmechanismus

Der Bot-Technologie liegt das sogenannte Generative-Adversarial-Network-Verfahren, kurz das GAN-Verfahren, zugrunde. Es vereint zwei Modelle des maschinellen Lernens in sich: Zum einen wird ein Bild aus einer Textbeschreibung generiert (Generator). Im zweiten Schritt wird dann, basierend auf den Textbeschreibungen, die Richtigkeit und Qualität des erstellten Bildes beurteilt (Discriminator). Auf diese Weise ist gewährleistet, dass der Zeichenbot in der Lage ist, visuelle Darstellungen und Beschreibungen einander zuzuordnen. Hierfür wurde er mit einer Vielzahl an Bildern und den dazu passenden Beschreibungen trainiert.

GAN-Verfahren um Funktion der Aufmerksamkeit erweitert

Allerdings funktioniert das einfache GAN-Verfahren nur bei wenig komplexen Bildbeschreibungen einwandfrei. Sobald die Anleitung mehrere Einzelheiten enthält, wird die Methode anfällig für Fehler, da das System nur einen einzigen Input aufnehmen kann. Dies führt dazu, dass Detailinformationen verloren gehen und die Bildergebnisse ungenau werden.

Menschen hingegen sind in der Lage auch komplexe Anweisungen umzusetzen, indem sie alle Abschnitte einer Anweisung beachten. Dieses menschliche Konzept der Aufmerksamkeit wurde mathematisch auf die GAN-Methode übertragen, indem jede Anleitung in ihre einzelnen Wörter und Bestandteile zerlegt wird und diese dann bestimmten Bildbereichen zugeordnet werden. In diesem Fall spricht man dann von der Aufmerksamkeits-GAN (AttnGAN). Basierend auf dem erweiterten GAN-Modell kann die Künstliche Intelligenz auch ein gewisses Allgemeinwissen entwickeln. So lernt die Maschine beispielsweise anhand ihrer Trainingsdaten, dass Vögel häufig auf einem Ast sitzend abgebildet werden und lernt, dass diese Tiere einer solchen Umgebung zugeordnet werden können.

Praktische Einsatzbereiche des Zeichenbots

In Zukunft könnten Zeichenbots zum Beispiel Architekten oder Designern als Assistent zur Hand gehen oder in Bildbearbeitungsprogramme integriert werden.

Obwohl die AttnGAN-Methode noch nicht vollständig ausgereift ist, stellt sie eine deutliche Verbesserung zum herkömmlichen GAN-Verfahren dar und ist ein weiterer Meilenstein auf dem Weg zu einer Intelligenz, die uns im Alltag unterstützen kann. „Sprache und Bild stellen die zwei wichtigsten Grundvoraussetzungen dafür dar, dass der Mensch und die Künstliche Intelligenz künftig miteinander interagieren können“, so Xiaodong He.

Ausführliche Informationen unter: https://blogs.microsoft.com/ai/drawing-ai/

Verwandte Themen:


Ein Beitrag von Christina Sailer
Trainee Business and Consumer Communications

Christina Sailer: Zeichenbot mal auf Zuruf

Tags: ,

Weitere Infos zu diesem Thema

22. Oktober 2020
Auch wenn’s kritisch wird: Microsoft Azure sorgt beim Stromversorger Uniper und dem „glücklichsten CIO“ für Stabilität

Unternehmen mit kritischen Infrastrukturen, die von der Bundesregierung unter der Abkürzung „KRITIS“ geführt werden, spielen eine lebenswichtige Rolle für unser Land. Bei ihnen kommt es noch stärker als in anderen Sektoren darauf an, dass sie verlässliche und hochverfügbare IT-Infrastrukturen haben. Der Energieversorger Uniper setzt für diesen Zweck auf Microsoft Azure.

22. Oktober 2020
Ein Update zur Bekämpfung von Trickbot

Vor einer Woche haben wir Maßnahmen zur Bekämpfung des Botnets Trickbot ergriffen. Das weltweit verzweigte Netzwerk wird für kriminelle Aktivitäten missbraucht, zum Beispiel für die Verbreitung sogenannter Ransomware („Erpressersoftware“). Unser Eingriff erfolgte mit dem Ziel, die Infrastruktur von Trickbot lahmzulegen. So sind die Betreiber*innen des Botnet nicht mehr in der Lage, neue Infektionen zu verursachen oder Ransomware auf schon infizierten Systemen zu aktivieren. Das ist besonders für die bevorstehenden Präsidentschaftswahlen in den USA am 3. November wichtig.