Zeichnen auf Zuruf: Microsoft-Bot malt mithilfe von KI

Wenn dir jemand sagt: „Zeichne einen gelben Vogel, der einen kurzen Schnabel und schwarze Flügel hat“ – Wie gehst du vor? Höchstwahrscheinlich wirst du zunächst die Umrisse eines Vogels skizzieren, darauf achten, dass der Schnabel kurz ist und den Körper gelb ausmalen. Bis auf die Flügel, denn die sollen ja schwarz sein, versteht sich. Wenn du ein ambitionierter Maler bist, kommst du vielleicht noch auf die Idee, das Tier in eine passende Umgebung zu setzen. Microsoft-Forscher haben nun einen Zeichenbot entwickelt, der genau das kann.

Gemäß einer bestimmten Beschreibung, die beispielsweise durch einen Sprachbefehl oder einen Text gegeben wird, erzeugt der Zeichenbot von Microsoft ein Bild. Nicht nur das: Jedes Bild wird dank Künstlicher Intelligenz um Details ergänzt, die in der Zeichenanleitung fehlen – beispielsweise um einen Ast, auf dem der Vogel sitzt.

„Wichtig ist zu verstehen, dass unser Bot im Gegensatz zu Bing keine Bilder aus dem Internet sucht oder sich ein neues Bild zusammen kopiert, sondern Pixel für Pixel etwas Neues kreiert. Die Bilder, die unser Bot erzeugt, sind quasi das Ergebnis der Vorstellungskraft unseres Computers“, erklärt Xiaodong He, Forschungsleiter im Deep Learning Technology Center im Microsoft-Forschungszentrum in Redmond, Washington. Dadurch ist der Bot eine Schnittstelle von visueller und sprachlicher Intelligenz.

Künstliche Intelligenz des Zeichenbots arbeitet mit Kontrollmechanismus

Der Bot-Technologie liegt das sogenannte Generative-Adversarial-Network-Verfahren, kurz das GAN-Verfahren, zugrunde. Es vereint zwei Modelle des maschinellen Lernens in sich: Zum einen wird ein Bild aus einer Textbeschreibung generiert (Generator). Im zweiten Schritt wird dann, basierend auf den Textbeschreibungen, die Richtigkeit und Qualität des erstellten Bildes beurteilt (Discriminator). Auf diese Weise ist gewährleistet, dass der Zeichenbot in der Lage ist, visuelle Darstellungen und Beschreibungen einander zuzuordnen. Hierfür wurde er mit einer Vielzahl an Bildern und den dazu passenden Beschreibungen trainiert.

GAN-Verfahren um Funktion der Aufmerksamkeit erweitert

Allerdings funktioniert das einfache GAN-Verfahren nur bei wenig komplexen Bildbeschreibungen einwandfrei. Sobald die Anleitung mehrere Einzelheiten enthält, wird die Methode anfällig für Fehler, da das System nur einen einzigen Input aufnehmen kann. Dies führt dazu, dass Detailinformationen verloren gehen und die Bildergebnisse ungenau werden.

Menschen hingegen sind in der Lage auch komplexe Anweisungen umzusetzen, indem sie alle Abschnitte einer Anweisung beachten. Dieses menschliche Konzept der Aufmerksamkeit wurde mathematisch auf die GAN-Methode übertragen, indem jede Anleitung in ihre einzelnen Wörter und Bestandteile zerlegt wird und diese dann bestimmten Bildbereichen zugeordnet werden. In diesem Fall spricht man dann von der Aufmerksamkeits-GAN (AttnGAN). Basierend auf dem erweiterten GAN-Modell kann die Künstliche Intelligenz auch ein gewisses Allgemeinwissen entwickeln. So lernt die Maschine beispielsweise anhand ihrer Trainingsdaten, dass Vögel häufig auf einem Ast sitzend abgebildet werden und lernt, dass diese Tiere einer solchen Umgebung zugeordnet werden können.

Praktische Einsatzbereiche des Zeichenbots

In Zukunft könnten Zeichenbots zum Beispiel Architekten oder Designern als Assistent zur Hand gehen oder in Bildbearbeitungsprogramme integriert werden.

Obwohl die AttnGAN-Methode noch nicht vollständig ausgereift ist, stellt sie eine deutliche Verbesserung zum herkömmlichen GAN-Verfahren dar und ist ein weiterer Meilenstein auf dem Weg zu einer Intelligenz, die uns im Alltag unterstützen kann. „Sprache und Bild stellen die zwei wichtigsten Grundvoraussetzungen dafür dar, dass der Mensch und die Künstliche Intelligenz künftig miteinander interagieren können“, so Xiaodong He.

Ausführliche Informationen unter: https://blogs.microsoft.com/ai/drawing-ai/

Verwandte Themen:


Ein Beitrag von Christina Sailer
Trainee Business and Consumer Communications

Christina Sailer: Zeichenbot mal auf Zuruf

Tags: , , , , , , , ,

Weitere Infos zu diesem Thema

20. Mai 2019
Emojis, Screenshots, Game Bar: Die 10 besten Tastenkombinationen auf Windows 10 für mehr Produktivität (und Spaß)

Fast jeder liebt sie, denn sie machen die Arbeit mit Windows 10 Geräten nicht nur schneller, sondern auch produktiver – und manchmal bringen sie auch ein bisschen Spaß in den Arbeitsalltag. Die Rede ist von Tastenkombinationen. Gängige Shortcuts wie [STRG] + [C] oder [STRG] + [V] kennt fast jeder Windows Nutzer – ich verrate hier meine zehn liebsten Windows 10 Tastenkombinationen, die vielleicht (noch) etwas unbekannter, aber (mindestens) genauso nützlich, sind.

15. Mai 2019
New Work am Rhein: Microsoft eröffnet Kölner Standort neu

Das neugestaltete Microsoft Regional Office in Köln bietet auf insgesamt 2.595 Quadratmetern flexible Arbeitszonen, die auf die veränderten Bedürfnisse der 450 Mitarbeiterinnen und Mitarbeiter zugeschnitten sind. Microsoft hat damit einen innovativen Ort für selbstbestimmte Arbeit, persönliche Produktivität und einfachere Kollaboration geschaffen.

6. Mai 2019
Microsoft Build 2019: Neue nutzerzentrierte Funktionen in Microsoft 365 für mehr Produktivität

Auf der Microsoft Build hat Microsoft neue Technologien vorgestellt, mit denen Entwickler noch leichter intelligente, kollaborative Lösungen erstellen können. Dazu gehören KI-Funktionen in Microsoft 365 sowie plattformübergreifende Dienste für bessere Zusammenarbeit und höhere Produktivität. Zusätzlich hat das Unternehmen neue Open-Source-Technologien und Entwicklertools in Azure und Windows angekündigt.

3. Mai 2019
Build 2019: Neuheiten zu künstlicher Intelligenz in Cloud- und Edge-Szenarien angekündigt

Microsoft hat eine Reihe neuer Technologien für Entwickler vorgestellt, mit denen sie auf Microsoft Azure Lösungen rund um künstliche Intelligenz (KI), Mixed Reality, dem Internet der Dinge (IoT) und Blockchain entwickeln können. Erleichtert werden sollen unter anderem der Einstieg und die Entwicklung von datengetriebenen Anwendungen, aus denen Nutzer und Unternehmen intelligente Entscheidungen ableiten können.