Zeichnen auf Zuruf: Microsoft-Bot malt mithilfe von KI

Wenn dir jemand sagt: „Zeichne einen gelben Vogel, der einen kurzen Schnabel und schwarze Flügel hat“ – Wie gehst du vor? Höchstwahrscheinlich wirst du zunächst die Umrisse eines Vogels skizzieren, darauf achten, dass der Schnabel kurz ist und den Körper gelb ausmalen. Bis auf die Flügel, denn die sollen ja schwarz sein, versteht sich. Wenn du ein ambitionierter Maler bist, kommst du vielleicht noch auf die Idee, das Tier in eine passende Umgebung zu setzen. Microsoft-Forscher haben nun einen Zeichenbot entwickelt, der genau das kann.

Gemäß einer bestimmten Beschreibung, die beispielsweise durch einen Sprachbefehl oder einen Text gegeben wird, erzeugt der Zeichenbot von Microsoft ein Bild. Nicht nur das: Jedes Bild wird dank Künstlicher Intelligenz um Details ergänzt, die in der Zeichenanleitung fehlen – beispielsweise um einen Ast, auf dem der Vogel sitzt.

„Wichtig ist zu verstehen, dass unser Bot im Gegensatz zu Bing keine Bilder aus dem Internet sucht oder sich ein neues Bild zusammen kopiert, sondern Pixel für Pixel etwas Neues kreiert. Die Bilder, die unser Bot erzeugt, sind quasi das Ergebnis der Vorstellungskraft unseres Computers“, erklärt Xiaodong He, Forschungsleiter im Deep Learning Technology Center im Microsoft-Forschungszentrum in Redmond, Washington. Dadurch ist der Bot eine Schnittstelle von visueller und sprachlicher Intelligenz.

Künstliche Intelligenz des Zeichenbots arbeitet mit Kontrollmechanismus

Der Bot-Technologie liegt das sogenannte Generative-Adversarial-Network-Verfahren, kurz das GAN-Verfahren, zugrunde. Es vereint zwei Modelle des maschinellen Lernens in sich: Zum einen wird ein Bild aus einer Textbeschreibung generiert (Generator). Im zweiten Schritt wird dann, basierend auf den Textbeschreibungen, die Richtigkeit und Qualität des erstellten Bildes beurteilt (Discriminator). Auf diese Weise ist gewährleistet, dass der Zeichenbot in der Lage ist, visuelle Darstellungen und Beschreibungen einander zuzuordnen. Hierfür wurde er mit einer Vielzahl an Bildern und den dazu passenden Beschreibungen trainiert.

GAN-Verfahren um Funktion der Aufmerksamkeit erweitert

Allerdings funktioniert das einfache GAN-Verfahren nur bei wenig komplexen Bildbeschreibungen einwandfrei. Sobald die Anleitung mehrere Einzelheiten enthält, wird die Methode anfällig für Fehler, da das System nur einen einzigen Input aufnehmen kann. Dies führt dazu, dass Detailinformationen verloren gehen und die Bildergebnisse ungenau werden.

Menschen hingegen sind in der Lage auch komplexe Anweisungen umzusetzen, indem sie alle Abschnitte einer Anweisung beachten. Dieses menschliche Konzept der Aufmerksamkeit wurde mathematisch auf die GAN-Methode übertragen, indem jede Anleitung in ihre einzelnen Wörter und Bestandteile zerlegt wird und diese dann bestimmten Bildbereichen zugeordnet werden. In diesem Fall spricht man dann von der Aufmerksamkeits-GAN (AttnGAN). Basierend auf dem erweiterten GAN-Modell kann die Künstliche Intelligenz auch ein gewisses Allgemeinwissen entwickeln. So lernt die Maschine beispielsweise anhand ihrer Trainingsdaten, dass Vögel häufig auf einem Ast sitzend abgebildet werden und lernt, dass diese Tiere einer solchen Umgebung zugeordnet werden können.

Praktische Einsatzbereiche des Zeichenbots

In Zukunft könnten Zeichenbots zum Beispiel Architekten oder Designern als Assistent zur Hand gehen oder in Bildbearbeitungsprogramme integriert werden.

Obwohl die AttnGAN-Methode noch nicht vollständig ausgereift ist, stellt sie eine deutliche Verbesserung zum herkömmlichen GAN-Verfahren dar und ist ein weiterer Meilenstein auf dem Weg zu einer Intelligenz, die uns im Alltag unterstützen kann. „Sprache und Bild stellen die zwei wichtigsten Grundvoraussetzungen dafür dar, dass der Mensch und die Künstliche Intelligenz künftig miteinander interagieren können“, so Xiaodong He.

Ausführliche Informationen unter: https://blogs.microsoft.com/ai/drawing-ai/

Verwandte Themen:


Ein Beitrag von Christina Sailer
Trainee Business and Consumer Communications

Christina Sailer: Zeichenbot mal auf Zuruf

Tags: ,

Weitere Infos zu diesem Thema

21. September 2023
Microsoft Copilot, Ihr täglicher KI-Begleiter

Heute gehen wir den nächsten Schritt, um unsere KI-Funktionen in einem einzigen Erlebnis zu vereinen, das wir Microsoft Copilot nennen, Ihren täglichen KI-Begleiter. Copilot kombiniert auf einzigartige Weise den Kontext und die Intelligenz des Internets, Ihre Arbeitsdaten und das, was Sie gerade auf Ihrem PC tun, um Ihnen bessere Unterstützung zu bieten – wobei Ihre Privatsphäre und Sicherheit an erster Stelle stehen.

14. September 2023
Chatten mit Bing: Der persönliche Assistent für Tagesausflüge und Reisen

Bing Chat kann nicht nur im Arbeitsalltag, beim Lernen oder Recherchieren unterstützen, sondern auch bei der Freizeitplanung eine große Hilfe sein. Im dritten Teil unserer Blogserie haben wir erneut mit Bing gechattet und diesmal mithilfe des KI-Tools einen Tagesausflug nach München geplant.

12. September 2023
Arbeitsgruppe des Bündnis für Bildung (BfB) stellt „Leitfaden für Schülergeräte“ vor

Gemeinsam mit einer Arbeitsgruppe des „Bündnis für Bildung“ (BfB) haben Microsoft Deutschland und weitere Partner einen „Leitfaden für Schülergeräte“ entwickelt. Die Broschüre enthält praktische Hinweise und Tipps zu Finanzierung, Beschaffung, Einsatz und Support digitaler Endgeräte in Schulen und Bildungseinrichtungen. Dabei setzt der Leitfaden am aktuellen „DigitalPakt Schule“ des Bundesministeriums für Bildung und Forschung an, der primär den Aufbau und die Leistungssteigerung von digitalen Netzwerkinfrastrukturen in Schulen finanzieren soll.

6. September 2023
Chatten mit Bing: 4 Tipps für mehr Produktivität und Kreativität im Arbeitsalltag

Bing Chat – das KI-gesteuerte, multifunktionale Tool kann als persönlicher Assistent das (Arbeits-)Leben erleichtern und sogar unsere Produktivität und Kreativität steigern. Erste Grundlagen von Bing Chat haben wir bereits im ersten Teil unserer Blogserie vorgestellt. Nun widmen wir uns dem beruflichen Einsatz von Bing Chat und stellen spezifische Anwendungsfälle, Bedienhinweise und Best Practices vor.