Zeichnen auf Zuruf: Microsoft-Bot malt mithilfe von KI

Wenn dir jemand sagt: „Zeichne einen gelben Vogel, der einen kurzen Schnabel und schwarze Flügel hat“ – Wie gehst du vor? Höchstwahrscheinlich wirst du zunächst die Umrisse eines Vogels skizzieren, darauf achten, dass der Schnabel kurz ist und den Körper gelb ausmalen. Bis auf die Flügel, denn die sollen ja schwarz sein, versteht sich. Wenn du ein ambitionierter Maler bist, kommst du vielleicht noch auf die Idee, das Tier in eine passende Umgebung zu setzen. Microsoft-Forscher haben nun einen Zeichenbot entwickelt, der genau das kann.

Gemäß einer bestimmten Beschreibung, die beispielsweise durch einen Sprachbefehl oder einen Text gegeben wird, erzeugt der Zeichenbot von Microsoft ein Bild. Nicht nur das: Jedes Bild wird dank Künstlicher Intelligenz um Details ergänzt, die in der Zeichenanleitung fehlen – beispielsweise um einen Ast, auf dem der Vogel sitzt.

„Wichtig ist zu verstehen, dass unser Bot im Gegensatz zu Bing keine Bilder aus dem Internet sucht oder sich ein neues Bild zusammen kopiert, sondern Pixel für Pixel etwas Neues kreiert. Die Bilder, die unser Bot erzeugt, sind quasi das Ergebnis der Vorstellungskraft unseres Computers“, erklärt Xiaodong He, Forschungsleiter im Deep Learning Technology Center im Microsoft-Forschungszentrum in Redmond, Washington. Dadurch ist der Bot eine Schnittstelle von visueller und sprachlicher Intelligenz.

Künstliche Intelligenz des Zeichenbots arbeitet mit Kontrollmechanismus

Der Bot-Technologie liegt das sogenannte Generative-Adversarial-Network-Verfahren, kurz das GAN-Verfahren, zugrunde. Es vereint zwei Modelle des maschinellen Lernens in sich: Zum einen wird ein Bild aus einer Textbeschreibung generiert (Generator). Im zweiten Schritt wird dann, basierend auf den Textbeschreibungen, die Richtigkeit und Qualität des erstellten Bildes beurteilt (Discriminator). Auf diese Weise ist gewährleistet, dass der Zeichenbot in der Lage ist, visuelle Darstellungen und Beschreibungen einander zuzuordnen. Hierfür wurde er mit einer Vielzahl an Bildern und den dazu passenden Beschreibungen trainiert.

GAN-Verfahren um Funktion der Aufmerksamkeit erweitert

Allerdings funktioniert das einfache GAN-Verfahren nur bei wenig komplexen Bildbeschreibungen einwandfrei. Sobald die Anleitung mehrere Einzelheiten enthält, wird die Methode anfällig für Fehler, da das System nur einen einzigen Input aufnehmen kann. Dies führt dazu, dass Detailinformationen verloren gehen und die Bildergebnisse ungenau werden.

Menschen hingegen sind in der Lage auch komplexe Anweisungen umzusetzen, indem sie alle Abschnitte einer Anweisung beachten. Dieses menschliche Konzept der Aufmerksamkeit wurde mathematisch auf die GAN-Methode übertragen, indem jede Anleitung in ihre einzelnen Wörter und Bestandteile zerlegt wird und diese dann bestimmten Bildbereichen zugeordnet werden. In diesem Fall spricht man dann von der Aufmerksamkeits-GAN (AttnGAN). Basierend auf dem erweiterten GAN-Modell kann die Künstliche Intelligenz auch ein gewisses Allgemeinwissen entwickeln. So lernt die Maschine beispielsweise anhand ihrer Trainingsdaten, dass Vögel häufig auf einem Ast sitzend abgebildet werden und lernt, dass diese Tiere einer solchen Umgebung zugeordnet werden können.

Praktische Einsatzbereiche des Zeichenbots

In Zukunft könnten Zeichenbots zum Beispiel Architekten oder Designern als Assistent zur Hand gehen oder in Bildbearbeitungsprogramme integriert werden.

Obwohl die AttnGAN-Methode noch nicht vollständig ausgereift ist, stellt sie eine deutliche Verbesserung zum herkömmlichen GAN-Verfahren dar und ist ein weiterer Meilenstein auf dem Weg zu einer Intelligenz, die uns im Alltag unterstützen kann. „Sprache und Bild stellen die zwei wichtigsten Grundvoraussetzungen dafür dar, dass der Mensch und die Künstliche Intelligenz künftig miteinander interagieren können“, so Xiaodong He.

Ausführliche Informationen unter: https://blogs.microsoft.com/ai/drawing-ai/

Verwandte Themen:


Ein Beitrag von Christina Sailer
Trainee Business and Consumer Communications

Christina Sailer: Zeichenbot mal auf Zuruf

Tags: ,

Weitere Infos zu diesem Thema

24. September 2024
Microsoft Trustworthy AI: Menschliches Potenzial zu entfalten beginnt mit Vertrauen 

Wir bei Microsoft setzen uns für vertrauenswürdige KI ein und entwickeln branchenführende Technologien zur Unterstützung davon. Unser Engagement und unsere Fähigkeiten gehen Hand in Hand, um sicherzustellen, dass unsere Kunden und Entwickler*innen auf allen Ebenen geschützt sind. Aufbauend auf unserem Engagement kündigen wir nun neue Produktfunktionen an, die die Sicherheit und den Datenschutz von KI-Systemen verbessern. 

23. September 2024
Der Schutz unserer Zukunft: Fortschrittsbericht der Microsoft Secure Future Initiative (SFI)

Im November 2023 haben wir die Secure Future Initiative (SFI) ins Leben gerufen, um die Cybersicherheit für Microsoft, unsere Kunden und die Branche zu verbessern. Im Mai 2024 haben wir die Initiative erweitert, um uns auf sechs wichtige Sicherheitspfeiler zu konzentrieren, wobei wir das Feedback der Branche und unsere eigenen Erkenntnisse berücksichtigt haben. Seit Beginn der Initiative haben wir den Gegenwert von 34.000 Expert*innen für die SFI eingesetzt – damit ist es das größte Projekt in der Geschichte der Cybersicherheit. Heute stellen wir die wichtigsten Updates und Meilensteine des ersten SFI-Fortschrittsberichts vor. 

23. September 2024
Erste souveräne Cloud-Plattform für die deutsche Verwaltung auf der Zielgeraden: Delos Cloud, Microsoft und Arvato Systems schließen finale Verträge

Der Aufbau der souveränen Cloud für die deutsche Verwaltung erreicht den nächsten Meilenstein: Nachdem umfangreiche Vorarbeiten abgeschlossen sind und der technische Aufbau der Rechenzentren weit fortgeschritten ist, haben die Delos Cloud GmbH, Microsoft und Arvato Systems nun die finalen Verträge unterschrieben, die die Zusammenarbeit der Unternehmen bei der Bereitstellung der souveränen Cloud-Plattform für den öffentlichen Sektor in Deutschland regeln.

6. September 2024
Geschäftspotenzial erschließen mit den neuen 5G- und Copilot+ PCs von Surface 

Wir freuen uns, dass unsere neuen Copilot+ PCs, das Surface Pro 11. Edition und der Surface Laptop 7. Edition, ab dem 10. September für Geschäftskunden verfügbar sein werden. Ab dem 4. Oktober werden in Deutschland auch das Surface Pro 10 mit 5G sowie der Copilot+ PC Surface Pro 11. Edition mit 5G  verfügbar sein.