Rho-alpha ist da: Das neueste Robotikmodell von Microsoft Research

Beitrag von Ashley Llorens, Corporate Vice President und Managing Director, Microsoft Research Accelerator

Physische KI – also jene Bereiche, wo KI-Agenten auf physische Systeme treffen – steht davor, die Robotik neu zu definieren, ähnlich wie generative Modelle die Sprach- und Bildverarbeitung grundlegend verändert haben.

Seit Jahrzehnten werden Roboter erfolgreich in strukturierten Umgebungen wie Fertigungsstrassen eingesetzt, in denen Aufgaben vorhersehbar und strikt vorgegeben sind. Mit der Verfügbarkeit von Vision-Language-Action-(VLA-)Modellen für physische Systeme ist es Robotern mittlerweile möglich, in deutlich weniger strukturierten Umgebungen gemeinsam mit Menschen wahrzunehmen, zu schlussfolgern und mit zunehmender Autonomie zu handeln.

Heute stellen wir Rho-alpha (ρα) vor – unser erstes Robotikmodell, das aus Microsofts Phi-Serie von Vision-Language-Modellen hervorgegangen ist. Interessierte, die Rho-alpha für ihre eigenen Roboter und Anwendungsfälle anpassen möchten, sind eingeladen, an unserem Rho-alpha Research Early Access Program teilzunehmen. Zu einem späteren Zeitpunkt wird das Modell auch über Microsoft Foundry verfügbar sein.

Rho-alpha übersetzt Anweisungen in natürlicher Sprache in Steuersignale für robotische Systeme, die beidhändige Tätigkeiten ausführen. Das Modell lässt sich als VLA+-Modell beschreiben, da es den Umfang der Wahrnehmungs- und Lernmodalitäten über das hinaus erweitert, was klassische VLA-Modelle typischerweise nutzen. Was die Wahrnehmung betrifft, so integriert Rho-alpha taktiles Sensorfeedback; zudem wird daran gearbeitet, weitere Modalitäten wie Kraftsensorik einzubinden. Was die Lernfähigkeit betrifft, so arbeiten wir daran, dass sich Rho-alpha während des Einsatzes kontinuierlich verbessert, indem das Modell aus dem Feedback von Menschen lernt.

Mit diesen Fortschritten wollen wir physische Systeme leichter anpassbar machen – denn Anpassungsfähigkeit betrachten wir als ein zentrales Merkmal von Intelligenz. Wir sind überzeugt, dass Roboter, die sich besser an dynamische Situationen und menschliche Präferenzen anpassen können, in unseren Arbeitsumgebungen und im Alltag nützlicher sind. Und dass sie von den Menschen, die sie einsetzen und bedienen, eher akzeptiert werden und grösseres Vertrauen geniessen.

Rho-alpha erreicht taktil-bewusste Verhaltensweisen in Kombination mit Vision-Language-Verständnis durch einen gemeinsamen Trainingsprozess auf Basis von Bewegungsabläufen aus physischen Demonstrationen und simulierten Aufgaben sowie grossskaligen Visual-Question-Answering-Daten aus dem Web. Dieses Vorgehen wollen wir als Blaupause nutzen, um das Modell künftig auf weitere Sensorikmodalitäten und eine Vielzahl realer Aufgaben auszuweiten.

„Während das Generieren von Trainingsdaten durch die Fernsteuerung robotischer Systeme inzwischen gängige Praxis ist, gibt es viele Szenarien, in denen Fernsteuerung unpraktisch oder unmöglich ist. Wir arbeiten mit Microsoft Research zusammen, um Vortrainingsdatensätze aus physischen Robotern durch vielfältige synthetische Demonstrationen zu erweitern – mithilfe einer Kombination aus Simulation und Reinforcement Learning.“ – Abhishek Gupta, Assistant Professor, University of Washington

Simulationen spielen eine Schlüsselrolle in unserem Ansatz, um den generellen Mangel an grossskaligen Vortrainingsdaten für die Robotik zu überwinden – insbesondere an Daten mit taktilem Feedback und anderen weniger verbreiteten Sensorikmodalitäten. Unsere Trainingspipeline erzeugt synthetische Daten über einen mehrstufigen Prozess auf Basis von Reinforcement Learning unter Verwendung des offenen NVIDIA-Isaac-Sim-Frameworks. Diese simulierten Abläufe kombinieren wir mit kommerziellen sowie frei verfügbaren Datensätzen aus physischen Demonstrationen.

„Das Training von Foundation Models, die schlussfolgern und handeln können, erfordert die Überwindung der Knappheit vielfältiger, realer Daten. Durch den Einsatz von NVIDIA Isaac Sim auf Azure zur Generierung physikalisch präziser synthetischer Datensätze beschleunigt Microsoft Research die Entwicklung vielseitiger Modelle wie Rho-alpha, die komplexe Manipulationsaufgaben meistern können.“ – Deepu Talla, Vice President of Robotics and Edge AI, NVIDIA

Obwohl erweiterte Wahrnehmungsfähigkeiten Rho-alpha in die Lage versetzen, den Handlungsverlauf eines Roboters während des Betriebs anzupassen, können dennoch Fehler auftreten, die Roboter nur schwerlich selbst beheben können. Menschliche Bediener können den Roboter mithilfe intuitiver Fernsteuerungsgeräte wie einer 3D-Maus wieder auf den richtigen Kurs bringen. Rho-alpha ist in der Lage, auch aus dieser Art von korrigierendem Feedback während des laufenden Betriebs weiter zu lernen.

Unser Team arbeitet an einer durchgängigen Optimierung von Rho-alphas Trainingspipeline und Trainingsdatenkorpus, um Leistung und Effizienz bei für Microsoft und unsere Partner relevanten beidhändigen Tätigkeiten weiter zu steigern. Derzeit wird das Modell auf Dual-Arm-Setups und humanoiden Robotern evaluiert. Eine technische Beschreibung werden wir in den kommenden Monaten veröffentlichen.

Roboterhersteller, Systemintegratoren und Endanwender verfügen über einzigartige Einblicke in die Anwendungsfälle und Szenarien, in denen neue physische KI-Technologien transformatives Potenzial entfalten können. Um diese Akteure zu befähigen, arbeiten wir an grundlegenden Technologien wie Rho-alpha sowie an begleitenden Tools, mit denen sie ihre eigene, cloudbasierte physische KI mit eigenen Daten für ihre eigenen Roboter und Szenarien trainieren, einsetzen und kontinuierlich anpassen können.

Interessierte, die selbst mit physischer KI experimentieren und die Zukunft unserer Grundlagen und Werkzeuge für physische KI mitgestalten möchten, sind eingeladen, an unserem Research Early Access-Programm teilzunehmen.

Den Originalartikel zu Rho-alpha finden Sie hier auf Englisch – die englische Version enthält ergänzende Videos, die zentrale Arbeitsabläufe veranschaulichen.