Transformar la IA para el mundo físico

Durante décadas, los robots han destacado en entornos estructurados como las líneas de montaje, donde las tareas son predecibles y están guionizadas de manera estricta.

Un brazo robótico realizando tareas

Publicado en: Blog de Microsoft Research.

«La aparición de modelos visión-lenguaje-acción (VLA) para sistemas físicos permite que los sistemas perciban, razonen y actúen con creciente autonomía junto a los humanos en entornos mucho menos estructurados.»

– Ashley Llorens, vicepresidenta corporativa y directora general, Microsoft Research Accelerator

La IA física, donde la IA agente se encuentra con los sistemas físicos, está preparada para redefinir la robótica de la misma manera que los modelos generativos han transformado el procesamiento del lenguaje y la visión.

Anunciamos Rho-alpha (ρα), nuestro primer modelo robótico derivado de la serie Phi de Microsoft de modelos de visión y lenguaje.

Invitamos a las organizaciones interesadas en evaluar Rho-alpha para sus robots y casos de uso a expresar interés en el Programa de Acceso Temprano de Rho-alpha Research. Rho-alpha también estará disponible a través de Microsoft Foundry en una fecha posterior.

Rho-alpha traduce comandos en lenguaje natural en señales de control para sistemas robóticos que realizan tareas de manipulación bimanual. Puede describirse como un modelo VLA+ en el sentido de que amplía el conjunto de modalidades perceptuales y de aprendizaje más allá de las que por lo general usan los VLAs. Para la percepción, Rho-alfa añade la detección táctil, con esfuerzos en marcha para acomodar modalidades como la fuerza. Para el aprendizaje, trabajamos para que Rho-alpha mejore de manera continua durante el despliegue y aprender a partir de los comentarios proporcionados por las personas.

A través de estos avances, pretendemos hacer que los sistemas físicos sean más adaptables, al considerar la adaptabilidad como una característica distintiva de la inteligencia. Creemos que los robots que puedan adaptarse más fácil a situaciones dinámicas y a las preferencias humanas serán más útiles en los entornos en los que vivimos y trabajamos, y más confiables para quienes los despliegan y operan.

Prompt: «Pulsa el botón verde con el agarre derecho»
Prompt: «Saca el cable rojo»
Prompt: «Enciende el interruptor superior»
Prompt: «Gira el pomo a la posición 5»
Prompt: «Gira la BusyBox en sentido horario»
Prompt: «Mueve el deslizador superior a la posición 2»

Las imágenes anteriores muestran la interacción de Rho-alpha con BusyBox, un benchmark de interacción física introducido de manera reciente por Microsoft Research, guiado por instrucciones en lenguaje natural. (Los vídeos muestran el funcionamiento del robot a velocidad real.)

Nuestro equipo trabaja para optimizar de extremo a extremo la cadena de entrenamiento y el corpus de datos de entrenamiento de Rho-alpha para mejorar el rendimiento y la eficiencia en tareas de manipulación bimanual de interés para Microsoft y nuestros socios. En la actualidad, el modelo está en evaluación sobre sistemas de doble brazo y robots humanoides. Publicaremos una descripción técnica en los próximos meses.

Rho-alfa logra comportamientos conscientes del tacto impregnados de comprensión del lenguaje visual mediante un proceso de co-entrenamiento en trayectorias a partir de demostraciones físicas y tareas simuladas, junto con datos visuales a escala web para responder preguntas. Planeamos utilizar el mismo plan para extender el modelo a modalidades de detección adicionales en una variedad de tareas del mundo real.

«Aunque generar datos de entrenamiento a través de teleoperar sistemas robóticos se ha convertido en una práctica habitual, hay muchos entornos donde la teleoperación es impráctica o imposible. Colaboramos con Microsoft Research para enriquecer conjuntos de datos previos al entrenamiento recogidos de robots físicos con diversas demostraciones sintéticas, a través de una combinación de simulación y aprendizaje por refuerzo.»

– Profesor Abhishek Gupta, profesor adjunto, Universidad de Washington

La simulación desempeña un papel clave en nuestro enfoque para superar la falta general de datos robóticos a escala previa al entrenamiento, en especial aquellos que contienen retroalimentación táctil y otras modalidades de detección menos comunes. Nuestra pipeline de entrenamiento genera datos sintéticos a través de un proceso multietapa basado en aprendizaje por refuerzo a través de la utilización del marco abierto NVIDIA Isaac Sim. Combinamos estas trayectorias simuladas con conjuntos de datos de demostración física comerciales y disponibles de manera abierta.

«Entrenar modelos fundamentales que puedan razonar y actuar requiere superar la escasez de datos diversos y reales. Al aprovechar NVIDIA Isaac Sim en Azure para generar conjuntos de datos sintéticos precisos a nivel físico, Microsoft Research acelera el desarrollo de modelos versátiles como Rho-alpha, que pueden dominar tareas complejas de manipulación.»

– Deepu Talla, vicepresidente de robótica e IA en Borde, NVIDIA

Aunque ampliar las capacidades de percepción puede permitir a Rho-alpha ajustar el curso de acción de un robot durante la operación, los robots aún pueden cometer errores difíciles de recuperar. Los operadores humanos pueden devolver a un robot a la normalidad por medio de dispositivos de teleoperación intuitivos, como un ratón 3D. Nos centramos en herramientas y técnicas de adaptación de modelos para permitir que Rho-alpha aprenda a partir de la retroalimentación correctiva durante el funcionamiento del sistema.

Prompt: «Toma el enchufe de alimentación e insértalo en la toma inferior del protector de sobretensiones cuadrado»
Prompt: «Coloca la bandeja en la caja de herramientas y cierra la caja de herramientas»
Prompt: «Saca la bandeja de la caja de herramientas y ponla sobre la mesa»

Los vídeos anteriores muestran un sistema de doble brazo UR5e equipado con sensor táctil controlado por Rho-alpha que realiza la inserción de enchufes y el empaquetado de la caja de herramientas. En el episodio de inserción del enchufe, el brazo derecho tiene dificultades para insertar el enchufe y se beneficia de la guía humana en tiempo real. (Los vídeos muestran el funcionamiento del robot a velocidad real.)

Los fabricantes, integradores y usuarios finales de robótica tienen perspectivas únicas sobre los casos de uso y escenarios en los que las tecnologías emergentes de IA física ofrecen un potencial transformador. Para empoderar a estos interesados, trabajamos hacia tecnologías fundamentales como Rho-alpha, junto con herramientas asociadas, que les permitirán entrenar, desplegar y adaptar de manera continua su propia IA física alojada en la nube a través de sus propios datos para sus propios robots y escenarios.

Si les interesa experimentar y ayudar a moldear el futuro de nuestras bases y herramientas de IA Física, expresen su interés en nuestro Programa de Acceso Temprano de Investigación.

Expresen su interés

Español (España)
Icono de exclusión de opciones de privacidad Tus opciones de privacidad
Privacidad de la salud del consumidor Ponte en contacto con Microsoft Privacidad Gestionar cookies Condiciones de uso Marcas registradas Sobre nuestra publicidad Docs de cumplimiento de la UE Informes regulatorios