Rho-alpha

로-알파(Rho-alpha) 공개: 마이크로소프트 리서치의 최신 로보틱스 모델

에이전틱 AI와 물리적 시스템이 결합되는 형태인 피지컬 AI는, 생성형 모델이 언어와 시각 처리 영역을 혁신했듯 로보틱스 분야를 재정의할 위치에 있습니다.

지난 수십 년간 로봇은 작업이 예측 가능하고 엄격히 정해진 조립 라인과 같은 구조화된 환경에서 탁월한 성과를 보여 왔습니다. 하지만 이제 물리적 시스템을 대상으로 한 시각-언어-행동(Vision-Language-Action, VLA) 모델의 등장은, 로봇이 복잡하고 정해지지 않은 덜 구조화된 환경에서도 인간과 함께 자율적으로 인지하고 추론하며 행동할 수 있도록 지원하고 있습니다.

마이크로소프트는  파이(Phi) 시리즈 시각 언어 모델(vision-language models)을 기반으로 개발된 자사 첫 번째 로보틱스 모델, 로-알파(Rho-alpha, ρα)를 공개합니다. 

로-알파를 자사 로봇 시스템에 도입하거나 다양한 활용 사례를 발굴하고자 하는 파트너들을 위해 로-알파 리서치 얼리 액세스 프로그램(Rho-alpha Research Early Access Program) 참여를 제안합니다.

로-알파는 자연어 명령을 기반으로 로봇이 양손 조작(bimanual manipulation)을 수행할 수 있도록 정교한 제어 신호로 변환합니다. 특히 기존 VLA에서 일반적으로 사용하는 인지 및 학습 모달리티의 범위를 넘어 확장했다는 점에서 VLA+ 모델로 차별화됩니다. 인지 측면에서는 촉각 센싱을 새롭게 접목했으며, 현재 힘(force) 등 추가적인 센싱 모달리티 확장을 위한 기술 고도화가 진행 중입니다. 또한 학습 영역에서는 실제 현장에 배치 중에도 사람의 피드백을 학습해 성능을 지속적으로 개선할 수 있도록 설계됐습니다.

마이크로소프트는 이러한 기술적 진보를 통해 물리 시스템이 보다 유연하게 적응할 수 있도록 하는 것을 목표로 하며, 이러한 적응력을 지능의 핵심 지표로 보고 있습니다. 역동적인 상황과 인간의 선호에 맞춰 기민하게 적응하는 로봇은 우리의 일상과 업무 환경에서 더 높은 효용을 제공할 것이며, 이를 도입하고 운용하는 이들에게 더 큰 신뢰를 얻을 것이라 믿습니다.

프롬프트: “오른쪽 그리퍼로 초록색 버튼을 누르세요”
프롬프트: “빨간색 전선을 당겨 빼세요”
프롬프트: “위쪽 스위치를 켜세요”
프롬프트: “노브를 5번 위치로 돌리세요”
프롬프트: “BusyBox를 시계 방향으로 회전시키세요”
프롬프트: “위쪽 슬라이더를 2번 위치로 이동시키세요”

위 영상에서는 마이크로소프트 리서치가 최근 공개한 물리적 상호작용 벤치마크인 ‘비지박스’를 대상으로, 자연어 지침에 반응하며 상호작용하는 로-알파의 동작을 보여줍니다.

로-알파는 실제 로봇의 궤적 데이터와 시뮬레이션 작업, 그리고 웹 규모 시각 질의응답 데이터를 공동 학습함으로써, 시각·언어적 이해가 결합된 정교한 촉각 인지 행동을 구현합니다. 마이크로소프트는 이러한 기술적 토대를 바탕으로, 향후 다양한 실제 과업에 걸쳐 센싱 모달리티(sensing modalities)를 지속적으로 확장해 나갈 계획입니다.

로봇 시스템을 원격 제어해 훈련 데이터를 생성하는 방식은 이제 업계의 표준으로 자리 잡았지만, 원격 조작이 비실용적이거나 불가능한 환경도 여전히 많습니다. 우리는 마이크로소프트 연구소와 협력하여 시뮬레이션과 강화 학습을 결합한 다양한 합성 시연(synthetic demonstrations) 데이터를 생성하고 있으며, 이를 통해 실제 로봇에서 수집된 사전 학습 데이터셋을 더욱 풍부하게 확충하고 있습니다.

아비섹 굽타(Abhishek Gupta) 워싱턴 대학교(University of Washington) 조교수

시뮬레이션은 로보틱스 사전 학습 데이터의 전반적인 부족 문제를 해결하는 데 핵심적인 역할을 하며, 특히 촉각 정보나 기타 희소한 센싱 모달리티를 포함한 데이터의 결핍을 극복하는 데 매우 중요합니다. 마이크로소프트의 훈련 파이프라인은 개방형 엔비디아 아이작 심(NVIDIA Isaac Sim) 프레임워크를 활용해 강화 학습 기반의 다단계 프로세스로 합성 데이터를 생성합니다. 우리는 이러한 시뮬레이션 구동 데이터를 상용 및 공개된 실제 시연 데이터셋과 결합하여 활용하고 있습니다.

추론하고 행동하는 파운데이션 모델을 훈련하려면 현실 세계의 다양한 데이터 부족 문제를 극복해야 합니다. 마이크로소프트 리서치는 애저(Azure) 기반의 엔비디아 아이작 심을 활용해 물리적으로 정확한 합성 데이터셋을 생성함으로써, 복잡한 조작 작업을 숙달할 수 있는 로-알파와 같은 범용 모델 개발을 가속화하고 있습니다.

디푸 탈라(Deepu Talla) 엔비디아 로보틱스 및 엣지 AI(Robotics and Edge AI) 부사장

인지 능력이 확장됨에 따라 로-알파가 로봇의 행동 궤적을 직접 조정할 수 있게 되었지만, 로봇은 여전히 자체 복구가 어려운 오류를 범할 수 있습니다. 사용자는 3D 마우스와 같은 직관적인 장치로 로봇의 동작을 바로잡을 수 있으며, 로-알파는 시스템 작동 중에도 이러한 사용자의 교정 피드백을 지속적으로 학습할 수 있습니다.

프롬프트: “전원 플러그를 집어 들어 사각형 멀티탭의 아래쪽 소켓에 꽂으세요”
프롬프트: “트레이를 공구함 안에 넣고 공구함을 닫으세요”
프롬프트: “공구함에서 트레이를 꺼내 테이블 위에 놓으세요”

위 영상은 로-알파가 제어하는 촉각 센서 탑재 듀얼 UR5e 로봇 팔 시스템이 플러그 삽입 및 공구함 정리 작업을 수행하는 모습입니다. 

플러그 삽입 시연 중 우측 로봇 팔이 콘센트 연결에 어려움을 겪을 때, 실시간 인간 가이드의 도움을 받아 작업을 이어가는 과정을 확인할 수 있습니다.

마이크로소프트 리서치는 마이크로소프트와 파트너사들의 관심사인 양손 조작 작업의 성능과 효율을 높이기 위해, 로-알파의 학습 파이프라인 및 데이터 코퍼스(data corpus) 전반에 걸친 엔드 투 엔드 최적화 작업을 진행하고 있습니다. 이 모델은 듀얼 암(dual-arm) 시스템과 휴머노이드 로봇을 대상으로 평가를 진행 중이며, 향후 수개월 내에 기술적인 상세 내용을 공개할 예정입니다.

로봇 제조사, 시스템 통합 업체, 그리고 엔드 유저는 차세대 피지컬 AI 기술의 혁신적 잠재력이 실현될 사용 사례와 시나리오에 대해 독자적인 인사이트를 보유하고 있습니다. 마이크로소프트는 이러한 이해관계자들의 역량을 강화하기 위해 로-알파와 같은 기반 기술과 관련 도구를 개발하고 있습니다. 이를 통해 사용자들은 자체 데이터로 자신들의 로봇 및 시나리오에 맞춰 클라우드 기반의 피지컬 AI를 직접 훈련하고 배포하며, 이를 지속적으로 최적화해 나갈 수 있게 될 것입니다.

마이크로소프트는 피지컬 AI 기반 기술 및 도구의 미래를 직접 실험하고 발전시키는 데 관심 있는 분들의 리서치 얼리 액세스 프로그램(Research Early Access Program) 참여를 권장합니다.