物理世界のための AI を進化させる

著

Japan News Center

著者 Microsoft Research

※本ブログは、米国時間 2026 年 1 月 21 日に公開された ” Advancing AI for the physical world – Microsoft Research ” の抄訳を基に掲載しています。 

ロボットは数十年にわたり、作業が予測可能で厳密にスクリプト化された組立ラインなどの構造化された環境下で利用されてきました。 

エージェント型 AI と物理システムが融合する「フィジカル AI 」は、生成モデルが言語、視覚処理を変革したように、ロボティクス分野を再定義する段階に至りつつあります。 

本日、マイクロソフトの Phi シリーズの視覚・言語モデルをベースとした初のロボティクスモデル「Rho-alpha（ρα）」を発表します。 

ロボットやユースケースでの Rho-alpha 評価に関心のある組織は、Rho-alpha Research Early Access Program への参加意向をお寄せください。Rho-alphaは後日、Microsoft Foundry を通じて提供予定です。 

 Rho-alphaは、両手でタスクを操作したり、実行したりするタイプのロボットシステムにおいて、自然言語の指示を制御信号に変換します。従来の VLA を超えた知覚、学習モダリティを拡張する VLA+ モデルとして位置付けられます。知覚面では触覚センシングを追加し、力覚などのモダリティへの対応も進めています。学習面では、運用中に人からのフィードバックを通じて継続的に改善できる仕組みを目指しています。 

 これらの改善を通じ、物理システムの順応性向上を目指しています。動的な状況や人の好みに柔軟に適応できるロボットは、生活、業務環境でより有用となり、導入、運用する人々からの信頼も高まると確信しており、それこそが知性の証であると考えます。 

プロンプト:「右グリッパーで緑のボタンを押してください」 

プロンプト:「赤いワイヤーを引き抜いてください」

プロンプト:「上のスイッチをオンにしてください」 

プロンプト:「ノブを位置 5 に回してください」 

プロンプト:「BusyBox を時計回りに回転させてください」 

プロンプト:「上のスライダーを位置 2 に動かしてください」 

 上記の映像では、Microsoft Research が最近導入した物理的なやり取りをベンチマークする「BusyBox」において、Rho-alpha が自然言語指示に従って動作する様子を撮影しました（動画は実際の速度です）。 

私たちは両手でタスクを実行するロボットのパフォーマンス向上とさらなる効率化に向け、Rho-alpha のトレーニング パイプラインとデータコーパスのエンドツーエンド最適化を進めています。現在、デュアルアーム構成およびヒューマノイドロボットでの評価を実施中です。技術詳細は数か月以内に公開予定です。 

 Rho-alpha は、物理デモンストレーションとシミュレーションタスクからの軌跡データや、ウェブスケールの Visual Question Answering（インプットされた画像に基づく質問応答）データを用いたトレーニングにより、視覚及び言語理解と融合した触覚情報に基づく認識とアクションを実現しています。今後も同じ設計思想のもと、多様な実世界でのタスクに向けて、さらなるセンシングモダリティへの拡張を継続します。 

シミュレーションは、特に触覚フィードバックなどの希少なセンシングモダリティを含む事前学習規模のロボティクスデータ不足を克服する鍵となります。トレーニングパイプラインでは、オープンソースの NVIDIA Isaac Sim フレームワークを活用した強化学習ベースの多段階プロセスにより合成データを生成し、商用および公開の物理デモンストレーションデータセットと統合しています。 

知覚能力の拡張により、Rho-alpha は運用中にロボットの動作を調整できますが、依然として自己回復が困難なエラーが発生します。このような場合、人間のオペレーターは 3D マウスなどの直感的な遠隔操作デバイスを使用してロボットを修正します。私たちは、システム運用中の修正フィードバックから Rho-alpha が学習できるよう、ツーリングとモデル適応技術の開発にも注力しています。

プロンプト:「電源プラグを持ち上げ、四角い電源タップの下部ソケットに差し込んでください」 

プロンプト:「トレイをツールボックスに入れ、ツールボックスを閉じてください」 

プロンプト:「ツールボックスからトレイを取り出し、テーブルに置いてください」 

上記の動画では、Rho-alpha が制御する触覚センサー搭載デュアル UR5e アーム構成が、プラグ挿入とツールボックス梱包を実行する様子を示しています。プラグ挿入の場面では、右腕がコンセントへの挿入に苦戦し、リアルタイムでの人間のガイダンスによってサポートされています（動画は実際の速度です）。 

ロボット製造事業者、インテグレーター、エンドユーザーは、フィジカル AI 技術が変革的インパクトをもたらしうるユースケースとシナリオについて固有の知見を持っています。これらのステークホルダーを支援するため、Rho-alpha のような基盤技術と関連ツールを開発し、企業や組織が独自のデータを用いて、それぞれのロボットとシナリオに合わせたクラウドホスト型フィジカル AI のトレーニング、デプロイ、さらに継続的改善をできるよう、支援します。 

フィジカルAIの基盤とツールの将来をともに開拓することに関心がある方は、Research Early Access Programよりお申し込みください。

詳細はこちら

ヒューマノイドロボットは、Rho-alpha の評価プラットフォームの一つです。

———————————

本ページのすべての内容は、作成日時点でのものであり、予告なく変更される場合があります。正式な社内承認や各社との契約締結が必要な場合は、それまでは確定されるものではありません。また、様々な事由、背景により、一部または全部が変更、キャンセル、実現困難となる場合があります。予めご了承下さい。

タグ: