Genie Envisioner：スケーラブルなロボット工学のための統一ビデオ生成AI

現実世界で自律的に知覚、思考、行動できる真にインテリジェントなロボットシステムを追求することは、人工知能の最前線です。この道のりにおける根本的な障害は、スケーラブルで信頼性の高いロボット操作、すなわち意図的な接触を通じて物体を正確に制御し相互作用することの実現です。分析モデルからデータ駆動型学習まで、さまざまな方法で研究が進められてきましたが、既存のシステムのほとんどは断片化されたままです。データ収集、トレーニング、評価は通常、個別の段階で行われ、多くの場合、カスタム設定、骨の折れる手作業でのキュレーション、タスク固有の調整が要求されます。この分断されたアプローチは、大きな摩擦を生み出し、進歩を妨げ、失敗パターンを不明瞭にし、研究の再現性を困難にしています。これは、学習と評価を効率化するための統一されたフレームワークの緊急の必要性を示しています。

歴史的に、ロボット操作の研究は、純粋な分析モデルから、生ピクセルデータと抽象的な潜在空間の両方で動作し、感覚入力から直接環境ダイナミクスを学習する洗練されたニューラル世界モデルへと進化してきました。同時に、驚くほどリアルな視覚を生成できる大規模なビデオ生成モデルが登場しました。しかし、これらはロボット制御に関してはしばしば不十分であり、アクションを条件付けたり、長期的な時間的整合性を維持したり、効果的な操作に不可欠な多視点推論を実行したりする能力が欠けていることが多いです。同様に、人間の指示に従う視覚-言語-アクションモデルは、模倣ベースの学習に大きく制約されており、エラー回復や複雑な計画の能力が制限されています。ロボット制御戦略、すなわち「ポリシー」の有効性を評価することも、大きな課題を提示します。物理シミュレーターは広範な微調整を必要とし、実世界でのテストは法外なほどリソースを消費します。現在の評価指標は、実際のタスクの成功よりも視覚的な忠実度を優先することが多く、実世界の操作性能を真に反映するベンチマークにギャップがあることを示しています。

これらの広範な課題に対処するため、AgiBot Genieチーム、NUS LV-Lab、BUAAの研究者たちは、Genie Envisioner（GE）を開発しました。この革新的なプラットフォームは、ポリシー学習、シミュレーション、評価を、ロボット操作に特化した単一の強力なビデオ生成フレームワーク内で統合しています。その中心にあるのはGE-Baseです。これは、実世界のロボットタスクにおける複雑な空間的、時間的、意味的ダイナミクスを捉えるために細心の注意を払って訓練された、大規模な指示駆動型ビデオ拡散モデルです。この基盤の上に、GE-Actは学習されたこれらの表現を正確なアクション軌跡に変換し、GE-Simは驚くほど高速な、アクション条件付きのビデオベースのシミュレーション環境を提供します。性能を厳密に評価するために、付属のEWMBenchベンチマークは、視覚的リアリズム、物理的精度、および指示と結果のアクションとの整合性を評価します。100万を超えるロボットインタラクションのエピソードで訓練されたGEは、多様なロボットやタスクにおいて印象的な汎化能力を示し、スケーラブルでメモリ認識型、かつ物理的に接地された具現化された知能研究への道を開きます。

Genie Envisionerのアーキテクチャは、3つのコアコンポーネントにエレガントに構造化されています。基盤となる要素であるGE-Baseは、100万を超えるロボット操作エピソードを処理した多視点、指示条件付きビデオ拡散モデルです。この広範なトレーニングを通じて、特定のコマンドの下でシーンがどのように進化するかを正確に記述する抽象的な「潜在軌跡」を学習します。これらの学習された表現を活用して、GE-Actは軽量のフローマッチングデコーダを使用して、これらの潜在的なビデオの洞察を具体的なアクション信号に変換します。これにより、迅速かつ正確なモーター制御が可能になり、初期のトレーニングデータに含まれていなかったロボットタイプでも驚くほど機能します。さらに、GE-SimはGE-Baseの生成能力を巧みに再利用して、アクション条件付きニューラルシミュレーターを作成します。これにより、高速でクローズドループのビデオベースのシミュレーションの実行が可能になり、実世界のハードウェアよりもはるかに高速に実行されます。システム全体は、EWMBenchスイートによってテストされ、ビデオのリアリズム、物理的な一貫性、および人間の指示とロボットの最終的なアクションとの間の重要な整合性の全体的な評価が提供されます。

広範な評価により、Genie Envisionerが多様なロボット操作タスクにおいて、実世界およびシミュレーション設定の両方で堅牢な性能を発揮することが示されています。GE-Actは、わずか200ミリ秒で54ステップのアクション軌跡を生成するという例外的な速度を示し、ステップワイズおよびエンドツーエンドの成功率の両方で、主要な視覚-言語-アクションベースラインを一貫して上回りました。その適応性は特に印象的で、Agilex Cobot MagicやDual Frankaのような新しいロボットタイプと、わずか1時間のタスク固有データで成功裏に統合し、変形可能な物体を含む複雑なタスクに特に優れていることを証明しました。一方、GE-Simは高忠実度のアクション条件付きビデオシミュレーションを提供し、スケーラブルなクローズドループポリシーテストのための貴重なツールとなりました。EWMBenchベンチマークは、GE-Baseが最先端のビデオモデルよりも優れていることをさらに検証し、その例外的な時間的整合性、動きの一貫性、およびシーンの安定性を確認しました。これらはすべて、人間の品質判断と密接に一致していました。

結論として、Genie Envisionerは、ポリシー学習、シミュレーション、評価を単一のビデオ生成フレームワークにシームレスに統合する、強力で統一されたスケーラブルなロボット操作プラットフォームとして存在します。その核となるGE-Baseは、指示駆動型ビデオ拡散モデルであり、実世界のロボットインタラクションにおける複雑な空間的、時間的、意味的パターンを見事に捉えます。GE-Actはこれらの洞察を正確で適応性の高いアクション計画に変換し、最小限の再トレーニングで新しいロボットタイプにも対応します。GE-Simの高忠実度でアクション条件付きシミュレーションによる迅速なポリシー改良と、EWMBenchの厳格な評価と相まって、Genie Envisionerは大きな飛躍を遂げました。広範な実世界テストは、システムの優れた性能を強調し、汎用性のある指示駆動型具現化された知能の開発のための強固な基盤を確立しています。

Genie Envisioner：スケーラブルなロボット工学のための統一ビデオ生成AI

関連記事

OpenAIのGPT-5：医療AIのベンチマークと安全性への焦点

智譜AIのGLM-4.5：高度な推論、コーディング、エージェントAIの新境地

OpenAI GPT-5：「安全な補完」でAIの安全性と有用性を強化