Ai2「MolmoAct」公開:ロボットの3D空間推論を革新するAI

Techpark

アレン人工知能研究所(Ai2)は、複雑な人工知能と物理世界での実用的な応用との間のギャップを埋めるために設計された革新的な具現化AIモデル「MolmoAct 7B」を発表しました。言語指示を動きに変換することが多い従来のAIシステムとは異なり、MolmoActは根本的に異なるアプローチを採用しています。環境を視覚的に認識し、空間、動き、時間間の複雑な関係を理解し、それに応じて行動を計画します。この知能は、2次元の画像入力を包括的な3次元空間計画に変換することで実現され、ロボットが強化された理解と制御で物理世界をナビゲートすることを可能にします。

空間推論はAIにとって新しいものではありませんが、ほとんどの現代システムは、広大でアクセスが困難なデータセットで訓練された独自のクローズドアーキテクチャに依存しています。このようなモデルは通常、再現が難しく、スケールアップにコストがかかり、不透明な「ブラックボックス」として機能します。対照的に、MolmoActは、公開されているデータのみで訓練されており、透明でオープンな代替手段を提供します。その設計は、実世界での汎化能力と解釈可能性を優先しており、その段階的な視覚推論の軌跡により、ユーザーはロボットの意図する行動を事前に確認し、状況の変化に応じてリアルタイムで直感的にその挙動を誘導できます。

「具現化AIには、推論、透明性、オープン性を優先する新しい基盤が必要です」とAi2のCEO、アリ・ファーハディは述べました。「MolmoActのリリースは、単にモデルを公開するだけではありません。強力なAIモデルの知能を物理世界にもたらす、AIの新時代の基礎を築いています。これは、人間が行う方法により近い形で世界を推論し、ナビゲートできるAI、そして安全かつ効果的に私たちと協力できるAIへの一歩です。」

MolmoActは、Ai2が「行動推論モデル(ARMs)」と呼ぶ新クラスのモデルの最初のリリースです。ARMは、高レベルの自然言語指示を解釈し、物理的な行動を論理的に順序付けて実世界で実行するように設計されています。複雑なタスクを単一の区別のないコマンドとして扱う従来のエンドツーエンドのロボティクスモデルとは異なり、ARMは高レベルの指示を空間的に根拠のある意思決定の透明な連鎖に分解します。この階層的な推論プロセスには3つの主要な段階が含まれます。まず、3D認識で、深さと空間的コンテキストを使用してロボットの環境理解を基礎付けます。次に、視覚的なウェイポイント計画で、画像空間内で段階的なタスクの軌跡を概説します。そして最後に、行動デコードで、視覚的な計画を正確なロボット固有の制御コマンドに変換します。この洗練されたアプローチにより、MolmoActは「このゴミの山を整理して」というコマンドを、単一の行動としてではなく、シーンの認識、オブジェクトの種類の分類、個々の把持、およびプロセスの繰り返しという構造化された一連のサブタスクとして解釈できます。

MolmoAct 7Bは、そのファミリーの初期モデルとして、キッチンや寝室などの実環境からキャプチャされた約12,000の「ロボットエピソード」を含む、細心の注意を払ってキュレーションされたデータセットで訓練されました。これらのデモンストレーションは、複雑な指示が具体的で目標指向の行動にどのようにマッピングされるかを示すロボット推論シーケンスに変換されました。Ai2の研究者たちは、リビングルームのソファに枕を並べたり、寝室で洗濯物を片付けたりするなど、ロボットがさまざまな家事を行うビデオを数ヶ月かけてキュレーションしました。

驚くべきことに、MolmoActは、この洗練された性能を著しい効率で達成しています。そのトレーニングには約1800万のサンプルが関与し、256基のNVIDIA H100 GPUで24時間以上事前訓練され、その後64基のGPUでわずか2時間のファインチューニングが行われました。これは、数億のサンプルと大幅に多くの計算リソースを必要とする多くの商用モデルとは対照的です。その軽量なトレーニングにもかかわらず、MolmoActは、SimPLERで71.9%の成功率を含む主要なベンチマークで優れた性能を示しており、高品質なデータと思慮深い設計が、はるかに広範なデータと計算で訓練されたモデルを上回ることができることを強調しています。

Ai2のミッションに沿って、MolmoActは透明性を重視して構築されており、これはほとんどのロボティクスモデルの不透明な性質からの決定的な脱却です。ユーザーは、実行前にモデルの計画された動きをプレビューでき、カメラ画像に動きの軌跡が重ねて表示されます。これらの計画は、自然言語コマンドやタッチスクリーンでの素早いスケッチ修正を使用して調整でき、家庭、病院、倉庫などの実世界でのアプリケーションにおいて、きめ細かい制御と安全性の向上を提供します。さらに、MolmoActは完全にオープンソースであり、再現可能です。Ai2は、トレーニングパイプライン、トレーニング前後のデータセット、モデルチェックポイント、評価ベンチマークなど、モデルを構築、実行、拡張するために必要なすべてのコンポーネントをリリースしています。安全で、解釈可能で、適応性があり、真にオープンな具現化AIの新しい標準を設定することにより、Ai2はシミュレーション環境と実世界環境の両方でテストを拡大し、より有能で協力的なAIシステムの開発を促進することを目指しています。