Ai2のMolmoAct:3D推論AIがロボティクスでNvidiaとGoogleに挑戦
ロボットシステムと高度な基盤モデルが統合される物理AIの分野は急速に進化しており、Nvidia、Google、Metaといったテクノロジー大手から多大な投資と研究を集めています。今回、アレン人工知能研究所(Ai2)は、ロボットに高度な空間推論能力を付与するために設計された新しいオープンソースモデル「MolmoAct 7B」をリリースし、これらの業界リーダーに挑戦しています。主に2次元のコンテキストで情報を処理する従来の多くの視覚-言語-行動(VLA)モデルとは異なり、MolmoActは「空間で推論」するように設計されており、効果的に3次元で思考します。
Ai2はMolmoActを「行動推論モデル」に分類しています。これは、基盤モデルが空間推論を行い、物理的な3次元環境内での行動を理解し計画するカテゴリです。つまり、MolmoActはその推論能力を活用して、周囲の物理世界を理解し、空間をどのように占めるかを判断し、その後に適切な行動を実行することができます。
この空間理解は、「空間的に接地された知覚トークン」という新しいアプローチを通じて達成されます。これらのトークンは、ベクトル量子化変分オートエンコーダーを使用してビデオなどの視覚入力から事前学習され抽出されるもので、VLAモデルが通常使用するテキストベースの入力とは根本的に異なります。幾何学的構造をエンコードし、オブジェクト間の距離を推定することで、MolmoActはその物理的環境を包括的に把握します。これらの距離を評価した後、モデルは一連の「画像空間」ウェイポイントを予測し、潜在的な経路を描き出します。この詳細な空間計画は、数インチのロボットアームの精密な調整や、腕を伸ばすといった具体的な物理的行動に変換されます。
Ai2が実施した内部ベンチマークテストでは、MolmoAct 7Bが72.1%のタスク成功率を達成し、Google、Microsoft、Nvidiaの競合モデルを上回ることが明らかになりました。驚くべきことに、Ai2の研究者たちは、MolmoActが機械アームから人型ロボットまで、多様なロボットの形態に最小限のファインチューニングで適応できることを指摘しました。さらに、このモデルはApache 2.0ライセンスの下でオープンソースとしてリリースされ、そのトレーニングデータセットはCC BY-4.0の下で利用可能となっており、協力的な開発を促進するこの動きは、より広範なAIコミュニティから賞賛されています。
MolmoActの能力は、機械が物理環境と相互作用する必要があるあらゆる場所で広く適用可能ですが、Ai2はその主要な影響を家庭環境に見据えています。この環境は、固有の不規則性と絶え間ない変化を特徴とし、ロボティクスにとって最も重大な課題を提示するため、MolmoActの高度な空間推論にとって理想的な実証の場となります。
より知的で空間認識能力の高いロボットの追求は、コンピューターサイエンスにおける長年の基本的な夢でした。歴史的に、開発者はすべてのロボットの動きを明示的にコーディングするという骨の折れる作業に直面し、その結果、硬直的で柔軟性のないシステムが生まれていました。大規模言語モデル(LLM)の登場は、このパラダイムを革新し、ロボットがオブジェクトとの相互作用に基づいて次の行動を動的に決定できるようにしました。例えば、Google ResearchのSayCanはLLMを使用してロボットがタスクについて推論するのを助け、目標達成に必要な一連の動きを決定するように導きます。同様に、Metaとニューヨーク大学のOK-Robotは、動きの計画とオブジェクト操作に視覚言語モデルを利用しており、Nvidiaは物理AIを「次の大きなトレンド」と宣言し、ロボットトレーニングを加速するためにCosmos-Transfer1のようなモデルをリリースしています。
オレゴン州立大学工学部の教授であるアラン・ファーンは、Ai2の研究を「ロボティクスと物理推論のためのVLM強化における自然な進歩」と見ています。彼は「革命的ではないかもしれない」と認めつつも、「より高性能な3D物理推論モデルの開発における重要な一歩」であると強調しました。ファーンは、MolmoActが「真の3Dシーン理解」に焦点を当てていることを、2D依存からの重要な前向きな変化として強調しましたが、現在のベンチマークは「比較的制御されており、おもちゃのようなもの」であり、現実世界の複雑さを完全に捉えていないと警告しました。それにもかかわらず、彼は自身の物理推論タスクでモデルをテストすることに熱意を示しました。スタートアップGather AIの共同創設者であるダニエル・マトゥラナは、データのオープンソース性を高く評価し、そのようなモデルの開発とトレーニングに伴う高コストを削減するその価値に言及し、学術研究室や趣味家にとっても「構築するための強固な基盤」を提供すると述べました。
現在の実世界でのデモンストレーションには限界があるものの、物理AIへの関心が高まっていることは、この分野が急速に発展していることを示唆しています。個別化されたロボットプログラミングの必要性を排除する汎用物理知能の追求がより実現可能になるにつれて、ロボティクスの展望は急速で刺激的な進歩を遂げようとしています。