Ai2的MolmoAct：3D推理AI挑战英伟达、谷歌机器人霸主地位

物理AI领域正迅速发展，机器人系统与先进的基础模型深度融合，吸引了英伟达、谷歌和Meta等科技巨头的巨额投资与研究。如今，艾伦人工智能研究所（Ai2）发布了全新的开源模型MolmoAct 7B，旨在赋予机器人复杂的空间推理能力，向这些行业领导者发起挑战。与许多主要在二维环境中处理信息的传统视觉-语言-动作（VLA）模型不同，MolmoAct旨在“在空间中推理”，有效地进行三维思考。

Ai2将MolmoAct归类为动作推理模型，这类基础模型通过空间推理来理解和规划物理三维环境中的动作。这意味着MolmoAct可以利用其推理能力来理解周围的物理世界，确定其如何占据空间，并随后执行适当的动作。

这种空间理解是通过一种新颖的“空间接地感知令牌”方法实现的。这些令牌经过预训练，并使用向量量化变分自编码器从视频等视觉输入中提取，与VLA模型通常使用的基于文本的输入有着根本区别。通过编码几何结构和估计物体之间的距离，MolmoAct对周围的物理环境有了全面的掌握。一旦评估了这些距离，模型就会预测一系列“图像空间”路径点，规划出潜在的路径。这个详细的空间规划随后转化为具体的物理动作，例如精确地将机械臂调整几英寸或伸展。

Ai2进行的内部基准测试显示，MolmoAct 7B的任务成功率达到72.1%，优于谷歌、微软和英伟达的竞争模型。值得注意的是，Ai2的研究人员指出，MolmoAct只需极少的微调，即可适应从机械臂到人形等多种机器人实体。此外，该模型以Apache 2.0许可证开源发布，其训练数据集则在CC BY-4.0下提供，此举因促进协作开发而受到更广泛AI社区的赞扬。

尽管MolmoAct的能力广泛适用于机器需要与物理环境交互的任何场景，但Ai2设想其主要影响将体现在家庭环境中。这种环境以其固有的不规则性和持续变化为特征，对机器人技术构成了最重大的挑战，使其成为MolmoAct先进空间推理的理想试验场。

追求更智能、更具空间感知能力的机器人一直是计算机科学领域的根本梦想。历史上，开发人员面临着艰巨的任务，需要明确地为每一个机器人动作编写代码，导致系统僵化且缺乏灵活性。大型语言模型（LLMs）的出现彻底改变了这一范式，使机器人能够根据与物体的交互动态地确定后续动作。例如，谷歌研究院的SayCan利用LLM帮助机器人进行任务推理，指导它们确定实现目标所需的动作序列。同样，Meta和纽约大学的OK-Robot利用视觉语言模型进行运动规划和物体操作，而英伟达则宣称物理AI是“下一个大趋势”，并发布了Cosmos-Transfer1等模型以加速机器人训练。

俄勒冈州立大学工程学院教授艾伦·费恩（Alan Fern）认为，Ai2的研究是“增强机器人和物理推理VLM的自然进展”。他承认这可能并非“革命性”，但强调它是“在开发更强大的3D物理推理模型方面迈出的重要一步”。费恩强调MolmoAct对“真正3D场景理解”的关注是摆脱2D依赖的重大积极转变，但他警告说，当前的基准测试仍然“相对受控和玩具化”，未能完全捕捉现实世界的复杂性。尽管如此，他表示渴望在自己的物理推理任务上测试该模型。初创公司Gather AI的联合创始人丹尼尔·马图拉纳（Daniel Maturana）赞扬了数据的开源性质，指出其在降低开发和训练此类模型相关的高成本方面的价值，从而为学术实验室和业余爱好者提供了“坚实的基础”。

尽管目前在现实世界演示方面存在局限性，但对物理AI日益增长的兴趣表明这是一个新兴领域。随着对通用物理智能——消除对个性化机器人编程的需求——的追求变得更易实现，机器人技术的前景正蓄势待发，迎来快速而激动人心的发展。

Ai2的MolmoAct：3D推理AI挑战英伟达、谷歌机器人霸主地位

相关文章

DeepSeek V3.1重磅发布：开源AI巨头挑战OpenAI，性能突破惊艳业界

MIT人工智能模型精准预测分子在溶剂中的溶解度

dots.ocr：新型17亿参数开源VLM实现多语言文档解析SOTA