Ai2的MolmoAct:3D推理AI挑战英伟达、谷歌机器人霸主地位
物理AI领域正迅速发展,机器人系统与先进的基础模型深度融合,吸引了英伟达、谷歌和Meta等科技巨头的巨额投资与研究。如今,艾伦人工智能研究所(Ai2)发布了全新的开源模型MolmoAct 7B,旨在赋予机器人复杂的空间推理能力,向这些行业领导者发起挑战。与许多主要在二维环境中处理信息的传统视觉-语言-动作(VLA)模型不同,MolmoAct旨在“在空间中推理”,有效地进行三维思考。
Ai2将MolmoAct归类为动作推理模型,这类基础模型通过空间推理来理解和规划物理三维环境中的动作。这意味着MolmoAct可以利用其推理能力来理解周围的物理世界,确定其如何占据空间,并随后执行适当的动作。
这种空间理解是通过一种新颖的“空间接地感知令牌”方法实现的。这些令牌经过预训练,并使用向量量化变分自编码器从视频等视觉输入中提取,与VLA模型通常使用的基于文本的输入有着根本区别。通过编码几何结构和估计物体之间的距离,MolmoAct对周围的物理环境有了全面的掌握。一旦评估了这些距离,模型就会预测一系列“图像空间”路径点,规划出潜在的路径。这个详细的空间规划随后转化为具体的物理动作,例如精确地将机械臂调整几英寸或伸展。
Ai2进行的内部基准测试显示,MolmoAct 7B的任务成功率达到72.1%,优于谷歌、微软和英伟达的竞争模型。值得注意的是,Ai2的研究人员指出,MolmoAct只需极少的微调,即可适应从机械臂到人形等多种机器人实体。此外,该模型以Apache 2.0许可证开源发布,其训练数据集则在CC BY-4.0下提供,此举因促进协作开发而受到更广泛AI社区的赞扬。
尽管MolmoAct的能力广泛适用于机器需要与物理环境交互的任何场景,但Ai2设想其主要影响将体现在家庭环境中。这种环境以其固有的不规则性和持续变化为特征,对机器人技术构成了最重大的挑战,使其成为MolmoAct先进空间推理的理想试验场。
追求更智能、更具空间感知能力的机器人一直是计算机科学领域的根本梦想。历史上,开发人员面临着艰巨的任务,需要明确地为每一个机器人动作编写代码,导致系统僵化且缺乏灵活性。大型语言模型(LLMs)的出现彻底改变了这一范式,使机器人能够根据与物体的交互动态地确定后续动作。例如,谷歌研究院的SayCan利用LLM帮助机器人进行任务推理,指导它们确定实现目标所需的动作序列。同样,Meta和纽约大学的OK-Robot利用视觉语言模型进行运动规划和物体操作,而英伟达则宣称物理AI是“下一个大趋势”,并发布了Cosmos-Transfer1等模型以加速机器人训练。
俄勒冈州立大学工程学院教授艾伦·费恩(Alan Fern)认为,Ai2的研究是“增强机器人和物理推理VLM的自然进展”。他承认这可能并非“革命性”,但强调它是“在开发更强大的3D物理推理模型方面迈出的重要一步”。费恩强调MolmoAct对“真正3D场景理解”的关注是摆脱2D依赖的重大积极转变,但他警告说,当前的基准测试仍然“相对受控和玩具化”,未能完全捕捉现实世界的复杂性。尽管如此,他表示渴望在自己的物理推理任务上测试该模型。初创公司Gather AI的联合创始人丹尼尔·马图拉纳(Daniel Maturana)赞扬了数据的开源性质,指出其在降低开发和训练此类模型相关的高成本方面的价值,从而为学术实验室和业余爱好者提供了“坚实的基础”。
尽管目前在现实世界演示方面存在局限性,但对物理AI日益增长的兴趣表明这是一个新兴领域。随着对通用物理智能——消除对个性化机器人编程的需求——的追求变得更易实现,机器人技术的前景正蓄势待发,迎来快速而激动人心的发展。