Ai2 推出 MolmoAct:赋能机器人 3D 空间推理的透明开源 AI

Techpark

艾伦人工智能研究所(Ai2)发布了 MolmoAct 7B,这是一款创新的具身 AI 模型,旨在弥合复杂人工智能与其在物理世界中实际应用之间的鸿沟。与通常将语言指令转换为动作的传统 AI 系统不同,MolmoAct 采用了一种根本不同的方法:它通过视觉感知环境,理解空间、运动和时间之间错综复杂的关系,然后相应地规划其行动。这种智能是通过将二维图像输入转换为全面的三维空间规划来实现的,从而使机器人能够以增强的理解和控制能力在物理世界中导航。

尽管空间推理对 AI 来说并非新鲜事物,但大多数当代系统都依赖专有、封闭的架构,这些架构在庞大且通常难以访问的数据集上进行训练。此类模型通常难以复现,扩展成本高昂,并以不透明的“黑箱”形式运行。相比之下,MolmoAct 提供了一个透明和开放的替代方案,它完全在公开可用的数据上进行训练。其设计优先考虑现实世界泛化和可解释性;其分步视觉推理轨迹允许用户在条件变化时实时预览机器人预期的动作,并直观地引导其行为。

“具身 AI 需要一个优先考虑推理、透明度和开放性的新基础,”Ai2 首席执行官 Ali Farhadi 表示。“通过 MolmoAct,我们不仅发布了一个模型;我们正在为 AI 的新时代奠定基础,将强大 AI 模型的智能带入物理世界。这是迈向 AI 的一步,它能够以更符合人类方式的方式推理和导航世界——并与我们安全有效地协作。”

MolmoAct 代表了 Ai2 称为行动推理模型(ARMs)的新一类模型的首次发布。ARM 旨在解释高级自然语言指令,并逻辑地排序物理动作以在现实世界中执行它们。与可能将复杂任务视为单一、无差异命令的传统端到端机器人模型不同,ARMs 将高级指令分解为一系列透明的、基于空间的决策。这种分层推理过程涉及三个关键阶段:首先是 3D 感知,它利用深度和空间上下文来巩固机器人对环境的理解;其次是视觉路径点规划,在图像空间内勾勒出分步任务轨迹;最后是行动解码,它将视觉规划转换为精确的、机器人特定的控制命令。这种复杂的方法使 MolmoAct 能够将“整理这堆垃圾”这样的指令解释为一系列结构化的子任务:识别场景,按类型对物体进行分组,单独抓取它们,并重复该过程。

MolmoAct 7B 作为其家族中的初始模型,在一个精心策划的数据集上进行了训练,该数据集包含大约 12,000 个从厨房和卧室等真实环境中捕获的“机器人事件”。这些演示被转换为机器人推理序列,说明了复杂指令如何映射到具体的、目标导向的行动。Ai2 研究人员花费数月时间策划机器人执行各种家务任务的视频,从在客厅沙发上整理枕头到在卧室里收叠衣物。

值得注意的是,MolmoAct 以显著的效率实现了这种复杂的性能。其训练涉及大约 1800 万个样本,在 256 个 NVIDIA H100 GPU 上预训练超过 24 小时,随后仅在 64 个 GPU 上进行了两小时的微调。这与许多需要数亿样本和显著更多计算资源的商业模型形成鲜明对比。尽管训练资源精简,MolmoAct 在关键基准测试中表现出卓越性能,包括在 SimPLER 上达到 71.9% 的成功率,这强调了高质量数据和深思熟虑的设计可以超越使用更多数据和计算资源训练的模型。

秉承 Ai2 的使命,MolmoAct 旨在实现透明度,这是与大多数机器人模型不透明性质的关键区别。用户可以在执行前预览模型的计划动作,动作轨迹会叠加在摄像机图像上。这些计划可以通过自然语言命令或在触摸屏上进行快速草图修正来调整,从而提供精细的控制,并增强家庭、医院和仓库中实际应用的安全性。此外,MolmoAct 是完全开源和可复现的;Ai2 正在发布构建、运行和扩展该模型所需的所有组件,包括训练管道、训练前和训练后数据集、模型检查点和评估基准。通过为安全、可解释、适应性强且真正开放的具身 AI 设定新标准,Ai2 旨在扩大其在模拟和真实世界环境中的测试,从而促进开发更强大、更具协作性的 AI 系统。