Genie Envisioner:可扩展机器人技术的统一视频生成AI
寻求能够在现实世界中自主感知、思考和行动的真正智能机器人系统,代表着人工智能领域的一个前沿。在这一征程中,一个根本性的障碍是实现可扩展且可靠的机器人操作——即通过有意的接触对物体进行精确控制和交互。尽管研究通过从分析模型到数据驱动学习的各种方法取得了进展,但大多数现有系统仍然是碎片化的。数据收集、训练和评估通常在孤立的阶段进行,往往需要定制设置、耗费人力的手动整理和特定任务的调整。这种脱节的方法造成了巨大的阻碍,阻碍了进展,模糊了失败模式,并使得研究难以复现,这凸显了对统一框架以简化学习和评估的迫切需求。
从历史上看,机器人操作研究已从纯粹的分析模型发展到复杂的神经世界模型,这些模型直接从感官输入中学习环境动力学,并在原始像素数据和抽象潜在空间中运行。与此同时,大规模视频生成模型也应运而生,能够生成非常逼真的视觉效果。然而,这些模型在机器人控制方面往往表现不足,经常缺乏条件动作、保持长期时间一致性或执行对有效操作至关重要的多视图推理的能力。同样,遵循人类指令的视觉-语言-动作模型在很大程度上受限于基于模仿的学习,这限制了它们纠错或复杂规划的能力。评估机器人控制策略(或称“策略”)的有效性也提出了一个重大挑战;物理模拟器需要大量的微调,而现实世界测试的资源消耗 prohibitive。当前的评估指标往往优先考虑视觉保真度而非实际任务成功,这突显了真正反映现实世界操作性能的基准的缺失。
为解决这些普遍存在的挑战,AgiBot Genie团队、NUS LV-Lab和BUAA的研究人员开发了Genie Envisioner(GE)。这个创新平台在一个为机器人操作量身定制的强大视频生成框架内,统一了策略学习、模拟和评估。其核心是GE-Base,一个大规模、指令驱动的视频扩散模型,经过精心训练,以捕捉现实世界机器人任务复杂的空间、时间和语义动态。在此基础上,GE-Act将这些学习到的表示转化为精确的动作轨迹,而GE-Sim则提供了一个速度极快、动作条件化的基于视频的模拟环境。为了严格评估性能,随附的EWMBench基准评估了视觉真实性、物理准确性以及指令与结果动作之间的一致性。GE经过超过一百万次机器人交互的训练,在不同机器人和任务中展现出令人印象深刻的泛化能力,为可扩展、内存感知和物理基础的具身智能研究铺平了道路。
Genie Envisioner的架构优雅地分为三个核心组件。GE-Base作为基础元素,是一个多视图、指令条件化的视频扩散模型,已处理超过一百万个机器人操作事件。通过这种广泛的训练,它学习了精确描述场景在特定命令下如何演变的抽象“潜在轨迹”。利用这些学习到的表示,GE-Act随后使用轻量级的流匹配解码器将这些潜在视频洞察转化为具体的动作信号。这使得快速精确的电机控制成为可能,甚至对于初始训练数据中未包含的机器人类型也能实现。此外,GE-Sim巧妙地重新利用了GE-Base的生成能力来创建了一个动作条件化的神经模拟器。这使得快速、闭环、基于视频的模拟推演成为可能,其执行速度远超现实世界硬件。然后,整个系统通过EWMBench套件进行测试,该套件提供了对视频真实性、物理一致性以及人类指令与机器人结果动作之间关键一致性的全面评估。
全面的评估展示了Genie Envisioner在现实世界和模拟环境中对各种机器人操作任务的强大性能。GE-Act表现出卓越的速度,在短短200毫秒内生成54步的动作轨迹,并在分步和端到端成功率方面始终优于领先的视觉-语言-动作基线。其适应性尤其引人注目,它仅用一小时的任务特定数据就成功地与Agilex Cobot Magic和Dual Franka等新型机器人集成,证明在涉及可变形物体的复杂任务中尤其得心应手。同时,GE-Sim提供了高保真、动作条件化的视频模拟,为可扩展的闭环策略测试提供了宝贵工具。EWMBench基准进一步验证了GE-Base优于最先进的视频模型,证实了其卓越的时间对齐、运动一致性和场景稳定性,所有这些都与人类质量判断高度一致。
总而言之,Genie Envisioner是一个强大、统一且可扩展的机器人操作平台,将策略学习、模拟和评估无缝集成到单个视频生成框架中。其核心GE-Base,一个指令引导的视频扩散模型,巧妙地捕捉了现实世界机器人交互中复杂的空间、时间与语义模式。GE-Act将这些洞察转化为精确、适应性强的动作计划,即使对于新机器人类型也只需极少的再训练。结合GE-Sim用于快速策略改进的高保真、动作条件化模拟以及EWMBench的严格评估,Genie Envisioner标志着一次重大飞跃。广泛的现实世界测试强调了该系统卓越的性能,为其成为开发通用、指令驱动的具身智能的坚实基础奠定了基础。