DeepMind发布Genie 3:交互式世界模型,迈向通用人工智能新里程碑

Techcrunch

谷歌DeepMind公布了Genie 3,其最新的基础世界模型。该AI实验室认为,这是实现通用人工智能(AGI)或类人智能的关键进展。此模型旨在模拟环境中训练通用AI代理。

DeepMind研究总监什洛米·弗鲁赫特(Shlomi Fruchter)在最近的一次新闻发布会上表示:“Genie 3是第一个实时交互式通用世界模型。”他强调,它与之前狭窄的世界模型不同,能够生成从照片级真实到纯粹虚构的各种环境。

Genie 3目前处于研究预览阶段,尚未公开可用。它建立在其前身的基础上,包括可以为代理生成新环境的Genie 2,以及DeepMind最新且以对物理学有深刻理解而闻名的视频生成模型Veo 3。

Genie 3在能力上实现了显著飞跃,能够从简单的文本提示生成长达数分钟的交互式720p分辨率、每秒24帧的3D环境。这比Genie 2的10到20秒输出有了大幅提升。该模型还引入了“可提示的世界事件”,允许用户通过文本命令修改生成的环境。

至关重要的是,Genie 3的模拟在时间上保持物理一致性。DeepMind强调,这种模型“记住”其先前生成内容的能力并非明确编程,而是从其设计中自然涌现的。

弗鲁赫特表示,虽然Genie 3在教育、游戏或创意原型设计等应用中前景广阔,但其主要影响将在于训练通用任务代理,他认为这是实现AGI的必要一步。DeepMind开放式团队的研究科学家杰克·帕克-霍尔德(Jack Parker-Holder)也表达了同样的看法:“我们认为世界模型是通往AGI的关键,特别是对于具身代理,模拟现实世界场景尤其具有挑战性。”

Genie 3通过不依赖硬编码物理引擎来应对这一挑战。相反,DeepMind解释说,该模型通过记住其生成的序列并在更长的时间范围内进行推理,自行学习世界如何运作——物体如何移动、坠落和交互。弗鲁赫特详细阐述道:“该模型是自回归的,意味着它一次生成一帧。它必须回顾之前生成的内容,才能决定接下来会发生什么。这是其架构的关键部分。”这种固有的记忆能力使Genie 3能够发展出对物理的直观理解,类似于人类对现实世界动态的理解。

DeepMind还相信Genie 3可以推动AI代理从自身经验中学习,模仿人类学习方式。作为演示,DeepMind用其最新版本的可扩展指令多世界代理(SIMA)测试了Genie 3。在一个模拟仓库中,SIMA的任务是实现“靠近亮绿色垃圾压实机”或“走到停放的红色叉车”等目标。据帕克-霍尔德称,SIMA代理通过接收代理的动作、观察模拟世界并在其中采取行动,成功实现了这些目标,Genie 3在此过程中始终保持了环境的一致性。

尽管取得了进步,Genie 3仍有局限性。虽然研究人员声称其对物理学有理解,但例如滑雪者的演示未能准确描绘雪的运动。代理可以采取的行动范围仍然有限,尽管可提示的世界事件提供了环境干预,但这些不一定由代理本身执行。在共享环境中建模多个独立代理之间的复杂交互也证明具有挑战性。此外,Genie 3目前仅支持几分钟的连续交互,而全面的代理训练则需要数小时。

尽管如此,Genie 3代表着向前迈出了引人注目的一步。它旨在使代理超越简单的反应,培养规划、探索、寻求不确定性和通过试错改进等能力。这种自我驱动的具身学习被广泛认为是向通用智能迈进的关键。帕克-霍尔德总结道:“我们尚未真正迎来具身代理的‘Move 37’时刻,即它们真正在现实世界中采取新颖行动的时刻。”他指的是2016年围棋比赛中的关键时刻,DeepMind的AlphaGo走出了一步非传统但精彩的棋步,象征着AI新颖策略的能力。“但现在,我们有可能迎来一个新时代。”他补充道。

DeepMind发布Genie 3:交互式世界模型,迈向通用人工智能新里程碑 - OmegaNext AI 新闻