DeepMind发布Genie 3：交互式世界模型，迈向通用人工智能新里程碑

谷歌DeepMind公布了Genie 3，其最新的基础世界模型。该AI实验室认为，这是实现通用人工智能（AGI）或类人智能的关键进展。此模型旨在模拟环境中训练通用AI代理。

DeepMind研究总监什洛米·弗鲁赫特（Shlomi Fruchter）在最近的一次新闻发布会上表示：“Genie 3是第一个实时交互式通用世界模型。”他强调，它与之前狭窄的世界模型不同，能够生成从照片级真实到纯粹虚构的各种环境。

Genie 3目前处于研究预览阶段，尚未公开可用。它建立在其前身的基础上，包括可以为代理生成新环境的Genie 2，以及DeepMind最新且以对物理学有深刻理解而闻名的视频生成模型Veo 3。

Genie 3在能力上实现了显著飞跃，能够从简单的文本提示生成长达数分钟的交互式720p分辨率、每秒24帧的3D环境。这比Genie 2的10到20秒输出有了大幅提升。该模型还引入了“可提示的世界事件”，允许用户通过文本命令修改生成的环境。

至关重要的是，Genie 3的模拟在时间上保持物理一致性。DeepMind强调，这种模型“记住”其先前生成内容的能力并非明确编程，而是从其设计中自然涌现的。

弗鲁赫特表示，虽然Genie 3在教育、游戏或创意原型设计等应用中前景广阔，但其主要影响将在于训练通用任务代理，他认为这是实现AGI的必要一步。DeepMind开放式团队的研究科学家杰克·帕克-霍尔德（Jack Parker-Holder）也表达了同样的看法：“我们认为世界模型是通往AGI的关键，特别是对于具身代理，模拟现实世界场景尤其具有挑战性。”

Genie 3通过不依赖硬编码物理引擎来应对这一挑战。相反，DeepMind解释说，该模型通过记住其生成的序列并在更长的时间范围内进行推理，自行学习世界如何运作——物体如何移动、坠落和交互。弗鲁赫特详细阐述道：“该模型是自回归的，意味着它一次生成一帧。它必须回顾之前生成的内容，才能决定接下来会发生什么。这是其架构的关键部分。”这种固有的记忆能力使Genie 3能够发展出对物理的直观理解，类似于人类对现实世界动态的理解。

DeepMind还相信Genie 3可以推动AI代理从自身经验中学习，模仿人类学习方式。作为演示，DeepMind用其最新版本的可扩展指令多世界代理（SIMA）测试了Genie 3。在一个模拟仓库中，SIMA的任务是实现“靠近亮绿色垃圾压实机”或“走到停放的红色叉车”等目标。据帕克-霍尔德称，SIMA代理通过接收代理的动作、观察模拟世界并在其中采取行动，成功实现了这些目标，Genie 3在此过程中始终保持了环境的一致性。

尽管取得了进步，Genie 3仍有局限性。虽然研究人员声称其对物理学有理解，但例如滑雪者的演示未能准确描绘雪的运动。代理可以采取的行动范围仍然有限，尽管可提示的世界事件提供了环境干预，但这些不一定由代理本身执行。在共享环境中建模多个独立代理之间的复杂交互也证明具有挑战性。此外，Genie 3目前仅支持几分钟的连续交互，而全面的代理训练则需要数小时。

尽管如此，Genie 3代表着向前迈出了引人注目的一步。它旨在使代理超越简单的反应，培养规划、探索、寻求不确定性和通过试错改进等能力。这种自我驱动的具身学习被广泛认为是向通用智能迈进的关键。帕克-霍尔德总结道：“我们尚未真正迎来具身代理的‘Move 37’时刻，即它们真正在现实世界中采取新颖行动的时刻。”他指的是2016年围棋比赛中的关键时刻，DeepMind的AlphaGo走出了一步非传统但精彩的棋步，象征着AI新颖策略的能力。“但现在，我们有可能迎来一个新时代。”他补充道。

DeepMind发布Genie 3：交互式世界模型，迈向通用人工智能新里程碑

相关文章

使用 Google Gemini 与 SAGE 框架构建自适应 AI 代理

DeepMind发布Genie 3：AI“世界模型”突破，实时生成高一致性互动3D世界

谷歌DeepMind发布Genie 3：AI机器人虚拟训练新纪元