DeepMind Genie 3：实时交互式AI世界模型揭秘

DeepMind，谷歌旗下的人工智能研究部门，揭示了Genie 3，一个全新的“世界模型”，能够从简单的提示或图像生成实时、交互式的模拟。此次发布距离其前身Genie 2的推出仅七个月，凸显了基础AI模型发展的迅猛速度。

Genie 3允许用户创建持续生成、动态变化的环境，并能即时修改。DeepMind将这些修改称为“可提示事件”，使用户能够在模拟世界中添加或改变物体、调整天气条件或引入新角色。尽管这项能力在游戏行业具有潜力，为动态游戏玩法开辟了新途径，并帮助开发者验证概念或关卡设计，但一些行业专家对其工具的即时实用性表达了怀疑。

除了在游戏创作方面的明显应用，DeepMind强调Genie 3作为一项关键研究工具的作用。游戏因其挑战性、交互性以及可衡量的进展，长期以来一直是AI开发的重要环境，DeepMind此前利用围棋和星际争霸等游戏推动AI能力发展已证明了这一点。世界模型通过逐帧生成交互式环境，提升了这种方法。它们为在模拟真实世界场景中改进AI模型（包括“具身智能体”）的行为提供了独特机会。在追求通用人工智能（AGI）的过程中，一个重大挑战是缺乏多样化且可靠的训练数据。随着研究人员越来越多地转向合成数据，DeepMind相信Genie 3这样的世界模型将发挥重要作用，为AI智能体提供几乎无限的交互式世界进行训练。

Genie 3代表着从Genie 2的显著飞跃，尤其是在视觉保真度和实时性能方面。用户可以使用键盘输入在这些模拟世界中导航，以720p分辨率和每秒24帧的速度体验它们。一个关键改进是Genie 3增强的记忆力。虽然Genie 2在约10秒后视觉一致性会下降——类似于聊天机器人失去上下文——Genie 3能够持续保持视觉元素的一致性长达数分钟，显著扩展了其模拟范围。

尽管取得了这些进步，Genie 3并非没有局限性。DeepMind承认，虽然多分钟的一致性是一个重要进步，但理想的世界模型应该能保持数小时的一致性。该模型目前也无法模拟现实世界的地点，只能生成独特且非确定性的环境。因此，它容易受到典型的AI“幻觉”影响，偶尔会产生不正确的视觉元素。例如，人类运动的细微之处有时可能会被扭曲，导致人物行走不自然，而且这些AI生成世界中的文本除非在提示中明确指定，否则通常会显得混乱。

此外，AI智能体与这些世界模型的整合仍然有限。虽然可以创建具有真实条件的环境，但智能体目前缺乏修改模拟（超出简单移动）所需的高级推理能力。DeepMind仍在探索多个AI智能体在共享环境中互动的方法。

Genie 3的计算需求巨大，因为它能高速有效地渲染长时间的交互式视频。尽管DeepMind尚未披露具体的功耗细节，但该模型目前受限的访问权限凸显了其高强度处理要求。Genie 3被定位为研究工具，初步访问权限已授予一小部分专家和研究人员，以协助其完善。然而，DeepMind已表示计划最终将Genie世界模型的访问权限扩大到更广泛的受众。

DeepMind Genie 3：实时交互式AI世界模型揭秘

相关文章

Anthropic Claude Opus 4.1 编程能力飞跃，剑指 GPT-5

DeepMind的Genie 3：迈向AGI的实时世界模型基石

深度突破：DeepMind发布Genie 3，迈向实时互动AGI世界模型