深度突破：DeepMind发布Genie 3，迈向实时互动AGI世界模型

Google DeepMind 发布了划时代的通用世界模型 Genie 3，它能够生成前所未有的多样化互动环境。Genie 3 由 Jack Parker-Holder 和 Shlomi Fruchter 于 2025 年 8 月 5 日发布，允许用户通过简单的文本提示，以每秒 24 帧的速度实时导航动态虚拟世界，并在 720p 分辨率下保持数分钟的视觉一致性。

十多年来，Google DeepMind 一直走在模拟环境研究的前沿，从实时战略游戏中训练 AI 智能体，到为开放式学习和机器人技术开发复杂场景。这项基础工作促成了世界模型的开发——这些 AI 系统利用它们对世界的理解来模拟其各个方面。此类模型使 AI 智能体能够预测环境演变及其自身行为的影响，通过在无限丰富的模拟环境中训练智能体，成为通向通用人工智能（AGI）的关键垫脚石。Genie 3 在去年推出的 Genie 1 和 Genie 2 的基础上，以及 Veo 2 和 Veo 3 在视频生成方面的进步，实现了重大飞跃，特别是作为 DeepMind 首个提供实时交互，同时增强一致性和真实感的世界模型。

Genie 3 展示了世界生成方面的广泛能力。它能够模拟世界的物理特性，如水和光照等自然现象，以及火山地形导航或经历飓风条件等复杂的环境交互。该模型还擅长模拟自然世界，创建充满动物行为和详细植物生命的生动生态系统，从冰川湖泊和茂密森林到生物发光深海环境，以及精心设计的日式禅意花园。除了真实感，Genie 3 还能发挥想象力，生成奇幻场景和富有表现力的动画角色，包括彩虹桥上的异想天开的生物或折纸风格的蜥蜴。此外，它还允许探索多样化的地点和历史背景，将用户带到古老的克诺索斯宫殿或威尼斯的运河。

实现这种实时交互和环境一致性需要重大的技术突破。Genie 3 必须考虑先前生成帧的增长轨迹，引用数分钟前的信息以保持连贯性，即使在重新访问某个位置时也是如此。这种复杂的计算每秒发生多次，以响应用户输入。虽然自回归生成环境通常会导致累积误差，但 Genie 3 在很大程度上保持了数分钟的一致性，其视觉记忆可追溯到一分钟前。与依赖 NeRFs 或 Gaussian Splatting 等显式 3D 表示的方法不同，Genie 3 的世界是根据世界描述和用户操作逐帧动态创建的，从而实现了更大的动态性和丰富性。

除了导航控制，Genie 3 还引入了“可提示世界事件”，这是一种富有表现力的文本交互形式。此功能使用户能够动态改变生成的环境，例如，通过改变天气条件或引入新对象和角色。这种能力还扩展了反事实或“如果……会怎样”场景的范围，对于通过经验学习处理意外情况的智能体而言，这被证明是无价的。

Genie 3 已被用于推动具身智能体研究。DeepMind 已利用它为其 SIMA 智能体的最新版本生成世界，SIMA 是一种专为 3D 虚拟环境设计的通用智能体。在这些模拟环境中，SIMA 通过向 Genie 3 发送导航动作来追求不同的目标，而 Genie 3 在不知道智能体具体目标的情况下，根据智能体的动作模拟未来。Genie 3 在更长时间范围内保持一致性的能力，使得执行更复杂的动作序列和实现更精细的目标成为可能，这是 AI 智能体有望在世界中扮演更重要角色以及 DeepMind 推动 AGI 发展过程中的一项关键进展。

尽管 Genie 3 具备先进的能力，但它也承认存在局限性。这些局限性包括当前智能体的动作空间受限，在准确建模多个独立智能体之间的复杂交互方面面临持续挑战，以及无法以完美的地理精度模拟真实世界位置。此外，清晰可辨的文本通常只有在输入描述中明确提供时才能生成，并且连续交互目前仅限于几分钟而非数小时。

DeepMind 强调其对负责任开发的承诺，特别是考虑到 Genie 3 的开放性和实时性。该公司已与其负责任开发与创新团队密切合作，以解决潜在的安全和责任风险。Genie 3 正作为有限研究预览版发布，向选定的学者和创作者提供早期访问。这种方法旨在收集关键反馈和跨学科视角，以更好地理解风险并制定适当的缓解措施。DeepMind 打算继续与社区合作，确保该技术得到负责任的开发。

展望未来，Genie 3 被视为世界模型的一个重要里程碑，有望广泛影响 AI 研究和生成式媒体。DeepMind 正在探索未来向更多测试人员提供更广泛的可用性，设想其在教育和培训领域的应用，帮助学生学习和专家获取经验。除了训练自主系统和机器人，Genie 3 还可以促进智能体性能的评估和其弱点的探索，同时始终优先考虑安全和负责任的开发，以造福人类。

深度突破：DeepMind发布Genie 3，迈向实时互动AGI世界模型

相关文章

DeepMind的Genie 3：迈向AGI的实时世界模型基石

苹果打造聊天机器人，欲在搜索领域挑战谷歌霸主地位

微软通过AI Foundry将OpenAI的gpt-oss-20b引入Windows 11