深度突破:DeepMind发布Genie 3,迈向实时互动AGI世界模型
Google DeepMind 发布了划时代的通用世界模型 Genie 3,它能够生成前所未有的多样化互动环境。Genie 3 由 Jack Parker-Holder 和 Shlomi Fruchter 于 2025 年 8 月 5 日发布,允许用户通过简单的文本提示,以每秒 24 帧的速度实时导航动态虚拟世界,并在 720p 分辨率下保持数分钟的视觉一致性。
十多年来,Google DeepMind 一直走在模拟环境研究的前沿,从实时战略游戏中训练 AI 智能体,到为开放式学习和机器人技术开发复杂场景。这项基础工作促成了世界模型的开发——这些 AI 系统利用它们对世界的理解来模拟其各个方面。此类模型使 AI 智能体能够预测环境演变及其自身行为的影响,通过在无限丰富的模拟环境中训练智能体,成为通向通用人工智能(AGI)的关键垫脚石。Genie 3 在去年推出的 Genie 1 和 Genie 2 的基础上,以及 Veo 2 和 Veo 3 在视频生成方面的进步,实现了重大飞跃,特别是作为 DeepMind 首个提供实时交互,同时增强一致性和真实感的世界模型。
Genie 3 展示了世界生成方面的广泛能力。它能够模拟世界的物理特性,如水和光照等自然现象,以及火山地形导航或经历飓风条件等复杂的环境交互。该模型还擅长模拟自然世界,创建充满动物行为和详细植物生命的生动生态系统,从冰川湖泊和茂密森林到生物发光深海环境,以及精心设计的日式禅意花园。除了真实感,Genie 3 还能发挥想象力,生成奇幻场景和富有表现力的动画角色,包括彩虹桥上的异想天开的生物或折纸风格的蜥蜴。此外,它还允许探索多样化的地点和历史背景,将用户带到古老的克诺索斯宫殿或威尼斯的运河。
实现这种实时交互和环境一致性需要重大的技术突破。Genie 3 必须考虑先前生成帧的增长轨迹,引用数分钟前的信息以保持连贯性,即使在重新访问某个位置时也是如此。这种复杂的计算每秒发生多次,以响应用户输入。虽然自回归生成环境通常会导致累积误差,但 Genie 3 在很大程度上保持了数分钟的一致性,其视觉记忆可追溯到一分钟前。与依赖 NeRFs 或 Gaussian Splatting 等显式 3D 表示的方法不同,Genie 3 的世界是根据世界描述和用户操作逐帧动态创建的,从而实现了更大的动态性和丰富性。
除了导航控制,Genie 3 还引入了“可提示世界事件”,这是一种富有表现力的文本交互形式。此功能使用户能够动态改变生成的环境,例如,通过改变天气条件或引入新对象和角色。这种能力还扩展了反事实或“如果……会怎样”场景的范围,对于通过经验学习处理意外情况的智能体而言,这被证明是无价的。
Genie 3 已被用于推动具身智能体研究。DeepMind 已利用它为其 SIMA 智能体的最新版本生成世界,SIMA 是一种专为 3D 虚拟环境设计的通用智能体。在这些模拟环境中,SIMA 通过向 Genie 3 发送导航动作来追求不同的目标,而 Genie 3 在不知道智能体具体目标的情况下,根据智能体的动作模拟未来。Genie 3 在更长时间范围内保持一致性的能力,使得执行更复杂的动作序列和实现更精细的目标成为可能,这是 AI 智能体有望在世界中扮演更重要角色以及 DeepMind 推动 AGI 发展过程中的一项关键进展。
尽管 Genie 3 具备先进的能力,但它也承认存在局限性。这些局限性包括当前智能体的动作空间受限,在准确建模多个独立智能体之间的复杂交互方面面临持续挑战,以及无法以完美的地理精度模拟真实世界位置。此外,清晰可辨的文本通常只有在输入描述中明确提供时才能生成,并且连续交互目前仅限于几分钟而非数小时。
DeepMind 强调其对负责任开发的承诺,特别是考虑到 Genie 3 的开放性和实时性。该公司已与其负责任开发与创新团队密切合作,以解决潜在的安全和责任风险。Genie 3 正作为有限研究预览版发布,向选定的学者和创作者提供早期访问。这种方法旨在收集关键反馈和跨学科视角,以更好地理解风险并制定适当的缓解措施。DeepMind 打算继续与社区合作,确保该技术得到负责任的开发。
展望未来,Genie 3 被视为世界模型的一个重要里程碑,有望广泛影响 AI 研究和生成式媒体。DeepMind 正在探索未来向更多测试人员提供更广泛的可用性,设想其在教育和培训领域的应用,帮助学生学习和专家获取经验。除了训练自主系统和机器人,Genie 3 还可以促进智能体性能的评估和其弱点的探索,同时始终优先考虑安全和负责任的开发,以造福人类。