DeepMind的Genie 3:迈向AGI的实时世界模型基石

Techcrunch

Google DeepMind 发布了其最新的“基础世界模型”Genie 3,该人工智能实验室认为这是实现通用人工智能(AGI),即人类水平智能的重大进展。

DeepMind 研究总监 Shlomi Fruchter 在新闻发布会上表示,Genie 3 是“首个实时交互式通用世界模型”。他强调,该模型摆脱了以往更专业化的模型,能够生成从照片级真实到完全虚构的各种环境。

Genie 3 目前处于研究预览阶段,尚未公开访问,它整合了前代模型的各项功能。它以 Genie 2 为基础,Genie 2 能够为 AI 智能体生成新颖环境;同时它也借鉴了 DeepMind 先进的视频生成模型 Veo 3,后者以其对物理学的深刻理解而闻名。

Genie 3 仅需一个简单的文本提示,即可创建可交互的 3D 环境,并运行数分钟——这比 Genie 2 只能实现 10 到 20 秒的模拟有了显著飞跃。这些模拟以 720p 分辨率和每秒 24 帧的速度渲染。一个显著的特点是“可提示世界事件”,允许用户通过文本命令动态改变生成的环境。

至关重要的是,Genie 3 的模拟能够长时间保持物理一致性。这归因于模型“记住”之前生成内容的新兴能力,而 DeepMind 研究人员并未明确编程此功能。这种自学式的物理理解是其设计的核心;与依赖硬编码物理引擎的系统不同,Genie 3 通过观察自身生成的序列并跨越更长的时间范围进行推理,从而学习物体如何移动、坠落和交互。Fruchter 解释说,该模型是“自回归的”,每次生成一帧,并参考先前的帧来预测后续事件,这是其架构的基本方面。这种记忆力促进了它发展出对物理定律的直观理解,类似于人类的理解。

尽管 Genie 3 在教育、游戏和创意原型设计方面前景广阔,但其主要意义在于训练 AI 智能体执行通用任务——这是实现 AGI 的关键组成部分。DeepMind 开放性团队的研究科学家 Jack Parker-Holder 强调,世界模型对于具身智能体至关重要,因为模拟复杂的现实世界场景带来了相当大的挑战。

生成连贯且物理上合理环境的能力使 Genie 3 成为理想的训练场。它能为智能体提供无限多样的世界供其探索,推动它们通过经验进行适应、挣扎和学习,这与人类的学习过程如出一辙。这使得智能体能够超越简单的输入-反应行为,培养规划、探索和试错学习等能力——这些对于自主驱动的具身智能至关重要。

尽管取得了这些进展,Genie 3 仍面临局限性。智能体在这些模拟世界中可以执行的动作范围仍然有限,虽然“可提示世界事件”允许环境干预,但这些不一定由智能体本身发起。在共享环境中准确模拟多个独立智能体之间的复杂交互也带来了挑战。此外,当前系统仅支持几分钟的连续交互,而全面的智能体训练则需要数小时。

然而,Genie 3 代表着一个引人注目的进步。Parker-Holder 将其比作 2016 年围棋比赛中 DeepMind 的 AlphaGo 走出非传统但精彩的“第 37 手”时刻,这象征着 AI 产生新颖策略的能力。他认为 Genie 3 同样可以为具身 AI 开创一个新时代,使智能体能够在模拟世界中采取真正新颖的行动。