DeepMind Genie 3:实时交互式AI世界模型揭秘
DeepMind,谷歌旗下的人工智能研究部门,揭示了Genie 3,一个全新的“世界模型”,能够从简单的提示或图像生成实时、交互式的模拟。此次发布距离其前身Genie 2的推出仅七个月,凸显了基础AI模型发展的迅猛速度。
Genie 3允许用户创建持续生成、动态变化的环境,并能即时修改。DeepMind将这些修改称为“可提示事件”,使用户能够在模拟世界中添加或改变物体、调整天气条件或引入新角色。尽管这项能力在游戏行业具有潜力,为动态游戏玩法开辟了新途径,并帮助开发者验证概念或关卡设计,但一些行业专家对其工具的即时实用性表达了怀疑。
除了在游戏创作方面的明显应用,DeepMind强调Genie 3作为一项关键研究工具的作用。游戏因其挑战性、交互性以及可衡量的进展,长期以来一直是AI开发的重要环境,DeepMind此前利用围棋和星际争霸等游戏推动AI能力发展已证明了这一点。世界模型通过逐帧生成交互式环境,提升了这种方法。它们为在模拟真实世界场景中改进AI模型(包括“具身智能体”)的行为提供了独特机会。在追求通用人工智能(AGI)的过程中,一个重大挑战是缺乏多样化且可靠的训练数据。随着研究人员越来越多地转向合成数据,DeepMind相信Genie 3这样的世界模型将发挥重要作用,为AI智能体提供几乎无限的交互式世界进行训练。
Genie 3代表着从Genie 2的显著飞跃,尤其是在视觉保真度和实时性能方面。用户可以使用键盘输入在这些模拟世界中导航,以720p分辨率和每秒24帧的速度体验它们。一个关键改进是Genie 3增强的记忆力。虽然Genie 2在约10秒后视觉一致性会下降——类似于聊天机器人失去上下文——Genie 3能够持续保持视觉元素的一致性长达数分钟,显著扩展了其模拟范围。
尽管取得了这些进步,Genie 3并非没有局限性。DeepMind承认,虽然多分钟的一致性是一个重要进步,但理想的世界模型应该能保持数小时的一致性。该模型目前也无法模拟现实世界的地点,只能生成独特且非确定性的环境。因此,它容易受到典型的AI“幻觉”影响,偶尔会产生不正确的视觉元素。例如,人类运动的细微之处有时可能会被扭曲,导致人物行走不自然,而且这些AI生成世界中的文本除非在提示中明确指定,否则通常会显得混乱。
此外,AI智能体与这些世界模型的整合仍然有限。虽然可以创建具有真实条件的环境,但智能体目前缺乏修改模拟(超出简单移动)所需的高级推理能力。DeepMind仍在探索多个AI智能体在共享环境中互动的方法。
Genie 3的计算需求巨大,因为它能高速有效地渲染长时间的交互式视频。尽管DeepMind尚未披露具体的功耗细节,但该模型目前受限的访问权限凸显了其高强度处理要求。Genie 3被定位为研究工具,初步访问权限已授予一小部分专家和研究人员,以协助其完善。然而,DeepMind已表示计划最终将Genie世界模型的访问权限扩大到更广泛的受众。