DeepMind发布Genie 3:AI“世界模型”突破,实时生成高一致性互动3D世界

Decoder

谷歌DeepMind发布了Genie 3,这是一种旨在实时生成交互式3D环境的新型“世界模型”。这个先进的系统旨在模拟复杂场景和训练自主AI智能体,标志着AI研究迈出了重要一步。

Genie 3能从简单的文本提示中创建动态虚拟世界,允许用户以每秒24帧、720p的分辨率探索这些环境。与传统的视频生成模型不同,Genie 3是按顺序构建每一帧的,它会考虑长达一分钟的先前环境细节。这种独特的自回归方法对于保持视觉和物理连贯性至关重要,使得生成的虚拟世界能够保持“数分钟”的一致性——这是相对于早期模型的显著技术进步。DeepMind强调,Genie 3是第一个将实时交互性与这种高水平的长期物理一致性相结合的模型,这使其成为开发更通用AI系统(AGI)的基础技术。这一最新版本建立在DeepMind之前的工作基础之上,包括Genie 1、Genie 2以及Veo 2和Veo 3视频生成器。

该模型展示了广泛的创造能力,从生成带有熔岩、风、雨等动态天气效果的逼真景观,到创造包含传送门、飞行岛屿或动画生物的奇幻场景,无所不能。它甚至可以重建威尼斯或古克诺索斯等历史地点。用户可以通过输入文本命令(即“可提示的世界事件”)与这些世界进行交互,以触发天气模式变化或生成新对象等。这种交互超越了简单的导航,允许用户创建“假设”场景,并测试AI智能体如何应对意外事件。

Genie 3的一个关键应用是训练自主AI智能体。与NeRF或高斯溅射等依赖预先存在的3D数据的方法不同,Genie 3直接从文本描述和用户交互中生成环境,其一致性自然地从模拟本身中浮现出来。这使得AI智能体能够在更开放和动态的场景中进行训练,而无需预先编程所有物理规则。DeepMind已经利用Genie 3来测试其内部的SIMA智能体,该智能体可以在这些生成的虚拟世界中自主完成任务。在这种设置下,模拟只响应智能体的动作而非其预设目标,从而在受控环境中促进复杂的任务序列,并为研究人员评估AI性能和识别弱点提供了新方法。

Genie 3目前作为有限的研究预览版,仅供选定的研究人员和创意人士使用。DeepMind表示,这种方法有助于及早发现潜在风险并指导进一步的开发。该公司设想未来将其应用于教育、模拟和专家培训,特别是帮助个人为复杂现实世界情境中的决策做好准备。然而,该模型确实存在技术限制:智能体动作目前受到限制,交互通常只持续几分钟,并且多智能体模拟尚未持续可靠。此外,现实世界的位置没有进行地理参考,只有在明确包含在提示中时才会出现可读文本。

Genie 3与DeepMind开发“基础世界模型”以驱动更高级、更具智能体特性的AI系统的更广泛目标相符。DeepMind断言,像Genie 3这样的世界模型是“通往AGI道路上的关键垫脚石”,因为它们能够让AI智能体在“无限的丰富模拟环境课程”中进行训练。DeepMind首席执行官Demis Hassabis也呼应了这一观点,他此前曾将此类模型描述为构建通用人工智能的关键,它们能够日益捕捉世界的底层物理结构。此外,DeepMind研究员Richard Sutton和David Silver最近的一篇论文主张AI研究应发生根本性转变,从基于静态人类数据训练的系统转向在模拟世界中从自身经验学习的智能体——Genie 3等模型正是为支持这一愿景而设计的。

像Genie 3这样的世界模型的出现也引发了关于它们对未来游戏开发潜在影响的讨论。DeepMind的一些演示与早期版本的视频游戏有相似之处,尽管缺乏商业游戏的复杂性。英伟达AI总监Jim Fan将Genie 3视为他所称的“游戏引擎2.0”的先驱。Fan认为,当前游戏引擎(如虚幻引擎)的复杂功能有朝一日可能会被“数据驱动的注意力权重团”所封装。在这种未来,这些权重将根据游戏控制器命令直接动画化“像素的时空块”,从而无需显式的3D资产、场景图或复杂的着色器编程。Fan预测,游戏开发将演变为一种复杂的提示工程形式,与智能体工作流融合,就像大型语言模型最近的趋势一样。

DeepMind发布Genie 3:AI“世界模型”突破,实时生成高一致性互动3D世界 - OmegaNext AI 新闻