DeepMind 推出 Genie 3:文本生成 3D 互动世界模型

Infoq

DeepMind 近日发布了 Genie 3,这是其创新框架的最新迭代,旨在直接从文本提示生成交互式 3D 环境。这个先进的系统能够以约每秒 24 帧、720p 分辨率实时渲染场景,让用户可以在这些数字世界中持续导航和交互数分钟,而无需重置场景。相较于早期版本,一个显著的增强是其复杂的“对象永存性”:对环境的任何修改,例如移动、移除或改变物体,都会随着时间持续存在。此外,该模型通过学习到的世界动力学来维持一致的物理特性,而非依赖于单独的记忆模块。

Genie 3 无缝整合了内容创作系统和模拟平台的功能。它能够从自然语言描述中生成独特的环境,并同时作为自主代理的测试平台。其卓越的灵活性使其能够创造出各种各样的设置,从室内工业布局到广阔的室外自然地形,或复杂的障碍训练场,所有这些都纯粹通过文本生成。这一能力使得 Genie 3 特别适合用于快速原型化训练场景,尤其是在机器人技术和具身 AI 领域,因为这些领域对可泛化技能的开发需要多样化和动态的虚拟世界。

这种程序生成能力使 Genie 3 在其他著名的生成式 AI 系统中脱颖而出。例如,OpenAI 的 Sora 擅长从文本描述生成高度逼真的视频,但仅限于固定长度的片段,并且缺乏对实时交互的支持。Meta 的 Habitat 主要专注于具身 AI 研究,为代理提供高保真 3D 空间以执行导航和操作任务;然而,Habitat 需要预定义的场景和资产,而不是从提示中程序化生成。类似地,NVIDIA 的 Isaac Sim 提供了先进的机器人模拟,具有详细的传感器建模和物理特性,但也依赖于手动构建或导入的环境。即使是基于 Minecraft 机制构建的 MineDojo,也允许 AI 代理在程序生成的世界中运行,但其基于块的视觉效果和固有的游戏机制限制了其真实性和物理精度。

虽然像虚幻引擎(Unreal Engine)或 Unity 这样的传统模拟引擎提供了创建自定义环境的广泛工具,但它们通常需要大量的资产库和细致的手动场景组装。Genie 3 通过按需生成环境来绕过这一限制,提供了一种更简化的方法。然而,当前的局限性包括运行时长以及与在专用游戏引擎中精心制作的环境相比,Genie 3 所能生成环境的整体复杂性。

在线社区的早期反应突显了这项技术的未来主义吸引力。Reddit 的 r/singularity 上的用户表达了敬畏之情,一位评论者说,看到 Genie 3 会让人感觉像是“纯粹的科幻”,类似于“《星际迷航》里的东西”。另一位用户设想了它的即时潜力,称:“现在把它连接到 VR,这基本上就是元宇宙。”这些情感凸显了 Genie 3 在交互式数字体验领域可能释放的深远影响和无限想象力。