DeepMind的Genie 3:AGI突破性AI世界模型,开启无限虚拟世界
谷歌DeepMind发布了Genie 3,这是一款开创性的实时、逼真的“世界模型”,能够直接根据文本提示生成交互式环境。这远不止是一个简单的AI视频生成工具;Genie 3能以每秒24帧的流畅速度渲染复杂的虚拟世界,并能连续数分钟保持视觉和物理上的一致性,同时即时响应导航和基于文本的命令。用户可以无缝探索各种景观——从火山荒地到古雅典,再到茂密的雨林——并见证环境随着他们的探索动态演变。尽管目前仅作为有限的研究预览发布,但DeepMind将Genie 3视为向实现通用人工智能(AGI)迈出的重要一步。
世界模型的核心是一个AI系统,它利用对世界的理解来模拟其各个方面,不仅能预测环境将如何变化,还能预测特定行动将如何改变环境。这种能力具有变革性,为AI智能体提供了几乎无限的训练场。这些智能体无需在可能耗费成本或存在危险的现实世界条件下学习,而可以在无数种逼真的模拟中掌握复杂的任务。Genie 3的先进能力超越了令人印象深刻的视觉效果;它提供了“长时程一致性”,这意味着它能在一分钟内保留对先前访问区域的记忆,确保即使重新访问,景观和物体也能保持一致。此外,用户可以在Genie生成的世界中动态更改条件,例如引发天气变化或引入新物体。DeepMind的演示展示了其多功能性,涵盖了逼真的场景、郁郁葱葱的虚构领域以及异想天开的动画场景,包括互动式火山吉普车跋涉、飓风肆虐的佛罗里达海岸以及一个魔法蘑菇村庄。
包括Marketing AI Institute创始人兼首席执行官Paul Roetzer在内的专家们强调,世界模型在开发能够有效推理和在物理世界中行动的AI方面发挥着关键作用。Genie 3生成的虚拟环境可以作为AI智能体和模型的关键训练场,使它们能够精确理解运动和物理定律。对物理世界的这种实际理解被广泛认为是开发真正AGI——即能够比人类更好地执行任何任务的人工智能——的基本先决条件。
即使在全面AGI出现之前,在Genie生成的世界中训练AI的能力也带来了许多即时益处。Roetzer指出,当你开始考虑具身智能和类人机器人时,这项技术“为应用和通往AGI的道路开启了所有这些可能性”。在虚拟环境中运行无限模拟的能力显著简化并增强了类人机器人和自动驾驶车辆的训练过程,这些技术正由特斯拉等公司积极开发。此外,这项创新可能会极大地重塑视频游戏行业。埃隆·马斯克曾公开推测,完全动态、由AI生成的视频游戏最早可能在明年出现。这一愿景预示着一个未来:玩家只需提示即可生成他们想要的游戏,并随着他们在AI程序生成的世界中导航而实时动态更新。
尽管Genie 3前景广阔,但尚未准备好广泛公开发布。DeepMind承认目前存在一些局限性,包括智能体的行动空间受限、连续交互几分钟后一致性会崩溃、现实世界地理准确性不完整以及在建模复杂多智能体交互方面的挑战。因此,最初的发布仅限于一小部分研究人员和创作者,以便在更广泛的访问权限授予之前,对技术进行彻底的完善并探索其安全隐患。尽管如此,Genie 3的首次公开亮相突显了AI模拟技术正在发生的快速进步。正如Roetzer所说:“进展通常比公众所知道的提前6-12个月。所以如果他们发布这个,他们很可能在实验室内部已经远远超出了这个水平。”