谷歌发布Genie 3:机器人AI世界模型突破性进展

Aibusiness

谷歌DeepMind近日发布了Genie 3,这是其迄今为止最新、最逼真的AI世界模型,标志着自主智能体和机器人领域逼真训练模拟发展的一次重大飞跃。这个先进的系统旨在直接从简单的文本提示生成动态、交互式的3D虚拟环境,从而突破了AI实时模拟的界限。

Genie 3的突出之处在于它能创建可导航的世界,以每秒24帧、720p的分辨率运行,并能保持视觉和物理一致性长达数分钟。一个关键的创新是其“世界记忆”功能,允许模型回忆长达一分钟的过去动作和物体放置,确保更具连贯性和沉浸感的体验。用户可以使用额外的文本提示动态改变这些模拟环境,例如,在滑雪坡上引入一群鹿,或者瞬间改变天气条件。这项能力还延伸到建模复杂的物理特性,如水流和照明,以及模拟自然生态系统、动画场景,甚至虚构设置。Genie 3在Genie 1和Genie 2的基础上,显著增强了实时交互性,并融入了谷歌Veo 3视频生成器的技术,以实现对直观物理更深层次的理解。

Genie 3的主要应用在于彻底改变机器人和AI智能体的训练方式。在现实世界中训练这些智能系统往往成本高昂、耗时且可能存在危险。Genie 3提供了一个无限的、丰富的模拟环境课程,AI智能体可以在其中学习预测环境将如何演变以及它们的行为将如何影响环境,从而有效加速机器人、自动驾驶汽车和其他具身AI(embodied AI)研究的开发。谷歌DeepMind将Genie 3这样的世界模型视为实现通用人工智能(AGI)的关键一步,通用人工智能是一种假想的AI水平,系统能够跨广泛领域执行与人类相当的任务。

除了其在AI训练方面的核心用途外,Genie 3还为以人为中心的应用程序带来了希望。它能提供沉浸式模拟,用于各种体验,从虚拟滑雪和探索山湖,到练习关键的现实世界场景,如山地救援或定点跳伞,所有这些都可以在安全的模拟环境中进行。这项技术还可以改变下一代游戏和娱乐,允许从简单的文本命令创建动态的、基于物理的世界。潜在的未来应用涵盖多个行业,包括备灾、应急培训、农业、制造业以及科学“数字孪生”的创建。

尽管Genie 3功能强大,但尚未准备好全面公开发布,目前仅作为有限的研究预览版供选定的学者和创作者使用。谷歌DeepMind承认存在一些局限性,包括智能体的“行动空间”受限,难以准确建模复杂的多智能体交互,以及无法以完美的地理精度模拟真实世界位置。虽然比早期版本更稳定,但其一致性目前只能维持几分钟,并且除非在初始提示中明确提供,否则难以渲染清晰的文本。这些领域仍是持续的研究挑战,该公司正在采取审慎的推广方式,以解决安全和责任问题。Genie 3的发布正值AI领域竞争激烈之际,其他行业参与者也在生成式AI和世界模型方面取得了重大进展。