谷歌DeepMind发布Genie 3：AI机器人虚拟训练新纪元

Google DeepMind 发布了 Genie 3，这是一种新型的“世界模型”，能够生成逼真的虚拟环境，用于训练人工智能系统。据这家科技巨头称，这一发展代表着向实现通用人工智能（AGI）迈出了重要一步。AGI 是一种假设状态，即人工智能能够像人类一样执行广泛的任务，而不仅仅局限于专业功能。

Genie 3 模型允许 AI 系统在逼真的真实世界模拟中进行交互。谷歌表示，例如，通过让机器人和自动驾驶汽车在高度逼真的虚拟仓库中导航和学习，Genie 3 可以对它们的训练起到关键作用。谷歌的 AI 部门 DeepMind 强调，此类世界模型是开发 AI 代理（旨在自主执行任务的系统）的关键组成部分。该公司预计，随着 AI 代理变得越来越普及，以及公司向 AGI 迈进，这项技术将发挥关键作用。

Genie 3 可以根据文本提示即时创建这些模拟场景。用户还可以通过进一步的文本命令快速修改虚拟环境；例如，在滑雪坡上引入一群鹿。除了训练 AI，谷歌指出 Genie 3 还可以让人们体验各种模拟，用于训练或探索，例如虚拟滑雪或在山湖周围散步。

尽管谷歌向记者展示了虚拟滑雪和仓库场景，但该公司表示 Genie 3 尚未准备好全面公开发布，也没有提供发布日期，理由是存在一系列限制。据报道，这些模拟的质量与谷歌最新的视频创作模型 Veo 3 相当，但 Genie 3 的模拟可以持续数分钟，比 Veo 3 的八秒片段长得多。此公告发布之际，AI 领域的竞争日益激烈，此前 OpenAI 首席执行官 Sam Altman 曾暗示他们即将推出 GPT-5 模型。

虽然关于 AGI 的讨论通常集中在其对白领工作的潜在影响（因为自主系统将承担各种角色），但谷歌主要将世界模型视为推动机器人技术和自动驾驶汽车发展的基础技术。例如，一个包含逼真物理和人类交互的模拟仓库可以有效地训练机器人，使其能够在安全、受控的环境中学习和完善其动作。谷歌还开发了 Sima，一个能够在视频游戏环境中执行任务的虚拟代理，尽管与 Genie 3 一样，它尚未公开可用。

该领域的专家强调了此类模型的重要性。爱丁堡大学机器人学习与自主性主席 Subramanian Ramamoorthy 教授将世界模型描述为机器人开发“极其重要”的组成部分。他解释说：“为了实现灵活的决策，机器人需要预测不同行动的后果，以选择在物理世界中执行的最佳行动。”

萨里大学以人为本人工智能研究所的 Andrew Rogoyski 补充说，世界模型也可以使大型语言模型（LLM，支持 ChatGPT 等聊天机器人的技术）受益。他认为，为“无实体 AI 提供实体化能力，尽管是虚拟的”，可以使其“探索世界，或一个世界——并因此提升能力”。他认为，这种虚拟的物理探索将为创建更强大、更智能的 AI 增添一个重要维度，补充它们现有的大量互联网数据训练。谷歌研究人员此前指出，虽然 LLM 擅长规划，但它们通常缺乏代表人类采取行动的能力，而世界模型可以帮助弥合这一差距。

谷歌DeepMind发布Genie 3：AI机器人虚拟训练新纪元

相关文章

使用 Google Gemini 与 SAGE 框架构建自适应 AI 代理

DeepMind发布Genie 3：AI“世界模型”突破，实时生成高一致性互动3D世界

DeepMind发布Genie 3：交互式世界模型，迈向通用人工智能新里程碑