谷歌Genie 3 AI:实时生成可玩世界,AI训练新突破

Beehiiv

谷歌DeepMind发布了Genie 3,这是一种创新的通用世界模型,能够实时生成丰富、交互式的环境。这一突破使得创建可玩世界成为可能,这些世界会随着AI智能体或人类用户的探索而动态演变,标志着AI训练和数字娱乐领域向前迈出了重要一步。

只需一个文本提示,Genie 3就能构建独特的720p环境,其中包含一致的场景和角色。这些生成的世界遵循真实世界的物理规律,新的视觉效果以每秒24帧的流畅速度呈现。该模型通过利用一分钟的视觉记忆来模拟后续时刻,同时确保与之前内容的连续性,从而保持场景间的视觉一致性。谷歌表示,Genie通过每秒多次持续计算来自过去交互的相关信息,实现了这种高水平的可控性。此外,用户不限于被动探索;他们可以在导航过程中主动修改环境,引入新角色或物体,甚至改变世界的根本动态。

Genie 3的这种一致且响应用户需求的世界生成能力的发展超越了游戏领域。它为具身AI的可扩展训练奠定了关键基础,使智能机器能够实时学习导航并适应复杂、不可预测的场景——例如路径突然消失——从而模仿人类的适应能力。

在AI社区迈出的重要一步是,OpenAI发布了其备受期待的开源推理大语言模型(LLMs),包括gpt-oss-120b和gpt-oss-20b。这些模型可在Apache 2.0许可下进行本地部署,是OpenAI自2019年GPT-2以来首次发布的开源LLM。发布后,它们迅速在Hugging Face的数百万模型中攀升至榜首,这表明了它们的即时影响力。较大的gpt-oss-120b版本在核心基准测试中表现出与OpenAI自家的o4-mini模型相当的性能,甚至在某些领域超越了它,同时可在80GB GPU上部署。更紧凑的gpt-oss-20b版本则提供了与o3-mini竞争的能力,使其适用于在内存仅为16GB的笔记本电脑上进行本地部署。这两款模型都配备了可调节的推理能力(高、中或低),并能促进高级智能体工作流,包括函数调用、网页搜索集成和Python执行。此次发布被视为一个关键时刻,OpenAI似乎正在回归其最初的使命,为开发者提供了可运行和修改于各种环境中的接近前沿的推理模型。这一举措预计将极大地增强开源AI生态系统,该生态系统一直在迅速缩小与专有模型之间的性能差距。

与此同时,Anthropic发布了Claude Opus 4.1,这是对其旗舰模型Opus 4的一次渐进但有影响力的升级。此次更新在各种要求严苛的任务中带来了显著的性能提升,包括实际编码、深入研究和复杂数据分析,尤其是在需要细致关注细节和智能体操作的场景中。Claude Opus 4.1在编码方面表现出显著改进,其在SWE-bench Verified基准测试上的性能从72.5%提升至74.5%。在数学、智能体终端编码(TerminalBench)、通用推理(GPQA)和视觉推理(MMMU)等基准测试中也观察到了进一步的进展。来自客户的早期反馈表明,该模型在多文件代码重构和在大规模代码库中识别关联等实际应用中表现出色。此次升级对付费用户和企业开放,Anthropic将其定位为其未来模型“大幅度改进”的先驱。此次发布增加了大语言模型的竞争格局,尤其是在AI社区期待其他主要参与者可能发布新产品之际。

除了这些重大发布,还有其他几项发展正在塑造AI格局。ElevenLabs推出了“Eleven Music”,这是一种多语言音乐生成模型,提供对流派、风格和结构的控制,并可编辑声音和歌词。谷歌通过新的“故事书”功能扩展了其Gemini应用,允许用户免费生成和讲述个性化故事书。AI搜索公司Perplexity收购了Invisible,一家专注于多智能体编排平台的公司,旨在将其Comet浏览器扩展到更广泛的消费者和企业用途。埃隆·马斯克报告称,Grok的“Imagine”图像和视频生成器引起了极大兴趣,一天内创建了2000万张图像。在中国,阿里巴巴通过API发布了其“闪电”系列Qwen3-Coder和Qwen3-2507模型,其上下文窗口高达100万个token,并具有竞争力的定价。最后,Shopify在其平台中整合了新的以智能体为中心的功能,包括一个结账工具包,可将商务小部件嵌入到AI智能体中,低延迟的全球产品搜索,以及一个通用购物车系统,从而增强了AI在电子商务中的作用。