谷歌推出Gemini Deep Think AI:高级并行推理,革新问题解决

Techcrunch

Google DeepMind 已开始推出 Gemini 2.5 Deep Think,这是一款先进的 AI 推理模型,旨在通过同时探索和评估多个想法来增强问题解决能力。这项新功能能够从这些探索中选择最佳答案,并已于本周五起向每月支付 250 美元的 Google Ultra 订阅用户开放,可在 Gemini 应用中使用。

Gemini 2.5 Deep Think 于今年五月的 Google I/O 2025 大会上首次亮相,标志着谷歌首个公开可用的多智能体模型。这些系统通过部署多个 AI 智能体来并行处理一个问题。尽管这种方法比单智能体方法需要显著更多的计算资源,但它通常能产生更准确、更全面的答案。

值得一提的是,Gemini 2.5 Deep Think 的一个变体在今年的国际数学奥林匹克竞赛(IMO)中获得了一枚金牌。除了公开推出 Gemini 2.5 Deep Think 外,谷歌还将这个特定 IMO 获奖模型提供给一小部分数学家和学者。该公司指出,与大多数面向消费者的 AI 不同,这个专业 AI 模型需要数小时而非数秒或数分钟来完成其推理过程。谷歌希望这能促进研究,并为学术应用中多智能体系统的完善提供反馈。

谷歌声称 Gemini 2.5 Deep Think 比在 I/O 大会上预览的版本有了实质性改进。该公司还强调开发了“新颖的强化学习技术”,以优化模型对推理路径的利用。谷歌在一篇博客文章中表示:“Deep Think 可以帮助人们解决需要创造力、战略规划和逐步改进的问题。”

在“人类终极考试”(HLE)这一严格测试中,Gemini 2.5 Deep Think 在未经外部工具辅助的情况下,在数学、人文和科学领域数千个众包问题中取得了 34.8% 的分数,该测试旨在评估 AI 的熟练程度。这一表现超越了 xAI 的 Grok 4(得分为 25.4%)和 OpenAI 的 o3(得分为 20.3%)。此外,在 LiveCodeBench 6(一个极具挑战性的竞技编程任务基准测试)中,谷歌的模型表现也优于竞争对手,得分 87.6%,而 Grok 4 为 79%,OpenAI 的 o3 为 72%。

Gemini 2.5 Deep Think 与代码执行和 Google 搜索等工具无缝集成,并能够生成比传统 AI 模型“长得多的响应”。谷歌的内部测试表明,与其它 AI 系统相比,该模型在网页开发任务中能产生更详细、更美观的结果,这可能有助于研究人员并加速发现过程。

多智能体系统的采用似乎是领先 AI 实验室之间日益增长的趋势。埃隆·马斯克的 xAI 最近推出了 Grok 4 Heavy,这是其自己的多智能体系统,声称在多项基准测试中取得了行业领先的性能。同样,OpenAI 尚未发布的 AI 模型(在今年的国际数学奥林匹克竞赛中也获得了一枚金牌)据报道也是一个多智能体系统。Anthropic 以生成全面研究简报而闻名的 Research 智能体也由多智能体架构提供支持。

尽管多智能体系统具有强大的性能,但它们比传统 AI 模型需要更多的计算资源,因此运营成本更高。这种经济现实表明,科技公司可能会继续将这些先进系统保留给其高级订阅层级,xAI 和谷歌目前都采用了这一策略。

在未来几周内,谷歌计划通过 Gemini API 向一小部分测试人员开放 Gemini 2.5 Deep Think 的访问权限,旨在了解开发人员和企业如何利用其多智能体系统。