谷歌推出Gemini Deep Think AI：高级并行推理，革新问题解决

Google DeepMind 已开始推出 Gemini 2.5 Deep Think，这是一款先进的 AI 推理模型，旨在通过同时探索和评估多个想法来增强问题解决能力。这项新功能能够从这些探索中选择最佳答案，并已于本周五起向每月支付 250 美元的 Google Ultra 订阅用户开放，可在 Gemini 应用中使用。

Gemini 2.5 Deep Think 于今年五月的 Google I/O 2025 大会上首次亮相，标志着谷歌首个公开可用的多智能体模型。这些系统通过部署多个 AI 智能体来并行处理一个问题。尽管这种方法比单智能体方法需要显著更多的计算资源，但它通常能产生更准确、更全面的答案。

值得一提的是，Gemini 2.5 Deep Think 的一个变体在今年的国际数学奥林匹克竞赛（IMO）中获得了一枚金牌。除了公开推出 Gemini 2.5 Deep Think 外，谷歌还将这个特定 IMO 获奖模型提供给一小部分数学家和学者。该公司指出，与大多数面向消费者的 AI 不同，这个专业 AI 模型需要数小时而非数秒或数分钟来完成其推理过程。谷歌希望这能促进研究，并为学术应用中多智能体系统的完善提供反馈。

谷歌声称 Gemini 2.5 Deep Think 比在 I/O 大会上预览的版本有了实质性改进。该公司还强调开发了“新颖的强化学习技术”，以优化模型对推理路径的利用。谷歌在一篇博客文章中表示：“Deep Think 可以帮助人们解决需要创造力、战略规划和逐步改进的问题。”

在“人类终极考试”（HLE）这一严格测试中，Gemini 2.5 Deep Think 在未经外部工具辅助的情况下，在数学、人文和科学领域数千个众包问题中取得了 34.8% 的分数，该测试旨在评估 AI 的熟练程度。这一表现超越了 xAI 的 Grok 4（得分为 25.4%）和 OpenAI 的 o3（得分为 20.3%）。此外，在 LiveCodeBench 6（一个极具挑战性的竞技编程任务基准测试）中，谷歌的模型表现也优于竞争对手，得分 87.6%，而 Grok 4 为 79%，OpenAI 的 o3 为 72%。

Gemini 2.5 Deep Think 与代码执行和 Google 搜索等工具无缝集成，并能够生成比传统 AI 模型“长得多的响应”。谷歌的内部测试表明，与其它 AI 系统相比，该模型在网页开发任务中能产生更详细、更美观的结果，这可能有助于研究人员并加速发现过程。

多智能体系统的采用似乎是领先 AI 实验室之间日益增长的趋势。埃隆·马斯克的 xAI 最近推出了 Grok 4 Heavy，这是其自己的多智能体系统，声称在多项基准测试中取得了行业领先的性能。同样，OpenAI 尚未发布的 AI 模型（在今年的国际数学奥林匹克竞赛中也获得了一枚金牌）据报道也是一个多智能体系统。Anthropic 以生成全面研究简报而闻名的 Research 智能体也由多智能体架构提供支持。

尽管多智能体系统具有强大的性能，但它们比传统 AI 模型需要更多的计算资源，因此运营成本更高。这种经济现实表明，科技公司可能会继续将这些先进系统保留给其高级订阅层级，xAI 和谷歌目前都采用了这一策略。

在未来几周内，谷歌计划通过 Gemini API 向一小部分测试人员开放 Gemini 2.5 Deep Think 的访问权限，旨在了解开发人员和企业如何利用其多智能体系统。

谷歌推出Gemini Deep Think AI：高级并行推理，革新问题解决

相关文章

Anthropic Claude Opus 4.1 编程能力飞跃，剑指 GPT-5

DeepMind的Genie 3：迈向AGI的实时世界模型基石

DeepMind Genie 3：实时交互式AI世界模型揭秘