谷歌发布Gemini 2.5 Deep Think AI：“青铜版”亦展现强大推理能力

谷歌已正式推出Gemini 2.5 Deep Think，这是其为增强推理和复杂问题解决能力而设计的新一代AI模型。此次公开发布之前，该模型的一个高级版本在上个月因在国际数学奥林匹克竞赛（IMO）中首次获得金牌而轰动一时——这是AI首次取得此成就。然而，现在公众可访问的版本并非与获得金牌的模型完全相同。

根据谷歌的博客文章和谷歌AI Studio产品负责人Logan Kilpatrick的说法，此次公开发布的模型是“功能较弱的‘青铜’版本”。Kilpatrick在社交媒体上澄清说，这个变体“速度更快，更适合日常使用”，而完整的IMO金牌模型正提供给选定的数学家群体进行进一步的能力测试。

了解Gemini 2.5 Deep Think的能力

Deep Think基于Gemini大型语言模型（LLM）系列构建，引入了处理复杂问题的新能力。它采用“并行思考”技术同时探索多种想法，并利用强化学习随着时间推移加强其分步问题解决能力。

该模型专为需要长时间推敲的用例而设计，例如测试数学猜想、进行科学研究、设计算法以及改进代码和设计等创意任务。早期测试者，包括数学家Michel van Garrel，已使用它来研究未解决的问题并生成潜在的证明。沃顿商学院教授兼AI专家Ethan Mollick在社交媒体上指出，Deep Think是第一个成功生成3D图形以响应他用于测试AI能力的复杂提示的模型，这展示了其先进的解释和创造能力。

性能和基准

Deep Think在几个关键应用领域表现出色：

数学和科学： 它可以模拟复杂证明的推理、探索猜想并解释复杂的科学文献。
编码和算法设计： 该模型在涉及性能权衡、时间复杂度和多步逻辑的任务上表现良好。
创意开发： 在体素艺术或用户界面构建等设计场景中，Deep Think展示了增强的迭代改进和细节增强。

该模型在基准评估中处于领先地位，包括LiveCodeBench V6（用于编码能力）和Humanity’s Last Exam（涵盖数学、科学和推理）。在推理与知识、代码生成和IMO 2025数学等类别中，它以两位数的优势显著超越了Gemini 2.5 Pro以及竞争模型，如OpenAI的GPT-4和xAI的Grok 4。

Deep Think vs. Gemini 2.5 Pro：比较

虽然Deep Think和Gemini 2.5 Pro都属于Gemini 2.5模型系列，但谷歌将Deep Think定位为功能更强大、分析能力更强的变体，尤其适用于复杂推理和多步问题解决。这种改进源于其并行思考和强化学习技术的使用，这些技术使模型能够模拟更深层次的认知推敲。

谷歌表示，Deep Think更擅长处理细致的提示、探索多个假设并生成更精细的输出。在体素艺术生成等任务的并排比较中，Deep Think比2.5 Pro增加了更多的纹理、结构保真度和构图多样性，这支持了这一说法。

尽管Deep Think在与推理和代码生成相关的多个技术基准上优于Gemini 2.5 Pro，但这些优势也伴随着权衡。Deep Think速度较慢，需要更长的“思考时间”，并且对良性提示的拒绝率更高——谷歌正在积极调查这一领域。相比之下，2.5 Pro仍然更适合那些优先考虑速度和响应能力的用户，特别是对于轻量级的通用任务。这种差异化使用户可以根据自己的优先事项进行选择：2.5 Pro适用于速度和流畅性，Deep Think适用于严谨性和反思。

IMO金牌成就

今年7月，Gemini Deep Think模型的一个更高级版本在2025年IMO（世界最负盛名的高中生数学竞赛）中获得了官方金牌。该系统解决了六个挑战性问题中的五个，成为第一个获得IMO金牌分数的AI。谷歌DeepMind首席执行官Demis Hassabis宣布了这一成就，表示该模型以自然语言端到端地解决了问题，无需翻译成正式的编程语法。IMO委员会证实该模型在42分满分中获得了35分，远高于金牌门槛。竞赛主席Gregor Dolinar将Deep Think的解决方案描述为清晰、精确，在许多情况下，比人类参赛者的解决方案更容易理解。需要重申的是，向公众发布的Gemini 2.5 Deep Think是一个速度更快、性能较低的版本，并非完全的竞赛模型。

访问Gemini 2.5 Deep Think

目前，Gemini 2.5 Deep Think仅限订阅Google AI Ultra计划的用户在iOS和Android上的Google Gemini移动应用中可用。该计划是Google One订阅系列的一部分，每月费用为249.99美元，新订阅用户前三个月可享受每月124.99美元的促销优惠。AI Ultra计划包括30 TB存储空间，可访问包含Deep Think和Veo 3的Gemini应用，以及Flow和Whisk等工具，以及每月12,500个AI积分。订阅者可以通过在Gemini应用中选择2.5 Pro模型并切换“Deep Think”选项来激活Deep Think。它每天支持固定数量的提示，并与代码执行和谷歌搜索等功能集成，与标准版本相比，可生成更长、更详细的输出。较低级别的Google AI Pro计划（每月19.99美元）和免费的Gemini AI服务不包括Deep Think的访问权限。Deep Think也将在未来几周内通过Gemini应用程序编程接口（API）提供给“受信任的测试者”。

对企业技术决策者的意义

Gemini 2.5 Deep Think的发布代表了一个主要研究里程碑的实际应用。虽然目前可通过个人用户账户访问，但它为企业和组织提供了了解已获得数学奥林匹克奖牌的AI模型能力的机会。对于获得完整IMO级别模型的科学家和研究人员来说，它提供了未来数学领域协作AI的洞察。对于AI Ultra订阅者而言，Deep Think是迈向更强大、更具上下文感知能力的AI协助的重要一步，现在已可在移动设备上运行。

谷歌发布Gemini 2.5 Deep Think AI：“青铜版”亦展现强大推理能力

相关文章

Cybertruck车窗碎裂成“经典迷因”：特斯拉设计总监回顾2019年“翻车”时刻

OpenAI联手美国政府：前沿模型仅售1美元，特朗普AI计划添新章

Google Gemini推出AI辅导，助力学生深度学习