谷歌发布Gemini 2.5 Deep Think AI:“青铜版”亦展现强大推理能力
谷歌已正式推出Gemini 2.5 Deep Think,这是其为增强推理和复杂问题解决能力而设计的新一代AI模型。此次公开发布之前,该模型的一个高级版本在上个月因在国际数学奥林匹克竞赛(IMO)中首次获得金牌而轰动一时——这是AI首次取得此成就。然而,现在公众可访问的版本并非与获得金牌的模型完全相同。
根据谷歌的博客文章和谷歌AI Studio产品负责人Logan Kilpatrick的说法,此次公开发布的模型是“功能较弱的‘青铜’版本”。Kilpatrick在社交媒体上澄清说,这个变体“速度更快,更适合日常使用”,而完整的IMO金牌模型正提供给选定的数学家群体进行进一步的能力测试。
了解Gemini 2.5 Deep Think的能力
Deep Think基于Gemini大型语言模型(LLM)系列构建,引入了处理复杂问题的新能力。它采用“并行思考”技术同时探索多种想法,并利用强化学习随着时间推移加强其分步问题解决能力。
该模型专为需要长时间推敲的用例而设计,例如测试数学猜想、进行科学研究、设计算法以及改进代码和设计等创意任务。早期测试者,包括数学家Michel van Garrel,已使用它来研究未解决的问题并生成潜在的证明。沃顿商学院教授兼AI专家Ethan Mollick在社交媒体上指出,Deep Think是第一个成功生成3D图形以响应他用于测试AI能力的复杂提示的模型,这展示了其先进的解释和创造能力。
性能和基准
Deep Think在几个关键应用领域表现出色:
数学和科学: 它可以模拟复杂证明的推理、探索猜想并解释复杂的科学文献。
编码和算法设计: 该模型在涉及性能权衡、时间复杂度和多步逻辑的任务上表现良好。
创意开发: 在体素艺术或用户界面构建等设计场景中,Deep Think展示了增强的迭代改进和细节增强。
该模型在基准评估中处于领先地位,包括LiveCodeBench V6(用于编码能力)和Humanity’s Last Exam(涵盖数学、科学和推理)。在推理与知识、代码生成和IMO 2025数学等类别中,它以两位数的优势显著超越了Gemini 2.5 Pro以及竞争模型,如OpenAI的GPT-4和xAI的Grok 4。
Deep Think vs. Gemini 2.5 Pro:比较
虽然Deep Think和Gemini 2.5 Pro都属于Gemini 2.5模型系列,但谷歌将Deep Think定位为功能更强大、分析能力更强的变体,尤其适用于复杂推理和多步问题解决。这种改进源于其并行思考和强化学习技术的使用,这些技术使模型能够模拟更深层次的认知推敲。
谷歌表示,Deep Think更擅长处理细致的提示、探索多个假设并生成更精细的输出。在体素艺术生成等任务的并排比较中,Deep Think比2.5 Pro增加了更多的纹理、结构保真度和构图多样性,这支持了这一说法。
尽管Deep Think在与推理和代码生成相关的多个技术基准上优于Gemini 2.5 Pro,但这些优势也伴随着权衡。Deep Think速度较慢,需要更长的“思考时间”,并且对良性提示的拒绝率更高——谷歌正在积极调查这一领域。相比之下,2.5 Pro仍然更适合那些优先考虑速度和响应能力的用户,特别是对于轻量级的通用任务。这种差异化使用户可以根据自己的优先事项进行选择:2.5 Pro适用于速度和流畅性,Deep Think适用于严谨性和反思。
IMO金牌成就
今年7月,Gemini Deep Think模型的一个更高级版本在2025年IMO(世界最负盛名的高中生数学竞赛)中获得了官方金牌。该系统解决了六个挑战性问题中的五个,成为第一个获得IMO金牌分数的AI。谷歌DeepMind首席执行官Demis Hassabis宣布了这一成就,表示该模型以自然语言端到端地解决了问题,无需翻译成正式的编程语法。IMO委员会证实该模型在42分满分中获得了35分,远高于金牌门槛。竞赛主席Gregor Dolinar将Deep Think的解决方案描述为清晰、精确,在许多情况下,比人类参赛者的解决方案更容易理解。需要重申的是,向公众发布的Gemini 2.5 Deep Think是一个速度更快、性能较低的版本,并非完全的竞赛模型。
访问Gemini 2.5 Deep Think
目前,Gemini 2.5 Deep Think仅限订阅Google AI Ultra计划的用户在iOS和Android上的Google Gemini移动应用中可用。该计划是Google One订阅系列的一部分,每月费用为249.99美元,新订阅用户前三个月可享受每月124.99美元的促销优惠。AI Ultra计划包括30 TB存储空间,可访问包含Deep Think和Veo 3的Gemini应用,以及Flow和Whisk等工具,以及每月12,500个AI积分。订阅者可以通过在Gemini应用中选择2.5 Pro模型并切换“Deep Think”选项来激活Deep Think。它每天支持固定数量的提示,并与代码执行和谷歌搜索等功能集成,与标准版本相比,可生成更长、更详细的输出。较低级别的Google AI Pro计划(每月19.99美元)和免费的Gemini AI服务不包括Deep Think的访问权限。Deep Think也将在未来几周内通过Gemini应用程序编程接口(API)提供给“受信任的测试者”。
对企业技术决策者的意义
Gemini 2.5 Deep Think的发布代表了一个主要研究里程碑的实际应用。虽然目前可通过个人用户账户访问,但它为企业和组织提供了了解已获得数学奥林匹克奖牌的AI模型能力的机会。对于获得完整IMO级别模型的科学家和研究人员来说,它提供了未来数学领域协作AI的洞察。对于AI Ultra订阅者而言,Deep Think是迈向更强大、更具上下文感知能力的AI协助的重要一步,现在已可在移动设备上运行。