谷歌为AI Ultra用户推出Gemini 2.5 Deep Think:AI新里程碑

Arstechnica

谷歌已推出其迄今为止最先进的人工智能模型Gemini 2.5 Deep Think,并将其独家提供给每年250美元的AI Ultra计划订阅者。Deep Think于5月的I/O大会上亮相,现已可在Gemini应用和网页界面中使用,尽管它被定位为一种专业工具,而非主要菜单选项。

Deep Think旨在处理最复杂的查询,它通过增强并行分析显著增加了其“思考时间”,从而在Gemini 2.5 Pro的基础上进行了构建。谷歌解释说,这使得AI能够探索解决问题的多种方法,甚至重新评估和混合各种假设,以生成更高质量的输出。由于其密集的计算要求,Deep Think的答案可能需要几分钟才能生成。

据报道,这种延长的处理时间增强了AI在设计美学、科学推理和复杂编码任务等不同领域的能力。谷歌的内部基准测试表明,Deep Think不仅超越了标准的Gemini 2.5 Pro,还超越了OpenAI o3和Grok 4等竞争模型。一个显著的成就是它在“人类的最后一次考试”中的表现,这是一个包含2500个多模态问题、涵盖100多个学科的挑战性集合。Deep Think在此次测试中取得了34.8%的得分,显著优于其他通常峰值在20%到25%的模型。

数学是Deep Think的一个特别关注点,它在AIME基准测试中表现出色。谷歌最近强调了一个经过专门训练的Deep Think版本,它能够处理数小时,并获得了国际数学奥林匹克(IMO)金牌——这是AI首次获得此殊荣。虽然这个先进的IMO版本目前仅限于受信任的测试人员,但今天发布的标准Deep Think模型仍有能力在2025年IMO测试中达到铜牌水平。

尽管订阅费用高昂,谷歌仍对Deep Think用户实施了每日查询限制,尽管具体数量尚未披露且可能发生变化。谷歌计划最终通过API提供Deep Think,为开发者提供付费服务以进行更广泛的访问。