谷歌Gemini 2.5 Deep Think:并行AI赋能创新解题

Infoq

谷歌发布了Gemini 2.5 Deep Think,这是一款精密的人工智能模型,旨在通过利用并行思维和延长计算时间的创新方法来解决复杂的创意问题。作为Google AI Ultra订阅的一部分,Deep Think专为需要创造力、战略规划和细致分步方法学的挑战而设计。这包括迭代设计与开发、开创性科学与数学发现以及高级算法创建等复杂任务。

目前可用的Deep Think版本是对在2025年国际数学奥林匹克(IMO)竞赛中获得金牌的模型进行了显著优化和改进。在那场竞争激烈的赛事中,一个高级变体的Gemini Deep Think完美解决了六个挑战性问题中的五个,累计获得惊人的35分——这一分数足以表明其金牌级别的卓越表现。虽然该竞赛专用版本可以花费数小时进行复杂问题的推理,但新的公开发布版本为了提高速度,牺牲了一定程度的推理深度,使其更适用于日常应用。

与谷歌在2024年IMO的表现相比,这一进步标志着其AI努力的巨大飞跃。前一年,像AlphaProof和AlphaGeometry这样的模型需要人类专家首先将自然语言问题翻译成专业领域特定语言,即便如此,也需要长达三天才能生成解决方案。相比之下,Deep Think大大简化了这一过程。

Gemini Deep Think的核心运作方式是同时生成问题的多个潜在解决方案。在整个推理过程中,它不断修订和组合这些备选方案,迭代地收敛于最优答案。这种并行探索和细化需要显著延长的推理时间窗口,使得该模型不太适合实时聊天等即时交互式应用。谷歌承认,由于这种密集的计算需求,用户偶尔可能会遇到较慢的响应时间或超时问题。

Deep Think与Gemini家族中其他模型的区别还在于其独特的训练方法。它结合了新颖的强化学习技术,积极鼓励模型利用这些长时间的推理路径,使其能够同时测试和验证众多假设。此外,该模型在训练时能够访问精心策划的高质量复杂数学问题解决方案语料库,进一步增强了其问题解决能力。

谷歌声称Gemini 2.5 Deep Think在多项关键评估中树立了新基准,包括LiveCodeBench V6和Humanity’s Last Exam,取得了最先进的性能。然而,早期使用者已经注意到一个显著的实际限制:即使是付费用户,可用的查询数量也受到限制。最初每天限制为五次,后来增加到十次。一些观察者将此限制解读为运行该模型所需巨大计算开销的有力迹象,可能相当于并行运行一个大型Gemini Pro模型集群。

与Gemini系列中的其他模型一样,Deep Think建立在稀疏混合专家(MoE)架构之上。它还拥有原生的多模态支持,能够无缝处理文本、视觉和音频输入。该模型具有令人印象深刻的100万令牌输入上下文窗口和192,000令牌输出窗口,表明其处理海量信息的能力。除了提供给AI Ultra订阅者的优化版本外,谷歌还将竞赛版本提供给更广泛的研究社区,以促进该领域的进一步创新和研究。