谷歌Gemini“深度思考”升级,能力飞跃但安全引担忧
谷歌发布了“深度思考”(Deep Think),这是其Gemini AI模型的一项重大升级,旨在通过赋予人工智能更多“思考时间”来解决复杂问题。这项新功能现已对Gemini应用程序内的Google AI Ultra订阅者开放。谷歌表示,此次发布结合了测试人员的反馈和最新研究成果,与今年早些时候在I/O大会上展示的版本相比,实现了显著进步。
“深度思考”可在应用程序内激活,但其使用受每日请求限制。它被设计成能自动利用代码执行和谷歌搜索等工具,使其能够生成比以往迭代更长、更详细的回复。
“深度思考”增强能力的核心在于谷歌所描述的“并行思考”技术。这种方法旨在模仿人类处理难题的方式:通过同时生成、评估和组合多个想法,以找到最佳解决方案。为实现这一目标,模型在提供回复之前被分配了额外的“推理时间”——本质上是更多的处理时间。虽然像“自我一致性”(Self Consistency)和“思维树”(Tree-of-Thought)等类似的实验方法已经存在,“深度思考”集成了新的强化学习技术,以确保这些扩展的推理路径得到有效利用,旨在随着时间的推移提高其解决问题的能力。底层的Gemini 2.5模型采用了稀疏专家混合(Sparse Mixture-of-Experts, MoE)架构,并支持高达一百万个输入词元(tokens)和192,000个输出词元的庞大上下文窗口。
谷歌强调“深度思考”在要求创造性和战略规划的任务中表现出特别的优势。这包括迭代改进网页设计、支持高级科学和数学研究,以及解决复杂的编程难题。在基准测试中,Gemini 2.5“深度思考”展现了强大的性能,在LiveCodeBench V6的代码生成方面得分87.6%,在“人类的终极考试”(Humanity’s Last Exam)的知识和逻辑推理方面得分34.8%。据报道,在不使用外部工具的场景下,这些结果超越了OpenAI o3和Grok 4等竞争对手。
值得注意的是,此次公开发布是AI模型的一个修改版本,该模型曾在国际数学奥林匹克竞赛(IMO)中获得金牌。虽然赢得IMO金牌的版本需要数小时才能解决其问题,但公开版本经过优化,以实现速度和日常使用,仍能在2025年IMO基准测试中达到铜牌表现。完整的金牌级别模型仍仅限于一小部分数学家和研究人员。
然而,谷歌承认,能力的这一飞跃也带来了新的安全考量。在“前沿安全框架”(Frontier Safety Framework, FSF)下进行的一项全面安全审查显示,由于与早期模型的“异常差异”,“深度思考”在某些风险领域已跨越了一个关键阈值。具体来说,在化学、生物、放射和核(CBRN)领域,该模型已达到“提升等级1”(Uplift Level 1)的“早期预警阈值”。这表明该AI可能提供足够的技术知识,显著帮助资源匮乏的个人或团体开发大规模杀伤性武器。谷歌正在继续评估这些风险,并已实施预防措施。
“深度思考”在网络安全方面也达到了与Gemini 2.5 Pro之前识别出的相同早期预警阈值。虽然其在网络安全任务中的表现有所提高,但它在最具挑战性的真实世界场景中仍面临挑战。
为应对这些发现,谷歌表示已实施了多层防护措施。这些措施包括过滤危险输出、多级监控、阻止滥用账户以及持续的“红队演练”,以严格测试其防护系统。