谷歌Gemini“深度思考”升级，能力飞跃但安全引担忧

谷歌发布了“深度思考”（Deep Think），这是其Gemini AI模型的一项重大升级，旨在通过赋予人工智能更多“思考时间”来解决复杂问题。这项新功能现已对Gemini应用程序内的Google AI Ultra订阅者开放。谷歌表示，此次发布结合了测试人员的反馈和最新研究成果，与今年早些时候在I/O大会上展示的版本相比，实现了显著进步。

“深度思考”可在应用程序内激活，但其使用受每日请求限制。它被设计成能自动利用代码执行和谷歌搜索等工具，使其能够生成比以往迭代更长、更详细的回复。

“深度思考”增强能力的核心在于谷歌所描述的“并行思考”技术。这种方法旨在模仿人类处理难题的方式：通过同时生成、评估和组合多个想法，以找到最佳解决方案。为实现这一目标，模型在提供回复之前被分配了额外的“推理时间”——本质上是更多的处理时间。虽然像“自我一致性”（Self Consistency）和“思维树”（Tree-of-Thought）等类似的实验方法已经存在，“深度思考”集成了新的强化学习技术，以确保这些扩展的推理路径得到有效利用，旨在随着时间的推移提高其解决问题的能力。底层的Gemini 2.5模型采用了稀疏专家混合（Sparse Mixture-of-Experts, MoE）架构，并支持高达一百万个输入词元（tokens）和192,000个输出词元的庞大上下文窗口。

谷歌强调“深度思考”在要求创造性和战略规划的任务中表现出特别的优势。这包括迭代改进网页设计、支持高级科学和数学研究，以及解决复杂的编程难题。在基准测试中，Gemini 2.5“深度思考”展现了强大的性能，在LiveCodeBench V6的代码生成方面得分87.6%，在“人类的终极考试”（Humanity’s Last Exam）的知识和逻辑推理方面得分34.8%。据报道，在不使用外部工具的场景下，这些结果超越了OpenAI o3和Grok 4等竞争对手。

值得注意的是，此次公开发布是AI模型的一个修改版本，该模型曾在国际数学奥林匹克竞赛（IMO）中获得金牌。虽然赢得IMO金牌的版本需要数小时才能解决其问题，但公开版本经过优化，以实现速度和日常使用，仍能在2025年IMO基准测试中达到铜牌表现。完整的金牌级别模型仍仅限于一小部分数学家和研究人员。

然而，谷歌承认，能力的这一飞跃也带来了新的安全考量。在“前沿安全框架”（Frontier Safety Framework, FSF）下进行的一项全面安全审查显示，由于与早期模型的“异常差异”，“深度思考”在某些风险领域已跨越了一个关键阈值。具体来说，在化学、生物、放射和核（CBRN）领域，该模型已达到“提升等级1”（Uplift Level 1）的“早期预警阈值”。这表明该AI可能提供足够的技术知识，显著帮助资源匮乏的个人或团体开发大规模杀伤性武器。谷歌正在继续评估这些风险，并已实施预防措施。

“深度思考”在网络安全方面也达到了与Gemini 2.5 Pro之前识别出的相同早期预警阈值。虽然其在网络安全任务中的表现有所提高，但它在最具挑战性的真实世界场景中仍面临挑战。

为应对这些发现，谷歌表示已实施了多层防护措施。这些措施包括过滤危险输出、多级监控、阻止滥用账户以及持续的“红队演练”，以严格测试其防护系统。

谷歌Gemini“深度思考”升级，能力飞跃但安全引担忧

相关文章

使用 Google Gemini 与 SAGE 框架构建自适应 AI 代理

DeepMind发布Genie 3：AI“世界模型”突破，实时生成高一致性互动3D世界

DeepMind发布Genie 3：交互式世界模型，迈向通用人工智能新里程碑