字节跳动Seed-Prover：自动化数学证明领域的SOTA突破

大型语言模型（LLMs）在数学推理方面取得了显著进展，通常利用其自然语言能力来提高在MATH和AIME等基准测试上的表现。然而，使用强化学习（RL）训练这些模型的一个关键挑战是难以验证自然语言证明的正确性，这通常需要对每一步进行细致的手动检查。这一限制阻碍了RL在开发数学定理证明模型方面的更广泛应用。虽然Lean等形式语言提供了自动的正确性验证，但当前基于LLM的形式证明器仍然面临局限性。例如，步级证明器可以逐步生成代码，但通常需要特定的结构支持，并且难以进行高层次推理。

为此，字节跳动的Seed团队推出了Seed-Prover，这是一种新颖的引理式全证明推理模型。Seed-Prover通过整合来自Lean的反馈、利用先前已建立的引理以及采用自我总结，迭代地完善证明。它在测试时集成了三种专门的推理策略，从而实现了深入而广泛的推理能力，能够解决复杂问题，包括国际数学奥林匹克（IMO）中的问题。其核心创新在于采用引理式证明方法，将推理过程集中于引理，而非传统的逐步骤或单一全证明生成方法。作为补充，Seed-Geometry也同时推出，它是一个专门的几何推理引擎，旨在克服Lean在处理几何问题方面的局限性。

Seed-Prover与Lean之间的交互由一个基于VAPO的多阶段、多任务强化学习框架促进。训练数据集结合了公开数据集和字节跳动内部的形式化问题。一个“提议器”组件用于生成困难任务的简化变体，而过于简单的问题（证明率高于25%）则被排除。Seed-Geometry的后端支持大规模问题生成，在七天内识别了超过2.3亿个独特问题，搜索效率提高了八倍。尽管训练了单独的策略模型和价值模型，但广泛测试表明，价值模型有时会因估计误差而降低性能，因此在分布式设置中采用了带束搜索的逐步生成方法。

Seed-Prover在多项数学基准测试中取得了最先进的成果。在2025年IMO中，Seed-Prover成功解决了6道题目中的5道；具体来说，Seed-Geometry即时解决了第2题，而Seed-Prover则使用各种推理设置推导了其余问题的证明。在过去的IMO问题上，它在155个任务中证明了121个，在所有难度级别上取得了78.1%的成功率。这一表现包括解决了55道简单问题中的47道，56道中等问题中的47道，以及44道难题中的27道。分学科的成功率也很高，代数85道中72道，数论55道中42道，组合学14道中7道。

在MiniF2F基准测试中，研究人员报告称，在中等设置下，验证集和测试集的证明率均达到99.6%，成功解决了IMO 1990 P3等具有挑战性的问题。PutnamBench的结果显示，从轻量级推理设置升级到中等设置后，在657个问题中，解决的问题数量从201个显著提高到331个，这标志着相对于之前的本科级别数学推理系统有了显著的性能飞跃。尽管Seed-Prover在CombiBench上解决了100个组合学问题中的30个，超越了现有方法，但结果也凸显了组合推理方面持续存在的挑战。此外，Seed-Prover在MiniCTX-v2上取得了81.8%的成功率，展示了超越特定竞赛问题的强大泛化能力，并超越了o4-mini基线在Pass@8上的44.3%。

总而言之，字节跳动的Seed团队推出了Seed-Geometry和Seed-Prover，这两种形式化推理方法有效地整合了LLM的能力。Seed-Geometry为几何问题提供了加速验证和增强搜索机制，而Seed-Prover则利用迭代细化和复杂的测试时推理策略进行通用数学证明。在2025年IMO中解决6道题目中的5道的成就，凸显了这些方法在应对精英数学竞赛方面的实际效用。采用Lean等形式语言提供了快速的证明验证，这比人类专家更具成本效益，也比基于LLM的评判系统更可靠。未来的研究将致力于进一步结合形式系统与LLM，以解决开放的数学猜想。

字节跳动Seed-Prover：自动化数学证明领域的SOTA突破

相关文章

DeepMind发布Genie 3：AI“世界模型”突破，实时生成高一致性互动3D世界

DeepMind发布Genie 3：交互式世界模型，迈向通用人工智能新里程碑

谷歌DeepMind发布Genie 3：AI机器人虚拟训练新纪元