DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition

DeepSeek-Prover-V2：通过强化学习子目标分解推进形式化数学推理

📅 2026-02-15👤 DeepSeek Team📊 高级

形式化证明定理证明Lean 4子目标分解

中文摘要

DeepSeek-Prover-V2 在 Lean 4 形式化定理证明上达到当前最高水平（SOTA），通过强化学习和子目标分解策略在 MinF2F 测试集达到 88.9% 的 pass ratio。模型能够将复杂的数学证明任务分解为可管理的子目标，逐步构建严密的证明链条。这一突破标志着 AI 在形式化数学证明领域的重要进展。

DeepSeek-Prover-V2 achieves SOTA in Lean 4 formal theorem proving, reaching 88.9% pass ratio on MinF2F test set through reinforcement learning and subgoal decomposition strategy.

快速链接

PDF 下载 GitHub 查看翻译 (97%)

📄 PDF 原文预览

核心贡献

在 Lean 4 形式化定理证明上达到当前最高水平（SOTA）
通过强化学习和子目标分解策略，在 MinF2F 测试集达到 88.9% pass ratio
将复杂数学证明分解为可管理的子目标，逐步构建严密证明链条
标志着 AI 在形式化数学证明领域的重要突破

技术细节

▸架构

730字

该架构并非传统意义上的单一语言模型，而是一个深度融合了大语言模型语义理解能力与强化学习决策优化机制的端到端形式化证明系统。其设计初衷在于破解自动化定理证明（ATP）长期面临的两大难题：一是组合搜索空间随证明步骤指数级膨胀，二是纯自回归生成模型在长程逻辑推理中缺乏目标导向与错误纠正能力。系统整体采用分层模块化设计，核心由四大组件构成：冷启动数据合成管道、7B参数规模的专用证明推理模型、强化学习策略优化引擎，以及Lean 4形式化验证内核。在数据层面，架构首先调用基座模型生成自然语言证明草图，通过自动化工具链将其翻译为Lean 4语法，并利用`sorry`占位符标记未完成的逻辑断点，形成高质量的“骨架-填充”初始数据集。推理核心采用基于Transformer的7B参数模型，该模型经过领域适配后，能够精准解析Lean 4的Tactic状态（包含当前假设、目标类型、可用引理等），并输出合法的证明策略序列。架构的突破性在于将证明过程严格建模为马尔可夫决策过程（MDP）：状态空间为形式化验证器的实时上下文，动作空间为离散化的Tactic库，奖励信号完全依赖Lean 4内核的编译验证结果（成功得正奖励，失败或超时得零奖励）。通过大规模强化学习训练（如GRPO或PPO算法），系统引入了价值网络与策略网络的双轨优化机制，利用稀疏奖励塑形技术缓解长程证明中的信用分配难题。在推理阶段，架构支持动态搜索树构建与路径剪枝，已验证的子证明可被缓存为可重用模块。该架构通过RL的探索-利用平衡与LLM的泛化能力相结合，实现了从“被动语法生成”向“主动逻辑规划”的范式跃迁，大幅提升了复杂数学命题的求解效率与证明严密性，为形式化验证领域的规模化应用提供了可扩展的系统基座。

▸核心创新

738字

子目标分解与强化学习优化的深度融合，是DeepSeek-Prover-V2突破形式化数学推理瓶颈的核心技术引擎。传统端到端证明模型试图一次性生成完整证明序列，这在面对多步骤、高抽象度的数学定理时，极易因上下文窗口限制、误差累积与搜索空间爆炸而失败。该创新借鉴人类数学家的“分治法”思维，将证明过程显式拆分为“高层规划”与“底层求解”两个正交阶段。在规划阶段，模型不直接输出具体策略，而是生成一个包含多个`sorry`占位符的Lean 4证明骨架，每个占位符对应一个逻辑上独立、复杂度可控的子目标。这种分解机制将庞大的全局搜索空间切割为多个低维子空间，从根本上降低了推理的认知负荷。强化学习在此过程中扮演了“策略导航员”与“质量评估器”的双重角色。由于子目标分解的质量直接决定最终证明的成败，研究团队设计了精细的奖励塑形机制：不仅对最终证明成功给予稀疏奖励，还通过启发式评分与中间状态验证，对分解路径的合理性（如子目标的逻辑独立性、复杂度梯度、与主定理的关联度、可证性先验）引入稠密中间奖励。通过大规模RL训练，模型学会了在早期阶段自动识别关键引理，并生成最优的分解树。技术实现上，系统利用合成冷启动数据初始化分解策略，随后在RL循环中不断迭代优化策略网络。模型在训练过程中经历“生成骨架-递归求解-验证反馈-策略更新”的闭环，RL算法通过策略梯度下降最大化成功分解路径的概率。该创新有效缓解了形式化证明中常见的“奖励稀疏”、“探索低效”与“信用分配模糊”问题，使模型能够自主掌握“何时分解”、“如何分解”以及“分解到何种粒度”的元认知能力。实验表明，该机制在保持证明严密性的同时，显著提升了求解成功率，并为后续模型在更复杂数学领域（如代数几何、范畴论）的迁移奠定了方法论基础。

▸基准成绩

731字

MinF2F测试集是形式化数学推理领域极具权威性与挑战性的基准之一，主要评估AI系统将自然语言数学问题转化为Lean 4形式化代码并完成严格逻辑证明的综合能力。88.9%的pass ratio（通过率）意味着在测试集涵盖的复杂数学问题中，该系统能够成功通过Lean 4内核验证的比例接近九成，这一成绩刷新了该领域的最高纪录（SOTA）。MinF2F的高难度体现在其不仅要求语法正确，更要求逻辑严密、步骤完整且无循环论证，任何微小的类型错误、策略误用或上下文丢失都会导致验证失败。DeepSeek-Prover-V2之所以能取得这一突破性成绩，得益于其底层技术栈的协同优化与严格的评估协议。首先，子目标分解策略大幅压缩了无效搜索路径，使模型能够将算力集中于高概率成功的证明分支；其次，强化学习训练赋予了模型极强的抗干扰能力与长程规划能力，使其在面对多条件约束、归纳法或抽象代数结构时仍能保持推理连贯性；再次，系统在推理阶段采用了高效的搜索算法（如基于价值网络的Beam Search与自我一致性采样），结合Lean 4内核的即时反馈机制，实现了“生成-验证-回溯”的高效迭代。从实验参数来看，该成绩是在严格控制计算资源（如单步推理超时阈值、内存上限、采样宽度）的前提下，通过大规模RL微调与高质量冷启动数据共同作用得出的。与早期依赖规则匹配、浅层神经网络或纯提示工程的定理证明器相比，88.9%的通过率不仅体现了模型在符号推理上的成熟，更标志着AI已具备处理近人类水平形式化数学任务的能力。这一基准成绩的突破，为后续在更广泛数学领域的形式化验证奠定了坚实基础，同时也为自动化代码验证、形式化安全证明、数学教育辅助等工业与学术应用提供了可复用的技术范式与性能参照系。

▸证明策略

729字

该证明策略的核心思想是“化整为零、逐层递进”，将原本庞大且线性的证明任务重构为层次化的证明链构建过程。在形式化数学中，复杂定理往往依赖多个前置引理与中间结论，直接生成完整证明不仅计算复杂度呈指数级增长，且极易因某一步骤的逻辑断裂导致全局失败。DeepSeek-Prover-V2采用的策略严格遵循“分析-分解-求解-组装”的工作流。首先，系统对目标定理进行语义解析，识别核心条件与结论，生成包含`sorry`占位符的初始证明骨架。随后，策略进入递归求解阶段：每个子目标被独立提取为新的证明任务，模型在当前子目标的局部上下文中搜索合法Tactic序列。若子目标仍具复杂性，策略会触发二次分解，形成多叉证明树。在逐步构建证明链的过程中，系统采用严格的上下文管理机制：已验证的子证明结果会被即时导入主证明环境，更新Tactic状态，并为后续步骤提供可引用的引理。技术实现上，该策略依赖于Lean 4的交互式定理证明特性，支持细粒度的状态回滚与路径回溯。当某条子证明路径失败时，系统不会全盘重来，而是仅回溯至最近的分解节点，尝试替代策略或调整分解粒度。此外，策略内置了引理缓存与重用机制，历史上成功证明的子目标可被序列化存储，在遇到结构相似的定理时直接调用，大幅降低重复计算开销。通过这种模块化、可重用的逐步构建方式，证明链的每个环节都经过形式化内核的严格校验，有效阻断了错误传播。该策略不仅契合人类数学家的推理习惯，更在工程层面实现了证明过程的透明化与可调试性，使AI系统能够在保持逻辑严密性的同时，灵活应对不同难度与领域的数学命题。其逐步构建的机制还天然支持并行化求解与分布式验证，为未来超大规模形式化数学库的自动化构建提供了稳健的方法论支撑与可扩展的架构蓝图。

💡 阅读建议

需要了解 Lean 4 和形式化证明基础。重点理解子目标分解如何让模型处理复杂的证明任务。