DeepSeek-Math-V2: Towards Self-Verifiable Mathematical Reasoning

DeepSeek-Math-V2：迈向自验证数学推理

📅 2026-02-15👤 DeepSeek Team📊 进阶

数学推理自验证竞赛数学形式化证明

中文摘要

DeepSeek-Math-V2 通过自验证数学推理框架，在 IMO 2025 和 CMO 2024 数学竞赛中达到金牌水平。引入验证器训练和推理扩展技术，实现严谨的数学证明能力。模型能够通过自我验证机制检测和修正推理过程中的错误，大幅提升数学解题的准确性和可靠性。在多项国际数学竞赛基准测试中表现出超越人类的性能。

DeepSeek-Math-V2 achieves gold-medal level performance in IMO 2025 and CMO 2024 through self-verifiable mathematical reasoning. Introduces verifier training and reasoning extension for rigorous mathematical proof capabilities.

快速链接

PDF 下载 GitHub 查看翻译 (100%)

📄 PDF 原文预览

核心贡献

在 IMO 2025 和 CMO 2024 国际数学竞赛中达到金牌水平
引入自验证机制，模型能够检测和修正推理过程中的错误
通过验证器训练和推理扩展，实现严谨的数学证明能力
在多项国际数学竞赛基准测试中表现出超越人类的性能

技术细节

▸架构

1013字

**1. 核心原理与动机（是什么/为什么）** DeepSeek-Math-V2 架构采用“生成器-验证器-元验证器”协同框架，旨在突破传统数学推理模型仅依赖最终答案奖励的局限。传统强化学习易导致模型通过逻辑缺陷或侥幸得出正确答案，且无法处理无需数值输出的定理证明任务。本架构通过显式分离推理生成与逻辑验证模块，构建自验证闭环，使模型能够内化数学严谨性标准，实现从“答案匹配”到“过程可信”的范式转变。

**2. 技术实现与架构细节（怎么做）** 架构核心为三模块交互：（1）证明生成器：基于 DeepSeek-V3.2-Exp-Base，通过思维链生成自然语言证明，支持多轮迭代修正。（2）证明验证器：独立训练的网络 $\pi_\phi(\cdot|X,Y,I_v)$，接收问题 $X$ 与证明 $Y$，输出分析摘要与三级评分（1：完整严谨；0.5：逻辑正确但细节遗漏；0：致命缺陷）。（3）元验证器：$\pi_\eta(\cdot|X,Y,V,I_{mv})$ 评估验证器分析 $V$ 的质量，生成元评分 $ms \in \{0, 0.5, 1\}$。三者通过奖励函数耦合：$R_V = R_{format} \cdot R_{score} \cdot R_{meta}$，其中 $R_{meta}$ 为元验证分数。生成器在推理阶段可调用验证器进行自我检查，形成“生成-验证-修正”循环。

**3. 效果评估与前沿对比（效果如何）** 该架构在 IMO 2025 与 CMO 2024 中达到金牌水平，Putnam 2024 取得 118/120 分（超越人类最高 90 分）。相比 Minerva 或 ToRA 等单阶段模型，V2 在定理证明任务上的逻辑有效性提升 45%，错误检测率高达 89%。与标准 RLHF 相比，自验证架构使模型在未见竞赛题上的泛化准确率提升 32%，且无需人工标注最终答案即可训练。

**4. 深度技术解析** 该架构的数学本质是构建了一个可微分的逻辑验证流形。验证器通过三级评分将连续的逻辑严谨性离散化为可优化信号，元验证器则提供二阶监督，防止验证器本身过拟合或产生幻觉。生成器与验证器的协同循环等价于博弈论中的 minimax 优化，迫使生成器在输出前主动暴露并修复漏洞。此设计突破了传统 CoT 的单向生成假设，为形式化验证、自动定理证明及高可靠性科学计算提供了可扩展的架构范式。

▸核心创新

983字

该核心创新体系由验证器训练、推理扩展与自我纠错三大模块有机耦合而成，旨在彻底重构大语言模型处理高难度数学问题的底层范式。从原理上看，传统模型依赖自回归概率采样生成思维链，其本质是语言分布拟合，缺乏对数学逻辑真值的内在约束。验证器训练（Verifier Training）通过独立构建一个具备数学专家审阅能力的批评模型，将“生成”与“判别”解耦。该验证器基于高层评分标准I_v进行监督微调，采用对比学习（Contrastive Learning）与过程监督（Process Supervision）联合优化，能够输出细粒度的步骤级分析并赋予1/0.5/0三级量化评分。其架构通常采用与基座共享Transformer主干的轻量级Adapter，引入交叉注意力机制对齐问题条件与证明步骤，有效捕捉逻辑断层与隐含假设缺失。推理扩展（Reasoning Expansion）则聚焦测试时计算缩放（Test-time Compute Scaling），突破单次生成的算力瓶颈。系统采用改进的束搜索（Beam Search）与自我一致性（Self-Consistency）混合策略，在推理阶段并行展开K条证明轨迹，结合动态剪枝与蒙特卡洛树搜索（MCTS）启发式评估，由验证器对每条路径进行打分后执行加权投票或最优路径回溯。该机制使模型性能随计算量呈对数级增长，符合推理任务的Scaling Law。自我纠错机制（Self-Correction）构建了闭环反馈系统：当验证器返回非满分时，模型接收结构化批评文本（如“未处理退化情形”或“归纳奠基不严谨”），触发局部重写或全局重生成。该过程引入温度调度与拒绝采样（Rejection Sampling），在最大迭代步数内持续优化证明质量。从工程实现看，验证器训练数据来源于形式化证明库（Lean/Coq）与人工精校的竞赛解答，经过去重、难度分级与逻辑一致性过滤后达到数十亿Token规模。推理扩展模块支持动态批处理与显存优化，单次扩展延迟控制在基座推理的2-4倍。自我纠错环节采用轨迹级梯度累积与一致性正则化，防止模型陷入死循环。综合效果表明，该创新将数学推理从“黑盒概率猜测”转化为“白盒逻辑校验”，过程正确率提升显著，幻觉率下降超60%，使模型首次具备处理无唯一数值解的定理证明任务的能力，为构建可信赖的数学AI奠定了方法论基础。

▸竞赛成绩

815字

该成绩标志着DeepSeek-Math-V2在人类数学竞赛的最高殿堂中实现了历史性突破。IMO（国际数学奥林匹克）与CMO（中国数学奥林匹克）考察代数、几何、组合、数论四大领域的深度抽象能力，满分分别为42分与200分，金牌分数线通常位于前1%选手区间（IMO约20-24分，CMO约130-140分）。达到金牌水平意味着模型在无人工干预下，能够独立解析复杂题意、构建证明框架、完成严密推导并输出符合竞赛评分规范的解答。从评估原理看，该成绩并非依赖简单答案匹配，而是通过自动化评分管道（如ProofBench）进行多维度校验。管道包含语义解析器、步骤对齐器与逻辑校验器三大组件：首先将模型生成的自然语言证明拆解为原子推理步骤，随后与标准解答的逻辑骨架进行图匹配对齐；对于代数与数论模块，调用符号计算引擎（SymPy/Maxima）进行等价性验证与数值边界测试；对于几何与组合模块，则依赖验证器的细粒度打分与多模型交叉验证。在扩展计算条件下，系统允许模型进行多轮自我纠错与路径探索，Putnam 2024取得的118/120近满分成绩即是在合理推理步长扩展下的稳定输出。技术实现上，该成绩得益于覆盖近30年顶级竞赛真题的高质量数据集注入，以及验证器对竞赛评分规则（思路创新性、步骤完整性、逻辑严密性、表达规范性）的精准对齐。模型在组合构造、几何变换、不等式放缩等核心考点上展现出极强的策略迁移与泛化能力。值得注意的是，金牌水平反映的是在特定计算预算下（如pass@10或带验证的迭代生成）的稳定达标率，而非单次生成的绝对正确率。该突破验证了自验证数学推理路线的可行性，表明大语言模型已跨越“模式匹配”阶段，进入“自主逻辑推演”新范式。同时，成绩也揭示了当前局限：在极度依赖直觉跳跃或全新数学分支的超纲题上，模型仍依赖计算堆叠而非本质洞察，这指明了未来引入元认知规划、符号-神经混合架构与外部工具链（计算器、形式化验证器）的演进方向。

▸训练方法

962字

该训练管线采用课程学习（Curriculum Learning）与能力解耦思想，将数学推理能力的构建分解为四个递进阶段，形成从“模仿先验”到“策略优化”再到“质量自治”的完整技术闭环。知识蒸馏阶段旨在注入领域专家知识与标准解题范式，使用更强教师模型或形式化证明器生成高质量思维链（CoT），通过KL散度最小化与Logit匹配将专家逻辑迁移至学生模型。数据经过去重、难度分级与逻辑一致性过滤，重点覆盖竞赛题的标准解法、反例构造与边界条件处理，学习率通常设定在1e-5至5e-5区间，采用混合精度训练以加速收敛。指令微调阶段聚焦交互对齐与格式规范，引入多样化Prompt模板、多语言数学表述与多轮对话数据，采用DPO/ORPO进行偏好优化，强化模型对题意理解、条件提取与结构化解题的遵循能力。该阶段使用LoRA/QLoRA降低显存占用，批次大小256至1024，重点优化模型对复杂数学符号的解析与输出稳定性。强化学习阶段彻底摒弃传统答案级奖励，转而采用过程奖励模型（PRM）或前述验证器提供细粒度信号。系统采用GRPO或PPO算法，结合轨迹采样与优势估计（Advantage Estimation），对中间步骤进行正负反馈塑造，避免模型为骗取高分而输出虚假逻辑。超参数配置通常包括Gamma=0.99、Lambda=0.95、Clip范围0.2，迭代10至20轮，并引入奖励塑形（Reward Shaping）与难度自适应采样。自验证阶段将验证器深度集成至训练循环，构建“生成-验证-修正”自演进数据池。模型在训练时模拟验证器反馈，学习如何根据结构化批评重写证明；同时采用拒绝采样过滤低质量轨迹，形成高质量自训练样本。该阶段常结合课程难度递增策略，从基础代数逐步过渡到IMO压轴题，并引入动态难度采样与验证器一致性正则化。从工程架构看，基座模型规模通常在7B至67B参数区间，上下文窗口扩展至32K至128K以容纳长证明。多阶段训练显著提升了模型的逻辑连贯性与抗干扰能力，在MATH500、AIME2024等基准上提升15%至25%，推理轨迹的步长分布更符合人类专家模式。该方法的工程价值在于其高度可扩展性：验证器可独立迭代升级，RL奖励信号可动态调整，为后续接入外部工具链预留了标准化接口，构成了下一代数学AI的基础训练范式。

💡 阅读建议

重点理解自验证机制的设计，如何让模型自己检查自己的推理。建议先阅读 DeepSeek-Math 了解基础方法。