DeepSeek-Math: Pushing the Frontiers of Math Reasoning by Open Language Models

DeepSeek-Math：通过开源语言模型拓展数学推理前沿

📅 2024-02-05👤 DeepSeek Team📄 arXiv: 2402.03300📊 入门

数学推理强化学习知识蒸馏

中文摘要

DeepSeek-Math 通过多阶段数学强化学习显著提升数学推理能力。采用知识蒸馏、指令微调和强化学习三阶段训练策略，在 GSM8K、MATH 等数学基准测试上达到领先水平。该模型证明开源模型在数学推理领域可以达到与闭源模型相当的性能。

DeepSeek-Math significantly improves math reasoning through multi-stage mathematical reinforcement learning, achieving leading performance on GSM8K and MATH benchmarks.

快速链接

PDF 下载 arXiv 原文 GitHub 查看翻译 (100%)

📄 PDF 原文预览

核心贡献

通过多阶段数学强化学习显著提升数学推理能力
采用知识蒸馏、指令微调和强化学习三阶段训练策略
在 GSM8K、MATH 等数学基准测试上达到领先水平
证明开源模型在数学推理领域可以达到与闭源模型相当的性能

技术细节

▸架构

722字

该架构设计遵循了大语言模型能力演进的内在规律，即从知识内化到格式对齐，再到策略优化的递进过程。其核心原理在于通过分阶段解耦训练目标，避免多任务优化时的梯度冲突与灾难性遗忘。知识蒸馏阶段作为架构的基石，旨在利用高质量教师模型或自生成的高质量数学语料，通过KL散度损失函数对齐学生模型的隐藏层表示与输出分布。该阶段采用标准Decoder-only Transformer架构，通常配置7B或1.3B参数规模，引入SwiGLU激活函数、RoPE旋转位置编码与RMSNorm归一化技术，以增强长序列建模能力。蒸馏过程中，模型在数十亿token的数学文献、竞赛题解与符号推导数据上进行持续预训练，使底层注意力机制学会捕捉数学符号间的深层依赖关系。指令微调阶段则在蒸馏后的权重基础上进行，架构上引入特殊的系统提示词模板与思维链（CoT）分隔符，通过交叉熵损失优化模型对数学指令的格式遵循能力。该阶段采用课程学习策略，从基础算术逐步过渡到高等数学证明，序列长度通常扩展至4096或8192，以容纳完整的推理链条。强化学习阶段作为架构的顶层优化器，采用策略梯度算法（如PPO或GRPO），在推理过程中动态调整Token生成概率。架构上并行部署一个冻结的过程奖励模型（PRM）或基于规则的答案验证器，用于提供细粒度的奖励信号。三阶段架构通过共享底层参数空间、仅在上层策略头进行差异化优化，实现了计算资源的高效利用。训练过程中采用ZeRO-3分布式策略、混合精度（BF16）与梯度检查点技术，确保在千卡集群上的稳定收敛。该架构的最终效果是构建了一个具备强数学先验、格式规范且推理鲁棒的专用模型，显著降低了端到端训练的方差，为后续的策略探索提供了高信噪比的初始状态。

▸核心创新

737字

传统强化学习在数学推理中面临奖励稀疏与逻辑跳跃两大瓶颈，多阶段数学强化学习通过解耦奖励信号与优化目标，实现了从结果导向到过程导向的范式跃迁。其核心原理在于将数学推理视为一个马尔可夫决策过程（MDP），通过分阶段注入不同粒度的奖励信号，引导模型逐步掌握正确的推导逻辑。第一阶段为结果导向强化学习，仅对最终答案的正确性提供二元奖励（正确为+1，错误为0），配合KL散度惩罚项防止策略偏离。该阶段主要解决模型“知道答案但不会推导”的问题，通过策略梯度更新使模型学会生成与正确答案匹配的推理路径。第二阶段引入过程奖励模型（PRM），对思维链中的每一个中间步骤进行细粒度评分。PRM通常通过蒸馏大型教师模型对步骤正确性的判断标签进行训练，采用分类头输出步骤级置信度。在强化学习循环中，模型根据PRM的实时反馈调整生成策略，有效抑制了幻觉与逻辑断层。第三阶段为自博弈与迭代优化阶段，模型利用自身生成的高质量CoT数据进行自我强化，通过优势估计（GAE）计算每个Token的长期回报，并结合重要性采样与裁剪机制（Clip Range通常设为0.2）稳定训练过程。技术实现上，该创新采用了动态块注意力机制以支持超长推理序列，奖励缩放系数（Reward Scale）与KL惩罚系数经过精心调优，避免奖励黑客（Reward Hacking）现象。训练数据经过严格的去重与质量过滤，确保每一步推导均可被形式化验证。多阶段RL的效果极为显著：模型在复杂代数变换、几何构造与数论证明中的步骤准确率大幅提升，推理路径的可解释性与鲁棒性显著增强。该方法不仅突破了传统RLHF在数学领域的性能天花板，还为通用推理能力的提升提供了可复用的技术范式，证明了细粒度过程监督是解锁大模型深度逻辑推理能力的关键钥匙。

▸基准成绩

774字

GSM8K与MATH是衡量大语言模型数学推理能力的两大权威基准，其成绩直接反映了模型在算术逻辑与竞赛级符号推理上的综合水平。GSM8K包含8500道小学至初中难度的多步应用题，侧重于基础运算、比例分配与逻辑建模，评估协议要求模型输出完整的思维链并通过正则表达式提取最终答案进行精确匹配。MATH基准则包含12500道高中至大学竞赛级别的题目，涵盖代数、几何、数论、概率统计等六大领域，题目具有极高的抽象性与证明复杂度，评估采用严格的自动化符号校验器，对答案的数值精度与符号形式均有苛刻要求。DeepSeek-Math在这两项基准上取得了突破性成绩，其7B参数模型在GSM8K上准确率突破92%，在MATH上达到50%以上，全面超越了同期多数闭源模型，并逼近GPT-4等顶尖系统的水平。这一成绩的取得得益于严格的评估协议与模型能力的深度契合：在测试阶段，模型采用零样本（Zero-shot）与少样本（Few-shot）提示策略，结合自一致性（Self-Consistency）解码技术，通过并行生成多条推理路径并进行投票表决，有效降低了随机种子带来的方差。技术细节上，模型在推理时启用了温度采样（Temperature=0.7）与核采样（Top-p=0.95），在探索与利用之间取得平衡。基准测试的结果不仅验证了三阶段训练 pipeline 的有效性，更揭示了开源模型在垂直领域达到SOTA的可行性。成绩的背后是数据质量与算法效率的双重胜利：模型在未见过的题型上展现出强大的泛化能力，能够自动识别题目中的隐藏约束并构建正确的数学方程。这一领先表现打破了“闭源模型垄断复杂推理”的行业认知，为开源社区提供了可复现、可微调的高性能基座，极大降低了数学AI在教育培训、科研辅助与自动化解题等下游场景的落地门槛，标志着开源大模型正式迈入深度逻辑推理的新纪元。

▸训练策略

760字

该训练策略的核心在于通过多目标协同优化，构建一个从知识注入到行为对齐的完整能力闭环。知识蒸馏策略旨在解决大模型训练数据饥渴与计算成本高昂的问题，其原理是通过最小化教师模型与学生模型之间的KL散度，将高维数学知识压缩至轻量级架构中。实施过程中，采用 logits 级别的软标签蒸馏与隐藏层特征对齐相结合的策略，温度系数（Temperature）通常设为3.0以平滑概率分布，使模型学习到更丰富的不确定性信息。指令微调策略则聚焦于模型与人类意图的对齐，采用精心策划的数学指令数据集，通过交叉熵损失优化模型对特定格式（如“问题-思考-解答”）的遵循能力。该阶段引入课程学习机制，按题目难度与知识点进行排序，学习率采用余弦退火调度，从1e-5逐步衰减至1e-6，避免过拟合。强化学习策略作为最终的能力放大器，采用策略梯度算法优化模型的推理轨迹。策略上，将奖励函数设计为过程奖励与结果奖励的加权和，引入KL正则化项约束策略分布与参考模型的偏离度，防止灾难性遗忘。训练数据 pipeline 经过多轮清洗：首先利用规则引擎过滤语法错误与逻辑矛盾，再通过LLM-as-a-Judge进行质量打分，仅保留高置信度样本。优化器采用AdamW，权重衰减设为0.1，梯度裁剪阈值为1.0。混合精度训练（FP16/BF16）与ZeRO-3内存优化技术确保在有限显存下实现大规模并行。该策略的综合效果是实现了极高的样本效率与收敛稳定性：蒸馏阶段大幅缩短了预训练周期，指令微调阶段快速建立了格式规范，强化学习阶段则精准打磨了推理边界。三者协同作用，使模型在保持通用语言能力的基础上，数学推理能力呈指数级跃升。该策略不仅验证了“数据质量优于数据规模”的训练哲学，更为垂直领域大模型的高效开发提供了一套标准化、可迁移的工程范式，显著降低了行业技术门槛。

💡 阅读建议

DeepSeek 数学方向的入门论文。重点理解三阶段训练策略的设计动机和实现细节。