DeepSeek-Math:通过开源语言模型拓展数学推理前沿
DeepSeek-Math 通过多阶段数学强化学习显著提升数学推理能力。采用知识蒸馏、指令微调和强化学习三阶段训练策略,在 GSM8K、MATH 等数学基准测试上达到领先水平。该模型证明开源模型在数学推理领域可以达到与闭源模型相当的性能。
DeepSeek-Math significantly improves math reasoning through multi-stage mathematical reinforcement learning, achieving leading performance on GSM8K and MATH benchmarks.
| 架构 | 三阶段训练:知识蒸馏 -> 指令微调 -> 强化学习 |
|---|---|
| 核心创新 | 多阶段数学强化学习 |
| 基准成绩 | GSM8K、MATH 达到领先水平 |
| 训练策略 | 知识蒸馏 + 指令微调 + 强化学习 |
DeepSeek 数学方向的入门论文。重点理解三阶段训练策略的设计动机和实现细节。