DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-R1：通过强化学习激励大语言模型的推理能力

📅 2025-01-22👤 DeepSeek Team📄 arXiv: 2501.12948📊 中等

推理强化学习思维链数学代码

中文摘要

DeepSeek-R1 推理模型通过强化学习（RL）激励 LLM 的推理能力，在数学、代码和科学领域表现突出。该论文提出了一种全新的训练范式——先通过监督微调获得基础推理能力，再通过强化学习大幅强化推理深度和广度。R1 在 AIME、MATH、GPQA 等基准测试中达到或超越 GPT-4o 和 Claude 的性能，标志着开源推理模型的重要里程碑。

DeepSeek-R1 incentivizes reasoning capability in LLMs via reinforcement learning, performing outstandingly in math, code, and science domains. Achieves or surpasses GPT-4o and Claude on AIME, MATH, GPQA benchmarks.

快速链接

PDF 下载 arXiv 原文 GitHub 查看翻译 (96%)

核心贡献

通过强化学习（RL）激励 LLM 的推理能力，在数学、代码和科学领域表现突出
提出全新训练范式：先通过监督微调获得基础推理能力，再通过强化学习大幅强化
在 AIME、MATH、GPQA 等基准测试中达到或超越 GPT-4o 和 Claude 的性能
标志着开源推理模型的重要里程碑

技术细节

架构	强化学习驱动的推理模型
核心创新	监督微调 + 强化学习两阶段训练范式
基准成绩	AIME、MATH、GPQA 达到或超越 GPT-4o 和 Claude
推理能力	数学、代码、科学领域的深度推理

💡 阅读建议

重点理解强化学习如何激励推理能力。这是 DeepSeek 系列中最具影响力的论文之一。