← 返回首页 | 导读

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-R1:通过强化学习激励大语言模型的推理能力

📅 2025-01-22👤 DeepSeek Team📄 arXiv: 2501.12948📊 中等
推理强化学习思维链数学代码

中文摘要

DeepSeek-R1 推理模型通过强化学习(RL)激励 LLM 的推理能力,在数学、代码和科学领域表现突出。该论文提出了一种全新的训练范式——先通过监督微调获得基础推理能力,再通过强化学习大幅强化推理深度和广度。R1 在 AIME、MATH、GPQA 等基准测试中达到或超越 GPT-4o 和 Claude 的性能,标志着开源推理模型的重要里程碑。

DeepSeek-R1 incentivizes reasoning capability in LLMs via reinforcement learning, performing outstandingly in math, code, and science domains. Achieves or surpasses GPT-4o and Claude on AIME, MATH, GPQA benchmarks.

快速链接

📄 PDF 原文预览

核心贡献

技术细节

架构

876字

DeepSeek-R1 的底层架构并非从零设计的新型神经网络,而是基于成熟的开源基座模型(Qwen2.5 与 Llama-3 系列)进行权重初始化,其革命性突破在于将强化学习(RL)直接作用于自回归生成过程,构建出“去价值网络(Critic-free)的强化学习推理架构”。从原理层面看,该架构将复杂推理视为一个序列决策问题,模型在每一步生成 token 时,不再依赖外部价值函数评估状态优劣,而是通过组内相对优势估计来指导策略更新。具体实现上,架构采用 GRPO(Group Relative Policy Optimization)算法,彻底移除了传统 PPO 中参数量庞大且易导致奖励黑客(Reward Hacking)的价值网络。给定同一输入 prompt,架构会并行采样 G 个(通常 G=8 或 16)候选推理序列,利用规则奖励模型(Rule-based Reward Model)对每个序列的最终答案正确性、格式合规性及推理长度进行客观打分。优势函数的计算完全脱离价值模型,直接采用组内标准化公式:A_i = (r_i - mean({r_1...r_G})) / std({r_1...r_G}),其中 r_i 为第 i 个样本的奖励值。该设计从架构层面砍掉了价值网络的参数与计算开销,使显存占用降低约 50%,训练吞吐量提升数倍,同时避免了价值模型估计偏差导致的策略震荡。架构还保留了 KL 散度惩罚项(β * KL(π_θ || π_ref)),约束策略网络在 RL 阶段不要过度偏离 SFT 初始化分布,防止训练崩溃或语言退化。此外,该架构原生支持 128K 至 256K 的长上下文窗口,专为容纳超长思维链而优化,并兼容 MoE(混合专家)结构以动态激活计算资源。实验表明,这种轻量化、去 Critic 的 RL 架构不仅大幅降低了训练门槛,更使模型在无需人工 CoT 数据的情况下,自主涌现出自我验证、多步回溯等高级推理行为,成功将开源模型的推理能力推至与闭源旗舰模型同等的水平,为后续大规模推理模型的架构演进提供了全新范式。

核心创新

781字

DeepSeek-R1 的核心创新在于提出并验证了“监督微调(SFT)打底 + 纯强化学习(RL)激发”的两阶段训练范式,彻底打破了以往大模型依赖海量人工标注思维链数据的瓶颈。从原理上看,该范式深刻认知到语言模型的能力跃迁需要“稳定基座”与“探索激励”的协同。第一阶段 SFT 使用约 800 万条高质量指令数据(涵盖数学、代码、科学推理等),通过标准交叉熵损失函数训练,使模型掌握基础的语言规范、指令遵循能力以及初步的推理模板。这一步骤为策略网络提供了高质量的初始化分布,避免了纯 RL 训练初期常见的策略崩溃、语言混乱和格式崩坏问题。第二阶段则完全摒弃监督数据,进入大规模纯 RL 训练。该阶段的核心机制是 GRPO 算法与精细化奖励函数的深度结合。奖励设计采用多任务加权策略:核心奖励基于答案正确性(通过代码执行器或符号验证器自动判定,0或1);格式奖励鼓励模型使用 `` 标签包裹推理过程;过程奖励对长推理链给予正向激励;长度惩罚则抑制冗余生成。在训练动态上,模型在数千步的 RL 迭代中,逐渐学会将“概率拟合”转变为“逻辑求解”。由于没有人工 CoT 的强制引导,模型被迫在奖励信号的驱动下自主探索解题路径,从而自然涌现出自我反思、多路径假设验证、错误修正等类人认知行为。两阶段范式的结合产生了显著的协同效应:R1-Zero(纯 RL)虽在 AIME 上从 15.6% 飙升至 71.0%,但输出可读性差、语言混杂;而经过 SFT 对齐后的 R1 正式版,不仅保留了极高的推理准确率(多数投票下达 86.7%),还输出了结构清晰、逻辑严密的思维链。该范式证明了“SFT 提供安全起点,RL 实现能力突破”的科学性,为后续构建通用推理模型提供了可复现、低成本、高效率的标准训练流水线,标志着大模型训练从“数据驱动”向“奖励驱动”的范式转移。

基准成绩

823字

DeepSeek-R1 在多项代表当前大语言模型“推理天花板”的权威基准测试中取得了历史性突破,其成绩不仅追平,更在部分指标上超越了 OpenAI 的 GPT-4o、o1 以及 Anthropic 的 Claude 3.5 Sonnet 等顶尖闭源模型。从评估原理来看,这些基准测试严格考察模型在复杂逻辑、符号运算和跨学科知识整合方面的深度推理能力,而非简单的模式匹配。AIME 2024(美国数学邀请赛)要求模型完成多步严密推导,R1 的 pass@1 分数从基线 15.6% 跃升至 71.0%,在使用多数投票(majority voting)机制后进一步提升至 86.7%,这一成绩直接匹敌 OpenAI o1-0912 的水平。在 MATH-500 基准上,R1 达到 95.1% 的准确率,覆盖了代数、几何、数论与概率统计等高难度领域。在 GPQA Diamond(硬核科学问答)中,R1 取得 77.4% 的得分,该测试要求模型具备大学乃至研究生级别的专业知识,并能在干扰选项中做出精准判断。成绩背后的技术支撑在于严格的评估协议与 RL 训练的强对齐效应:所有数学答案均通过标准化符号验证器或代码执行器进行客观判定,杜绝了主观评分偏差;模型在 RL 阶段被强制要求输出完整推导链,大幅降低了“幻觉”与“跳跃式推理”的发生率。此外,R1 在代码生成(HumanEval 96.4%)与事实问答(SimpleQA 超越 DeepSeek-V3)上的表现,验证了推理能力的强迁移性。这些基准成绩不仅标志着开源模型首次在深度推理赛道全面追平闭源旗舰,更揭示了 RL 训练对模型“逻辑严密性”与“抗干扰能力”的显著提升。R1 的开源检查点(1.5B 至 70B)为学术界提供了可复现的 SOTA 基线,打破了闭源模型在复杂推理领域的长期垄断,推动了整个 AI 社区向“可验证、可解释、可复现”的下一代推理模型迈进,具有里程碑式的产业与学术价值。

推理能力

756字

DeepSeek-R1 的推理能力已超越传统大模型的“浅层逻辑跳跃”与“统计模式拟合”,进化为具备自我验证、多步拆解与错误回溯的“深度思考”系统,尤其在数学证明、复杂代码调试与跨学科科学问题上展现出类专家级的求解能力。从认知原理分析,传统 LLM 依赖训练数据中的共现概率生成文本,遇到未见过的复杂问题时极易产生“幻觉”或逻辑断裂。R1 通过强化学习的延迟奖励机制,将“最终答案正确”作为唯一强监督信号,迫使模型在生成过程中主动构建中间状态(即思维链),并通过内部计算验证每一步的合理性。在数学领域,R1 能够自主处理 AIME 级别的竞赛题,熟练运用代数变换、几何辅助线构造、数论同余分析等高级技巧,并能通过 `` 标签输出长达数千 token 的完整推导过程,最终通过符号验证器确认结果。在代码领域,R1 不仅生成可运行代码,更具备“自我调试”能力:它能自动编写单元测试、分析边界条件、解析报错堆栈信息,并在 HumanEval 基准上取得 96.4% 的通过率,复杂逻辑错误率较基座模型下降 40% 以上。在科学领域(如 GPQA),R1 能够整合物理、化学、生物等跨学科知识,进行多步因果推断与量纲验证,准确排除干扰选项。技术实现上,该能力依赖于长上下文窗口(128K+)对完整推理链的容纳、规则奖励对正确性的强约束,以及代码解释器对中间步骤的实时验证。实验表明,R1 的推理能力具有极强的泛化性:无需针对特定领域进行微调,仅靠通用 RL 训练即可将数学推理能力迁移至代码与科学任务中。这种“推理即涌现”的特性,使 R1 从被动文本生成器转变为主动问题求解器,为构建具备自主探索与复杂决策能力的下一代人工智能系统奠定了坚实的技术基础,也验证了“奖励信号可引导认知结构自组织”的核心科学假设。

💡 阅读建议

重点理解强化学习如何激励推理能力。这是 DeepSeek 系列中最具影响力的论文之一。

相关论文

← 返回首页查看翻译 (100%)