← 返回首页 | 导读

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-R1:通过强化学习激励大语言模型的推理能力

📅 2025-01-22👤 DeepSeek Team📄 arXiv: 2501.12948📊 中等
推理强化学习思维链数学代码

中文摘要

DeepSeek-R1 推理模型通过强化学习(RL)激励 LLM 的推理能力,在数学、代码和科学领域表现突出。该论文提出了一种全新的训练范式——先通过监督微调获得基础推理能力,再通过强化学习大幅强化推理深度和广度。R1 在 AIME、MATH、GPQA 等基准测试中达到或超越 GPT-4o 和 Claude 的性能,标志着开源推理模型的重要里程碑。

DeepSeek-R1 incentivizes reasoning capability in LLMs via reinforcement learning, performing outstandingly in math, code, and science domains. Achieves or surpasses GPT-4o and Claude on AIME, MATH, GPQA benchmarks.

快速链接

核心贡献

技术细节

架构强化学习驱动的推理模型
核心创新监督微调 + 强化学习两阶段训练范式
基准成绩AIME、MATH、GPQA 达到或超越 GPT-4o 和 Claude
推理能力数学、代码、科学领域的深度推理

💡 阅读建议

重点理解强化学习如何激励推理能力。这是 DeepSeek 系列中最具影响力的论文之一。

相关论文

← 返回首页查看翻译 (96%)