← 首页 | 导读 | 详细解读

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-R1:通过强化学习激励大语言模型的推理能力

📄 arXiv: 2501.12948📅 2025-01-22英文 PDF中文 PDF
翻译进度 53 / 53 段 (100%)

中文摘要

DeepSeek-R1 推理模型通过强化学习(RL)激励 LLM 的推理能力,在数学、代码和科学领域表现突出。该论文提出了一种全新的训练范式——先通过监督微调获得基础推理能力,再通过强化学习大幅强化推理深度和广度。R1 在 AIME、MATH、GPQA 等基准测试中达到或超越 GPT-4o 和 Claude 的性能,标志着开源推理模型的重要里程碑。

阅读模式

左侧英文原版 · 右侧中文 PDF(A4 双栏排版)· 可分别滚动对照

English Original
中文翻译 PDF
← 返回首页详细解读