DeepSeek 开源语言模型家族的技术报告,包括 7B/1.3B 模型,采用多阶段训练策略,在多项基准测试中表现优异。这是 DeepSeek 首次大规模开源语言模型,采用 Long-termism(长期主义)的训练哲学,通过大量高质量数据的精心筛选和多阶段训练,实现了与同类闭源模型相当的性能。该系列模型的开源推动了全
DeepSeekMoE 混合专家语言模型,采用多路由辅助专家机制,实现专家间的极致专业化分工。通过创新的路由算法,确保每个输入都能被分配给最合适的专家处理,同时避免负载不均。DeepSeekMoE 在保持 16B 激活参数的前提下,拥有高达 16x 的总参数量,实现了性能与效率的完美平衡。
DeepSeek-Coder 代码模型在 HumanEval 和 MBPP 等编程基准上超越同期开源模型。该模型采用大规模代码数据预训练,支持代码补全、代码生成、代码翻译、代码解释等多种编程任务。在多项代码智能 benchmark 上达到当时开源模型的最佳水平。
DeepSeek-Math 通过多阶段数学强化学习显著提升数学推理能力。采用知识蒸馏、指令微调和强化学习三阶段训练策略,在 GSM8K、MATH 等数学基准测试上达到领先水平。该模型证明开源模型在数学推理领域可以达到与闭源模型相当的性能。
DeepSeek-VL 视觉语言模型实现了真实世界的视觉语言理解能力,包括文档理解、图像理解和细粒度定位。采用创新的视觉编码器架构和高效的交叉注意力机制,能够在低计算成本下处理高分辨率图像。支持多轮视觉对话、文档级 OCR、目标检测等多种任务。
DeepSeek-V2 采用大规模 MoE 架构,包含 236B 总参数但仅激活 21B,结合 Multi-token Prediction 和 DeepSeekMoE 架构创新,实现推理速度更快、成本更低。辅助路由机制(Auxiliary Loss Routing)有效缓解了 MoE 中的专家负载不均问题。Multi
DeepSeek-Coder-V2 采用 236B MoE 架构,在代码智能领域打破了闭源模型的壁垒。该模型在 HumanEval、MBPP 等编程基准上达到领先水平,支持代码补全、代码生成、代码修复、代码解释等多种编程任务。训练数据涵盖超过 8 万亿 token 的代码和自然语言语料。
ESFT 为 MoE 模型设计了一种高效的专家专门微调策略。该方法针对 MoE 架构中专家专业化分工的特点,提出了一种能够精确控制微调过程中专家行为的方法,避免了对非相关专家的干扰。在保持 MoE 模型大规模参数的同时,实现了高效、精准的任务适配。
DeepSeek-Prover-V1.5 利用证明助手(Lean 4)的反馈信号进行强化学习和蒙特卡洛树搜索(MCTS),在形式化数学证明任务上取得重大突破。该模型能够自动探索证明策略空间,通过反馈信号不断优化证明路径。在 ProofNet 和 MinF2F 等基准上达到领先水平。
Janus 是统一的视觉理解与生成模型,通过解耦视觉编码实现高效的图文双向生成。该模型打破了理解与生成之间的壁垒,在一个统一的架构中同时实现图像理解和图像生成。采用创新的解码器设计,在保持理解能力的同时具备强大的生成能力。
Janus-Pro 是 Janus 的改进版本,在速度和性能上进一步提升多模态生成能力。采用优化的高效自回归生成架构,实现更快的图像生成速度和更高的图像质量。在图文生成、对话式图像编辑、视觉创意等任务上展现出强大的能力。
DeepSeek-VL2 首次将 MoE(混合专家)架构应用于视觉语言模型,支持超高分辨率图像理解和复杂视觉推理。采用创新的视觉 token 压缩技术和动态专家路由机制,在保持高性能的同时大幅降低计算成本。在文档理解、图表分析、科学图表理解等任务上显著超越前人工作。
DeepSeek-V3 采用 Multi-Token Prediction(多Token预测)、DeepSeekMoE 混合专家架构和 Hybrid Attention(混合注意力)等技术创新,在多项基准上达到 SOTA 水平。Multi-Token Prediction 通过同时预测多个 token 大幅提升训练和推
DeepSeek-R1 推理模型通过强化学习(RL)激励 LLM 的推理能力,在数学、代码和科学领域表现突出。该论文提出了一种全新的训练范式——先通过监督微调获得基础推理能力,再通过强化学习大幅强化推理深度和广度。R1 在 AIME、MATH、GPQA 等基准测试中达到或超越 GPT-4o 和 Claude 的性能,标
ISCA 2025 论文。深入分析 DeepSeek-V3 在大规模扩展过程中遇到的技术挑战,对 AI 硬件架构进行深刻反思。论文详细讨论了 MoE 架构在硬件层面的实现难点、通信瓶颈、内存墙问题等,并提出了针对性的解决方案。为 AI 硬件设计者提供了宝贵的实践经验和技术参考。
DeepSeek-OCR 采用光学上下文压缩技术,通过 2D 光学映射实现高效的文档压缩和 OCR 识别。该模型能够在保持语义完整性的前提下大幅压缩文档图像信息,实现超高速的文档分析和文本提取。在扫描文档、合同、论文等场景下表现出优异的识别准确率和速度。
DeepSeek-V3.2 引入 DeepSeek Sparse Attention(DSA)稀疏注意力机制和大规模强化学习框架,在推理和 Agent 能力上实现大幅超越。DSA 通过动态选择关键 token 进行注意力计算,在保持精度的同时显著降低计算复杂度。结合改进的 MoE 路由策略,V3.2 在多项基准测试中刷
DeepSeek-OCR-2 引入视觉因果流(Visual Causal Flow)概念,通过 DeepEncoder V2 动态重排序视觉 token,探索 2D 图像理解的新范式。相比传统 OCR 方法,该模型能够捕捉图像中元素之间的因果关系,实现更准确的文本识别和场景理解。在文档分析、表格识别、手写体识别等任务上
DeepSeek-Math-V2 通过自验证数学推理框架,在 IMO 2025 和 CMO 2024 数学竞赛中达到金牌水平。引入验证器训练和推理扩展技术,实现严谨的数学证明能力。模型能够通过自我验证机制检测和修正推理过程中的错误,大幅提升数学解题的准确性和可靠性。在多项国际数学竞赛基准测试中表现出超越人类的性能。
DeepSeek-Prover-V2 在 Lean 4 形式化定理证明上达到当前最高水平(SOTA),通过强化学习和子目标分解策略在 MinF2F 测试集达到 88.9% 的 pass ratio。模型能够将复杂的数学证明任务分解为可管理的子目标,逐步构建严密的证明链条。这一突破标志着 AI 在形式化数学证明领域的重要
DeepSeek-V4 支持百万级 token 上下文窗口,采用 Hybrid Attention 混合注意力架构,具备世界顶级推理性能。相比前代模型,Agent 能力大幅提高,支持更长上下文理解和更复杂的任务规划。模型已在网页端、APP 和 API 全面上线。V4 在推理效率上实现突破性优化,通过创新的注意力机制和上
近期多模态大语言模型(MLLMs)在缩小'感知鸿沟'方面取得了进展,但在复杂的结构推理任务上仍然表现不佳。本研究发现核心瓶颈在于'指代鸿沟(Reference Gap)'——自然语言过于模糊,无法精确指向密集的空间布局,导致推理过程中出现逻辑崩溃和幻觉。本项目提出了一种范式转变:模型不再只是'看得更清楚',而是学会'边
| 论文 | 进度 | 段落 | 操作 |
|---|---|---|---|
| Thinking-with-Visual-Primitives | 100% | 1 / 1 | 查看译文 |
| DeepSeek-V4 | 100% | 1 / 1 | 查看译文 |
| DeepSeek-Math-V2 | 100% | 1 / 1 | 查看译文 |
| DeepSeek-Prover-V2 | 100% | 1 / 1 | 查看译文 |
| DeepSeek-OCR-2 | 2% | 1 / 44 | 查看译文 |
| DeepSeek-V3.2 | 9% | 6 / 65 | 查看译文 |
| DeepSeek-OCR | 15% | 7 / 46 | 查看译文 |
| DeepSeek-V3-Hardware | 1% | 1 / 84 | 查看译文 |
| DeepSeek-R1 | 96% | 53 / 55 | 查看译文 |
| DeepSeek-V3 | 88% | 109 / 123 | 查看译文 |
| DeepSeek-VL2 | 12% | 6 / 47 | 查看译文 |
| Janus-Pro | 6% | 4 / 59 | 查看译文 |
| Janus | 12% | 7 / 55 | 查看译文 |
| DeepSeek-Prover-V1.5 | 10% | 9 / 84 | 查看译文 |
| ESFT | 1% | 1 / 54 | 查看译文 |
| DeepSeek-Coder-V2 | 12% | 7 / 54 | 查看译文 |
| DeepSeek-V2 | 79% | 74 / 93 | 查看译文 |
| DeepSeek-VL | 25% | 16 / 62 | 查看译文 |
| DeepSeek-Math | 49% | 40 / 81 | 查看译文 |
| DeepSeek-Coder | 20% | 13 / 62 | 查看译文 |
| DeepSeek-MoE | 46% | 38 / 81 | 查看译文 |
| DeepSeek-LLM | 85% | 69 / 81 | 查看译文 |
DeepSeek-LLM → DeepSeek-V2 → DeepSeek-V3 → DeepSeek-V3.2 → DeepSeek-V4
DeepSeek-R1 (基于强化学习的推理模型,对标 OpenAI o1)
DeepSeek-Math → DeepSeek-Math-V2 (自验证数学推理)
DeepSeek-Coder → DeepSeek-Coder-V2 (代码生成与理解)
DeepSeek-VL → DeepSeek-VL2 (视觉语言模型), Janus / Janus-Pro (统一生成模型)
Thinking with Visual Primitives (边指边思考新范式)
DeepSeek-OCR → DeepSeek-OCR-2 (文档理解与文字识别)
DeepSeek-Prover-V1.5 → DeepSeek-Prover-V2 (Lean 4 定理证明)
DeepSeek-V3-Hardware (硬件实现分析) → ESFT (高效微调方法)
DeepSeek-MoE (混合专家系统)
入门路径:先读 DeepSeek-LLM(基础架构)→ DeepSeek-MoE(MoE设计)→ DeepSeek-V3(旗舰架构)
推理方向:DeepSeek-R1 → DeepSeek-Math(推理能力专项)
多模态方向:DeepSeek-VL → Janus → DeepSeek-VL2
工程实践:DeepSeek-V3-Hardware(硬件实现分析)→ ESFT(高效微调方法)
除 DeepSeek 外,我们还收录了以下厂商的核心论文:
| 厂商 | 论文数 | 代表论文 | 链接 |
|---|---|---|---|
| OpenAI | 3篇 | 学习使用大语言模型进行推理 | 查看 |
| Anthropic | 1篇 | 宪法AI:从AI反馈实现无害性 | 查看 |
| Meta | 3篇 | LLaMA 3 模型家族 | 查看 |
| Mistral | 2篇 | Mixtral:混合专家模型 | 查看 |