深度求索 DeepSeek 官方发布的全部技术论文 — PDF 在线阅读与下载
📌 用视觉原语进行推理
近期多模态大语言模型(MLLMs)在缩小'感知鸿沟'方面取得了进展,但在复杂的结构推理任务上仍然表现不佳。本研究发现核心瓶颈在于'指代鸿沟(Reference Gap)'——自然语言过于模糊,无法精确指向密集的空间布局,导致推理过程中出现逻辑崩溃和幻觉。本项目提出了一种范式转变:模型不再只是'看得更清楚',而是学会'边指边思考'。通过将空间标记(点和边界框)直接嵌入推理轨迹作为最小思维单位,模型能够将抽象的语言概念锚定到具体的物理坐标上。该方法基于 DeepSeek-V4-Flash 架构,实现了极致的视觉 token 效率,在计数和空间推理基准上匹敌 GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash 等前沿模型。
While recent Multimodal Large Language Models (MLLMs) have made strides in bridging the 'Perception Gap', they still struggle with complex structural reasoning. This project identifies the 'Reference Gap': natural language is too ambiguous to precisely point to dense spatial layouts. The model learns to 'point while it reasons' by interleaving spatial markers (points and bounding boxes) directly into the reasoning trajectory as minimal units of thought.
📌 DeepSeek-V4:迈向高效百万Token上下文智能
DeepSeek-V4 支持百万级 token 上下文窗口,采用 Hybrid Attention 混合注意力架构,具备世界顶级推理性能。相比前代模型,Agent 能力大幅提高,支持更长上下文理解和更复杂的任务规划。模型已在网页端、APP 和 API 全面上线。V4 在推理效率上实现突破性优化,通过创新的注意力机制和上下文管理技术,在保持高性能的同时大幅降低计算成本。
DeepSeek-V4 supports million-token context window with Hybrid Attention architecture, delivering world-class reasoning performance. Agent capabilities are significantly improved, with longer context understanding and more complex task planning.
📌 DeepSeek-Math-V2:迈向自验证数学推理
DeepSeek-Math-V2 通过自验证数学推理框架,在 IMO 2025 和 CMO 2024 数学竞赛中达到金牌水平。引入验证器训练和推理扩展技术,实现严谨的数学证明能力。模型能够通过自我验证机制检测和修正推理过程中的错误,大幅提升数学解题的准确性和可靠性。在多项国际数学竞赛基准测试中表现出超越人类的性能。
DeepSeek-Math-V2 achieves gold-medal level performance in IMO 2025 and CMO 2024 through self-verifiable mathematical reasoning. Introduces verifier training and reasoning extension for rigorous mathematical proof capabilities.
📌 DeepSeek-Prover-V2:通过强化学习子目标分解推进形式化数学推理
DeepSeek-Prover-V2 在 Lean 4 形式化定理证明上达到当前最高水平(SOTA),通过强化学习和子目标分解策略在 MinF2F 测试集达到 88.9% 的 pass ratio。模型能够将复杂的数学证明任务分解为可管理的子目标,逐步构建严密的证明链条。这一突破标志着 AI 在形式化数学证明领域的重要进展。
DeepSeek-Prover-V2 achieves SOTA in Lean 4 formal theorem proving, reaching 88.9% pass ratio on MinF2F test set through reinforcement learning and subgoal decomposition strategy.
📌 DeepSeek-OCR 2:视觉因果流
DeepSeek-OCR-2 引入视觉因果流(Visual Causal Flow)概念,通过 DeepEncoder V2 动态重排序视觉 token,探索 2D 图像理解的新范式。相比传统 OCR 方法,该模型能够捕捉图像中元素之间的因果关系,实现更准确的文本识别和场景理解。在文档分析、表格识别、手写体识别等任务上显著超越现有技术。
DeepSeek-OCR-2 introduces Visual Causal Flow, dynamically reordering visual tokens through DeepEncoder V2 to explore new paradigms in 2D image understanding.
📌 DeepSeek-V3.2:拓展开源大语言模型前沿
DeepSeek-V3.2 引入 DeepSeek Sparse Attention(DSA)稀疏注意力机制和大规模强化学习框架,在推理和 Agent 能力上实现大幅超越。DSA 通过动态选择关键 token 进行注意力计算,在保持精度的同时显著降低计算复杂度。结合改进的 MoE 路由策略,V3.2 在多项基准测试中刷新开源模型记录。
DeepSeek-V3.2 introduces DeepSeek Sparse Attention (DSA) and large-scale reinforcement learning framework, achieving significant improvements in reasoning and agent capabilities.
📌 DeepSeek-OCR:上下文光学压缩
DeepSeek-OCR 采用光学上下文压缩技术,通过 2D 光学映射实现高效的文档压缩和 OCR 识别。该模型能够在保持语义完整性的前提下大幅压缩文档图像信息,实现超高速的文档分析和文本提取。在扫描文档、合同、论文等场景下表现出优异的识别准确率和速度。
DeepSeek-OCR uses Contexts Optical Compression technology, achieving efficient document compression and OCR through 2D optical mapping.
📌 DeepSeek-V3 洞察:AI 架构扩展挑战与硬件反思
ISCA 2025 论文。深入分析 DeepSeek-V3 在大规模扩展过程中遇到的技术挑战,对 AI 硬件架构进行深刻反思。论文详细讨论了 MoE 架构在硬件层面的实现难点、通信瓶颈、内存墙问题等,并提出了针对性的解决方案。为 AI 硬件设计者提供了宝贵的实践经验和技术参考。
ISCA 2025 paper. Deep analysis of scaling challenges in DeepSeek-V3 with reflections on AI hardware architecture, discussing MoE implementation challenges, communication bottlenecks, and memory wall problems.
📌 DeepSeek-R1:通过强化学习激励大语言模型的推理能力
DeepSeek-R1 推理模型通过强化学习(RL)激励 LLM 的推理能力,在数学、代码和科学领域表现突出。该论文提出了一种全新的训练范式——先通过监督微调获得基础推理能力,再通过强化学习大幅强化推理深度和广度。R1 在 AIME、MATH、GPQA 等基准测试中达到或超越 GPT-4o 和 Claude 的性能,标志着开源推理模型的重要里程碑。
DeepSeek-R1 incentivizes reasoning capability in LLMs via reinforcement learning, performing outstandingly in math, code, and science domains. Achieves or surpasses GPT-4o and Claude on AIME, MATH, GPQA benchmarks.
📌 DeepSeek-V3:混合注意力与多Token预测
DeepSeek-V3 采用 Multi-Token Prediction(多Token预测)、DeepSeekMoE 混合专家架构和 Hybrid Attention(混合注意力)等技术创新,在多项基准上达到 SOTA 水平。Multi-Token Prediction 通过同时预测多个 token 大幅提升训练和推理效率。DeepSeekMoE 采用多路由辅助专家机制,实现专家间的极致专业化分工。混合注意力机制结合了分组查询注意力和多查询注意力,在性能和效率之间取得最佳平衡。
DeepSeek-V3 uses Multi-Token Prediction, DeepSeekMoE, and Hybrid Attention for SOTA performance across multiple benchmarks. Multi-Token Prediction dramatically improves training and inference efficiency.
📌 DeepSeek-VL2:基于混合专家架构的先进多模态视觉语言模型
DeepSeek-VL2 首次将 MoE(混合专家)架构应用于视觉语言模型,支持超高分辨率图像理解和复杂视觉推理。采用创新的视觉 token 压缩技术和动态专家路由机制,在保持高性能的同时大幅降低计算成本。在文档理解、图表分析、科学图表理解等任务上显著超越前人工作。
DeepSeek-VL2 applies MoE architecture to vision-language models for the first time, supporting ultra-high resolution image understanding and complex visual reasoning.
📌 Janus-Pro:快速强大的多模态生成模型
Janus-Pro 是 Janus 的改进版本,在速度和性能上进一步提升多模态生成能力。采用优化的高效自回归生成架构,实现更快的图像生成速度和更高的图像质量。在图文生成、对话式图像编辑、视觉创意等任务上展现出强大的能力。
Janus-Pro improves upon Janus with faster and stronger multimodal generation capabilities through an optimized autoregressive generation architecture.
📌 Janus:解耦视觉编码实现统一多模态理解与生成
Janus 是统一的视觉理解与生成模型,通过解耦视觉编码实现高效的图文双向生成。该模型打破了理解与生成之间的壁垒,在一个统一的架构中同时实现图像理解和图像生成。采用创新的解码器设计,在保持理解能力的同时具备强大的生成能力。
Janus is a unified vision understanding and generation model that decouples visual encoding for efficient bidirectional image-text generation.
📌 DeepSeek-Prover-V1.5:利用证明助手反馈进行强化学习与蒙特卡洛树搜索
DeepSeek-Prover-V1.5 利用证明助手(Lean 4)的反馈信号进行强化学习和蒙特卡洛树搜索(MCTS),在形式化数学证明任务上取得重大突破。该模型能够自动探索证明策略空间,通过反馈信号不断优化证明路径。在 ProofNet 和 MinF2F 等基准上达到领先水平。
DeepSeek-Prover-V1.5 harnesses proof assistant feedback for RL and MCTS, achieving breakthroughs in formal mathematical theorem proving.
📌 ESFT:混合专家模型的专家专门微调方法
ESFT 为 MoE 模型设计了一种高效的专家专门微调策略。该方法针对 MoE 架构中专家专业化分工的特点,提出了一种能够精确控制微调过程中专家行为的方法,避免了对非相关专家的干扰。在保持 MoE 模型大规模参数的同时,实现了高效、精准的任务适配。
ESFT designs an efficient expert-specialized fine-tuning strategy for MoE models, precisely controlling expert behavior during fine-tuning.
📌 DeepSeek-Coder-V2:打破闭源模型在代码智能领域的壁垒
DeepSeek-Coder-V2 采用 236B MoE 架构,在代码智能领域打破了闭源模型的壁垒。该模型在 HumanEval、MBPP 等编程基准上达到领先水平,支持代码补全、代码生成、代码修复、代码解释等多种编程任务。训练数据涵盖超过 8 万亿 token 的代码和自然语言语料。
DeepSeek-Coder-V2 uses a 236B MoE architecture, breaking barriers of closed-source models in code intelligence with state-of-the-art performance on HumanEval and MBPP.
📌 DeepSeek-V2:强大、经济、高效的混合专家语言模型
DeepSeek-V2 采用大规模 MoE 架构,包含 236B 总参数但仅激活 21B,结合 Multi-token Prediction 和 DeepSeekMoE 架构创新,实现推理速度更快、成本更低。辅助路由机制(Auxiliary Loss Routing)有效缓解了 MoE 中的专家负载不均问题。Multi-token Prediction 通过预测未来多个 token 加速训练过程。
DeepSeek-V2 uses a large-scale MoE architecture with 236B total parameters but only 21B activated, combining Multi-token Prediction and DeepSeekMoE innovations for faster, cheaper inference.
📌 DeepSeek-VL:迈向真实世界的视觉语言理解
DeepSeek-VL 视觉语言模型实现了真实世界的视觉语言理解能力,包括文档理解、图像理解和细粒度定位。采用创新的视觉编码器架构和高效的交叉注意力机制,能够在低计算成本下处理高分辨率图像。支持多轮视觉对话、文档级 OCR、目标检测等多种任务。
DeepSeek-VL achieves real-world vision-language understanding including document understanding, image understanding, and fine-grained localization with efficient cross-attention mechanisms.
📌 DeepSeek-Math:通过开源语言模型拓展数学推理前沿
DeepSeek-Math 通过多阶段数学强化学习显著提升数学推理能力。采用知识蒸馏、指令微调和强化学习三阶段训练策略,在 GSM8K、MATH 等数学基准测试上达到领先水平。该模型证明开源模型在数学推理领域可以达到与闭源模型相当的性能。
DeepSeek-Math significantly improves math reasoning through multi-stage mathematical reinforcement learning, achieving leading performance on GSM8K and MATH benchmarks.
📌 DeepSeek-Coder:让代码自我编写
DeepSeek-Coder 代码模型在 HumanEval 和 MBPP 等编程基准上超越同期开源模型。该模型采用大规模代码数据预训练,支持代码补全、代码生成、代码翻译、代码解释等多种编程任务。在多项代码智能 benchmark 上达到当时开源模型的最佳水平。
DeepSeek-Coder surpasses open-source models on HumanEval and MBPP benchmarks, supporting code completion, generation, translation, and explanation.
📌 DeepSeekMoE:混合专家语言模型的终极专家专业化
DeepSeekMoE 混合专家语言模型,采用多路由辅助专家机制,实现专家间的极致专业化分工。通过创新的路由算法,确保每个输入都能被分配给最合适的专家处理,同时避免负载不均。DeepSeekMoE 在保持 16B 激活参数的前提下,拥有高达 16x 的总参数量,实现了性能与效率的完美平衡。
DeepSeekMoE achieves ultimate expert specialization in MoE language models through multi-routing auxiliary expert mechanisms, balancing performance and efficiency.
📌 DeepSeek LLM:以长期主义拓展开源语言模型
DeepSeek 开源语言模型家族的技术报告,包括 7B/1.3B 模型,采用多阶段训练策略,在多项基准测试中表现优异。这是 DeepSeek 首次大规模开源语言模型,采用 Long-termism(长期主义)的训练哲学,通过大量高质量数据的精心筛选和多阶段训练,实现了与同类闭源模型相当的性能。该系列模型的开源推动了全球 AI 研究的快速发展。
DeepSeek LLM technical report covering 7B/1.3B models with multi-stage training strategy, achieving competitive performance across multiple benchmarks. First large-scale open-source language model from DeepSeek.