📅 2026-04-30👤 Ruijie Lu, Yiyang Ma, Xiaokang Chen, Lingxiao Luo,...
近期多模态大语言模型(MLLMs)在缩小'感知鸿沟'方面取得了进展,但在复杂的结构推理任务上仍然表现不佳。本研究发现核心瓶颈在于'指代鸿沟(Reference Gap)'——自然语言过于模糊,无法精确指向密集的空间布局,导致推理过程中出现逻辑崩溃和幻觉。本项目提出了一种范式转变:模型不再只是'看得更清楚',而是学会'边指边思考'。通过将空间标记(点和边界框)直接嵌入推理轨迹作为最小思维单位,模型能够将抽象的语言概念锚定到具体的物理坐标上。该方法基于 DeepSeek-V4-Flash 架构,实现了极致的视觉 token 效率,在计数和空间推理基准上匹敌 ...
视觉推理VLM多模态空间推理视觉原语
📅 2026-04-27👤 DeepSeek Team
DeepSeek-V4 支持百万级 token 上下文窗口,采用 Hybrid Attention 混合注意力架构,具备世界顶级推理性能。相比前代模型,Agent 能力大幅提高,支持更长上下文理解和更复杂的任务规划。模型已在网页端、APP 和 API 全面上线。V4 在推理效率上实现突破性优化,通过创新的注意力机制和上下文管理技术,在保持高性能的同时大幅降低计算成本。
基础模型混合注意力百万上下文Agent
📅 2026-02-15👤 DeepSeek Team
DeepSeek-Math-V2 通过自验证数学推理框架,在 IMO 2025 和 CMO 2024 数学竞赛中达到金牌水平。引入验证器训练和推理扩展技术,实现严谨的数学证明能力。模型能够通过自我验证机制检测和修正推理过程中的错误,大幅提升数学解题的准确性和可靠性。在多项国际数学竞赛基准测试中表现出超越人类的性能。
数学推理自验证竞赛数学形式化证明
📅 2026-02-15👤 DeepSeek Team
DeepSeek-Prover-V2 在 Lean 4 形式化定理证明上达到当前最高水平(SOTA),通过强化学习和子目标分解策略在 MinF2F 测试集达到 88.9% 的 pass ratio。模型能够将复杂的数学证明任务分解为可管理的子目标,逐步构建严密的证明链条。这一突破标志着 AI 在形式化数学证明领域的重要进展。
形式化证明定理证明Lean 4子目标分解
📅 2026-01-28👤 DeepSeek TeamarXiv: 2601.20552
DeepSeek-OCR-2 引入视觉因果流(Visual Causal Flow)概念,通过 DeepEncoder V2 动态重排序视觉 token,探索 2D 图像理解的新范式。相比传统 OCR 方法,该模型能够捕捉图像中元素之间的因果关系,实现更准确的文本识别和场景理解。在文档分析、表格识别、手写体识别等任务上显著超越现有技术。
OCR视觉因果文档理解DeepEncoder
📅 2025-12-02👤 DeepSeek TeamarXiv: 2512.02556
DeepSeek-V3.2 引入 DeepSeek Sparse Attention(DSA)稀疏注意力机制和大规模强化学习框架,在推理和 Agent 能力上实现大幅超越。DSA 通过动态选择关键 token 进行注意力计算,在保持精度的同时显著降低计算复杂度。结合改进的 MoE 路由策略,V3.2 在多项基准测试中刷新开源模型记录。
稀疏注意力强化学习MoE基础模型
📅 2025-10-22👤 DeepSeek TeamarXiv: 2510.18234
DeepSeek-OCR 采用光学上下文压缩技术,通过 2D 光学映射实现高效的文档压缩和 OCR 识别。该模型能够在保持语义完整性的前提下大幅压缩文档图像信息,实现超高速的文档分析和文本提取。在扫描文档、合同、论文等场景下表现出优异的识别准确率和速度。
OCR文档压缩光学映射文档理解
📅 2025-05-14👤 DeepSeek TeamarXiv: 2505.09343
ISCA 2025 论文。深入分析 DeepSeek-V3 在大规模扩展过程中遇到的技术挑战,对 AI 硬件架构进行深刻反思。论文详细讨论了 MoE 架构在硬件层面的实现难点、通信瓶颈、内存墙问题等,并提出了针对性的解决方案。为 AI 硬件设计者提供了宝贵的实践经验和技术参考。
硬件架构MoE扩展挑战ISCA 2025
📅 2025-01-22👤 DeepSeek TeamarXiv: 2501.12948
DeepSeek-R1 推理模型通过强化学习(RL)激励 LLM 的推理能力,在数学、代码和科学领域表现突出。该论文提出了一种全新的训练范式——先通过监督微调获得基础推理能力,再通过强化学习大幅强化推理深度和广度。R1 在 AIME、MATH、GPQA 等基准测试中达到或超越 GPT-4o 和 Claude 的性能,标志着开源推理模型的重要里程碑。
推理强化学习思维链数学代码
📅 2024-12-27👤 DeepSeek TeamarXiv: 2412.19437
DeepSeek-V3 采用 Multi-Token Prediction(多Token预测)、DeepSeekMoE 混合专家架构和 Hybrid Attention(混合注意力)等技术创新,在多项基准上达到 SOTA 水平。Multi-Token Prediction 通过同时预测多个 token 大幅提升训练和推理效率。DeepSeekMoE 采用多路由辅助专家机制,实现专家间的极致专业化分工。混合注意力机制结合了分组查询注意力和多查询注意力,在性能和效率之间取得最佳平衡。
MoE混合注意力多Token预测基础模型
📅 2024-12-12👤 DeepSeek TeamarXiv: 2412.10302
DeepSeek-VL2 首次将 MoE(混合专家)架构应用于视觉语言模型,支持超高分辨率图像理解和复杂视觉推理。采用创新的视觉 token 压缩技术和动态专家路由机制,在保持高性能的同时大幅降低计算成本。在文档理解、图表分析、科学图表理解等任务上显著超越前人工作。
VLMMoE视觉语言多模态
📅 2024-11-12👤 DeepSeek TeamarXiv: 2411.07975
Janus-Pro 是 Janus 的改进版本,在速度和性能上进一步提升多模态生成能力。采用优化的高效自回归生成架构,实现更快的图像生成速度和更高的图像质量。在图文生成、对话式图像编辑、视觉创意等任务上展现出强大的能力。
图像生成多模态生成自回归
📅 2024-10-19👤 DeepSeek TeamarXiv: 2410.13848
Janus 是统一的视觉理解与生成模型,通过解耦视觉编码实现高效的图文双向生成。该模型打破了理解与生成之间的壁垒,在一个统一的架构中同时实现图像理解和图像生成。采用创新的解码器设计,在保持理解能力的同时具备强大的生成能力。
统一模型图像生成视觉理解图文双向
📅 2024-08-15👤 DeepSeek TeamarXiv: 2408.08152
DeepSeek-Prover-V1.5 利用证明助手(Lean 4)的反馈信号进行强化学习和蒙特卡洛树搜索(MCTS),在形式化数学证明任务上取得重大突破。该模型能够自动探索证明策略空间,通过反馈信号不断优化证明路径。在 ProofNet 和 MinF2F 等基准上达到领先水平。
定理证明MCTS强化学习Lean 4
📅 2024-07-02👤 DeepSeek TeamarXiv: 2407.01906
ESFT 为 MoE 模型设计了一种高效的专家专门微调策略。该方法针对 MoE 架构中专家专业化分工的特点,提出了一种能够精确控制微调过程中专家行为的方法,避免了对非相关专家的干扰。在保持 MoE 模型大规模参数的同时,实现了高效、精准的任务适配。
MoE微调专家路由高效微调
📅 2024-06-19👤 DeepSeek TeamarXiv: 2406.11931
DeepSeek-Coder-V2 采用 236B MoE 架构,在代码智能领域打破了闭源模型的壁垒。该模型在 HumanEval、MBPP 等编程基准上达到领先水平,支持代码补全、代码生成、代码修复、代码解释等多种编程任务。训练数据涵盖超过 8 万亿 token 的代码和自然语言语料。
代码生成MoE编程助手代码智能
📅 2024-05-07👤 DeepSeek TeamarXiv: 2405.04434
DeepSeek-V2 采用大规模 MoE 架构,包含 236B 总参数但仅激活 21B,结合 Multi-token Prediction 和 DeepSeekMoE 架构创新,实现推理速度更快、成本更低。辅助路由机制(Auxiliary Loss Routing)有效缓解了 MoE 中的专家负载不均问题。Multi-token Prediction 通过预测未来多个 token 加速训练过程。
MoE混合注意力多Token预测基础模型
📅 2024-03-08👤 DeepSeek TeamarXiv: 2403.05525
DeepSeek-VL 视觉语言模型实现了真实世界的视觉语言理解能力,包括文档理解、图像理解和细粒度定位。采用创新的视觉编码器架构和高效的交叉注意力机制,能够在低计算成本下处理高分辨率图像。支持多轮视觉对话、文档级 OCR、目标检测等多种任务。
VLM视觉语言文档理解细粒度定位
📅 2024-02-05👤 DeepSeek TeamarXiv: 2402.03300
DeepSeek-Math 通过多阶段数学强化学习显著提升数学推理能力。采用知识蒸馏、指令微调和强化学习三阶段训练策略,在 GSM8K、MATH 等数学基准测试上达到领先水平。该模型证明开源模型在数学推理领域可以达到与闭源模型相当的性能。
数学推理强化学习知识蒸馏
📅 2024-01-25👤 DeepSeek TeamarXiv: 2401.14196
DeepSeek-Coder 代码模型在 HumanEval 和 MBPP 等编程基准上超越同期开源模型。该模型采用大规模代码数据预训练,支持代码补全、代码生成、代码翻译、代码解释等多种编程任务。在多项代码智能 benchmark 上达到当时开源模型的最佳水平。
代码生成编程助手代码补全
📅 2024-01-10👤 DeepSeek TeamarXiv: 2401.06066
DeepSeekMoE 混合专家语言模型,采用多路由辅助专家机制,实现专家间的极致专业化分工。通过创新的路由算法,确保每个输入都能被分配给最合适的专家处理,同时避免负载不均。DeepSeekMoE 在保持 16B 激活参数的前提下,拥有高达 16x 的总参数量,实现了性能与效率的完美平衡。
MoE专家路由混合专家基础模型
📅 2024-01-04👤 DeepSeek TeamarXiv: 2401.02954
DeepSeek 开源语言模型家族的技术报告,包括 7B/1.3B 模型,采用多阶段训练策略,在多项基准测试中表现优异。这是 DeepSeek 首次大规模开源语言模型,采用 Long-termism(长期主义)的训练哲学,通过大量高质量数据的精心筛选和多阶段训练,实现了与同类闭源模型相当的性能。该系列模型的开源推动了全球 AI 研究的快速发展。
基础模型开源多阶段训练Long-termism