AI大模型论文库

Thinking with Visual Primitives
用视觉原语进行推理

📅 2026-04-30👤 Ruijie Lu, Yiyang Ma, Xiaokang Chen, Lingxiao Luo,...

近期多模态大语言模型（MLLMs）在缩小'感知鸿沟'方面取得了进展，但在复杂的结构推理任务上仍然表现不佳。本研究发现核心瓶颈在于'指代鸿沟（Reference Gap）'——自然语言过于模糊，无法精确指向密集的空间布局，导致推理过程中出现逻辑崩溃和幻觉。本项目提出了一种范式转变：模型不再只是'看得更清楚'，而是学会'边指边思考'。通过将空间标记（点和边界框）直接嵌入推理轨迹作为最小思维单位，模型能够将抽象的语言概念锚定到具体的物理坐标上。该方法基于 DeepSeek-V4-Flash 架构，实现了极致的视觉 token 效率，在计数和空间推理基准上匹敌 ...

视觉推理VLM多模态空间推理视觉原语

PDF GitHub 详细解读译文 100%

DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence
DeepSeek-V4：迈向高效百万Token上下文智能

📅 2026-04-27👤 DeepSeek Team

DeepSeek-V4 支持百万级 token 上下文窗口，采用 Hybrid Attention 混合注意力架构，具备世界顶级推理性能。相比前代模型，Agent 能力大幅提高，支持更长上下文理解和更复杂的任务规划。模型已在网页端、APP 和 API 全面上线。V4 在推理效率上实现突破性优化，通过创新的注意力机制和上下文管理技术，在保持高性能的同时大幅降低计算成本。

基础模型混合注意力百万上下文Agent

PDF GitHub 详细解读译文 98%

DeepSeek-Math-V2: Towards Self-Verifiable Mathematical Reasoning
DeepSeek-Math-V2：迈向自验证数学推理

📅 2026-02-15👤 DeepSeek Team

DeepSeek-Math-V2 通过自验证数学推理框架，在 IMO 2025 和 CMO 2024 数学竞赛中达到金牌水平。引入验证器训练和推理扩展技术，实现严谨的数学证明能力。模型能够通过自我验证机制检测和修正推理过程中的错误，大幅提升数学解题的准确性和可靠性。在多项国际数学竞赛基准测试中表现出超越人类的性能。

数学推理自验证竞赛数学形式化证明

PDF GitHub 详细解读译文 100%

DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition
DeepSeek-Prover-V2：通过强化学习子目标分解推进形式化数学推理

📅 2026-02-15👤 DeepSeek Team

DeepSeek-Prover-V2 在 Lean 4 形式化定理证明上达到当前最高水平（SOTA），通过强化学习和子目标分解策略在 MinF2F 测试集达到 88.9% 的 pass ratio。模型能够将复杂的数学证明任务分解为可管理的子目标，逐步构建严密的证明链条。这一突破标志着 AI 在形式化数学证明领域的重要进展。

形式化证明定理证明Lean 4子目标分解

PDF GitHub 详细解读译文 97%

DeepSeek-OCR 2: Visual Causal Flow
DeepSeek-OCR 2：视觉因果流

📅 2026-01-28👤 DeepSeek TeamarXiv: 2601.20552

DeepSeek-OCR-2 引入视觉因果流（Visual Causal Flow）概念，通过 DeepEncoder V2 动态重排序视觉 token，探索 2D 图像理解的新范式。相比传统 OCR 方法，该模型能够捕捉图像中元素之间的因果关系，实现更准确的文本识别和场景理解。在文档分析、表格识别、手写体识别等任务上显著超越现有技术。

OCR视觉因果文档理解DeepEncoder

📦 其他厂商论文 查看全部 →

📦 其他厂商论文查看全部 →