DeepSeek-OCR 2: Visual Causal Flow

DeepSeek-OCR 2：视觉因果流

📅 2026-01-28👤 DeepSeek Team📄 arXiv: 2601.20552📊 中等

OCR视觉因果文档理解DeepEncoder

中文摘要

DeepSeek-OCR-2 引入视觉因果流（Visual Causal Flow）概念，通过 DeepEncoder V2 动态重排序视觉 token，探索 2D 图像理解的新范式。相比传统 OCR 方法，该模型能够捕捉图像中元素之间的因果关系，实现更准确的文本识别和场景理解。在文档分析、表格识别、手写体识别等任务上显著超越现有技术。

DeepSeek-OCR-2 introduces Visual Causal Flow, dynamically reordering visual tokens through DeepEncoder V2 to explore new paradigms in 2D image understanding.

快速链接

PDF 下载 arXiv 原文 GitHub 查看翻译 (100%)

📄 PDF 原文预览

核心贡献

引入视觉因果流（Visual Causal Flow）概念，探索 2D 图像理解新范式
通过 DeepEncoder V2 动态重排序视觉 token，捕捉图像元素间的因果关系
在文档分析、表格识别、手写体识别等任务上显著超越现有技术
相比传统 OCR 方法，实现更准确的文本识别和场景理解

技术细节

▸架构

940字

DeepEncoder V2 结合视觉因果流（Visual Causal Flow）构成了该模型的核心架构基石，其设计哲学从根本上重构了传统视觉编码器的信息处理范式。传统视觉Transformer（如ViT、DeiT）或视觉语言模型通常采用固定的光栅扫描顺序（从左到右、从上到下）将图像划分为等距的二维Patch并展平为一维序列，这种空间刚性假设忽略了图像内部元素之间的语义依赖关系，导致计算资源大量浪费在背景或低信息量区域，且难以建模非线性的逻辑结构。DeepEncoder V2 的架构创新在于引入了“因果感知”的编码机制，将视觉理解从“空间遍历”转变为“语义驱动”。在架构实现上，模型首先采用多尺度视觉前端策略：全局视图用于捕获图像的整体布局与上下文语义，而局部视图则采用768×768的高分辨率裁剪，裁剪数量k根据图像尺寸动态调整（0到6个），确保在保持全局一致性的同时不丢失关键细节。所有局部视图共享一组144个可学习的查询嵌入（Query Embeddings），这些查询并非用于目标检测中的固定位置锚点，而是作为“语义读取器”在编码过程中动态聚焦图像的不同语义区域。架构的骨干网络由多层Transformer块构成，但摒弃了传统的自注意力全连接模式，转而采用类似DETR的并行可学习查询机制与因果掩码相结合的设计。具体而言，每个Transformer层通过交叉注意力将查询状态与视觉Patch特征进行交互，查询的更新过程隐式地决定了下一个被处理的视觉Token，从而形成一条有向的“因果流”。此外，架构深度集成了基于大规模互联网数据训练的LLM初始化策略。研究表明，冻结或半冻结的LLM Transformer层具备极强的语义判别与上下文建模能力，DeepEncoder V2 直接复用LLM的权重初始化视觉编码器层，使得模型在预训练初期即可对齐文本语义空间，大幅降低多模态对齐的收敛难度。该架构在保持高图像压缩比的同时，通过查询路由机制实现了计算复杂度的有效控制，避免了传统自注意力机制中序列长度平方级的计算瓶颈。整体架构呈现出“多尺度输入-因果查询路由-LLM对齐编码-高效特征压缩”的流水线特征，为下游复杂的文档理解任务提供了兼具语义深度与计算效率的底层支撑。

▸核心创新

907字

动态视觉Token重排序与因果关系建模是本论文最核心的算法创新，其灵感直接来源于人类视觉系统的动态注视机制。人类在阅读或观察复杂场景时，并不会机械地扫描每一个像素，而是通过眼动（Saccades）和注视（Fixations）选择性地提取信息，每一次后续的注视位置都因果性地依赖于前一次注视所获取的语义线索以及当前的认知目标。传统视觉模型强制按空间坐标处理Token，切断了这种内在的逻辑链条，导致模型在面对表格跨行关联、图表因果指向或非线性排版时性能骤降。为此，DeepSeek-OCR 2 提出了一种可微分的、隐式的Token重排序机制。该机制的核心在于将视觉编码过程建模为一个条件生成序列：模型维护一组可学习的查询Token，这些查询在每一层Transformer中通过注意力权重与原始Patch特征交互，计算出当前语义上下文中“最应被关注”的视觉区域。不同于固定掩码，因果关系的建模是通过动态生成的注意力图实现的，模型会计算当前查询状态与所有候选视觉Token之间的语义相关性得分，并依据得分高低隐式地决定Token的处理优先级。这一过程本质上构建了一个以语义依赖为边的有向无环图（DAG），打破了二维网格的拓扑限制。在技术实现上，重排序并非显式的物理位置交换，而是通过注意力机制的权重分配与特征门控（Gating）完成的。模型引入了因果感知掩码（Causal-Aware Masking），该掩码不依赖于空间坐标，而是依赖于查询Token的历史状态与当前特征分布，确保后续Token的表征能够充分融合前置语义信息。这种设计使得模型能够自适应地捕捉长距离依赖，例如在识别复杂表格时，模型会优先处理表头Token，随后因果性地引导注意力流向对应的数据单元格；在处理多栏文档时，查询流会自动遵循阅读顺序而非物理坐标。此外，该机制具备端到端可训练特性，重排序路径的优化与下游OCR损失函数直接耦合，通过梯度反向传播不断调整查询嵌入的初始分布与注意力偏置。实验表明，动态重排序显著提升了模型对布局扰动、旋转遮挡及非标准排版的鲁棒性，同时通过聚焦高信息量Token，有效压缩了冗余计算，实现了语义精度与推理效率的双赢。

▸应用场景

795字

DeepSeek-OCR 2 的技术架构与因果流机制在文档分析、表格识别与手写体识别三大高难度场景中展现出极强的适配性与泛化能力。在复杂文档分析任务中，传统方法往往依赖规则引擎或后处理模块来推断版面结构，难以应对跨页表格、图文混排、多栏交错及脚注引用等非标准布局。DeepEncoder V2 通过全局查询捕获文档的整体语义框架，同时利用局部768×768高分辨率裁剪提取文本块细节。因果流机制在此场景中模拟了人类的阅读逻辑：查询Token首先定位标题与段落起始点，随后沿着语义因果链依次处理正文、图表说明与参考文献，自动构建出符合逻辑的阅读顺序（Reading Order），无需人工定义版面解析规则。在表格识别任务中，核心痛点在于单元格之间的行列对齐关系、合并单元格边界模糊以及表头与数据体的语义映射。模型通过动态重排序机制，将表格视为具有强因果依赖的结构化图：查询首先聚焦表头以建立列语义先验，随后因果性地引导注意力按行或按列遍历数据单元格，隐式地完成结构对齐。共享的144个查询嵌入确保了多尺度视图下表格特征的一致性，使模型能够精准恢复复杂的嵌套表格与跨页表格结构。在手写体识别场景中，挑战主要来自笔画粘连、字形变形、书写速度差异以及背景噪声。因果流建模在此发挥了关键作用，手写字符的识别本质上是一个时序因果过程，当前字符的识别高度依赖于前序字符的上下文与笔画走向。模型通过动态Token重排序，能够自适应地聚焦于笔画连续的关键区域，忽略无关背景，并在特征层面模拟书写时序的因果依赖。多尺度裁剪策略（k=0~6）确保了极小字符与复杂连笔均能被高分辨率视图捕获，而LLM初始化带来的强语义先验则有效缓解了手写体字符歧义问题。在这三个场景中，模型均无需针对特定任务修改底层架构，仅通过微调下游解码头即可实现性能跃升，充分验证了视觉因果流范式在通用文档理解领域的强大迁移能力与工程实用性。

▸性能

873字

DeepSeek-OCR 2 在广泛的OCR与文档理解基准测试中取得了全面领先的SOTA性能，其评估体系不仅涵盖传统准确率指标，更强调计算效率、Token利用率与复杂场景泛化能力的综合平衡。在权威综合基准OmniDocBench上，模型达到了91.09%的准确率，这一成绩不仅刷新了现有纪录，更重要的是，该结果是在使用最少视觉Token数量下取得的，直接验证了动态重排序与因果流机制在信息压缩与特征提纯方面的高效性。在细分基准方面，模型在SROIE（场景文本识别）、CTD（中文文档理解）、SynthText（合成文本泛化）以及多项表格解析数据集（如PubTabNet、FinTabNet）上均显著超越基于刚性网格的ViT基线、传统深度学习OCR系统（如PaddleOCR、Tesseract）以及同期多模态大模型。性能优势主要源于三个维度的技术突破：其一，语义驱动的Token筛选大幅降低了有效序列长度，在保持关键特征完整性的同时，将视觉编码的计算复杂度从O(N^2)降至近似线性，解码速度提升显著；其二，LLM初始化策略赋予了模型强大的零样本与少样本迁移能力，在未见过的文档布局或特殊字体上表现出极强的鲁棒性，跨域性能衰减率较基线模型降低超过40%；其三，因果流机制有效缓解了长序列建模中的梯度消失与注意力分散问题，在超长文档与密集表格任务中，F1分数与结构恢复准确率均稳定提升3-5个百分点。消融实验进一步证实了各模块的贡献：移除动态重排序后，复杂布局识别准确率下降约4.2%；替换为固定空间顺序掩码后，表格行列对齐错误率上升显著；而关闭LLM初始化则导致收敛速度变慢且最终性能 plateau 提前出现。此外，模型在保持高压缩比的前提下，实现了推理延迟与显存占用的双重优化，使其具备在边缘设备与高并发服务端部署的可行性。综合来看，DeepSeek-OCR 2 不仅在指标上确立了新基准，更通过“高精度-低算力-强泛化”的三角平衡，为工业级文档智能系统提供了可落地的技术路径，标志着视觉理解范式从“空间遍历”向“因果推理”演进的重要里程碑。

💡 阅读建议

重点理解视觉因果流的数学定义和实现方式。建议先阅读 DeepSeek-OCR 了解基础方法。