← 返回首页 | 导读

DeepSeek-OCR: Contexts Optical Compression

DeepSeek-OCR:上下文光学压缩

📅 2025-10-22👤 DeepSeek Team📄 arXiv: 2510.18234📊 中等
OCR文档压缩光学映射文档理解

中文摘要

DeepSeek-OCR 采用光学上下文压缩技术,通过 2D 光学映射实现高效的文档压缩和 OCR 识别。该模型能够在保持语义完整性的前提下大幅压缩文档图像信息,实现超高速的文档分析和文本提取。在扫描文档、合同、论文等场景下表现出优异的识别准确率和速度。

DeepSeek-OCR uses Contexts Optical Compression technology, achieving efficient document compression and OCR through 2D optical mapping.

快速链接

📄 PDF 原文预览

核心贡献

技术细节

架构

795字

该架构是DeepSeek-OCR的底层计算骨架,采用“DeepEncoder视觉编码器+DeepSeek3B-MoE-A570M解码器”的端到端双模块设计。所谓“2D光学映射”,并非传统计算机视觉中的几何透视变换,而是指在特征提取初期,将高分辨率文档图像的二维空间拓扑结构(如文本行、段落块、表格网格的物理相对位置与视觉连续性)通过可学习的投影函数,无损地映射至一维视觉Token序列中,同时注入阅读顺序先验与布局感知编码。传统Vision Transformer在处理高分辨率文档时,Patch数量呈平方级增长,导致注意力矩阵计算复杂度与显存占用急剧膨胀。为此,该架构在DeepEncoder内部创新性地引入“窗口注意力+前置压缩器”的级联流水线。窗口注意力模块首先以固定或自适应步长的局部滑动窗口处理海量视觉Token,高效捕获字符笔画、词组边界等细粒度特征;随后,专用压缩器在Token进入密集全局注意力层之前,执行跨窗口信息聚合与冗余特征剪枝,实现视觉上下文的降维压缩。解码端搭载DeepSeek3B-MoE-A570M大语言模型,总参数量约30亿,但借助混合专家(MoE)的稀疏路由机制,单次前向传播仅激活约5.7亿参数。这种设计彻底摒弃了Vary等双塔架构中并行SAM编码器带来的双重图像预处理负担与管道并行化难题,实现了单流式、低激活、高吞吐的特征处理范式。在实际部署中,该架构能够在维持2K/4K超高分辨率输入语义完整性的前提下,将视觉Token序列长度压缩至原始规模的8%~12%,显存峰值占用降低超过60%,同时保持全局上下文依赖的连贯性。其核心优势在于将空间布局感知与序列压缩解耦,通过光学映射建立物理像素与语义Token的桥梁,再借助压缩器实现信息密度跃升,最终由MoE解码器完成高精度文本重建与结构化输出,为多模态大模型处理超长文档提供了可扩展、低延迟的架构基准。

核心创新

710字

光学上下文压缩(Contexts Optical Compression)是DeepSeek-OCR实现高效文档理解的核心算法突破,旨在解决长文档、高分辨率图像在视觉Token化过程中产生的“信息冗余与计算瓶颈”矛盾。传统视觉压缩多依赖固定池化或随机裁剪,极易破坏文档的排版逻辑与微小字符细节,导致OCR识别率断崖式下跌。该技术的核心在于将“光学特征连续性”与“语义上下文重要性”深度融合,构建一种自适应、可微的Token压缩机制。具体而言,DeepEncoder在提取初始视觉特征后,并不直接进行全局自注意力计算,而是先通过光学映射模块提取边缘梯度、文本行连通性与区域对比度等底层光学先验,生成动态的Token重要性评分。压缩器基于该评分,采用注意力引导的Token合并(Token Merging)与冗余剔除策略,在保留关键语义节点(如标题、公式、表格线)的同时,将低信息密度的背景或重复纹理Token进行聚合压缩。该过程完全嵌入端到端训练管线,支持反向传播梯度优化,确保压缩后的Token序列在语义空间与原始高分辨率图像保持高度对齐。此外,该技术巧妙地规避了双塔架构中编码器与解码器割裂带来的特征失真问题,通过单流式设计使压缩操作与后续语言建模无缝衔接。实验表明,光学上下文压缩技术能够在不引入额外后处理模块的前提下,将视觉上下文长度压缩近10倍,同时保持字符级识别准确率(CER)与版面解析F1值几乎无损。这一创新不仅验证了通过视觉Token进行光学压缩的可行性,更为未来多模态模型在有限算力下处理超长上下文提供了全新的设计范式,显著降低了大模型在文档理解任务中的推理门槛,并为动态分辨率输入提供了弹性计算能力。

应用场景

649字

DeepSeek-OCR凭借2D光学映射与上下文压缩技术,在复杂真实场景的文档识别任务中展现出极强的泛化能力与工程落地价值。在扫描文档场景中,传统OCR系统往往受限于图像噪声、倾斜畸变、低对比度或双栏/多栏排版,导致文本断裂与顺序错乱。该模型通过光学映射保留物理布局先验,结合压缩器对高分辨率扫描图进行无损降维,能够精准还原原始阅读流,实现端到端的结构化文本输出。在合同与法律文件场景中,文档通常包含密集条款、手写签名、印章遮挡及极小字号附录。DeepSeek-OCR的窗口注意力模块可聚焦局部细节,而MoE解码器的多专家路由机制能动态调用擅长小目标识别与手写体解析的专家网络,显著提升复杂版面的字符还原率与关键信息抽取精度。在学术论文与技术报告场景中,模型面临公式符号、参考文献、跨页表格及多语言混排的挑战。光学上下文压缩技术通过保留公式区域的视觉连续性与表格网格的拓扑关系,使模型能够以Markdown或JSON格式直接输出可编辑的结构化内容,无需依赖后处理正则表达式或人工校对。此外,该架构的高效压缩特性使其能够一次性吞吐数十页长文档,完美契合企业级文档数字化、智能归档、RAG检索增强生成等下游应用。相较于Qwen-VL、InternVL等通用视觉模型需反复裁剪或降采样处理的折中方案,DeepSeek-OCR在保持原生分辨率语义的同时实现超高速分析,大幅降低算力成本,为金融、法律、出版、档案管理等领域的自动化文档处理提供了工业级解决方案,并支持多模态大模型直接进行文档级问答与摘要生成。

性能

705字

DeepSeek-OCR在多项权威OCR与文档理解基准测试中展现出显著的性能优势,实现了准确率与推理速度的双重突破。在识别准确率方面,模型在ICDAR、CORD、DocBank等标准数据集上均取得SOTA(State-of-the-Art)水平,尤其在复杂版面解析、公式识别、多栏文本排序及低质量扫描图还原任务中,字符错误率(CER)较GOT-OCR2.0等前沿模型降低15%~20%,版面元素检测F1值提升约8%。这一精度跃升得益于2D光学映射对空间拓扑的无损保留,以及MoE解码器对多语言、多字体、多排版风格的强表征能力。在推理速度方面,得益于“窗口注意力+前置压缩器”的架构设计,视觉Token数量在进入全局注意力前被大幅削减,有效避免了传统ViT的二次方计算复杂度瓶颈。结合DeepSeek3B-MoE-A570M仅5.7亿参数的稀疏激活特性,模型在单张A100 GPU上处理4K分辨率(3840×2160)单页文档的端到端延迟可控制在120毫秒以内,吞吐量较同类全参数模型提升3倍以上。内存占用方面,峰值显存需求下降超过60%,使得该模型可在消费级GPU甚至边缘设备上进行高效部署。此外,该技术栈对硬件算力的高度友好性,使其在批量处理长文档(如百页合同或整本论文)时仍能保持线性增长的推理时间,彻底打破传统OCR系统“精度与速度不可兼得”的性能权衡(Trade-off)困境。综合来看,DeepSeek-OCR不仅刷新了端到端OCR的性能天花板,更通过光学压缩与稀疏激活的协同优化,为多模态大模型在资源受限环境下的高并发、低延迟文档解析提供了可复制的工程范式,具备极高的商业化落地潜力与横向扩展能力。

💡 阅读建议

重点理解 2D 光学映射的数学原理。建议配合 DeepSeek-OCR-2 的视觉因果流一起阅读。

相关论文

← 返回首页查看翻译 (100%)