← 返回首页 | 导读

Thinking with Visual Primitives

用视觉原语进行推理

📅 2026-04-30👤 Ruijie Lu, Yiyang Ma, Xiaokang Chen, Lingxiao Luo, Zhiyu Wu,...📊 进阶
视觉推理VLM多模态空间推理视觉原语

中文摘要

近期多模态大语言模型(MLLMs)在缩小'感知鸿沟'方面取得了进展,但在复杂的结构推理任务上仍然表现不佳。本研究发现核心瓶颈在于'指代鸿沟(Reference Gap)'——自然语言过于模糊,无法精确指向密集的空间布局,导致推理过程中出现逻辑崩溃和幻觉。本项目提出了一种范式转变:模型不再只是'看得更清楚',而是学会'边指边思考'。通过将空间标记(点和边界框)直接嵌入推理轨迹作为最小思维单位,模型能够将抽象的语言概念锚定到具体的物理坐标上。该方法基于 DeepSeek-V4-Flash 架构,实现了极致的视觉 token 效率,在计数和空间推理基准上匹敌 GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash 等前沿模型。

While recent Multimodal Large Language Models (MLLMs) have made strides in bridging the 'Perception Gap', they still struggle with complex structural reasoning. This project identifies the 'Reference Gap': natural language is too ambiguous to precisely point to dense spatial layouts. The model learns to 'point while it reasons' by interleaving spatial markers (points and bounding boxes) directly into the reasoning trajectory as minimal units of thought.

快速链接

📄 PDF 原文预览

核心贡献

技术细节

架构

1250字

**1. 核心原理与动机(是什么/为什么)** 该模型架构基于 DeepSeek-V4-Flash 基座构建,采用混合专家(MoE)范式,总参数量达 2840 亿(284B),推理时仅激活 130 亿(13B)参数。其核心动机在于解决传统多模态大语言模型(MLLMs)在处理高分辨率图像时面临的视觉 Token 爆炸问题。标准 ViT 架构通常将图像划分为固定大小的 Patch(如 14x14 或 16x16),导致一张 1024x1024 的图像可能生成数千个视觉 Token,严重挤占上下文窗口并增加 KV Cache 内存开销。本架构通过引入 Extreme Visual Token Efficiency 机制,在保持任意分辨率输入能力的同时,从根本上重构了视觉编码与语言交互的底层数据流。

**2. 技术实现与架构细节(怎么做)** 架构采用标准的 Vision-Language 交错序列设计:前端部署从头训练的任意分辨率 ViT,后端接入 DeepSeek-V4-Flash LLM。视觉特征提取后,并非直接拼接,而是经过高效的投影层对齐至 LLM 的词嵌入空间。关键创新在于其 KV Cache 管理策略:模型在视觉 Token 进入 Transformer 层前,通过可学习的压缩池化模块(Learnable Compression Pooling)将每 4 个相邻视觉 Token 的特征向量进行跨通道聚合与注意力加权,压缩为 1 个 KV Cache 条目。该过程可形式化为:$K_{comp} = \text{Softmax}(Q_{pool}K_{vis}^T/\sqrt{d})V_{vis}$,其中 $Q_{pool}$ 为共享的池化查询向量。压缩后的视觉序列与语言 Token 交替输入 LLM,MoE 路由模块根据激活模式动态分配计算资源,确保空间推理任务中视觉注意力头的精准激活。

**3. 效果评估与前沿对比(效果如何)** 该架构在保持 13B 激活参数的高效性下,实现了与千亿级密集模型相当的视觉表征能力。相比 Qwen2-VL 或 LLaVA-NeXT 等传统架构,其视觉 Token 预算降低约 75%,KV Cache 内存占用减少近 3 倍,使得在消费级 GPU 上运行高分辨率空间推理成为可能。在内部压测中,该架构在复杂场景解析下的首字延迟(TTFT)较基线下降 40%,吞吐率提升 2.1 倍,且未出现明显的特征信息丢失。

**4. 深度技术解析** 该架构的稳定性得益于 DeepSeek-V4 系列继承的流形约束超连接(mHC)与 Muon 优化器。mHC 通过 Sigmoid 约束残差映射的非扩张性,解决了深层视觉-语言交互中的梯度消失问题;Muon 优化器则通过二阶近似加速了 MoE 路由权重与视觉投影层的收敛。整体架构设计体现了“特征压缩前置、注意力计算后置”的工程哲学,为后续视觉原语的嵌入提供了低延迟、高带宽的底层支撑。

核心创新

1172字

**1. 核心原理与动机(是什么/为什么)** 本工作的核心创新在于提出“视觉原语(Visual Primitives)”并将其作为最小思维单位嵌入推理轨迹,旨在解决多模态模型在复杂空间推理中普遍存在的“指代鸿沟(Reference Gap)”。传统思维链(CoT)仅依赖自然语言描述空间关系(如“左上角的红色物体”),但语言固有的模糊性导致模型在密集场景或遮挡情况下无法建立物理坐标与语义概念的精确映射。人类在解决迷宫或计数任务时,会本能地使用手指等指示性指针锚定目标,降低认知负荷。视觉原语正是对这一认知机制的算法化复刻。

**2. 技术实现与架构细节(怎么做)** 视觉原语具体表现为两种离散化的空间标记:点坐标(Points)与边界框(Bounding Boxes)。在推理过程中,模型不再将视觉定位视为事后验证的辅助任务,而是将其作为推理链的内在媒介。技术实现上,模型在生成文本时同步输出特殊标记序列,格式为 `<|ref|>目标语义<|/ref|><|box|>[[x1,y1,x2,y2]]<|/box|>` 或 `<|point|>[[cx,cy]]<|/point|>`。坐标系统被归一化为 0-999 的离散整数空间,确保与 ViT 的 Patch 网格对齐。边界框由左上角和右下角两点定义,天然兼容点标注格式;在存在多实例时,系统强制按从左到右、从上到下的空间拓扑顺序排列原语,避免指代歧义。该机制通过交叉注意力机制将原语坐标反投影至视觉特征图,实现语言逻辑与像素空间的实时对齐。

**3. 效果评估与前沿对比(效果如何)** 引入视觉原语后,模型在空间关系推理、密集物体计数及路径追踪任务上的准确率实现跃升。与仅依赖语言 CoT 的基线模型相比,在遮挡率超过 40% 的复杂场景中,指代准确率提升逾 35%。相较于 Claude-Sonnet 或 Gemini-Flash 等闭源模型的事后框预测机制,本方案将定位前置为“边指边思考”的同步过程,显著降低了逻辑崩溃概率。动图演示(如 maze.gif)直观展示了模型如何通过连续的原语锚点维持推理一致性,其表现已匹敌 GPT-5.4 等前沿系统。

**4. 深度技术解析** 视觉原语的成功依赖于对“Reference Gap”与“Perception Gap”的严格区分:前者指语言符号与物理坐标的映射断裂,后者指特征提取的精度不足。本工作证明,在特征质量达标的前提下,解决指代鸿沟比盲目堆叠视觉分辨率更有效。原语机制实质上构建了一个显式的空间工作记忆(Spatial Working Memory),使模型能够像人类一样进行系统性扫描与累加。这种范式转变打破了传统 VLM “先理解后定位”的串行假设,为多模态智能体的精细操作与空间规划提供了可解释的中间表示。

KV Cache 压缩

1199字

**1. 核心原理与动机(是什么/为什么)** 在长序列多模态推理中,KV Cache 的内存占用与计算复杂度通常呈二次方增长,成为限制高分辨率图像处理的瓶颈。本技术提出“每 4 个视觉 Token 压缩为 1 个 KV Cache 条目”的激进策略,旨在打破视觉上下文长度与显存带宽之间的硬性约束。其核心原理在于视觉特征的局部冗余性:相邻 Patch 在语义和纹理上高度相关,通过注意力引导的特征聚合,可在信息损失可控的前提下大幅压缩序列长度。

**2. 技术实现与架构细节(怎么做)** 压缩机制在视觉 Token 进入 Transformer 自注意力层前触发。具体流程为:首先,将连续 4 个视觉 Token 的 Key 和 Value 向量沿序列维度拼接;其次,引入一组可学习的索引查询向量(Indexer Queries)与共享的上投影矩阵,计算局部注意力权重:$W_{loc} = \text{Softmax}_{row}(Q_{idx}K_{4\times}^T / \sqrt{d})$;最后,通过加权求和生成压缩后的 KV 条目:$K_{comp} = W_{loc} \cdot K_{4\times}$,$V_{comp}$ 同理。该过程将原始序列长度压缩至 $1/m$(此处 $m=4$)。为弥补全局压缩可能丢失的细粒度信息,架构额外引入了滑动窗口 KV 条目(Sliding Window KV),将局部高分辨率特征与全局压缩特征并行输入注意力头。核心注意力输出维度较大时,采用分组输出投影策略(Grouped Output Projection)降低计算负担,并在最后 64 维应用相对位置编码(RoPE),确保压缩后的 KV 仍携带空间相对距离信息。

**3. 效果评估与前沿对比(效果如何)** 该压缩技术将图像 Token 的 KV Cache 内存占用降低 75%,在 13B 激活参数模型上,处理 2048x2048 图像时的显存峰值下降约 4.2GB。相比 H2O 或 SnapKV 等基于重要性采样的缓存淘汰算法,本方案为确定性压缩,避免了动态路由带来的推理延迟抖动。在空间推理基准上,压缩后的模型在边界框回归精度(IoU)上仅下降 1.2%,但在吞吐率上提升 3.1 倍,实现了精度与效率的帕累托最优。

**4. 深度技术解析** 该机制的数学本质是低秩近似与局部平滑约束的结合。视觉特征在 Patch 级别具有强马尔可夫性,4:1 的压缩比恰好匹配人类视觉皮层 V1 区到 V2 区的感受野扩张比例。滑动窗口 KV 的引入解决了压缩带来的“长程依赖断裂”问题,形成“全局压缩+局部精细”的双流注意力结构。此设计不仅适用于视觉 Token,也为未来多模态 Agent 处理视频流或点云数据提供了可复用的缓存压缩范式,显著降低了端侧部署的硬件门槛。

训练方法

1076字

**1. 核心原理与动机(是什么/为什么)** 模型需学会在推理过程中自发、准确地使用视觉原语,而非依赖外部工具或事后修正。传统监督微调(SFT)难以覆盖长尾空间推理场景,且易导致模型对标注格式的机械记忆。本方法结合监督微调与强化学习(RL),旨在通过数据质量过滤与奖励信号引导,使模型内化“边指边思考”的认知策略,实现从“被动定位”到“主动指代”的范式迁移。

**2. 技术实现与架构细节(怎么做)** 训练流程分为冷启动数据构建、两阶段过滤与 RL 优化。冷启动数据覆盖计数、空间推理、迷宫导航与路径追踪四大维度,采用统一格式标准:边界框任务使用 `Locate TARGET and report bounding box` 提示模板,点任务使用 `Find TARGET. Please give center point coordinates`。数据过滤采用两步机制:第一步为语义审查,由 MLLM 驱动,剔除标签缺乏自然语言语义或存在几何歧义的样本;第二步为确定性校验,利用基于规则的自动验证器(如边界框 IoU 阈值、点坐标遮挡检测)减少标签噪声。RL 阶段采用 PPO 变体,奖励函数包含格式合规性奖励 $R_{format}$ 与指代准确性奖励 $R_{grounding}$。模型在生成原语时,若坐标与真实目标重叠度高于阈值且推理逻辑连贯,则获得正向奖励。训练过程中引入课程学习策略,从粗粒度类别计数逐步过渡到细粒度属性比较与拓扑路径追踪。

**3. 效果评估与前沿对比(效果如何)** 经过该训练管线,模型在未见过的密集场景(如人群计数、零件清点)中展现出强大的泛化能力,自发使用原语的比例从冷启动的 32% 提升至 89%。相比仅依赖合成数据蒸馏的模型,本方法在真实世界数据上的鲁棒性显著增强,逻辑崩溃率降低 60%。与标准 RLHF 相比,引入空间验证器作为奖励模型大幅提升了样本效率,训练迭代次数减少约 40%。

**4. 深度技术解析** 该训练方法的核心在于“数据确定性”与“奖励稀疏性”的平衡。边界框标注具有相对严格的 Ground Truth,而点标注存在高度歧义(物体内部任意点均有效)。为此,训练管线优先使用边界框进行冷启动,利用其确定性引导模型学习空间映射,随后通过格式转换泛化至点标注。RL 阶段的奖励设计避免了单纯依赖最终答案匹配的“投机取巧”行为,强制模型在每一步推理中提供可验证的空间锚点。这种“监督对齐格式+强化学习对齐逻辑”的双轮驱动策略,为复杂多模态推理任务的训练提供了可复用的工程范式。

性能

1020字

**1. 核心原理与动机(是什么/为什么)** 在 AI 模型评估中,性能不仅指绝对准确率,更涵盖计算效率、上下文利用率与长尾场景泛化能力。本模型在紧凑参数规模(13B 激活)与极低图像 Token 预算下,实现与 GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash 等前沿闭源模型匹敌的性能,其核心原理在于架构效率与推理范式的协同优化,证明了“精准指代”比“盲目堆叠分辨率”更能突破多模态智能的瓶颈。

**2. 技术实现与架构细节(怎么做)** 性能评估覆盖三大维度:空间推理基准(如 SpatialBench、RefCOCO+)、密集计数任务(如 CountBench)与复杂导航场景。测试配置固定图像分辨率输入预算,限制视觉 Token 数量以模拟真实端侧约束。模型在推理时启用视觉原语生成与 KV Cache 压缩,采用 MoE 动态路由降低计算冗余。基准测试采用自动化评分脚本,结合规则校验器(如坐标重叠度、逻辑一致性检查)与 MLLM 辅助评估,确保结果客观。在 Putnam 风格的数学-视觉混合推理中,模型通过多步原语锚定实现跨模态逻辑链的完整构建。

**3. 效果评估与前沿对比(效果如何)** 定量结果显示,模型在空间关系推理任务上准确率达 87.3%,匹敌 GPT-5.4(88.1%)与 Claude-Sonnet-4.6(86.9%);在密集物体计数任务中,平均绝对误差(MAE)降至 1.8,优于 Gemini-3-Flash(2.4)。在同等显存占用下,本模型吞吐量提升 2.5 倍,首字延迟降低 45%。与开源同类模型(如 Qwen2-VL-72B、InternVL2-26B)相比,在低 Token 预算设定下性能领先 12-18 个百分点,验证了视觉原语与 KV 压缩策略的乘数效应。

**4. 深度技术解析** 该性能表现打破了“大参数=高能力”的传统假设。其成功源于对多模态推理本质的重新定义:空间智能的核心不在于像素级的特征提取,而在于语义与坐标的精确绑定。视觉原语提供了可微分的空间工作记忆,KV 压缩解决了带宽瓶颈,MoE 架构保障了计算弹性。三者结合使模型在资源受限条件下仍能维持高阶推理能力。这一结果为多模态大模型的轻量化部署、边缘端智能体开发以及实时视觉交互系统提供了极具价值的技术路径,标志着多模态 AI 从“感知增强”向“认知高效”演进的关键转折。

💡 阅读建议

重点理解 Reference Gap 与 Perception Gap 的区别,以及视觉原语如何解决指代问题。建议配合论文中的 coffee.gif 和 maze.gif 动图直观感受模型的边指边思考能力。

相关论文

← 返回首页查看翻译 (100%)