Thinking with Visual Primitives

用视觉原语进行推理

📅 2026-04-30👤 Ruijie Lu, Yiyang Ma, Xiaokang Chen, Lingxiao Luo, Zhiyu Wu,...📊 进阶

视觉推理VLM多模态空间推理视觉原语

中文摘要

近期多模态大语言模型（MLLMs）在缩小'感知鸿沟'方面取得了进展，但在复杂的结构推理任务上仍然表现不佳。本研究发现核心瓶颈在于'指代鸿沟（Reference Gap）'——自然语言过于模糊，无法精确指向密集的空间布局，导致推理过程中出现逻辑崩溃和幻觉。本项目提出了一种范式转变：模型不再只是'看得更清楚'，而是学会'边指边思考'。通过将空间标记（点和边界框）直接嵌入推理轨迹作为最小思维单位，模型能够将抽象的语言概念锚定到具体的物理坐标上。该方法基于 DeepSeek-V4-Flash 架构，实现了极致的视觉 token 效率，在计数和空间推理基准上匹敌 GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash 等前沿模型。

While recent Multimodal Large Language Models (MLLMs) have made strides in bridging the 'Perception Gap', they still struggle with complex structural reasoning. This project identifies the 'Reference Gap': natural language is too ambiguous to precisely point to dense spatial layouts. The model learns to 'point while it reasons' by interleaving spatial markers (points and bounding boxes) directly into the reasoning trajectory as minimal units of thought.

快速链接

PDF 下载 GitHub 查看翻译 (100%)

核心贡献

首次提出 Reference Gap（指代鸿沟）概念，解释了多模态模型在复杂空间推理中失败的根本原因
创新性地引入视觉原语（Visual Primitives），将点和边界框作为最小思维单位嵌入推理轨迹
实现边指边思考的新范式，让模型像人类一样用手指指向图中的元素进行推理
基于 DeepSeek-V4-Flash 架构，每4个视觉token压缩为1个KV cache条目，实现极致效率
在计数和空间推理基准上匹敌 GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash 等前沿模型

技术细节

架构	基于 DeepSeek-V4-Flash，采用 Extreme Visual Token Efficiency
核心创新	Visual Primitives 作为推理轨迹中的空间标记（points + bounding boxes）
KV Cache 压缩	每4个视觉token压缩为1个条目，大幅降低图像token消耗
训练方法	结合监督微调与强化学习，训练模型在推理过程中自发使用视觉原语
性能	紧凑模型规模 + 极低图像token预算，匹敌 GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash

💡 阅读建议

重点理解 Reference Gap 与 Perception Gap 的区别，以及视觉原语如何解决指代问题。建议配合论文中的 coffee.gif 和 maze.gif 动图直观感受模型的边指边思考能力。