用视觉原语进行推理
近期多模态大语言模型(MLLMs)在缩小'感知鸿沟'方面取得了进展,但在复杂的结构推理任务上仍然表现不佳。本研究发现核心瓶颈在于'指代鸿沟(Reference Gap)'——自然语言过于模糊,无法精确指向密集的空间布局,导致推理过程中出现逻辑崩溃和幻觉。本项目提出了一种范式转变:模型不再只是'看得更清楚',而是学会'边指边思考'。通过将空间标记(点和边界框)直接嵌入推理轨迹作为最小思维单位,模型能够将抽象的语言概念锚定到具体的物理坐标上。该方法基于 DeepSeek-V4-Flash 架构,实现了极致的视觉 token 效率,在计数和空间推理基准上匹敌 GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash 等前沿模型。
While recent Multimodal Large Language Models (MLLMs) have made strides in bridging the 'Perception Gap', they still struggle with complex structural reasoning. This project identifies the 'Reference Gap': natural language is too ambiguous to precisely point to dense spatial layouts. The model learns to 'point while it reasons' by interleaving spatial markers (points and bounding boxes) directly into the reasoning trajectory as minimal units of thought.
| 架构 | 基于 DeepSeek-V4-Flash,采用 Extreme Visual Token Efficiency |
|---|---|
| 核心创新 | Visual Primitives 作为推理轨迹中的空间标记(points + bounding boxes) |
| KV Cache 压缩 | 每4个视觉token压缩为1个条目,大幅降低图像token消耗 |
| 训练方法 | 结合监督微调与强化学习,训练模型在推理过程中自发使用视觉原语 |
| 性能 | 紧凑模型规模 + 极低图像token预算,匹敌 GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash |
重点理解 Reference Gap 与 Perception Gap 的区别,以及视觉原语如何解决指代问题。建议配合论文中的 coffee.gif 和 maze.gif 动图直观感受模型的边指边思考能力。