中文摘要
近期多模态大语言模型(MLLMs)在缩小'感知鸿沟'方面取得了进展,但在复杂的结构推理任务上仍然表现不佳。本研究发现核心瓶颈在于'指代鸿沟(Reference Gap)'——自然语言过于模糊,无法精确指向密集的空间布局,导致推理过程中出现逻辑崩溃和幻觉。本项目提出了一种范式转变:模型不再只是'看得更清楚',而是学会'边指边思考'。通过将空间标记(点和边界框)直接嵌入推理轨迹作为最小思维单位,模型能够将抽象的语言概念锚定到具体的物理坐标上。该方法基于 DeepSeek-V4-Flash 架构,实现了极致的视觉 token 效率,在计数和空间推理基准上匹敌 GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash 等前沿模型。
Thinking-with-Visual-Primitives
近期多模态大语言模型(MLLMs)在缩小"感知鸿沟"方面取得了进展,但在复杂的结构推理任务上仍然表现不佳。本研究发现核心瓶颈在于"指代鸿沟(Reference Gap)"——自然语言过于模糊,无法精确指向密集的空间布局,导致推理过程中出现逻辑崩溃和幻觉。本项目提出了一种范式转变:模型不再只是"看得更清楚",而是学会"边指边思考"。通过将空间标记(点和边界框)直接嵌入推理轨迹作为最小思维单位,模型能够将抽象的语言概念锚定到具体的物理坐标上。该方法基于 DeepSeek-V4-Flash 架构,实现了极致的视觉 token 效率,在计数和空间推理基准上匹敌 GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash 等前沿模型。
核心创新点:
1. 指代鸿沟发现:揭示了多模态模型在结构推理中的根本限制
2. 视觉原语嵌入:将点和边界框作为推理的基本单元
3. 极致效率:在保持性能的同时大幅降低视觉token使用量
4. 广泛验证:在多个基准测试中达到最先进水平
这项工作代表了多模态AI推理的重要进展,为未来的视觉语言模型设计提供了新的方向。
原文: (论文原文未从arXiv获取 - 该论文可能不在arXiv上发布)