← 首页 | 导读 | 详细解读

Thinking-with-Visual-Primitives

用视觉原语进行推理

📅 2026-04-30PDF
翻译进度1 / 1 段 (100%)

中文摘要

近期多模态大语言模型(MLLMs)在缩小'感知鸿沟'方面取得了进展,但在复杂的结构推理任务上仍然表现不佳。本研究发现核心瓶颈在于'指代鸿沟(Reference Gap)'——自然语言过于模糊,无法精确指向密集的空间布局,导致推理过程中出现逻辑崩溃和幻觉。本项目提出了一种范式转变:模型不再只是'看得更清楚',而是学会'边指边思考'。通过将空间标记(点和边界框)直接嵌入推理轨迹作为最小思维单位,模型能够将抽象的语言概念锚定到具体的物理坐标上。该方法基于 DeepSeek-V4-Flash 架构,实现了极致的视觉 token 效率,在计数和空间推理基准上匹敌 GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash 等前沿模型。

Thinking-with-Visual-Primitives

近期多模态大语言模型(MLLMs)在缩小"感知鸿沟"方面取得了进展,但在复杂的结构推理任务上仍然表现不佳。本研究发现核心瓶颈在于"指代鸿沟(Reference Gap)"——自然语言过于模糊,无法精确指向密集的空间布局,导致推理过程中出现逻辑崩溃和幻觉。本项目提出了一种范式转变:模型不再只是"看得更清楚",而是学会"边指边思考"。通过将空间标记(点和边界框)直接嵌入推理轨迹作为最小思维单位,模型能够将抽象的语言概念锚定到具体的物理坐标上。该方法基于 DeepSeek-V4-Flash 架构,实现了极致的视觉 token 效率,在计数和空间推理基准上匹敌 GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash 等前沿模型。 核心创新点: 1. 指代鸿沟发现:揭示了多模态模型在结构推理中的根本限制 2. 视觉原语嵌入:将点和边界框作为推理的基本单元 3. 极致效率:在保持性能的同时大幅降低视觉token使用量 4. 广泛验证:在多个基准测试中达到最先进水平 这项工作代表了多模态AI推理的重要进展,为未来的视觉语言模型设计提供了新的方向。
原文: (论文原文未从arXiv获取 - 该论文可能不在arXiv上发布)
← 返回首页详细解读