Thinking-with-Visual-Primitives

用视觉原语进行推理

📅 2026-04-30PDF

翻译进度1 / 1 段 (100%)

中文摘要

近期多模态大语言模型（MLLMs）在缩小'感知鸿沟'方面取得了进展，但在复杂的结构推理任务上仍然表现不佳。本研究发现核心瓶颈在于'指代鸿沟（Reference Gap）'——自然语言过于模糊，无法精确指向密集的空间布局，导致推理过程中出现逻辑崩溃和幻觉。本项目提出了一种范式转变：模型不再只是'看得更清楚'，而是学会'边指边思考'。通过将空间标记（点和边界框）直接嵌入推理轨迹作为最小思维单位，模型能够将抽象的语言概念锚定到具体的物理坐标上。该方法基于 DeepSeek-V4-Flash 架构，实现了极致的视觉 token 效率，在计数和空间推理基准上匹敌 GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash 等前沿模型。

Thinking-with-Visual-Primitives

近期多模态大语言模型（MLLMs）在缩小"感知鸿沟"方面取得了进展，但在复杂的结构推理任务上仍然表现不佳。本研究发现核心瓶颈在于"指代鸿沟（Reference Gap）"——自然语言过于模糊，无法精确指向密集的空间布局，导致推理过程中出现逻辑崩溃和幻觉。本项目提出了一种范式转变：模型不再只是"看得更清楚"，而是学会"边指边思考"。通过将空间标记（点和边界框）直接嵌入推理轨迹作为最小思维单位，模型能够将抽象的语言概念锚定到具体的物理坐标上。该方法基于 DeepSeek-V4-Flash 架构，实现了极致的视觉 token 效率，在计数和空间推理基准上匹敌 GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash 等前沿模型。核心创新点： 1. 指代鸿沟发现：揭示了多模态模型在结构推理中的根本限制 2. 视觉原语嵌入：将点和边界框作为推理的基本单元 3. 极致效率：在保持性能的同时大幅降低视觉token使用量 4. 广泛验证：在多个基准测试中达到最先进水平这项工作代表了多模态AI推理的重要进展，为未来的视觉语言模型设计提供了新的方向。

原文: (论文原文未从arXiv获取 - 该论文可能不在arXiv上发布)

← 返回首页详细解读