← 首页 | 导读 | 详细解读

Thinking with Visual Primitives

用视觉原语进行推理

📅 2026-04-30英文 PDF中文 PDF
翻译进度 34 / 34 段 (100%)

中文摘要

近期多模态大语言模型(MLLMs)在缩小'感知鸿沟'方面取得了进展,但在复杂的结构推理任务上仍然表现不佳。本研究发现核心瓶颈在于'指代鸿沟(Reference Gap)'——自然语言过于模糊,无法精确指向密集的空间布局,导致推理过程中出现逻辑崩溃和幻觉。本项目提出了一种范式转变:模型不再只是'看得更清楚',而是学会'边指边思考'。通过将空间标记(点和边界框)直接嵌入推理轨迹作为最小思维单位,模型能够将抽象的语言概念锚定到具体的物理坐标上。该方法基于 DeepSeek-V4-Flash 架构,实现了极致的视觉 token 效率,在计数和空间推理基准上匹敌 GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash 等前沿模型。

阅读模式

左侧英文原版 · 右侧中文 PDF(A4 双栏排版)· 可分别滚动对照

English Original
中文翻译 PDF
← 返回首页详细解读