← 首页 | 导读 | 详细解读

DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding

DeepSeek-VL2:基于混合专家架构的先进多模态视觉语言模型

📄 arXiv: 2412.10302📅 2024-12-12英文 PDF中文 PDF
翻译进度 39 / 39 段 (100%)

中文摘要

DeepSeek-VL2 首次将 MoE(混合专家)架构应用于视觉语言模型,支持超高分辨率图像理解和复杂视觉推理。采用创新的视觉 token 压缩技术和动态专家路由机制,在保持高性能的同时大幅降低计算成本。在文档理解、图表分析、科学图表理解等任务上显著超越前人工作。

阅读模式

左侧英文原版 · 右侧中文 PDF(A4 双栏排版)· 可分别滚动对照

English Original
中文翻译 PDF
← 返回首页详细解读