← 首页 | 导读 | 详细解读

Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation

Janus:解耦视觉编码实现统一多模态理解与生成

📄 arXiv: 2410.13848📅 2024-10-19英文 PDF中文 PDF
翻译进度 38 / 38 段 (100%)

中文摘要

Janus 是统一的视觉理解与生成模型,通过解耦视觉编码实现高效的图文双向生成。该模型打破了理解与生成之间的壁垒,在一个统一的架构中同时实现图像理解和图像生成。采用创新的解码器设计,在保持理解能力的同时具备强大的生成能力。

阅读模式

左侧英文原版 · 右侧中文 PDF(A4 双栏排版)· 可分别滚动对照

English Original
中文翻译 PDF