← 首页 | 导读 | 详细解读

DeepSeek-V3

DeepSeek-V3:混合注意力与多Token预测

📄 arXiv: 2412.19437📅 2024-12-27英文 PDF中文 PDF
翻译进度 119 / 119 段 (100%)

中文摘要

DeepSeek-V3 采用 Multi-Token Prediction(多Token预测)、DeepSeekMoE 混合专家架构和 Hybrid Attention(混合注意力)等技术创新,在多项基准上达到 SOTA 水平。Multi-Token Prediction 通过同时预测多个 token 大幅提升训练和推理效率。DeepSeekMoE 采用多路由辅助专家机制,实现专家间的极致专业化分工。混合注意力机制结合了分组查询注意力和多查询注意力,在性能和效率之间取得最佳平衡。

阅读模式

左侧英文原版 · 右侧中文 PDF(A4 双栏排版)· 可分别滚动对照

English Original
中文翻译 PDF
← 返回首页详细解读