DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence

DeepSeek-Coder-V2：打破闭源模型在代码智能领域的壁垒

📅 2024-06-19👤 DeepSeek Team📄 arXiv: 2406.11931📊 中等

代码生成MoE编程助手代码智能

中文摘要

DeepSeek-Coder-V2 采用 236B MoE 架构，在代码智能领域打破了闭源模型的壁垒。该模型在 HumanEval、MBPP 等编程基准上达到领先水平，支持代码补全、代码生成、代码修复、代码解释等多种编程任务。训练数据涵盖超过 8 万亿 token 的代码和自然语言语料。

DeepSeek-Coder-V2 uses a 236B MoE architecture, breaking barriers of closed-source models in code intelligence with state-of-the-art performance on HumanEval and MBPP.

快速链接

PDF 下载 arXiv 原文 GitHub 查看翻译 (12%)

核心贡献

采用 236B MoE 架构，在代码智能领域打破闭源模型壁垒
在 HumanEval、MBPP 等编程基准上达到领先水平
支持代码补全、代码生成、代码修复、代码解释等多种编程任务
训练数据涵盖超过 8 万亿 token 的代码和自然语言语料

技术细节

架构	236B MoE
核心创新	大规模 MoE 在代码智能中的应用
基准成绩	HumanEval、MBPP 达到领先水平
训练数据	超过 8 万亿 token 的代码和自然语言语料

💡 阅读建议

重点理解 MoE 架构如何应用于代码生成。建议先阅读 DeepSeek-Coder 了解基础方法。