DeepSeek LLM: Scaling Open-Source Language Models with Long-termism

DeepSeek LLM：以长期主义拓展开源语言模型

📅 2024-01-04👤 DeepSeek Team📄 arXiv: 2401.02954📊 入门

基础模型开源多阶段训练Long-termism

中文摘要

DeepSeek 开源语言模型家族的技术报告，包括 7B/1.3B 模型，采用多阶段训练策略，在多项基准测试中表现优异。这是 DeepSeek 首次大规模开源语言模型，采用 Long-termism（长期主义）的训练哲学，通过大量高质量数据的精心筛选和多阶段训练，实现了与同类闭源模型相当的性能。该系列模型的开源推动了全球 AI 研究的快速发展。

DeepSeek LLM technical report covering 7B/1.3B models with multi-stage training strategy, achieving competitive performance across multiple benchmarks. First large-scale open-source language model from DeepSeek.

快速链接

PDF 下载 arXiv 原文 GitHub 查看翻译 (85%)

核心贡献

DeepSeek 首次大规模开源语言模型，包括 7B/1.3B 版本
采用 Long-termism（长期主义）训练哲学，通过大量高质量数据精心筛选和多阶段训练实现优异性能
在多项基准测试中与同类闭源模型性能相当
开源推动了全球 AI 研究的快速发展

技术细节

架构	7B/1.3B 多阶段训练
核心创新	Long-termism 训练哲学 + 高质量数据筛选
基准成绩	与同类闭源模型性能相当
开源影响	推动全球 AI 研究快速发展

💡 阅读建议

DeepSeek 系列的起点论文。重点理解 Long-termism 训练哲学和高质量数据筛选策略。