厂商论文 - AI大模型论文库

OpenAI

学习使用大语言模型进行推理

📅 2024-09-12arXiv: 2501.12948

o1 是大语言模型推理能力的突破。通过在训练过程中强化学习推理链，模型在数学、科学和编程等复杂推理任务上实现了重大性能提升。o1系列模型采用大规模推理训练策略，在AIME、MATH、GPQA等基准测试上达到新的最先进水平。

推理强化学习思维链数学编程

PDF arXiv 详细解读全文

人工通用智能的火花：GPT-4的早期实验

📅 2023-03-24arXiv: 2303.12712

本研究是对GPT-4能力的早期探索性研究，展示了在多个领域中出现的人工通用智能的火花。通过对GPT-4在推理、编程、数学、多模态等任务上的评估，我们发现模型展现出了一些AGI的早期迹象，包括在未见过的任务上的零样本泛化能力。

AGIGPT-4评估零样本学习推理

PDF arXiv 详细解读全文

GPT-4 技术报告

📅 2023-03-15arXiv: 2303.08774

GPT-4 是一个多模态大型语言模型，接受文本和图像输入，生成文本输出。在各个专业和多模态基准测试中，GPT-4 表现出与人类可比的能力和性能，在包括法律、医学、高级数学等广泛领域内的人类考试中都达到了及格分数线以上。GPT-4 在语言理解和推理能力方面相比GPT-3.5有显著改进。

大语言模型多模态GPT-4基础模型推理能力

PDF arXiv 详细解读全文

Anthropic

宪法AI：从AI反馈实现无害性

📅 2022-12-15arXiv: 2212.08073

宪法AI是一种不依赖人类反馈就能训练无害AI模型的方法。该方法使用一组原则（宪法）指导AI生成自我批评和修订，从而减少对有害输出的倾向。这种方法比传统的RLHF更高效、成本更低，同时能更好地保证模型的安全性和无害性。

AI安全对齐无害性宪法AIRLHF

PDF arXiv 详细解读全文

LLaMA 3 模型家族

📅 2024-07-23arXiv: 2407.21783

LLaMA 3是Meta的第三代开源语言模型，提供8B和70B参数版本。该模型使用超过15万亿token的训练数据，在语言理解、推理、编码等广泛任务上实现了最先进水平。LLaMA 3采用分组查询注意力（GQA）、SwiGLU激活函数等先进架构，并支持128K上下文窗口。LLaMA 3-Instruct经过指令微调，在对话和指令遵循方面表现出色。

LLaMA开源基础模型128K上下文指令微调

PDF arXiv 详细解读全文

LLaMA 2：开放基础和微调聊天模型

📅 2023-07-18arXiv: 2307.09288

LLaMA 2是LLaMA的第二代版本，提供7B、13B和70B参数规模的模型。与第一代相比，训练数据量翻倍（2T token），上下文长度从2K扩展到4K。LLaMA 2引入了经过指令微调的聊天模型（LLaMA 2 Chat），通过人类反馈强化学习（RLHF）优化对话能力。Meta还开放了LLaMA 2的商业使用许可。

LLaMA开源对话模型RLHF商业许可

PDF arXiv 详细解读全文

LLaMA：开放高效的基础语言模型

📅 2023-02-24arXiv: 2302.13971

LLaMA（Large Language Model Meta AI）是Meta开发的开源基础语言模型系列，涵盖7B到65B参数规模。LLaMA在较小数据集上训练，但通过高效的训练策略实现了与更大模型相当的性能。7B参数的LLaMA在多项基准测试上超越GPT-3（175B参数），展现了参数效率的重要突破。

LLaMA开源基础模型参数效率Meta

PDF arXiv 详细解读全文

Mistral

Mixtral：混合专家模型

📅 2024-01-03arXiv: 2401.04088

Mixtral 8x7B是一个稀疏的混合专家（MoE）模型，总参数达47B，但每次推理仅激活约13B参数。该模型在性能上超越Llama 2 70B，同时在推理成本和延迟方面与7B模型相当。Mixtral支持8K上下文窗口，采用滑动窗口注意力，并可通过LoRA微调。模型采用Apache 2.0许可发布。

MixtralMoE混合专家稀疏激活开源

PDF arXiv 详细解读全文

Mistral 7B：高效开源大语言模型

📅 2023-10-10arXiv: 2310.06825

Mistral 7B是一个强大的7B参数开源语言模型，在大多数基准测试中性能超越Llama 2 13B。该模型采用分组查询注意力（GQA）、滑动窗口注意力（SWA）和前缀键值缓存优化等技术，实现了卓越的性能和效率平衡。Mistral 7B仅用约相当于Llama 2 13B一半的FLOPs就训练完成。

Mistral开源7B参数GQASWA

PDF arXiv 详细解读全文

各厂商大模型论文

OpenAI

Anthropic

Meta

Mistral