OpenAI
📅 2024-09-12arXiv: 2501.12948
o1 是大语言模型推理能力的突破。通过在训练过程中强化学习推理链,模型在数学、科学和编程等复杂推理任务上实现了重大性能提升。o1系列模型采用大规模推理训练策略,在AIME、MATH、GPQA等基准测试上达到新的最先进水平。
推理强化学习思维链数学编程
📅 2023-03-24arXiv: 2303.12712
本研究是对GPT-4能力的早期探索性研究,展示了在多个领域中出现的人工通用智能的火花。通过对GPT-4在推理、编程、数学、多模态等任务上的评估,我们发现模型展现出了一些AGI的早期迹象,包括在未见过的任务上的零样本泛化能力。
AGIGPT-4评估零样本学习推理
📅 2023-03-15arXiv: 2303.08774
GPT-4 是一个多模态大型语言模型,接受文本和图像输入,生成文本输出。在各个专业和多模态基准测试中,GPT-4 表现出与人类可比的能力和性能,在包括法律、医学、高级数学等广泛领域内的人类考试中都达到了及格分数线以上。GPT-4 在语言理解和推理能力方面相比GPT-3.5有显著改进。
大语言模型多模态GPT-4基础模型推理能力
Anthropic
📅 2022-12-15arXiv: 2212.08073
宪法AI是一种不依赖人类反馈就能训练无害AI模型的方法。该方法使用一组原则(宪法)指导AI生成自我批评和修订,从而减少对有害输出的倾向。这种方法比传统的RLHF更高效、成本更低,同时能更好地保证模型的安全性和无害性。
AI安全对齐无害性宪法AIRLHF
Meta
📅 2024-07-23arXiv: 2407.21783
LLaMA 3是Meta的第三代开源语言模型,提供8B和70B参数版本。该模型使用超过15万亿token的训练数据,在语言理解、推理、编码等广泛任务上实现了最先进水平。LLaMA 3采用分组查询注意力(GQA)、SwiGLU激活函数等先进架构,并支持128K上下文窗口。LLaMA 3-Instruct经过指令微调,在对话和指令遵循方面表现出色。
LLaMA开源基础模型128K上下文指令微调
📅 2023-07-18arXiv: 2307.09288
LLaMA 2是LLaMA的第二代版本,提供7B、13B和70B参数规模的模型。与第一代相比,训练数据量翻倍(2T token),上下文长度从2K扩展到4K。LLaMA 2引入了经过指令微调的聊天模型(LLaMA 2 Chat),通过人类反馈强化学习(RLHF)优化对话能力。Meta还开放了LLaMA 2的商业使用许可。
LLaMA开源对话模型RLHF商业许可
📅 2023-02-24arXiv: 2302.13971
LLaMA(Large Language Model Meta AI)是Meta开发的开源基础语言模型系列,涵盖7B到65B参数规模。LLaMA在较小数据集上训练,但通过高效的训练策略实现了与更大模型相当的性能。7B参数的LLaMA在多项基准测试上超越GPT-3(175B参数),展现了参数效率的重要突破。
LLaMA开源基础模型参数效率Meta
Mistral
📅 2024-01-03arXiv: 2401.04088
Mixtral 8x7B是一个稀疏的混合专家(MoE)模型,总参数达47B,但每次推理仅激活约13B参数。该模型在性能上超越Llama 2 70B,同时在推理成本和延迟方面与7B模型相当。Mixtral支持8K上下文窗口,采用滑动窗口注意力,并可通过LoRA微调。模型采用Apache 2.0许可发布。
MixtralMoE混合专家稀疏激活开源
📅 2023-10-10arXiv: 2310.06825
Mistral 7B是一个强大的7B参数开源语言模型,在大多数基准测试中性能超越Llama 2 13B。该模型采用分组查询注意力(GQA)、滑动窗口注意力(SWA)和前缀键值缓存优化等技术,实现了卓越的性能和效率平衡。Mistral 7B仅用约相当于Llama 2 13B一半的FLOPs就训练完成。
Mistral开源7B参数GQASWA