Llama 3细节公布！AI产品总监站台讲解：Llama系-小张不咕咕-最后一片净土

✖

☞ 点击这里获取免费大流量卡 ☜

新智元报道

编辑：LRS

【新智元导读】除了计算资源和训练数据这些硬实力外，Llama 3模型开源的训练思路覆盖了LLM模型的全部生命周期，提供了各种开源生态系统下的工具。

Llama 3的开源，再次掀起了一场大模型的热战，各家争相测评、对比模型的能力，也有团队在进行微调，开发衍生模型。

最近，Meta的AI产品总监Joe Spisak在Weights & Biases举办的会议上，针对Llama系列模型的历史、Llama 3的训练思路、开源生态系统、安全方面的工作、相关代码库，以及未来的规划进行了详细介绍。

视频链接：https://www.youtube.com/watch?v=r3DC_gjFCSA

视频总结

Llama系列模型发展历史

实际上，早在2023年2月，Meta就组织了一个团队，这个团队集结了公司内从SysML到模型开发、再到数据处理，集结了各个领域中的顶级研究员，还另外聘请了一些创新型的人才。

Llama 2模型在2023年7月份发布，可供商业使用，参数范围从7B到70B，在当时已经算是最先进的成果了；随后在8月和今年1月，Meta发布了Code Llama；12月推出Purple Llama项目，主要关注模型的安全和信任问题。

Llama 3模型介绍

研究人员使用了至少7倍于Llama 2的数据（大约2T个token）来训练Llama 3 模型（超过15T个token）；

在微调方面，Llama 2模型的SFT中有一百万条人类标注数据，而在Llama 3中，Meta将微调数据量增加了10倍。

Llama 3还包括了更大的词汇表，一个新的tokenizer，运行效率更高，性能更强，并且上下文窗口也加倍了。

Joe强调，目前发布的其实是Llama 3的非常早期版本，团队原本打算将这些模型称为预发布或预览版本，因为模型并不具有计划中包含的全部功能。

研发团队针对后训练模型（即指令模型），以及基础模型本身都进行了评估，可以看到8B和70B的指令模型都优于同级对比模型，基础模型Llama 3 70B在各方面也都优于Gemini Pro 1.0模型，甚至也优于最近发布的Mistral 8*22B，总之模型的性能表现非常强劲。

Meta团队在人类评估上也做了很多工作，标注了一个包含1800个提示词的数据集，提示词基于真人使用的提示词，覆盖了12个关键的用例。

Meta在GitHub上发布了细节，然后向用户询问模型的表现如何，从实验结果的胜率、平率和负率中可以看到，用户喜欢Llama 3远超Llama 2，也胜过了其他对比模型。

Llama 3背后的开发思路

研发团队在最高层面上考虑的问题主要有四个方面：

模型架构

Llama 3使用的是稠密自回归Transformer，在模型中加入了群组查询注意力（grouped query attention，GQA）机制，又添加了一个新的分词器，团队表示会在即将发布的论文中详细介绍这个问题。

训练数据和计算资源

由于训练过程使用了超过15万亿的token，因此需要大量的计算资源，团队自己搭建了计算集群（两个24k H100 GPU）用于训练模型。

指令微调

虽然大部分研发团队都更喜欢谈论预训练，但实际上模型的效果主要取决于后训练阶段，也是最耗费时间精力的地方。

Meta团队扩大了人工标注SFT数据的规模（1000万），将GPU数量也扩大到了数万个，还采用了诸如拒绝采样、PPO、DPO等技术来尝试在这些模型的可用性、人类特征以及预训练中的大规模数据之间找到平衡。

增强模型的安全性

模型在实用性和安全性之间，必须要进行取舍：Meta团队尝试提高模型的实用性，包括多用途、回答问题的能力、事实上的准确性等，但也需要在安全性方面进行权衡，理解模型在面对诸如完整性类型提示词等情况时的反应。

红队测试在安全领域中也是非常重要的，Meta团队投入了大量的时间，但挑战和标准一直在变化，关于红队看法也在不断改变。

Meta在未来的研究方向是开发出紫色的Llama（融合了红色和蓝色），即红队和蓝队，也就是攻击方和防御方，开发团队从网络安全领域借鉴了命名方式，也是内部网络安全/生成式AI团队的一位科学家提出的。

研究人员希望最大化模型的价值，也体现出了一种独特思维方式：在Llama 2 项目中，Meta构建了非常安全的模型，在模型本身包括微调等方面投入了非常多，但模型经常会过度拒绝某些内容，表现得「过于安全」，虽然可以保证制作的模型非常安全，但同时，研发团队也希望能有一些灵活性，包括输入和输出的保护措施，让用户可以根据需要定制使用方式。