Llama 3.1 技术研究报告-7
7.6 图像识别结果
我们对 Llama 3 模型进行了多维度性能评估,在多个任务类别中考察其图像处理能力。这些任务包括对自然场景图像的理解、文本信息的解析以及图形信息的解读,并且还涵盖了多模态推理过程的研究。
MMMU(Yue等人, 2024a)属于一个极具挑战性的数据集,专为多模态推理任务而设计。该数据集要求模型不仅能够理解复杂的图像信息,还需要解答涉及广泛领域的大学水平问题,具体包括多种选择题和开放性问答题。这一方法同时涵盖了多种选择题和开放性问答题,在经过900张高质量图像验证的数据集中进行评估,并借鉴了其他研究的方法论。
- VQAv2(Antol等人, 2015)提出了一个评估框架,在综合图像理解、语言理解和常识的基础上解答自然图像相关的通用查询的能力。
- AI² Diagram(Kembhavi等人, 2016)开发了一个系统性评估方法,在科学图表解析方面展现出显著能力,并采用与Gemini和x.ai相同的评测标准,在透明边界下记录得分。
- ChartQA(Masry等人, 2022)是一个具有挑战性的图表理解基准系统。该系统要求模型在视觉上解析不同类型的图表并解答相关逻辑问题。
- TextVQA(Singh等人, 2019)是一个广泛使用的基准数据集,在涉及图像文本解读的任务中展现了出色性能,并通过OCR技术实现了对自然图像的理解能力。
- DocVQA(Mathew等人, 2020)专注于文档分析与识别领域的一个基准数据集。该集合包含多种文档类型的图片,并用于衡量模型执行OCR理解和推理文档内容以解答相关问题的能力。

实验结果表29展示了我们的研究发现。结果显示,在多样化的图像识别基准测试中展现了强大的性能水平。我们将其视觉模块附加至Llama-3系统中,并观察到由该模型生成的Llama-3-V(405B)版本在各项评估指标上均超越了现有的GPT-4-V版本。然而尽管如此,在某些特定领域如文档理解任务上仍显现出独特的竞争优势
7.7 视频识别结果
我们在三个基准上评估了 Llama 3 的视频适配器:
- PerceptionTest (Pătrăucean 等人, 2023) 旨在评估模型在处理技能(记忆、抽象、物理、语义)以及不同类型推理(描述性、解释性、预测性、反事实)的时间推理问题方面的能力。该数据集包含11.6千个测试问答对,在全球一百名参与者的真实拍摄下展示感知上的趣味任务特点;每个视频平均时长为23秒左右。
- NExT-QA (Xiao 等人, 2021) 是一个专注于时间与因果关系的基准数据集,在开放式问答领域具有重要地位;它包含一千个测试视频样本,并采用平均时长约四十四秒的设定;评估性能主要通过计算模型响应与真实答案之间的Wu-Palmer相似度(Wu 和 Palmer, 1994)来进行。
- TVQA (Lei 等人, 2018) 主要考察模型在执行复杂推理能力方面的表现;该数据集来源于流行电视节目,并特别关注时空定位相关时刻、视觉概念识别以及基于字幕对话的联合推理能力;此外还考察了模型利用外部知识回答问题的能力;该集合包含了超过一十五千个验证问答对,在每一段视频片段中平均时长约七十六秒。
- ActivityNet-QA (Yu 等人, 2019) 则关注于模型在长视频片段中进行推理以理解动作、空间关系、时间关系及计数等方面的性能;该数据集由八百个不同的视频样本构成,在每一段视频中平均持续时间为三分钟;评估过程中遵循先前研究工作(Google, 2023; Lin 等人, 2023; Maaz 等人, 2024)中的协议框架——通过GPT-3.5 API生成简短的回答选项,并将其与真实答案进行比较计算准确率。
在进行推理的过程中,在完整视频片段中每隔一定时间选取一帧样本,并将其与简短文本提示一起输入到模型中。针对绝大多数基准测试涉及多项选择题的情况,在提示部分采用如下方式:请从给定的选项中选择正确的答案。
{问题}。⽤正确的选项字⺟回答,其他什么都不要写 。
对于那些要求生成简洁回答的基准测试(例如ActivityNet-QA和NExT-QA),我们采用以下提示:
在回答问题时,请使用一个词或短语填入{}中的位置{问题}。对于 NExT-QA 来说, 因为评估标准 WUPS 对长度以及所使用的具体单词高度敏感, 我们建议在模型生成回答时应尽量具体化, 并且突出重点信息, 例如, 在询问场所时, 应指定"客厅"而不是仅仅给出"房间"的回答
基于包含字幕的基准测试(如TVQA),我们将推理过程中的提示信息设置为对应片段的文字内容。

在表 30 中列举了 Llama 3 模型在8B和70B参数情况下的具体性能数据。本研究通过对比分析将该模型的表现与两个 Gemini 系列以及两个 GPT-4 系列进行了深入比较。特别注意的是,在训练或微调数据中未包含这些基准测试的部分情况下进行的结果评估均为零样本。经过测试发现,在后训练阶段引入小型视频适配器后 our Llama 3 模型表现出极强的竞争实力,在某些场景下甚至超越了那些从预训练开始便利用原生多模态处理的能力。值得注意的是,在评估过程中仅考虑了8B和70B参数规模模型的情况下,Llama 3 在视频识别任务中的表现尤为出色。
在 PerceptionTest 测试中,Llama 3 获得最佳成绩,这表明其执行复杂时间推理的能力非常出色。
至于像 ActivityNet-QA 这样的长篇活动理解任务,即使该模型仅处理最多64帧(即每分钟处理一帧),但在三分钟长度的视频中仍能展现出强大的性能。

8 语⾳实验
我们进行了实验性探索如何将语音能力以组合形式整合进Llama 3中这一技术路径类似于我们在视觉识别领域所采用的方法。在输入端部分我们采用了结合编码器与适配器的方式来处理音频信号。通过采用文本格式的系统提示来激活L llama-3的各种音视频理解模式若未提供相应的系统提示信息则模型可作为通用口语对话框架运行对话历史可作为前缀添加到提示中使用从而改善多轮交流体验进一步尝试采用系统提示信息来驱动L llama-3启动其自动生成音频识别(ASR)及音频翻译(AST)的功能该设备配备丰富多样的语言覆盖共支持多达34种语言同时允许混合输入模式下工作使其能够应对复杂的音频理解问题
我们采用了另一种语音生成方法,并开发了一个流式文本到语音(TTS)系统,在语言模型解码过程中实现了实时生成音频波形的功能。为了优化Llama 3语音生成器性能,在设计过程中未进行语音合成方面的微调优化;相反地,则特别关注并利用Llama 3嵌入技术在推理阶段提升语音合成的速度、准确度和自然度等关键指标表现。声面接口及其功能在图中详细展示
8.1 数据
8.1.1 语⾳理解
训练数据可以分为两类:一种是预训练数据(包含海量未标注语音),另一种是监督微调数据(包含语音识别、语音翻译以及口语对话等信息)。这些分类的数据将被用来在与大型语言模型进行集成的过程中解锁特定功能。
预训练数据源 。为了实现语音编码器的预训练目标,在过去几年里我们收集了大约千万小时的语音录音数据集,并涉及多种语言。通过VAD模型对这些音频样本进行筛选处理,并选择VAD阈值高于0.7的音频样本作为最终的数据集用于语音编码器的初步培训阶段。在构建语音编码器的过程中,在预处理阶段去除了所有个人身份信息(PII)。随后我们利用Presidio分析器系统识别并提取了此类个人敏感信息
语音识别与机器翻译的数据方面
语音对话数据作为基础。为了微调语音对话的声音适应器(Fathullah等人,2024),我们指示语言模型生成基于转录的回答(Le等人,2024)。我们利用ASR数据集中约6万小时语音的部分进行合成数据分析。此外,在用于训练Llama 3的数据集中运行Voicebox TTS系统生成约25,000小时的数据。为了选择适合语音分布的数据子集,我们采用了几种启发式策略:关注简短提示项、具有简单结构且无非文本符号的内容。
8.1.2 语⾳⽣成
语音生成数据集主要包含了用于训练文本归一化模型和韵律模型的数据。经由额外输入特征Llama 3嵌入进行增强处理,旨在提供上下文信息。
⽂本归⼀化数据 。我们的 TN 训练数据集包括 55K 个样本,涵盖了需要⾮平凡归⼀化的⼴泛符号类别(例如,数字、⽇期、时间)。每个样本是⼀对书⾯形式⽂本和相应的归⼀化⼝语形式⽂本,以及执⾏归⼀化的⼀系列⼿⼯制作的 TN 规则。
韵律模型数据 。其中包含从50K小时TTS数据集中提取的语言语调特征。这些数据是由专业配音演员在录音棚环境中录制的对白稿件及其对应的音频内容。
Llama-3 embedding. The decoder layer output from the sixteenth decoder layer in Llama-3 is used as the embedding. Specifically, we are dedicated to utilizing the Llama-3 8B model to extract embedded representations from given text inputs (either written form texts or audio transcriptions from PM). These embedded representations are aligned with the corresponding blocks in either TN or PM token sequences, where specific text tokens from TN (separated by Unicode categories) or phonetic features are matched. This allows us to process token and embedding streams in a streaming fashion for training purposes.
8.2 模型架构
8.2.1 语⾳理解
在输入端,语音模块由两个连续的组件构成:语音编码器和适配器。语音模块将输出传递给语言模型作为token表示,并实现与文本token之间的直接交互。此外,在语音表示序列周围引入了两个特殊的新Token来包围它们。相比之下,在第7节所述视觉模块存在显著差异:后者通过交叉注意力层整合多模态信息输入到语言模型中。相较于之的是,在此过程中生成的嵌入能够无缝地与文本token结合使用。
语音编码器系统
语音适配器设计
8.2.2 语⾳⽣成
我们采用了 Llama 3 8B 嵌入技术来实现语音生成系统中的两个核心组件:文本归一化与韵律建模功能。通过 TN 模块的设计与实现, 我们能够将书面文本转化为具有自然口音特征的形式, 确保生成语⾳在语义上具有准确性。基于这些嵌入信息, PM 模块能够有效预测并增强语音的时间节奏感与情感表达能力, 这使得整个系统的语音生成效果更加真实可信。两种模块协同工作, 实现了从语⾳到语⾳的精确转换过程
Token Normalization(TN)模块负责从书面形式文本到最终口语化的上下文感知转换。基于决定因素的是书面形式文本中词语的意义及使用场景等多维度特征信息。例如,在书写"123"时会根据具体语境被解读为基数"一百二十三"或逐字发音"一三"两种不同的方式。该系统采用了一个基于流式Long Short-Term Memory(LSTM)架构设计的序列标记模型,在此基础上构建了专门针对Token Normalization的任务需求体系。(Kang等, 2024)。此外,该神经网络系统还能够通过交叉注意力机制接收并解析LLaMA-3嵌入信息,从而实现最小化单个tokens之间的关联窗口并提升处理效率
韵律建模
韵律建模
PM 通过整合多个输入模块构建了一个全面的韵律预测系统:从上述文本经过前端归一化处理衍生出的语言特征、令牌和嵌入。PM 针对三个关键韵律特征进行预测:每个音素的对数持续时间、对数基频平均值以及跨越音素持续时间的对数功率均被计算。模型架构由单向Transformer组件及其六个注意力头构成。每个模块包含交叉注意力机制层以及两个隐藏层单元(共864个神经元)。值得注意的是,在关注不同输入速率方面,PM采用了双重交叉注意力机制:一部分专注于语言输入编码工作;另一部分则用于Llama嵌入信息处理。
8.3 训练配⽅
8.3.1 语⾳理解
语音模块的学习分为两个主要阶段。第一阶段为语音预训练任务,在这一过程中我们利用未标注的数据培养一个能在多种语言及声学环境下表现出强大泛化能力的语音编码器。第二阶段是对监督微调进行适应性学习,在这一过程中适配器与预训练编码器被整合到语言模型中,并在语言模型处于冻结状态下与其协同训练。这使得模型能够对语音输入做出响应。该阶段使用与语音理解能力相关的标记数据
多语言ASR与AST建模通常会遇到语言混淆或干扰的问题,从而影响系统的性能表现。为了解决这一问题,一种流行的方法是在源语言和目标语言之间都集成语言识别(LID)信息,这有助于提高预定义方向集的性能,但同时也可能导致潜在的泛化能力损失。具体而言,如果一个翻译系统希望在源语言与目标语言之间都配置LID信息,那么在训练过程中未见过的方向上可能会出现模型无法有效支持零样本表现的情况。因此,我们的挑战是如何设计一个系统,在允许一定程度上的LID信息应用的同时保持足够的通用性,以便能够实现对未见过方向上的语音翻译支持。
为了有效解决当前问题,在研究团队的努力下我们开发了相应的提示信息这些提示仅包含目标侧语言的LID编码并未包含源语言信息这可能有助于处理混合编码的语音输入对于ASR系统我们采用了以下提示方式请重复以下内容:Repeat after me in {language}其中一种语言选自34种语言中的一个包括英语法语等而对于语音翻译系统则采用Translate the following sentence into {language}的方式在训练与推理过程中采用了统一的设计方案这种设计已在多个实验中验证其有效性
语⾳预训练 。我们采⽤基于自监督学习的BEST-RQ算法(Chiu等人, 2022)对语⾳编码器进⾏⾃监督微调训练。在输⼊数据上应用了一个长度为32帧的掩码序列,并以2.5%的概率随机移除这些掩码帧以增强鲁棒性。当语⾳话语超过60秒时, 采⽤随机剪切技术截取6K帧进行处理, 相当于60秒的语⾳时长。通过将四个连续帧数据进行堆叠并将其320维向量投影到16维空间中, 并在包含8192个向量的代码本中计算余弦相似度度量下的最近邻搜索, 我们有效地提取了 mel-频谱图特征表征信息。为了保证编码器训练过程中的稳定性, 我们采用了8个独立的代码本进行并行训练(而不是之前的16个)。投影矩阵参数与代码本参数均采用随机初始化方式, 并在整个训练过程中保持固定不变以避免梯度消失问题。为了避免过多计算开销, 在模型前馈过程中仅对掩蔽帧上的特征向量计算多标签Softmax损失函数而非整个序列输出层的所有位置都进行损失计算(这也是为什么称其为"多 softmax"设计的原因)。整个编码器模型经过50万次优化迭代最终收敛完成训练任务
监督微调阶段中预设好的语音编码器与随机初始化的适应器进一步结合优化,并协同工作以提升整体性能。在整个过程中,在线语言模型并未发生任何变化。该参数设置下(Llama-3-8B),语音模型进行了大约65万次参数更新,并采用全局批量大小为512批以及学习率设置为1e-4进行 training. 而更大的模型(Llama-3-70B)则经历了大约60万次参数更新,在更大规模的数据处理中采用了更大的批次大小,并适当降低了初始学习率至4e-5.]
8.3.2 语⾳⽣成
为了实现实时处理需求, 音频解码器采用了前瞻性机制, 其中包含了固定长度未来音素序列与可变长度未来令牌序列的关系模型。该方案将当前块内的固定音素序列与后续可能出现的最大可变长度的令牌序列相结合, 并与第8.1.2节所述的文本分块划分方法相配合。对于每个输入块, 该编码过程需要进行固定的音素预测以及可变数量 future token 的向前推断以确保同步性。
Llama-3 集成于一种源自于在韵律模型训练期间维持冻结状态的 Llama-3-8B 模型架构中。该输入特征不仅包含语言要素本身还整合了说话者及环境控制因素等关键要素。通过设置 batch size 等于1,024的话语单元来进行模型训练每个单元最长包含5,678个音素点数据点我们采用了 AdamW 最优化器并设置了学习率初始值设定为9×1e-⁴经过了超过一百万次参数更新其中前三千次更新阶段进行了学习率预热之后则遵循余弦衰减策略完成了优化过程
推理过程在运行中,在推理阶段会持续应用相同的前瞻性机制与因果屏蔽策略以确保训练阶段与实时处理的一致性。PM系统采用流水线处理输入文本,在每个音素到达时依次更新音素级别的速率特征,并逐步完成块级的参数更新操作。仅在当前块的第一个音素到达时才开始更新新的输入数据段以维持与训练阶段的同步性
为了实现韵律⽬标预测的研究工作,在本研究中我们采用了延迟模式的方法(Kharitonov 等⼈، 2021)。这一方法显著提升了模型在长距离韵律依赖方面的捕捉与再现能力。该方法有助于提升合成语音的自然度与表现力,并且通过优化实现了低延迟输出的同时保证了输出的质量。
8.4 语⾳理解结果
在评估 Llama 3 的语音界面在三种任务中的语音理解能力时,在以下三个具体领域展开测试:第一个任务是自动生成音频识别;第二个任务是进行语音翻译;第三个任务则是进行对话问题解答。为了全面比较其性能差异,在此研究中将我们的语音界面性能与当前最领先的三种语音理解模型对比研究:包括 Whisper(由 Radford 等人于2023年提出)、SeamlessM4T(Barrault 等人开发)以及 Gemini 模型。在整个评估过程中,默认采用了贪婪搜索算法来进行 Llama 3 模型的子词预测。
语音识别方面,在多语言数据集上进行了评估。具体来说,在LibriSpeech(MLS;Pratap等人, 2020)、LibriSpeech(Panayotov等人, 2015)、VoxPopuli(Wang等人, 2021a)以及多语言FLEURS数据集中选取的一个子集(Conneau等人, 2023)的英语数据上进行了ASR性能评估。评估过程中采用了Whisper本体规范化器进行后续处理步骤以确保与其他模型报告结果的一致性比较。在所有基准测试中, 我们评估了我们Llama 3语音界面在这些基准测试的标准基准测试集合上的单词错误率, 其中对于中文、日文、韩文和泰文等语言则报告的是字符错误率

实验结果表明ASR评估得分为96.5分
语音转文字
口语问题回答 。Llama 3 的语音界面展现了卓越的语言处理能力。该系统能够自然地处理混合语言对话,并无需预先训练于此类数据。值得注意的是,在经过单轮对话训练后,并不意味其无法参与连贯且扩展式的多轮对话交流。图30则展示了几个具体案例来说明这种多语言及多轮交互的能力
安全性 。我们在 MuTox(Costa-jussà 等⼈,2023)上评估了我们语⾳模型的安全性,这是⼀个包含 20000 个英语和西班⽛语句⼦和 4000 个其他 19 种语⾔的多语⾔⾳频数据集,每个句⼦都附有毒性标签。⾳频作为输⼊传递给模型,输出在清理⼀些特殊字符后评估其毒性。我们应⽤了 MuTox 分类器(Costa-jussà 等⼈,2023)并将结果与 Gemini 1.5 Pro 进⾏了⽐较。我们评估了添加毒性(AT)的百分⽐,当输⼊提⽰是安全的⽽输出是有毒的时候,以及丢失毒性(LT)的百分⽐,当输⼊提⽰是有毒的⽽答案安全的时候。表 33 显⽰了英语的结果和我们评估的所有 21 种语⾔的平均结果。22 添加的毒性百分⽐⾮常低:我们的语⾳模型在英语中添加的毒性百分⽐最低,不到 1%。它去除的毒性远多于它增加的毒性。
8.5 语⾳⽣成结果
在语音合成领域中,我们致力于评估采用Llama 3嵌入于文本归一化和韵律建模任务中的逐词输入流水线模型的性能指标。重点考察的是与未引入Llama 3嵌入的模型进行对比分析。

文本归一化
韵律建模 。为了测试Llama 3 8B韵律模型(PM)的效果以及与现有Llama 3嵌入模型之间的差异性关系,在进行了多轮的人类测试后发现该方法存在显著优势。研究者通过多轮的人类测试来验证该模型是否存在。在生成最终音频波形方面,则采用了基于Transformer的技术:首先利用Wu等人提出的预测频谱特征的方法构建声学特征;随后通过 Kalchbrenner等人开发的WaveRNN神经网络声码器完成音频波形的具体合成过程。(Wu等人,2021;Kalchbrenner等人,2018)

首先,在对比实验中我们采用了直接与未嵌入 Llama-3 流畅基准模型进行比较的方法。随后,在第二个测试任务中我们将 Llama-3-8B PM 模型与未嵌入非流畅基准模型进行了对比分析。根据表中的数据可以看出,在感知质量方面 Llama-3-8B PM 相较于流畅基准提升了约60%的时间占比而在非流畅基准上则达到了63.6%的优势进一步验证了其性能提升的有效性。这一显著改进主要得益于其逐词处理能力(见第8.2.2节)。这种处理方式不仅降低了推理过程中的延迟还显著提升了语音合成的速度和实时性从而确保了整体性能的优越性

9 相关研究
Llama 3 的开发 基于大量先前研究工作构建了基础模型 ,涵盖语言、图像、视频以及语音等多个领域。对这些工作的全面综述不在本文讨论范围内;我们推荐读者参考Bordes等人(2024年)、Madan等人(2024年)、Zhao等人(2023a年)等人的综述。下面我们将简要概述影响Llama 3开发的关键性工作。
9.1 语⾔
该规模的发展趋势延续了基础模型中不断扩张的趋势。这一改进主要得益于计算能力和数据质量的进步推动,在405B版本中实现了比70B版本高的计算资源投入。尽管拥有405B级别的参数数量,在实际应用中最大的Llama 3却表现得不如早期性能相对较好的一些模型(如PALM),这是因为人们对规模管理规则的理解更为深入(Kaplan等人的研究;Hoffmann等人的探讨)。至于像Claude 3或GPT 4这样的前沿模型,在公众了解的程度上则相差较大但总体性能表现相当。
⼩型模型
结构 上来看,在相较于 Llama 2 来说,并未出现重大的改进性设计,在架构方面也没有太大的突破性创新。然而,在一些细节之处仍有一些值得探讨的方向。其中最值得一提的是专家混合架构这一概念(Shazeer等人, 2017年; Lewis等人, 2021年; Fedus等人, 2022年; Zhou等人, 2022年)。该混合架构作为一种能够有效提升模型容量的方式被提出,并且在后续的研究中不断被优化和发展。其中Mixtral(Jiang等人, 2024年)等方法展示了良好的扩展能力,Arcot(Snowflake, 20二十四年)则在参数效率方面做出了重要贡献。值得注意的是,Llama3的表现超越了这些方法所构建的所有模型,这表明密集型结构并非制约其性能的主要因素.然而在训练效率、推理速度以及大规模模型稳定性等多个维度上仍面临着诸多权衡
开放源代码 。开放源代码 加工技术在过去一年中取得了显著提升 ,Llama 3-405B 模型如今已与当前主流封闭源技术相媲美 。近期研究团队密集推出了多个创新系列 ,其中包括 Mistral (江 et al. , )年 、 Falcon (Almazrouei et al. , )年 、 MPT (Databricks , )年 、 Pythia (Biderman et al. , )年 、 Arctic (Snowflake , )年、 OpenELM (Mehta et al. , )年、 OLMo (Groeneveld et al. , )年、 StableLM (Bellagente et al. , )年、 OpenLLaMA (Geng 和 Liu, )年、 Qwen (Bai et al. , )年、 Gemma (Team et al. , )年以及 Grok (XAI, )year 和 Phi (Abdin et al., )year 的新进展 。
在后训练过程中,Llama 3 持续采用了既定的指令调整策略(Chung等人, 该年;Ouyang等人,该年),随后结合了与人类反馈交互(Kaufmann等人,该年)。然而一些研究表明,轻量级交互程序表现出令人惊叹的有效性(Zhou等人,该年),因此Llama 3 利用数百万人类指令与偏好判断来改进其预训练模型。这些改进措施包括但不限于拒绝采样(Bai等人,该年)、监督微调(Sanh等人,该年)以及直接偏好优化(Rafailov等人,该年)等技术手段。为了生成这些指令与偏好示例,Llama 3 的早期版本被用来筛选( Liu等人,某次 )、重构( Pan等人,某次 )或生成提示与回应( Liu等人,No. b ),并在经过多轮迭代优化的过程中应用了这些技术和方法。
9.2 多模态
我们在 Llama 3 研究环境中开展的多模态能力实验是一项综合建模基础模型中多种模态的长时间研究工作的一部分
图像 。众多工作已经在众多图像与文本配对的数据集上训练图像识别模型,并取得了显著成果。例如Mahajan等人(2018年)、Xiao等人(2024a年)、Team(2024年)以及OpenAI(2023b年)均参与了相关研究。Radford等人(2021年)提出了首个基于对比学习结合图像及文本嵌入的人工模型。近期研究表明一批模型借鉴了Llama 3所采用的方法思路,在此基础之上我们结合现有研究成果实现了令人满意的实验结果;见第7.6节
视频内容 。然而尽管视频输入已被越来越多的基础模型支持(如 Google 和 OpenAI 在 2023 年分别报道),但在融合视觉与语言建模方面的工作量仍相对较小。类似于 Llama-3 模型的做法,在当前研究中普遍采用插件(adapter-based approach)方法来处理视觉信息与语言表达之间的关系,并实现了问答与推理能力在视觉数据上的应用(包括 Lin 等人于 2023 年的研究及其后续工作)。我们的研究发现该方法实现的结果能够与当前最先进的技术相媲美;参考第 7.7 节进一步讨论相关内容。
语音 。我们的研究涉及整合语音与语言模型的更广泛领域。早期的研究包括AudioPaLM(Rubenstein等人, 2023)、VioLA(Wang等人, 2023b)、VoxtLM Maiti等人(2023)、SUTLM(Chou等人, 2023)以及Spirit-LM(Nguyen等人, 2024)。我们的工作在Fathullah等人(2024)等先驱研究的基础上展开。与大多数先前的研究不同的是,我们选择不专门对语音任务微调语言模型,因为这可能导致在其他任务上的性能下降。我们发现,在较大的模型规模下,即使没有这样的微调,也能表现出强大的性能;参考第8.4节。
10 结论
从多个领域来看,在高质量基础模型的开发方面仍处于初期阶段。我们的经验表明,在Llama 3模型的发展中预期将迎来重大进展。在整个Llama 3系列模型的开发过程中,则重视高质量数据、规模以及简洁性作为关键要素。在初步实验阶段中,则尝试了更为复杂的架构与训练方案;但未发现这些方法所带来的优势超越了它们引入的额外复杂度。
构建像 Llama 3 这类高端基础模型需要应对众多复杂的技术挑战,并依赖于明智的决策机制。例如,在防止预训练数据被外部基准污染方面采取了严格措施:我们采用了独特的方法来监控评估过程——即通过限定只有特定研究团队能够访问评估数据并进行相关分析。另一个关键做法是,在技术论文中通常不详细讨论的组织层面决策上——我们发现这些对于Llama系列模型的成功开发至关重要。
我们分享了我们的开发细节,并因为我们相信这将:
(1) 透彻地了解基础模型开发的关键要素;
(2) 展开关于基础模型在公众中未来进行更加深入和有见地的讨论。
我们分享了整合多模态能力到Llama 3中的初步实验。尽管这些模型仍在积极发展中尚未成熟准备就绪,在本文详尽的安全分析所得出的结果基础上 我们期待通过提前展示我们的成果来促进该领域的研究进展。随后正式发布了我们的Llama 3语言模型 目的是加快针对多种社会相关应用开发AI系统 并使研究社区有机会审阅 our model 并提出改进意见 我们相信 在负责性地发展这类技术方面公开发布的基础架构至关重要 同时我们也期待Llama 3的成功发布能鼓励行业更加开放透明地拥抱通用的人工智能技术
