Advertisement

论文翻译:arxiv-2024.Deng. Investigating Data Contamination for Pre-training Language Models

阅读量:

Examining the Impact of Data Corruption on Pre-trained Language Models

Deng等人通过引入受控干扰和人工合成数据集来评估基准数据的安全性。该研究发表于论文《Training on the Benchmark Is Not All You Need》中

论文主要研究了预训练过程中数据污染现象对语言模型性能的影响。然而该研究仅针对GPT2模型展开,并因单一模型的研究限制而导致其有效性缺乏充分证据支持。

预训练语言模型的数据污染调查

文章目录

摘要

1 引言

2 污染定义

3 实验设置

3.1 模型架构与预训练阶段

3.2 评估用的数据集

  • 实验分析
    • 污染可能影响评估性能的表现

    • 可能会出现重复污染导致效果呈现U型变化的情况

    • 去除预训练数据后可能会观察到评估效果的变化情况

    • 在更大规模模型上进行测试可能会得到更有参考价值的结果

    • 针对不同评估级别的数据分布进行污染影响分析也是必要的步骤

    • 5 相关工作

    • 6 结论

    • 7 致谢

摘要

基于大规模网络级别构建的语言模型,在多类下游应用场景中均展现了显著的处理能力特征。然而,在评估数据集嵌入于预训练语料库的情形下人为提升模型性能的操作被统称为数据污染现象这一术语。目前围绕此类潜在污染对其 downstream应用效果产生何种影响的研究仍处于知之甚少的状态。

我们在本文中对一系列GPT-2模型进行了从零开始的预训练,并深入探讨了数据污染在预训练阶段的影响。我们特别关注了两种类型的数据污染:一种是评估样本中的输入文本带来的影响;另一种是对提示和期望输出产生的影响。此外,在针对多种下游任务的研究中发现其局限性和不足之处。我们的研究结果不仅深化了我们对数据污染影响的理解;更重要的是明确了未来大型语言模型研究中应采取的具体措施。

1 引言

大型语言模型(LLMs)的表现主要得益于其庞大的规模以及从海量预训练数据中获得的经验积累[29, 2, 27, 6, 1, 33, 34]. 然而,在这一领域尚待深入探索的关键问题是:预训练语料库可能存在评估数据污染的现象. 这一疏忽不仅影响了对LLMs能力的准确评估,并且也阻碍了对其行为进行系统的科学分析. 自预训练语言模型首次投入应用以来,在这一领域的研究已逐渐引起重视[7, 29, 6]. 然而今天大多数公共可用的语言模型基准集仍然面临访问限制. 这也使得全面理解并识别污染如何影响模型性能和行为变得具有挑战性.

最近的一份关于大语言模型(LLM)的研究报告[29, 2, 6, 27, 34, 11]系统性地从多个角度探讨了预训练语料库中的评估数据污染问题。其中一些研究对于该问题的研究细节描述较为简略(特别是针对闭源模型[29, 27])。其他一些研究则致力于从评估层面探讨数据污染问题(包括针对闭源模型[29, 27]和其他通用模型)。他们通过将评估数据集进行了后事分类处理(即分为"被污染"与"未被污染"两类),并基于所提出的特定定义对该两类别分别进行了模型性能测试(结果表明:如果一个模型在两个类别上的性能表现一致,则表明该模型不易受数据污染的影响)。然而,在当前的研究线路中,并未深入探讨预训练阶段的数据污染问题。

评估数据可能会通过多种途径被泄露至预训练语料库中。
主要关注的是评估数据集中的文本部分(即输入内容)。
这也是许多现有研究的重点所在(例如[34, 6])。
同样地,在某些情况下,预训练语料库可能包含评估数据的真实内容。
在此处,则将评估样本的真实信息视为原始内容,并附加了这些内容上的提示以及相应的解答。
直观而言,在存在真实信息污染的情况下对模型性能的影响往往不同。

另一个前沿研究领域是从成员推断攻击的角度出发,在预训练语料库中识别数据污染[21, 22, 10, 28, 31]。这一过程涉及判断特定文本是否存在于黑盒模型的预训练数据集中。尽管相关领域存在一定的关联性研究[5], [6], [7], [8], [9], [3], [4], [5], [6], [7]] ,但数据污染的确切检测与对其评估期间效果的理解之间存在一定的差距。近期研究表明[5], [6]开创性地推进了这一领域的发展

本文基于评估数据集的泄露状况进行研究以探索预训练数据对语言模型造成的潜在影响。在系统性地进行预训练工作后 我们深入分析了评估数据在整个语料库中所存在的多种污染途径。具体而言 本研究旨在针对以下三个核心问题进行了深入探讨:

为了探索语言模型在预训练语料库中因人为干预而产生的影响这一研究方向,RQ1 提出了相关问题。研究团队特别关注于那些经过人为干预的数据集,并将其分为包含真实信息与不包含真实信息两类(§4.1)。随后,我们分别从头开始对小规模GPT-2模型进行重新训练,系统性地评估并比较其在不同数据污染条件下的性能表现(§4.3)。进一步考察大尺寸模型在数据污染条件下的性能表现,以期全面分析数据质量对各类语言模型的影响程度(§4.4)。

研究问题 RQ2 ,即评估数据在预训练语料库中重复出现的次数对其性能有何影响?实际上,在实践中观察到评估数据在预训练过程中出现的频率及其相关后果尚不明确。为了进一步探究这一现象,在本研究中我们将评估数据多次注入到预训练语料库中并结合第4.2节提供的详实证据进行分析

本研究关注的问题是:在最近发表的LLM报告中基于n-gram的标准被用于描述数据污染的程度有多显著?为此我们通过系统性地筛选不同比例的数据污染描述并去除了这些训练文档并将剩余的数据作为干净语料集重新进行统一模型架构的设计与训练(参见第4.3节)。此外我们在第4.5节对当前LLM报告所采用的数据污染评估方法进行了深入分析发现许多现有报告倾向于将模型对数据污染现象的理解过于简化甚至忽视潜在复杂因素这一趋势可能导致误判进而影响其适用范围和可靠性

我们对几个常用的数据集进行了实验评估,并通过定量分析来观察性能差异。这些研究结果有助于我们深入理解语言模型预训练过程中存在的数据污染问题。基于以上分析所得出的结论总结如下:

我们利用自底向上的预训练语言模型展开实证研究来探讨评估数据泄露如何影响预训练语料库中信息污染现象对语言模型的影响,并以此为基础考察不同机制下的信息传播模式。
我们认识到准确反映评估数据集真实信息污染特性的重要性。值得注意的是,在这一过程中我们发现:随着信息重复率上升其对系统性能的作用呈现先减后增的变化趋势。
我们深入分析现有LLM报告中关于n-gram信息污染定义的标准并基于这些标准筛选预训练语料以进行进一步实验比较得出了现有方法难以有效识别复杂的信息传播模式这一结论。

2 污染定义

许多大型语言模型(LLMs)相关的研究已深入探讨了数据污染这一概念,并揭示了这些模型在检测潜在污染方面有效性[29, 2, 6, 27, 33, 34, 11]。大多数现有研究中的定义均建立在预训练数据与评估数据之间n-gram重叠的基础上。例如,在PaLM [6]的研究中发现,在评估样本的所有8-gram子集中至少有70%的存在频率高于预训练语料库中的频率。相比之下,Llama 2 [34]提出了更为细致的标准:如果一个token不仅出现在评估样本和提示串中超过10个token的n-gram序列中,并且还出现在对应的生成结果序列中,则判定该token为污染性标记;而根据每个评估样本被标记为"被污染"的比例,则将其划分为四个类别:"干净"、"不完全干净"、"不脏"以及"脏"等类别。这种直观的方法主要关注于直接重叠项的检测机制;然而由于这种方法仅考虑了同时出现在训练集与测试集中的简单重叠项而导致误报率偏高(因为许多语义相近但存在细微差异的内容仍会被误判为存在明显偏差),并且容易受到人为修改的影响[36]。此外依赖此类标准的研究大多聚焦于测试阶段的表现分析;而在我们的研究工作中则着重考察了预训练阶段的相关特性(如前所述)。

3 实验设置

3.1 模型、数据和预训练

核心实验中所采用的是具有1.24亿参数量的GPT-2-small架构,并采用了默认设置的超参数设置。由于从零开始进行模型预训练的计算开销较大,在实际操作中我们选择了相对简单的架构结构。参考文献[16]中的建议,在Pile [9]语料库的基础上收集了约195万份文档数据来构建一个大规模的语言模型训练集。该语料库的总规模达到33亿个token,并基于Chinchilla扩展原则实现了最优的计算效率。随后又对实验进行了扩展工作,在GPT-2-large架构(7.74亿参数)的基础上并结合pile-uncopyrighted语料库中的约198亿个token数据(见第4.4节),继续遵循最优计算资源配置原则进行拓展工作。所有实验条件下的超参数设置详细说明了在附录A部分。

3.2 评估数据集

基于四个自然语言处理领域的代表性数据集来考察我们的预训练模型性能:SST-2 [32]作为情感分析基准;MMLU [12]则是一个多任务自然语言理解的关键评测指标;CNN And Daily News [24]提供了文本摘要相关研究的重要评价框架,并在GPT-2报告[29]中进行了系统性验证;斯坦福问答数据库(SQuAD)集合[30]则聚焦于模型的理解与问答能力。这些评测指标的具体统计参数详见表1。所有这些数据均源自HuggingFace平台获取。我们采用这些较为基础且常规的基准测试是为了明确研究目标:即探究不同水平的数据污染会对GPT-2系列模型性能产生怎样的差异性影响效果。相比之下更为复杂的数据场景可能超出了该研究系列的能力范围

表1:对评估数据集进行统计汇总。其中最后一列 (#样本数) 反映了各个标签下对应的评估实例数量

在这里插入图片描述

为评估目的而采取措施时, 我们遵循既定工作流程。基于SST-2数据集, 由于GPT-2生成的结果具有不可预测性和不稳定性, 我们将输入句子及其潜在标签作为假设条件, 并让模型对每个假设进行打分, 最终选取最高分为预测结果。为了避免受到提示语敏感性的影响[18], 我们采用了每种模型基于十个不同的提示语计算准确率的方法, 并将所有相关提示语及其性能数据详列于附录B部分中。针对MMLU系统,则采用AllenAI官方提供的MMLU实现方案[35]来测定其在57个主题领域的准确率。

本文采用[29]所介绍的原始方案进行文本摘要任务研究与实验验证。在文章末尾补充说明TL; DR: "通过诱导生成摘要"这一核心观点后,在实验过程中我们设定以下参数设置:首先,在模型训练阶段使用top-k随机采样机制(k=2),并在完成150个token生成后取生成序列前三个tokens所构成的句子作为摘要内容。为了全面衡量所提取摘要的质量与准确性,在评价指标方面我们采用了广泛采用的标准ROUGE-1ROUGE-2以及L分数[19]等多维度指标,并结合官方提供的UniEval[37]评分体系进行综合考量。针对SQuAD评测系统上的问题回答任务,在实验设计中我们限定模型最多输出15个token,并将生成响应的第一个句子定义为答案候选。随后我们通过计算候选答案与标准答案之间的token重叠程度来计算F1分数这一关键性能指标。最后,在实验数据选择上我们采用了SQuAD V1版本以尽可能减少SQuAD V2版本中大量存在的无答案问题所带来的潜在偏差影响。

4 实验与分析

在本节中

4.1 污染对评估性能的影响

为了评估数据污染对下游任务的影响,并比较文本和真实污染类型之间的差异,我们进行了表2与表3中各数据集上的GPT-2模型表现对比研究。通过对比分析发现:无论是引入文本还是真实污染因素,在与原始预训练GPT-2相比时均能显著提升模型在各数据集上的性能表现。值得注意的是:虽然文本污染在提升指标上显示一定效果但其增强程度相对有限这一现象尤其在SQuAD与CNN数据集中表现得更为明显其中文本污染条件下模型的连贯性和相关性得分有时会低于CNN基准下的原始模型水平相反真实污染往往能带来更明显的性能提升然而在SST-2基准下两者的表现则无明显优势差异这可能归因于文本分类任务主要依赖于输入文本的理解能力从而使得评估提示与真实真相的影响相对较小它们可能引入额外噪声尤其是考虑到输入文本通常较短且受提示格式敏感性影响较大的情况下MMLU基准对GPT-2小规模模型构成较大挑战这一挑战由公共检查点及预训练模型的表现所证实尽管存在固有难度但引入两种污染类型后仍能观察到性能提升现象总体而言这两种污染都能增强语言模型的能力但真实污染通常展现出更显著的积极影响尤其是在需理解评估提示指令的任务中如CNN与SQuAD基准就可观察到这一趋势实验表明:在UniEval指标下真实污染带来的流畅性提升仍低于公共检查点水平而引入GPT-2中等规模后其流畅性表现接近甚至超越了公共检查点这促使我们怀疑这一现象可能与训练数据规模相关此外我们还发现预训练模型与公共OpenAI基准之间仍存在较大差距这进一步凸显了训练数据规模对模型性能的重要性综合来看表2与表3的数据对比结果强调了真实污染对于下游评估任务的重要性

表 2:该研究对 SST-2、MMLU 以及 SQuAD V1 等数据集进行了评估。针对这三种变体模型,在每个实验中运行三次即每个预训练任务均采用三个不同的随机种子初始化,并以平均值±标准差的形式展示结果。值得注意的是,在现有设置下(如 GPT-2-small、GPT-2-medium 及 GPT-2-large),由于每个模型仅有一个基准点数据集可用

在这里插入图片描述

表3展示了在CNN和每日邮报数据集上的评估结果。此外,在每个实验中都进行了三次独立运行,并计算了均值与标准差作为指标;同时,在公共基线设置下仅包含一个验证点

在这里插入图片描述

4.2 重复污染的效果可能是U形的

在前一节中,我们已经观察到数据污染的有效性,其中文本和真实污染只被注入到预训练语料库一次。然而,在实践中,由于预训练语料库的庞大规模,评估数据集的一些部分可能在预训练语料库中出现不止一次。因此,在这一部分,我们研究了重复污染的效果,即将评估数据集多次添加到预训练语料库中。我们使用污染因子这个术语来表示评估数据在预训练语料库中出现的次数。这项分析旨在帮助我们更好地理解在预训练期间,评估数据的重复对于文本和真实污染性能的影响。结果在图1中显示。
对于SST-2、MMLU和SQuAD数据集,我们观察到随着污染因子的增加,性能呈现出明显的U形趋势。具体来说,随着污染因子的增加,性能最初有所提高,但当因子达到大约10次重复时开始下降。值得注意的是,在20次重复时,某些情况下的性能下降到了没有污染时观察到的基线水平以下。CNN数据集的结果根据使用的评估指标显示出不同的趋势。虽然ROUGE分数随着更高的污染因子稳步增加,但UniEval分数显示出与其他数据集类似的U形曲线,这也表明了CNN数据集的整体性能趋势是U形的。另一个值得注意的观察是,流畅性分数几乎随着污染因子的增加而单调增加,这进一步表明流畅性与训练数据的规模更相关。ROUGE分数的分歧主要归因于该指标对共同子序列和token频率的关注。这些元素更有可能随着数据重复而重复,特别是在涉及重复数据集中正确响应的真实污染场景中。这些发现表明,虽然向预训练语料库引入污染可以在一定程度上增强模型性能,但过度重复可能导致效果下降。我们还注意到,这个重复次数的阈值可能与模型大小和语料库大小有关,这需要在未来的工作中进行更多调查。这是一个有趣的结果,因为许多现有的大型语言模型利用了庞大但未经审查的预训练语料库,目前尚不清楚:1)评估数据在预训练数据中出现了多少次,以及2)污染实际上如何影响了评估性能。
另一方面,我们也观察到这种污染因子的U形曲线可能并不普遍适用于所有数据集和语料库,我们在附录C中更详细地讨论了这一点。

4.3 从预训练中移除污染的效果

在此阶段,我们基于概述中的n-gram和Llama 2定义展开实验。具体而言,这项研究旨在探讨如果我们依据这些标准筛选出被污染的文档,则这些被标记为污染的文档会对性能产生怎样的影响?通过使用不同的n值以及探索不同范围内的污染文档过滤阈值λ(如§2所述),我们可以观察到在Llama 2框架下应用这些标准时的效果差异。随后我们将从预训练语料库中剔除所有被判定为存在污染的文档,并详细分析其过滤效果(如图2所示)。

在这里插入图片描述

图1展示了各个数据集上不同污染因子评估指标范围为0至20的结果对比。其中"零重叠重复"特指基于原始语料库预训练的语言模型。前三个图形通过实线与虚线清晰区分了真实环境中的污染物浓度变化与基于文本模拟的污染物浓度波动情况。

在这里插入图片描述

图2:基于预训练语料库中的数据集,在分析污染样本时生成了评估结果。通过精心选择参数设置,我们实现了不同移除比例的目标。其中x轴标注了采用的不同清洁方法(包括n-gram和Llama 2模型),并显示了对应移除率百分比。

在我们的实验设置中,我们按照一定比例从预训练语料库中筛选出标记为"污染"的所有token,以探究移除不同百分比token对模型性能影响的目标展开研究。然而,结果并未呈现不同移除比例间的一致模式。值得注意的是,在某些情况下移除超过30% token时,模型性能仍与原始模型相当。这一发现引发了对于基于n-gram定义准确性问题的关注:根据现有n-gram和Llama 2标准排除的文档并不总是真正受到污染,这揭示了这些定义在实践中识别有效污染方面的不足

未将该术语包含在实验设计中。这是因为与之相比其他两个定义显得更为苛刻, 以至于只有少数文档能够通过筛选. 在附录D部分详细讨论了这些标准, 并深入探讨了参数变化带来的影响.

4.4 用更大的模型进行扩展

我们通过将GPT-2-large整合进实验框架中来扩大研究规模。主要目的是考察较小规模模型中出现的数据污染效应是否会在更大规模模型中持续显现。受限于计算资源限制,我们的研究聚焦于CNN和MMLU数据集,并采用6倍的污染因子进行模拟(即污染比例相当于原始GPT-2-small设置下的1/10)。与之前的实验相比,在当前设置下我们采用了固定的训练步数而非单次预训练周期;这样做的目的是为了使训练过程能够更有效地利用可用token数量以达到最优扩展效果。尽管GPT-2-large拥有更为丰富的预训练语料库资源,但数据污染的影响依然明显可见——即使面对如此庞大的语料库规模这种现象也令人不容小觑

表4:GPT-2-large在CNN和每日邮报以及MMLU数据集上的评估结果。

在这里插入图片描述

表5列出了对评估数据集进行分类的评价结果。根据Llama 2的标准以及相关的参数设定[34],我们将评估数据进行了分类处理。其中n表示n-gram值大小而λ分别设定为污秽与清洁的标准阈值。

在这里插入图片描述

4.5 评估级别污染分析

在本节中, 我们依照最近的LLM研究综述[6, 34]对评估数据进行分类, 以便探究在该层次上的污染分析中我们获取了哪些洞见. 具体而言, 我们参考Llama 2的研究框架[34], 将其划分成四个类别(包括'干净'、'不完全干净'、'不脏'以及'脏'), 并对其每一类别的模型进行了详细评估.

在实验中,我们选择了相对较高的干净样本/脏样本比例作为阈值λ。通过观察实验数据发现,在不同类别中样本数量的变化对阈值λ表现出高度敏感性。

我们采用了CNN和SQuAD数据集,并依据表5所述定义与参数对它们进行了分类。通过比较分析原始模型与真实污染版本的模型,在污染程度上有何不同这一维度展开研究。结果显示这四个类别的性能相对稳定。然而,在真实污染环境下‘干净’类的表现稍逊于其他类别,并未显示出明显优于‘脏’类别的迹象。值得注意的是,在先前的研究中已证实通过污染可提高模型性能这一现象存在争议性观点。这些结果促使我们开始质疑仅凭这种分类评估是否足以推断模型对数据污染不敏感这一结论。因此提出了更为严格的数据污染测试方法的需求

5 相关工作

数据污染的概念及其实现一直是LLM领域研究的重点之一。

另一项最近的研究[36]表明,在现有n元组模型和向量表示模型的基础上,在通过对评估数据进行改写的过程中就能轻易规避现有的定义漏洞。这突显了正确定义污染及其可靠检测方法的重要性变得愈发突出。

数据污染与记忆问题在机器学习领域中备受关注。以往的研究已深入分析了神经网络的记忆特性及其与泛化能力之间的关系及其差异[26, 20, 8]。特别地,已有研究探讨了语言模型内部的记忆机制[4]和[25]。此外,还有研究关注于记忆与其关联的安全性问题及潜在威胁分析[14][5][25]。值得注意的是,在评估系统性能时发现:当评估数据被系统记住、复述或推理后,则该评估结果将不再具有可信度。因此,在这一领域内已有大量工作致力于探索成员资格推断攻击(MIA)的可能性及应对策略[21][15][23][3][22][31].然而,在实际应用中存在一些局限性:例如,在检测标记污染时可能会出现假阴性结果(如可通过特定改写技术规避检测机制[36]).此外,在近期的研究中已有尝试通过检查文本顺序改变后的可能性及最不可能出现的token来启发式识别预训练数据污染现象[28][31].尽管如此,在现有方法中尚存在无法有效识别文本转换(如改写)的情况:因为这类启发式方法难以清晰解释预训练模型如何受数据污染影响的能力边界;这表明:为了全面解决该问题仍需开发更加系统化的方法论框架

6 结论

本研究中,在数据污染影响方面进行了前期预训练阶段的深入分析。我们系统性地展开了从零到一阶段的GPT-2系列模型的全面预训练工作,并深入探讨了不同应用场景下的性能变化规律。特别强调了在数据污染检测背景下真实情况的关键作用,并对其重要性给予了充分的关注。这一发现填补了现有研究中的重要空白。进一步研究表明,在下游应用任务中重复污染现象会对语言模型的整体效能产生显著影响。此外,在评估方法上进行了创新性的改进和优化,在现有基础上引入了一种更加细致入微的评估体系

7 致谢

研究部分由美国DARPA KAIROS计划No. FA8750-19-2-1004和INCAS计划No. HR001121C0165、国家科学基金会IIS-19-56151以及分子制造实验室研究所(由NSF在授予号2019897下支持的AI研究所计划)和集成发现环境(I-GUIDE)由NSF在授予号2118329下支持的地理空间理解研究所部分支持。这项工作的一部分还得到了NSF III 2046795、IIS 1909577、CCF 1934986、NIH 1R01MH116226-01A、NIFA奖项2020-67021-32799以及阿尔弗雷德P.斯隆基金会的支持。这里表达的观点仅为作者意见,并不代表DARPA或美国政府立场。

全部评论 (0)

还没有任何评论哟~