Advertisement

WaterBench Towards Holistic Evaluation of Watermarks for large language models

阅读量:

文章标题:WaterBench Towards Holistic Evaluation of Watermarks for large language models
(中文翻译:WaterBench:对大型语言模型的水印进行整体评估)
文章来源:Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics ,2024
作者及作者单位:上清图1, 孙玉良, 白宇石 余继凡侯雷1李娟子1
1清华大学计算机科学与技术系, 北京 100084, 中国 2北京航空航天大学计算机科学与工程学院
原文链接
在这里插入图片描述

带着问题去读文章:

文章列举的红色和绿色的那个例子,还是没有看懂?

文章中提到Token表示什么意思,深度学习中的toekn表达何种含义?
(1)自然语言处理(NLP)
​​定义​​:
Token 是文本的基本处理单元,通常对应一个单词、子词(Subword)或字符。例如:
英文句子 “Hello world” 可能被 Token 化为 [“Hello”, “world”]。
中文句子 “你好世界” 可能被 Token 化为 [“你”, “好”, “世”, “界”]。
​回答​​:
Token 是输入模型的最小语义单元,通过词嵌入(Embedding)转换为向量,供模型(如 Transformer、BERT)处理。

文章中的几个公式,是否可以举一个例子进行理解?

z-score的含义是什么?
在这里插入图片描述
GPT4-Judge ?

主要贡献:
为降低大型语言模型(LLMs)的潜在滥用风险,近期研究开发了水印算法——通过约束文本生成过程植入隐形标记以实现水印检测。由于该任务具有两阶段特性,多数研究对生成与检测环节分别评估,这导致难以进行客观、全面且具备实用价值的评估 。本文提出首个LLM水印综合基准测试框架WaterBench,其设计包含三大核心要素:
(1)基准测试流程方面,为确保公平对比,我们首先调整各水印方法的超参数使其达到相同水印强度,再联合评估生成与检测性能;
(2)任务选择方面,通过多样化输入输出长度构建五类任务分类体系,涵盖9项具体任务;
(3)评估指标方面,采用GPT4-Judge自动量化水印植入后模型指令跟随能力的衰减程度。
我们在2种LLM上以2种水印强度测试了4种开源水印方案,发现现有方法普遍存在维持生成质量的挑战。

1 引言

在这里插入图片描述
图1:在AlpacaFarm(Dubois等人,2023年)的一个指令跟随基准测试示例上,生成的文本无水印和有水印(Kirchenbauer等人,2023a)的情况。配备了水印的LLM更倾向于生成绿色列表中的令牌,这些令牌随后可以通过更高的z分数测量(z > 4)来检测。我们利用TP(真正例)、TN(真负例)和GM(几何平均)共同评估水印性能。

大型语言模型(LLM)在生成类人文本方面已取得显著成功(Cai等,2023;OpenAI,2023;Bubeck等,2023)。然而,其潜在滥用也引发了担忧(Li等,2023a)。例如,ChatGPT可能被用于生成虚假新闻(Wang等,2023b),进而操纵公众舆论。为降低此类风险,有必要开发水印算法来检测文本是否由LLM生成(Kirchenbauer等,2023a)。如图所示,图1显示,带水印文本通过有偏见的词元分布生成,这一特征使其与无水印文本形成区分。我们认为水印技术的目标是在保持生成质量的同时实现高检测准确率,因此采用真阳性率(TP)、真阴性率(TN)和生成指标(GM)等通用评估指标进行水印效果评估(Ghosal等人,2023年)。
由于该任务具有两阶段特性,多数研究(Kuditipudi等人,2023年;赵等人,2023年)对生成和检测环节分别评估,且未对每种水印方法进行统一的超参数搜索,这可能导致不公平的比较。事实上,检测性能与生成质量之间通常存在此消彼长的关系。此外,既往评估往往仅基于C4 RealNewsLike数据集(Raffel等人,2020年)等单一数据集进行文本补全测试,无法全面衡量大语言模型的生成质量。
此外,大多数评估仅计算困惑度(Kirchenbauer等,2023b),该指标与人类偏好不一致,因此在大型语言模型(LLM)时代并不实用(Chia等,2023)。为解决这些问题,我们提出WaterBench——首个全面的LLM水印基准测试框架,其包含三个关键要素:(1)基准测试流程:我们首先引入水印强度概念(Mei等,2002),即对干扰的检测鲁棒性,用以量化由超参数控制的LLM水印权衡。我们设计了一个合理的超参数搜索流程:给定数据集和LLM模型,调整各水印方法的超参数以统一水印强度,随后固定参数以联合评估检测与生成性能。(2)任务选择:为对水印施加干扰,我们根据输入输出长度区分任务设置,这决定了水印可嵌入的信息量。因此我们构建了包含5个任务类别和9个子任务的新分类体系,这些任务选自具有不同长度设置的现有数据集(Dubois等,2023)。(3)评估指标:采用GPT4-Judge(Zheng等,2023)自动评估加水印后的指令跟随性能下降,并通过人工评估验证人类判断与GPT4的一致性。
基于WaterBench数据集,我们在2个LLM模型(Llama2-chat(Touvron等,2023)和InternLM(Team,2023))上对4种可复现水印方案进行实验,得出以下重要发现:(1)当调整0.7和0.95两种不同水印强度时,检测性能与生成性能呈现显著差异。换言之,若直接比较两种水印策略而不对齐其水在水印强度对比中,某些方面很容易出现一种方法"超越"另一种的情况(翻译出现差别)。(2)输出长度较短的任务通常更难被检测到,真阳性率较低。V2水印(Kirchenbauer等人,2023b)在几何均值指标上表现最佳。(3)在开放式任务中,若采用GPT4-judge评估,带水印的大语言模型性能会较原始模型下降超96%,这既反映了该指标的敏感性,也揭示了水印技术在保持生成质量方面的普遍困境。人工评估显示,GPT4与三位标注者间的科恩卡帕系数超过0.6,达到高度一致性水平。
本研究的主要贡献可归纳为三点:
(1)提出新型基准测试流程:先优化水印超参数,再联合评估检测性能与生成质量,从而消除不同水印强度间的非公平比较;
(2)构建多任务基准测试体系以推动后续研究;
(3)引入GPT4-Judge评估带水印大语言模型,有效捕捉生成质量的衰减现象。

2 相关工作

为检测大语言模型生成的文本,先前的研究(Tu等,2023;Guo等,2023;Mitchell等,2023)主要探索了基于特征来区分人类文本与大语言模型生成文本的分类器。然而,随着大语言模型与人类文本的相似度越来越高,某些分类器可能会错误地将人类文本识别为大语言模型生成文本(Sadasivan等,2023)。
除黑盒分类器外,近期研究还引入了白盒检测方法,通过向大语言模型生成的文本中嵌入水印(Tang等,2023;Yang等,2023;Liu等,2024)。推理时水印技术(Pan等,2024)通过随机划分词汇表并仅需每个解码步骤的概率分布,这确保了生成文本中存在可检测的模式,即所谓的水印。部分研究(Kirchenbauer等,2023b;Liu等,2023)着重提升对改写攻击(Krishna等,2023)或低熵环境(Lu等,2024)的检测鲁棒性。其他研究如无偏水印(Hu等,2023)和NS水印(Takezawa等,2023)则聚焦于提升生成文本的质量(Hou等,2024;Li等,2023b)。
另一方面,事后水印(Atallah等,2001;Topkara等,2005)也是研究方向之一,其通过同义词替换(Yang等,2023;Yoo等,2023)或文本改写(Munyer与Zhong,2023)将水印嵌入文本。近期,Sato等(2023)提出了一种简单有效的方法——将每个空格字符替换为其他空白字符编码点。然而,这种简单水印也容易被擦除。

3水基准(waterbench)

为探究推理时水印在检测与生成方面的表现,如图2所示,我们提出了一套确保公平比较的基准测试流程(第3.2节)。随后,我们展示了具有多样化长度分布的WaterBench数据集(第3.3节)。最后,我们引入了GPT4-Judge评估体系(第3.4节)。
图2
图2:WaterBench评估流程示意图。给定一个大语言模型(LLM)、水印方法及我们的基准测试平台,首先通过超参数搜索确定各方法的水印强度,随后综合评估其检测性能与生成性能,以确保公平比较。上图对比了不通模型在各种指标的结果

3.1水印问题的定义

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

生成阶段 假设一个自回归式大型语言模型θ拥有词汇表V,序列S={{s_{1},s_{2},...,s_{|S|}}}中第t个词元的概率分布可表示为:
在这里插入图片描述
大型语言模型通过计算词汇表中每个项目k的对数几率向量l(t)∈R|V|来预测p(st)。Kirchenbauer等人(2023a)提出了两种水印技术——硬水印和软水印,通过在每一步解码过程中对词汇表施加限制来实现文本水印标记。具体而言,“硬红名单"水印算法使用哈希函数将词汇表随机划分为"绿名单"和"红名单”。在文本生成过程中,模型只能从绿名单中选择第t个位置的标记。而软水印方法则在预测步骤中,对绿名单中标记的对数几率lk(t)引入一个恒定增量δ。
在这里插入图片描述

检测阶段 为检测生成文本中是否存在水印,可采用单比例z检验等统计分析方法。虽然哈希函数会以γ比例生成绿色列表,我们可以通过重新计算每个位置的绿名单来提取水印,得到一组绿名单标记 Sg,然后通过 z-score 得出显着性:公示3
若z分数超过阈值,意味着对应的P值较小,那么我们就能确认文本S带有水印。

3.2 基准测试流程

由于该任务具有两阶段特性,先前研究在测试检测与生成时可能采用不同超参数,导致不公平比较。如图2所示,我们提出一种公平的基准测试流程,用于联合评估检测与生成性能。

水印强度 。为保持两个阶段的一致性并确保评估的公平性,我们将水印强度概念(Mei等人,2002年)引入LLM水印领域。在图像水印技术中(Akhaee等人,2009年),水印强度越高意味着水印检测的鲁棒性越强。对于LLM水印,我们认为水印强度应当独立于参考答案,并能有效衡量检测鲁棒性。因此我们将水印强度定义为被正确检测到的带水印文本数量与带水印文本总数之比,即真阳性率(TPR)——该数值在设定输入参数、水印算法及其超参数后即为确定值 。通过固定水印强度,可确保两个阶段的评估结果保持一致性。某些方法能够针对不同情况自适应地调整其强度(竹泽等人,2023年),本文暂未探讨这一机制,将留待未来研究
超参数搜索。尽管水印强度取决于超参数,但不同水印方法的超参数不具备可比性(Ghosal等人,2023)。为此,我们提出一种超参数搜索流程来统一不同水印方法的强度标准。具体而言,我们首先将各水印方法的超参数默认设为初始值,随后通过网格搜索(Alibrahim和Ludwig,2021)调整水印强度至目标水平 ,同时最小化对超参数的改动。最终将超参数固定为确定值,并联合评估两阶段性能表现。
对于希望向WaterBench引入新水印方案的研究者,需首先确定能达到特定真阳性率(TPR,例如0.95)的合适超参数。随后可评估代码获取真阴性(TN)和生成指标(GM)结果,最终在保持相同TPR的前提下,将性能与基准测试中的其他水印方案进行对比。

3.3文本选择

如表2所示,我们针对五种不同的任务设置选取了九个典型任务,涵盖了从输入到输出长度的广泛范围。
在这里插入图片描述
表2:WaterBench数据集统计概览。"数据集"表示子数据集的来源。"输入/答案长度"指输入问题和参考答案的平均长度。

类别1:短输入,短回答 。由于输入和回答的长度决定了水印算法能够隐藏多少信息,我们首先选择两个 PUT 和 ANSWER 长度较短的任务来干扰水印方法。这两项任务都在封闭的环境中评估事实知识。任务 1-1 是知识探测,我们使用 KoLA 数据集(Yu et al., 2023)中的 200 个三元组,在维基百科中以不同的频率来探究 LLM 的事实。对于任务 1-2,概念探测,我们使用来自 Copen 数据集中 cic 和 csj 任务的 200 个样本(Peng et al., 2022)。由于输出长度较短,因此我们使用 F1 分数作为评估指标。(备注:F1如何定义?)
类别2:短输入,长回答 。为控制答案长度的变量,我们另选了两个具有短输入但长回答的任务。这两个任务都属于长格式问答,这是用户与大型语言模型交互的常见形式——用户提出简短问题并期待得到详尽回答。针对任务2-1,我们使用来自ELI5数据集的200个样本,该数据集是由Reddit论坛"像五岁小孩一样解释"板块的讨论串构成的长格式问答数据集。对于需要金融知识的长格式问答(任务2-2),我们采用FiQA数据集中的200个样本。
类别3:长输入,短回答 。为控制输入长度的变量,我们从LongBench(白等人,2023年)中选取了两个具有长输入和短输出的任务。为评估大型语言模型水印对推理能力的影响(任务3-1),我们选用HotpotQA数据集(杨等人,2018年)中的200个样本,这是一个多跳问答数据集。针对代码补全任务(任务3-2),我们使用LCC数据集(陈等人,2021年)中的200个样本,该数据集通过筛选GitHub上单个文件内的代码构建而成。
类别4:长输入,长输出 。为同时控制输入与输出长度,我们设置了2个具有长输入和长答案的任务。这2个任务均为摘要生成任务,这是满足人们信息需求的一项特定技能。我们从广泛使用的多文档新闻摘要数据集MultiNews(Fabbri等人,2019年)中选取了200个样本。针对基于查询的摘要任务,我们使用QMSum数据集(Zhong等人,2021年)中的200个样本,这些样本同时包含输入文档和针对文档特定部分的查询。
第五类:开放式生成 。虽然上述数据集主要评估大语言模型(LLMs)的具体技能,但其输入和输出长度可能局限于适合对应任务的特定范围。在实际应用中,大语言模型遵循用户指令的能力同样重要,这类生成任务往往具有开放性。为全面评估带水印大语言模型的指令遵循表现,我们选用AlpacaFarm数据集(Dubois等人,2023年),该数据集包含805条指令,汇集了5种不同来源的指令,平均每个输入包含32.58个词元,参考答案平均包含64.13个词元。

3.4 评估指标

我们采用名为GPT4-Judge的评估方法(Zheng等人,2023年)来比较带水印的大语言模型与Davinci-003在AlpacaFarm数据集上的文本生成能力。该评估方法通过向GPT-4系统展示同一指令下的两种响应,测量GPT-4更偏好哪个模型的输出。为确保公平性,在GPT-4进行选择前,我们会随机打乱模型输出文本的顺序,以避免位置偏差(Wang等人,2023a)。

4 实验

4.1 实验设置

我们选择2个主流大语言模型作为基线: Llama2-7B-chat(Touvron等人,2023年)和 Internlm-7B-8k(团队,2023年),这两个模型都经过指令微调以符合人类偏好。 我们在WaterBench基准上评估了这2个大语言模型的4种不同代表性水印方案,包括:

硬水印 (Kirchenbauer等人,2023a)是一种二进制水印,通过在解码过程中将模型的词汇表限制在特定子集来实现。
软水印 (Kirchenbauer等人,2023a)是一种连续水印技术,它将词汇表划分为γ份,并在logits上添加常量δ以促进水印词汇的使用。
GPT水印 (Zhao等人,2023)通过采用固定组别的受限词汇表来简化水印流程,从而提升对编辑攻击的鲁棒性。
V2水印 (Kirchenbauer等人,2023b)通过引入不同的哈希方案(包括LeftHash和SelfHash)改进了软水印技术,使其对改写攻击具有更强的鲁棒性。

如第3.2节所述评估流程,我们首先通过网格搜索调整每个水印的嵌入强度。如图3所示,我们发现当δ增大时各水印的嵌入强度随之提升,而γ减小时强度也会增加。最终我们选定0.95和0.7作为两个水印的嵌入强度值,并固定这些超参数用于后续检测与生成评估。除网格搜索结果外,我们还在附录A.2展示了水印的ROC曲线。
在这里插入图片描述
图3:四种水印方法在Llama2-7B-chat模型上经过超参数δ和γ搜索后的水印强度结果。水印强度通过我们在WaterBench上的平均真阳性率(TPR)来衡量。

4.2 主要研究成果

我们在0.95水印强度下对各任务进行评估,并将水印检测结果呈现在表3和表4中。研究发现如下:
在这里插入图片描述
表3:在水印强度水平0.95、z分数阈值为4的条件下,类别1、2和3任务的真正例率(TP)、真负例率(TN)、生成指标(GM)及生成质量下降度(Drop)
在这里插入图片描述
表4:在水印强度水平0.95、z分数阈值为4的条件下,类别4、类别5及所有任务的真阳性率(TP)、真阴性率(TN)、生成指标(GM)及生成质量下降度(Drop)
在这里插入图片描述
表5:Llama2-7B-chat模型在水印强度级别0.7、z分数阈值为4时所有任务的真阳性率(TP)、真阴性率(TN)、生成指标(GM)及生成质量下降度(Drop)

检测性能表现 。在所有任务中,短答案类任务(类别1和3)的检测性能显著低于其他任务。这是由于经水印处理的大语言模型针对这些任务生成的响应较短,无法包含足够的"绿色词汇"以供检测。
在所有任务中,短答案任务(类别1和3)的检测性能明显逊于其他任务。这是因为经过水印处理的大语言模型针对这些任务生成的响应较短,无法包含足够的"绿色词汇"以供检测。导致z值偏低,使检测器更难发现水印。
在整体检测性能方面,大多数水印技术能达到约95%的高真阳性率,这与固定的水印强度设定相符,而所有方法的真阴性率都接近100%。这表明当前大型语言模型水印技术(Kirchenbauer等人,2023a)普遍擅长检测带水印文本,同时能清晰区分未加水印的文本。
生成性能方面 ,所有水印技术都导致生成质量相较原始模型出现显著下降。其中硬水印在多数情况下降幅最大,超过50%。开放式文本生成任务的性能下滑更为严重,降幅超过90%。这些发现表明,现有水印技术在保持生成质量方面面临挑战,特别是在遵循指令的任务中。
不同水印技术对比显示(见表4),V2水印在多数任务类别中取得更高的生成质量分数,突显其在保持生成质量方面的优势。软水印和GPT水印也展现出具有竞争力的表现。值得注意的是,V2水印在多数类别中甚至表现出更优的真阴性率,说明其在水印检测方面同样具有优势。
此外,我们观察到相同水印方法下,InternLM模型比Llama2模型出现更大幅度的性能下降,这表明水印技术对不同大型语言模型的影响存在差异。模型特异性评估的重要性。(备注:那生成性能下降,不会影响效果吗?这个研究还有意义吗?)
综上所述,当前水印技术虽能有效检测,但其生成质量仍存在显著下降。未来研究可探索新型水印设计方案以最小化此类质量衰减。

4.3 水印强度分析

为研究水印强度对检测性能和生成质量评估的影响,我们针对4种水印方法在0.7水印强度下(表5)与4.2节0.95水印强度的主要结果进行对比实验,得出以下发现:
(1)水印强度与生成质量存在权衡关系。相较于0.7强度,模型在0.95强度下普遍表现出更大的GM指标下降。例如表5中生成分数最差的水印方法(0.7强度),可能在表4(0.95强度)中排名第一,这无法真实反映水印算法间的差异,凸显了采用标准化强度进行公平比较的重要性。
(2)在0.7较低强度下,不同任务的平均真阳性率较0.95强度显著下降。我们观察到在Category1(短输入短回答场景)出现最大幅度的TP率下降(从∼90%降至∼0%),这表明我们的WaterBench基准能有效施加强干扰以测试不同水印强度的鲁棒性。
(3)V2水印在两种强度下均保持相对稳定的检测性能和生成质量,表现优于其他方法。但V2水印标记仍导致Llama2的生成性能下降31.2%,这表明需要进一步探索以最小化质量退化。

4.4 人工评估

为验证GPT4-Judge在任务5-1上的有效性,我们进行了人工评估,对模型响应中真实的人类偏好进行标注。我们从5个模型在水印强度等级0.7下的生成结果中各抽取100个样本,随后邀请三位人工标注员在水印大语言模型与Davinci-003基线模型之间投票选择其偏好的响应(详见附录A.3)。总计收集1,500份人类反馈,主要发现如下:
(1) 三位人工标注者的结果与GPT4的标注结果高度吻合。图4展示了三位人类在指令跟随任务中的平均投票结果:未加水印的Llama2-7B-Chat以50.3%的胜率领先Davinci-003基线,这与GPT4模拟的54.7%胜率基本一致。其他加水印的大语言模型也获得了与GPT4预测相近的胜率,进一步证明了GPT4-Judge的有效性。
在这里插入图片描述
图4:三位人工标注者对我们带有水印的大语言模型生成结果与text-davinci-003基线回答的偏好选择平均评分。

(2) GPT4与三位人工标注者之间的标注一致性系数存在差异,但均高于0.6,表明具有实质性一致。如图5所示,GPT4与human1的一致性系数达0.83,可视为近乎完美一致;而与human2、human3仅保持实质性一致。三位人类标注者之间的相互一致性系数约为0.6,同样属于实质性一致范畴。这说明人工标注者之间也存在个体差异,这可能导致评估结果与 GPT4-Judge 具有差异性。
在这里插入图片描述
图5:GPT4与人类标注者间标注一致性的科恩卡帕系数

4.5 相关性分析

为验证任务选择的多样性,我们对各类别任务间的内部表现相关性进行分析。如图6所示,带有水印的大语言模型在每类两个子任务上的生成表现呈现明显线性相关性,这证实了我们任务分类的可靠性。值得注意的是,在简短回答类别(类别1和3)中,任务间的表现差异更为显著。任务表现的趋同性可能反映了模型在不同任务上的泛化能力。总体而言,WaterBench为评估大语言模型水印技术提供了一个全面且具有挑战性的基准测试平台。
在这里插入图片描述
图6:各任务对的散点图(例如1-1与1-2),每个点代表同一类别中两个任务的已评估模型GM分数。

5 结论

本文提出了WaterBench这一新型基准测试,用于评估大语言模型水印技术。我们首先设计了一套基准测试流程,通过超参数搜索确保不同水印方法具有一致的强度,从而实现公平比较。其次,我们构建了涵盖九项典型NLP任务的多任务基准测试,这些任务具有不同的输入/输出长度。最后,我们引入GPT4-Judge指标来自动评估结果。实验表明,该指标能灵敏地反映加水印后模型遵循指令能力的下降。希望我们的工作能为未来大语言模型水印研究提供启发与支持。

致谢

本研究获得清华大学国强研究院资助项目(2019GQB0003)、清华大学自主科研计划与智谱AI的支持。

局限性

尽管进行了大量实验,本研究仍存在以下局限:
(1)检测候选仅为基准测试中的参考答案,这些答案主要采用人类专家写作风格(Ghosal等人,2023年),而所有未加水印的文本均可视为负样本;
(2)每项任务仅采用一种生成指标,未来将探索BertScore(张等人,2019年)、FactCC(Kryscinski等人,2019年)等更多指标来评估大语言模型的多维表现;
(3)水印方法可能通过不同超参数组合实现相同强度,而本实验仅评估了超参数改动最小的单一组合,鼓励后续研究探索更多组合方案。

伦理声明

在本节中,我们将讨论我们工作的伦理考虑。
许可证 。对于本研究中使用的开放可访问数据集,我们已核查其授权条款。KoLA(Yu等人,2023年)数据集采用GPLv3许可证共享,Copen(Peng等人,2022年)采用MIT许可证共享,ELI5(Fan等人,2019年)采用BSD许可证共享,LongBench(Bai 等人(2023年)发布的包含任务3-1至4-2的数据集采用MIT许可证授权,而AlpacaFarm数据集(Dubois等人,2023年)则基于Apache-2.0许可证共享。大语言模型的许可证信息亦已公开:Llama2-7B-chat模型(Touvron等人,2023年)需通过Meta官网申请使用授权,InternLM-7B-8k模型(Team,2023年)则采用Apache-2.0许可证开放使用。
人工智能助手的伦理考量
诸如GPT-4这类AI助手具有强大能力,甚至我们的自动化评估流程也已采用GPT-4作为评估工具,该做法符合欧盟制定的AI伦理指南。这些指南着重强调技术鲁棒性、安全性、隐私性、透明度及问责制等多重伦理维度。我们确保研究中对AI系统的使用始终遵循这些原则。
指南还特别指出,必须保障AI系统的安全性,并为潜在负面影响建立问责机制。这促使我们开展大型语言模型水印评估工作,此类水印技术或有助于政策制定者对可检测水印的生成式AI系统实施监管。
(注:1. 原文"European Union1"中的上标数字1疑似文献引用标记,为保持格式一致性予以保留)

下面是文章的附录部分:

A 实施细节

A.1 部署细节

在我们的评估与检测实验中,我们采用广泛使用的PyTorch和transformers库加载所有模型。所有实验均在配备112个英特尔至强®铂金8336C CPU核心、8块NVIDIA A100 SXM 80GB显卡的Ubuntu 20.04.4服务器上完成。具体环境配置为:CUDA版本11.4、Python版本3.10.11、PyTorch版本2.0.1、transformers版本4.31.0。
我们整合了LM-Watermark²、V2 Watermark³和GPT Watermark⁴的代码,开发出统一的水印实验工具,可公平评估不同类型水印效果。该一体化工具的代码已随附于补充材料中。

A.2 超参数搜索细节

为获得水印强度一致的实验组,需通过搜索确定三个超参数:首先是词汇表划分参数γ,代表绿色列表词汇占模型总词汇量的比例;其次是对数偏置常数δ,反映红色列表词汇的硬度;最后是Z检验使用的阈值。
如图3所示,在相同阈值条件下,根据z值计算方法可观察到:当γ增大时,平均z值会降低,导致水印强度减弱;而δ的增加意味着水印硬度增强,进而使水印强度提升。因此我们首先设定相同阈值,再根据这两个超参数(γ和δ)的影响关系进行调节。通过分析水印强度与检测阈值的关系,我们筛选出强度等级相同但阈值不同的水印组群。随后对这些水印组的阈值进行微调,以确保各水印组能在更高精度下达到相同的强度水平。采用该方法,我们最终确定了最佳超参数组合并记录于表6。需说明的是,默认z分数阈值设为4——该数值在既往研究中被广泛采用(Kirchenbauer等,2023a,b)。
在这里插入图片描述
图3:在完成超参数δ和γ搜索后,四种水印方法在Llama2-7B-chat模型上的水印强度结果。水印强度通过我们在WaterBench平台上的平均真阳性率(TPR)进行衡量。

为证明我们超参数搜索过程的有效性,我们通过调整z值阈值绘制了图7中的ROC曲线。首先,相同水印强度级别的4种水印都获得了相近的AUC分数,在0.95水印强度下所有AUC分数甚至都达到0.99。由于不同水印在ROC曲线上差异微小,我们为所有模型设置相同的初始z值阈值是合理的。其次,当假阳性率为0的理想点时,某些水印的真阳性率往往未达到目标水平,这正是我们需要最终调整z值阈值以实现水印强度的原因。最后,当我们先调整γ和δ来获得不同水印强度时,可以从图7子图中观察到0.7与0.95强度由这些超参数引起的差异。若固定γ和δ仅调整z值阈值,则可能无法达到通过调整γ和δ所能实现的理想真阳性率。
表6:每个模型的超参数
表6:每个模型的超参数

需要指出的是,可能存在多个满足固定真阳性率(TPR)或接近该值的参数点。我们采用以下方法来选择超参数:
首先,通过网格搜索法寻找合适的参数点。如表7和表8所示,虽然存在多个接近TPR=0.95的点(并非完全等于该值),但我们选择偏差最小的点(如TPR=0.949)进行报告。
随后,我们检验了通过超参数搜索得到的两个接近TPR=0.95的软水印结果。总体评分显示,两个水印的TPR均处于0.95水平。它们的真阴性率(TNR)同为0.995,而几何平均数(GM)略有差异(分别为10.7和11)。尽管在C1和C2指标上存在GM分数差异,但C3和C4的分数表现相似。因此我们确认,在TPR=0.95附近的参数点间差异极小,最终选择报告TPR=0.949而非TPR=0.967的结果。
我们认识到,更全面的比较需要分析"固定TNR下的TPR"与"GM"的帕累托前沿,这将更精确评估不同方法间的指标权衡。但考虑到新增水印的可扩展性需求及GPU资源计算成本,当前评估框架暂不支持帕累托前沿分析。

A.3 人工标注细则

为研究人类对任务5-1结果的偏好,我们从国内三所顶尖大学招募了三名标注员(两男一女),均至少持有学士学位。所有标注员均签订正式工作合同,薪酬标准与工时均经双方协商确定,符合当地劳动法规。标注指南详见表9。在制定任务协议时,我们参考了Dubois等人(2023)和Zheng等人(2023)的前期研究,并由两名博士生对该数据收集方案进行伦理审查以降低潜在风险。

指令:本任务将要求您选择人工智能模型对指令的优选输出响应。
您将阅读一批由以下内容组成的示例:

1.我们给AI系统的指令
2.随指令提供的输入
3.输出(a),AI系统的第一个输出
4.输出(b),AI系统的第二个输出
您的任务是决定每个示例中哪个响应更优。您可以从以下几个维度进行考量:
1.响应是否有帮助?例如,若指令要求提供健康食品的食谱,而响应给出了实用的食谱,则可视为有帮助。
2.响应语言是否自然?例如,AI响应常出现重复表达,这不够自然。
3.响应是否真实/准确?例如,AI响应常编造新信息。若响应声称唐纳德·特朗普是现任美国总统,则应判定为不准确。
4 其他因素……最终,您应根据自身判断和偏好决定哪个响应更优。
请仅回答输出(a)或输出(b),选择您认为更好的响应。
表9:人工标注员操作指南

B 评估细节

B.1 完整结果

在4.2节中,我们介绍了各层的平均生成结果。由于篇幅限制,未完整呈现各子任务的详细评估结果。本节将报告所有任务的完整评估数据。如表10和11所示,从类别1到类别4,每个类别包含输入与答案长度相近的2个子任务。类别2和4中,各层子任务的生成指标分数处于相近区间,而类别1或3的子任务则差异显著。例如Llama2-7B-chat在任务1-2获得30.0分,但在同属类别1的任务1-1仅得5.7分。这种同类任务的分化现象体现了我们基准测试的任务多样性——即使两个任务的输入输出长度相近,模型仍可能表现迥异,这印证了每类设置2个任务以全面检验大语言模型能力的必要性。
在这里插入图片描述
表10:在水印强度水平0.95、z分数阈值为4的条件下,类别1和类别2任务的真阳性率(TP)、真阴性率(TN)及生成指标(GM)
在这里插入图片描述
表11:水印强度水平0.95、z分数阈值为4时,类别3和4任务的真阳性率(TP)、真阴性率(TN)及生成指标(GM)

B.2 案例研究


||

问题:[指令]请回答以下知识性问题。注意:若存在多个答案,请用分号(;)分隔全部答案。除答案外请勿提供任何其他内容。问题:加藤忠的国籍是什么?[/指令]
人工答案:日本
模型答案(无水印版):我只是AI,无法获取包括加藤忠在内的个人国籍信息。
模型答案(硬水印0.95TP版):我试试看!不过我需要说明我无法立即确定加藤忠的国籍...
模型答案(软水印0.95TP版):作为AI,我缺乏确认"国籍"的信息,此前未识别到加藤忠的相关记录...
模型答案(GPT水印0.95TP版):根据公开信息,加藤忠来自夏威夷。但无法确切说明如何界定...

模型答案(V2水印0.95TP版):遗憾的是,关于田代静代的背景知识不足,无法回答国籍问题。
---

本节展示WaterBench各评估任务的采样案例。表19至表27呈现了同一问题的六类答案:人类回答、未加水印的Llama2-7B-Chat回答,以及四种水印算法在0.95强度下生成的答案。通过观察这些真实响应,我们获得以下发现:
(1) 绕过安全限制:Llama-7B-Chat有时会拒绝回答高风险问题,但添加水印算法后却能给出答案。例如表19中,未加水印的LLM拒绝提供维基百科人物实体的个人信息,而搭载GPT水印的LLM却根据公开资料提及该人物来自夏威夷。这可能是因为水印的偏置解码过程绕过了模型在安全对齐中习得的某些约束。
(2) 重复序列:如表22所示,软水印和GPT水印均会产生重复短语(如"- In recent history"或"Ghana supplies")。此类重复通常持续至生成文本达到最大长度限制才会停止。这种无限生成现象可能源于水印降低标记概率的同时,为重复序列中的标记分配了更高概率。部分水印方案(Kirchenbauer等,2023a)采用依赖短上下文哈希的绿名单机制,重复标记可能形成绿名单循环——重复标记持续入选绿名单,而其上下文哈希又生成相同的绿名单。

(3)符号替换:针对指令跟随型AloacaFarm数据集(Dubois等人,2023年),部分指令要求列出若干要点,这些要点通常以Markdown格式的’•‘符号进行组织。如表27所示,硬水印会生成’-‘符号,而v2水印则生成’*'符号——这是一种较少用于条目列举的符号。我们推测令牌的偏态分布可能禁止了某些常见符号的使用,从而导致符号变更。该现象表明,水印处理过程可能会对LLM生成响应的内容与风格造成改变。理解这些变化及其潜在影响,对于评估带水印LLM的性能至关重要。

问题:[指令]你是一位乐于助人的助手,请回答以下指示:能否用要点列出数字健康在预防疾病中的作用[/指令]
人工回答:

• 数字健康可帮助追踪和监测血压、心率、血糖等生命体征,使医疗人员能及早发现疾病征兆。
• 数字健康能即时调取医疗记录,帮助医护人员快速识别健康风险。
• 数字健康还可提供教育资源与生活方式建议,帮助个人做出更佳健康决策。
• 数字健康能更快速精准地诊断疾病,从而实现早期干预并改善预后。
• 数字健康可帮助患者更有效管理慢性病,降低并发症风险。
模型回答(无水印版 ):
当然!以下是数字健康助力疾病预防的若干方式:
• 早期检测与诊断:人工智能诊断工具和机器学习算法等数字健康技术,可在疾病更易治疗的早期阶段实现检测。
• 个性化医疗:基于患者独特的基因图谱、病史和生活方式因素,数字健康可定制个性化治疗方案。
• 疾病管理:通过提供个性化治疗计划、追踪进展及连接医疗专业人员,数字健康平台能帮助患者管理糖尿病、高血压和哮喘等慢性病。
• 健康教育:数字健康可为患者提供教育资源与工具,帮助他们理解自身状况、做出明智健康决策并养成健康行为。
• 远程监测:可穿戴设备和移动应用等数字健康技术能远程监测患者生命体征、活动量等健康指标,使医疗专业人员能在潜在健康问题恶化前及时发现。
• 远程医疗:数字健康可实现远程会诊与监测,提升偏远或医疗资源匮乏地区患者的就医可及性。
• 公共卫生监测:数字健康能实时监控追踪疾病暴发,帮助公共卫生部门快速识别
模型答案(硬水印0.95TP ):以下列举了数字健康技术在预防健康问题方面提供的功能要点:
-早期检测:健康技术可监测个体健康状况,极早发现问题并采取干预措施,防止病情随时间恶化;
-预防致残性疾病(如精神障碍):数字健康干预能帮助个体自我监测管理,获取必要治疗,避免陷入抑郁或更严重心理疾病的循环;
-弥合医患鸿沟:健康技术可搭建平台,让个人便捷获取医疗服务;
-改善沟通协作:通过数字健康技术提升医疗信息共享与多方协作效率;
-节省成本:数字健康技术平台能降低个人医疗支出;
-覆盖偏远地区医疗:借助数字健康技术…
模型答案(软水印0.95TP ):数字健康技术预防疾病的主要途径包括:
-患者生命体征电子监测(如高血压或血糖异常预警)
-患者生命体征电子监测(如高血压或血糖异常预警)
-患者生命体征电子监测(如高血压或血糖异常预警)

模型回答(GPT水印0.95TP ):是的。下面我们可以继续探讨技术如何保障公共利益这一核心议题,具体包括技术如何通过若干关键领域来确保公共利益,涵盖技术保障公共利益的多维度路径,以及在不同基础性议题中技术维护公共利益的实现方式。
模型回答(V2水印0.95TP ):当然!以下是数字技术预防糖尿病的具体方法:

• 远程监测:试纸或持续监测设备等数字技术使个体能够便捷地远程监控自身健康状况,获取实时数据反馈以管理病情
• 远程医疗:支持患者与医疗提供者进行虚拟问诊和线上沟通
• 预测分析:数字医疗运用机器学习和高级分析技术预测疾病风险,识别肥胖症、内分泌失调或糖尿病高发人群
• 知情决策:临床决策系统和移动应用等技术工具为患者提供健康数据支持,使其能基于治疗信息、副作用说明等做出自主医疗选择
• 远程接入:数字医疗平台让患者能便捷获取心理健康咨询、药物处方等远程医疗服务
• 隐私管理:加密存储和移动应用程序等技术手段赋予患者个人健康数据的管控权限

表27:针对不同水印处理的Llama2-7b-chat模型在AlpacaFarm任务中的示例

B.3 其他大语言模型的测试结果

为证明本基准测试在现有及未来各类大语言模型中的普适性,同时展示其对模型规模的适应能力,我们在实验中额外评估了一款主流大语言模型(Llama2-13B-chat)。结果详见表13与表14。
在这里插入图片描述

值得注意的是,Llama2-13B-chat模型的所有水印技术在指令跟随任务(C5)中均表现出最显著的性能下降,这一现象与第4章节对Llama2-7B-chat的观测结果一致。

B.4 其他水印技术的测试结果

除前文所述的大语言模型水印方案外,我们还采用Gumbel技巧(胡等人,2023年)的无偏水印方案对本基准测试进行了性能评估。
我们使用Llama2-7b-chat模型对各项任务的水印进行评测,并将水印效果呈现在表15与表16中。需特别说明的是,我们评估这两种方案时采用的整句对数似然比(LLR)分数阈值为10,这意味着确保其p值小于0.0005。
我们发现,虽然无偏水印的几何平均数(GM)值相当高,但其真阳性率(TP率)表现却不尽如人意。这一结果印证了水印强度与生成质量之间存在的权衡关系。

B.5 水印计算效率评估

除水印性能外,我们还综合评估了不同水印方法的平均解码速度。如表17所示,不同水印方案在模型推理过程中的计算效率差异并不显著。
在这里插入图片描述

B.6 几何平均数得分的标准差分析

基于先前在Llama2-7B-chat模型上以0.95真阳性率(TPR)开展的实验数据,我们计算了几何平均数得分的均值与标准差。表18显示,几何平均数得分的标准差保持在相对较低水平。
在这里插入图片描述

B.7 实验设置细节

V2水印与Soft水印的区别:
V2水印相较于Soft水印具备两项关键改进——基于哈希机制的词汇表分区方法,以及通过WinMax计算z分数的技术,二者均旨在提升检测能力。论文附录A.2(Kirchenbauer等人,2023b)进行了消融实验,测试了六种不同机制(Additive、Skip、Min与LeftHash、SelfHash的6种组合方案)对文本质量的影响。研究者最终认定"Skip-LeftHash,4"方案在较高水印强度下能提升文本多样性,但未考察WinMax计算方法对文本质量的影响。因此在WaterBench实验中,核心差异在于是否采用WinMax机制:我们的V2与Soft水印均采用统一的LeftHash机制,而V2水印额外运用WinMax方法计算z分数。

采样过程参数 :我们在水基准实验中设置的解码采样参数默认值为:温度=0.7,top-p=0.9,top-k=0。


问题:[指令]你是一位乐于助人的助手,请运用金融知识回答以下问题:全球黄金开采导致可用黄金量的增长速度有多快?[/指令]

人类回答 :目前全球已开采黄金约53亿盎司。以每盎司1800美元计算,全球黄金总价值约为9.5万亿美元。2006年全球净资产总额为125万亿美元。当某项资产价值突然占据所有资产的如此大比重时,就会出现一种奇特现象(这让我想起科技泡沫破裂的经过和原因。如果思科和EMC在2000年代保持1990年代的增速,它们的市值将超过其他所有股票总和)。2005/06年间的黄金年产量约为8000万盎司,对总供应量的影响略高于1.5%,因此你的观察是正确的。另一方面,黄金的有限存量意味着,如果所有人都决定将财富转换为黄金,只能通过将金价推至泡沫水平来实现。我们可以整天研究这个问题,分析投资形式持有的黄金量(与珠宝等相比),然后意识到即便是数万亿美元的黄金价值,与美国一国的财富相比都相形见绌,更不用说全球财富了。全球半数人口即便竭尽全力也买不起两盎司黄金。当然,这促使那些开采成本曾达800美元/盎司的矿山重新开工。要知道300美元/盎司的黄金供应早已不复存在。随着易开采黄金资源枯竭、成本上升,部分矿山会关闭。但当金价维持在当前水平时,那些600美元/盎司成本下无法盈利的矿山现在又重新开工了。

模型答案(无水印版 ):全球黄金储量因开采而增长的速度受多种因素影响差异显著,包括黄金开采投资水平、技术发展状况以及矿区地质特征等。以下是总体趋势与估算数据:

  1. 历史趋势:
    据世界黄金协会(WGC)统计,过去50年间全球黄金年开采量以约1.5%的平均增速增长,从1970年的1500吨增至2019年的3500吨。

  2. 近期趋势:
    近年来黄金开采量保持相对稳定,但受金价波动、地缘政治事件及环境社会问题等因素影响有所起伏。例如2020年全球黄金开采量约为3400吨,略高于前一年的3300吨。

  3. 未来趋势:
    由于新采矿项目投资、技术进步和黄金储量变化等因素,未来全球黄金开采增速难以精确预测。不过…

模型答案(硬水印0.95TP版 ):没问题 以下将简明扼要地阐述采矿直接带来的全球黄金增量:根据世界黄金图表数据,年黄金产出率约为555公吨,考虑到黄金产业的巨额利润,这个数字非常低。该比率预期偏低主要由于#1因素及各国央行削减黄金储备。预估未探明黄金资源总量为9890吨,约是年产出量的9倍,而地表流通黄金总量(按人均估值约合60,076美元)。不过采矿直接带来的全球可用黄金增量预计将随时间逐步增长,年均增量约55公吨。考虑到黄金产业的盈利规模,这个增量仍然很小。该数值可能随影响金价的经济技术因素而变化。#女性力量 下图展示了历年黄金产出率走势
模型回答(软水印0.95TP ):当然!人类对黄金的兴趣使得采矿业持续繁荣!根据世界黄金非正式理事会汇编的研究数据,全球各地的金矿正在持续增加世界黄金储备存量,具体如下——在近代史上——在近代史上——在近代史上——在近代史上——在近代史上——在近代史上——在近代史上——在近代史上——在近代史上——在近代史上——在近代史上——在近代史上——在近代史上——在近代史上——在近代史上——在近代史上——在近代史上——在近代史上——在近代史上——在近代史上——在近代史上——在近代史上——在近代史上——在近代史上——在近代史上——在近代史上——在近代史上——在近代史上——在近代史上——在近代史上——在近代史上——在近代史上——在近代史上——在近代史上——在近代史上——在近代史上——在近代史上——在近代史上——在近代史上——在近代史上——在近代史上——在近代史上——在近代史上——

模型回答(GPT水印0.95TP ):根据世界黄金协会(WGC)数据,全球黄金总储备量历来呈现供应紧张态势。据某消息源显示,加纳向《IR杂志》供应黄金。该国排名第一。加纳理应供应t t。加纳供应额从$ t t起算。加纳。加纳供应t t t。加纳供应额从t t t起算。加纳供应t t t。加纳供应额从t t起算。加纳供应t t。加纳供应额从t起算。

模型答案(V2水印0.95TP ):感谢提问。全球各地的金矿确实每年产出大量黄金,为世界可用供应量的增长做出贡献。然而准确理解这一过程需要结合背景与分析进行估算。首先必须了解历史悠久的产金国及其成熟的采掘产业。中国是全球最大黄金生产国,产量占世界总供应量的四分之一以上。美国、俄罗斯、加拿大和澳大利亚也是全球黄金供应的重要贡献者。其次,必须了解历史悠久的产金国及其成熟的采掘产业。中国是全球最大黄金生产国,产量占世界总供应量的四分之一以上。美国、俄罗斯、加拿大和澳大利亚也是全球黄金供应的重要贡献者。基于这些信息,我们可以通过考察主要生产国的贸易数据来估算全球黄金供应量因开采实现的年度增长。但总体而言,黄金开采产量保持稳定,显然随着技术进步、地质条件改善及市场环境变化使新探明矿藏具备开采可行性,全球可用黄金供应总量正在持续增长。全球金矿年产量已达约320吨,并保持稳定增长态势。
表22:不同水印处理的Llama2-7b-chat模型在金融问答任务中的示例


问题:[指令]根据给定段落回答问题。只需给出答案,不要输出任何其他文字。以下是给定段落。段落1:科迪·洛斯特罗科迪·洛斯特罗(生于1985年9月18日)是美国前职业牛仔竞技运动员,专攻骑牛项目。他是2009年职业骑牛士(PBR)世界冠军。背景科迪·洛斯特罗于1985年9月18日出生于科罗拉多州朗蒙特市。洛斯特罗反复观看夏延边疆节的视频,以至于他的母亲德娜·舒尔茨在1993年他七岁时为他报名参加了博尔德县博览会的骑牛活动。他于2003年赢得了小不点牛仔竞技全国骑牛冠军,并连续三年获得科罗拉多州高中牛仔竞技骑牛锦标赛冠军。科迪曾就读于怀俄明大学,但一个学期后辍学以参加职业骑牛士(PBR)巡回赛。职业生涯2005年,洛斯特罗获得PBR年度最佳新人奖,2009年赢得PBR福特坚韧系列世界冠军。他连续10次(2005至2014年)获得PBR世界总决赛资格。洛斯特罗职业生涯中多次受伤。例如,2014年1月他伤到了骑乘手,错过了该赛季上半段大部分比赛。2017年8月,当他开始出现严重健康问题时,正考虑退役以多陪伴两个女儿。最终他被诊断出颈动脉周围有肿瘤,需要手术。他重返PBR但仍有所保留。2018年3月29日,洛斯特罗宣布从骑牛运动退役。2022年,洛斯托成为俄克拉荷马自由队主教练科德·麦科伊的助理教练。该队是职业骑牛大赛(PBR)团队系列赛八支参赛队伍之一,这项赛事于当年首次举办。同年9月,自由队在北卡罗来纳州温斯顿-塞勒姆举办的牛仔日活动上夺冠——该赛事是竞争对手卡罗来纳牛仔队的主场活动。紧接着的周末,自由队又在俄克拉荷马城自由节主场活动中获胜,成为首支在主场夺冠的队伍。首届PBR团队系列赛结束时,自由队最终获得第四名。
个人生活方面,洛斯托在科罗拉多州奥尔特经营"信仰之盾"牧牛公司,专门培育竞技公牛。截至2016年,他与从事绕桶赛事的妻子坎迪斯及两个女儿定居奥尔特。
第二篇:公牛"骨头"
编号05的"骨头"(2003年3月31日出生)是美国退役竞技公牛,曾征战职业骑牛大赛(PBR)并两度夺冠(2008年、2010年)。历史上仅有"迪林杰"和"平稳操作者"同样两度折桂,而"小黄夹克"、“灌木丛"和"破坏者"则三度获此殊荣。2011年,时年7岁的"骨头"在卫冕世界冠军头衔后,被主人汤姆·蒂格宣布退役,现居蒂格牧场。2014年,这头传奇公牛入选PBR荣誉品牌。
背景资料显示,“骨头"出生于2003年3月31日,在北卡罗来纳州格雷厄姆的蒂格竞技公牛牧场长大。…(此处原文不完整)
职业生涯方面,马奇2004年短暂参加冠军公牛骑乘赛(CBR)后便全职加入PBR。同年他首次亮相福特坚韧系列赛(BFTS)后期赛季,即闯入PBR世界总决赛并获得全球第41名。经历连续三年世界冠军亚军后,他最终在2008年问鼎。数据表明,马奇是巡回赛中最稳定的骑手之一——在其15年职业生涯中(2004至2018年),他年年入围世界总决赛。2005年时,吉列尔梅·马奇曾是贾斯汀·麦克布莱德冲击PBR世界冠军路上的最大劲敌,最终麦克布莱德夺冠,马奇屈居亚军。然而,马尔奇当年成为了职业骑牛大赛(PBR)世界总决赛冠军。2006年,在世界总决赛前的最后几场常规赛季BFTS赛事中,马尔奇在北卡罗来纳州格林斯博罗举行的莫西橡树射击赛上成功骑乘"坠机现场”,赢得了9万美元奖金。在世界总决赛上,当巴西同胞阿德里亚诺·莫拉伊斯后来居上夺得PBR世界冠军时,马尔奇再次与冠军失之交臂,获得第二名。2007年,马尔奇在拉斯维加斯举行的PBR世界总决赛上再次以第二名的成绩结束赛季,落后于贾斯汀·麦克布莱德。
2008年,马尔奇统治了PBR巡回赛,骑乘成功率近75%,赢得五场赛事,收入超过150万美元(几乎是其他PBR骑手的三倍),最终夺得PBR世界冠军头衔及随附的100万美元奖金。2014年3月,在亚利桑那州凤凰城举行的BFTS赛事首轮比赛中,马尔奇骑乘"潘多拉魔盒”,成为PBR历史上首位完成500次合格骑乘的骑牛士。
2017年4月8日,在蒙大拿州比林斯举行的BFTS赛事第二轮中,马尔奇骑乘"电击者"获得86.25分,由此成为首位达成600次合格骑乘的PBR骑手,并获得纪念性皮带扣。2018年8月12日,马尔奇宣布该年将是他骑牛生涯的最后一年,计划在PBR世界总决赛后退役。他职业生涯共完成635次合格骑乘(PBR历史最高纪录),赢得36场PBR赛事,总收入超过530万美元。在戈亚斯州戈亚尼亚举行的2018年PBR巴西赛事夺冠后,马尔奇正式从职业骑牛界退役。2023年,马尔基成为堪萨斯城亡命徒队主教练J·W·哈特的助理教练。该队是职业骑牛大赛(PBR)团队系列赛中八支骑牛队伍之一,该赛事于前一年首次举办,每年夏季至秋季在美国各地举行赛事。马尔基还将负责团队在巴西的骑手招募与培养工作。
荣誉
2019年11月5日,马尔基入选PBR荣誉戒指。2022年5月14日,他入选骑牛名人堂。
个人生活
2018年4月19日,马尔基在德克萨斯州与相恋多年的女友玛丽亚结婚。这是他的第二段婚姻,两人育有一子。他与前妻帕特里夏还育有两个孩子——一个女儿和一个儿子,这些孩子均出生于美国。参加美国PBR巡回赛期间,马尔基定居于德克萨斯州费里斯市。退役后,他携全家返回巴西定居。
根据给定段落回答问题。仅提供答案且不输出任何其他文字。
问题:《公鸡与公牛》作者出生年份是?
回答:[/INST]
人类回答:1961
无水印模型回答:《公鸡与公牛》的作者金斯利·艾米斯出生于1933年。
硬水印模型回答(0.95TP):没问题!根据文章1的答案:问题:1983年是什么年份
软水印模型回答(0.95TP):没问题!根据文章1,问题答案:哪一年你
问题:哪一年你问题
GPT水印模型回答(0.95TP):根据naugher Fant的说法,Hey表示tbat t t t t t
V2水印模型回答(0.95TP):科迪·洛斯特劳出生于1999年。文中未提及《公鸡与公牛》的作者。
表23:不同水印处理的Llama2-7b-chat模型在HotPot问答任务中的示例


Table 24: Code Completion task examples for Llama2-7b-chat with different watermarks

全部评论 (0)

还没有任何评论哟~