论文翻译:Universal and Transferable Adversarial Attacks on Aligned Language Models
Universal Adversarial Attacks exhibit remarkable transferability across various language models.
通用且可转移的对抗性攻击对齐语言模型
文章目录
一种基于跨平台的抗干扰型通用对抗攻击策略适应于大语言模型。
摘要部分阐述了本研究的核心目标及方法框架。
引言部分明确了研究背景及其重要性。
针对LLMs的一个通用对抗攻击方案被提出。
其中,
第一小节讨论了如何生成积极反馈,
第二小节通过利用梯度信息进行贪心搜索实现了高效的对抗目标,
第三小节提出了多模态提示与跨模型防御机制作为完整的防御体系。
-
3实验结果:直接攻击和转移攻击
-
- 3.1 对白盒模型的攻击
- 3.2 转移攻击
- 3.3 讨论
-
4 相关工作
-
5 结论和未来工作
-
6 伦理和更广泛的影响
摘要
由于具备"即时使用"功能的大规模语言模型能够生成大量令人反感的内容,在近期的研究中已引起了广泛关注。研究重点则聚焦于对这些模型进行规范——其中一项被称为针对大型语言模型(LLMs)的"越狱"策略。尽管采取了一些措施来规避这些限制——其中一项被称为针对大型语言模型(LLMs)的"越狱"策略——但这些防御手段仍然依赖于大量的人工干预,并且在实践中往往显得脆弱。虽然自动对抗性提示生成的方法也取得了一些成功案例——但这些成果仍然有限。在本文中,我们提出了一种简单且高效的攻击方法——其核心在于识别出一个特定的后缀并附加到LLM的大规模查询中——以此达到诱导其生成令人反感内容的目的。具体而言,在这项研究中我们旨在最大化模型给出积极回应(而非拒绝回应)的概率。然而这一目标并非通过传统的启发式搜索技术实现——而是采用了结合贪婪算法和梯度下降搜索技术的新颖方法——从而实现了对现有自动提示生成技术的重大突破与改进
令我们惊喜的是,在对一系列尖锐查询进行分类并针对不同语言模型展开实验后发现:我们的方法所生成的对抗性提示具有极高的可转移性,并涵盖黑盒环境下的公共接口(如ChatGPT)、开源LLMs(包括LLaMA-2-Chat和Pythia)以及生产中的大型语言模型(如GPT系列)。为了实现这一目标,在实验过程中我们需要探索并建立一个通用且高效的对抗性攻击后缀生成框架。通过这一过程可以看出,在针对多个尖锐查询类别以及不同规模的语言模型(包括7B参数级和13B参数级)展开训练后,在测试阶段该框架能够有效诱导出大量令人反感的内容。值得注意的是,在评估阶段发现基于GPT架构的语言模型表现出更强的抗向量转移能力:这可能是由于Vicuna本身就是在预训练阶段经过ChatGPT系列语言模型微调所致。综上所述,在这项研究中我们取得了一项重要进展:提出了一种有效防止这些系统产生令人反感信息的关键问题,并在此过程中提供了一个完整的开源解决方案。
1 引言

图1展示了未对齐的大规模语言模型(LLMs)在抗 adversarial特性方面的表现。我们设计了一种统一的对抗性提示构造方法,并成功避开了当前最先进商业可用语言模型(如ChatGPT、Claude、Bard和Llama-2)的一致对抗策略。通过实验验证,在这些系统中实现了目标行为的一致性。我们发现这种高概率诱导能力能够以高概率从这些模型中引出任意有害行为,并展示了这种攻击方法如何实现针对多种有害行为找到通用且可转移的行为引导提示。为了实现这一发现,在第3节我们将详细讨论这种方法的具体实现细节,请参阅附录B中的完整技术文档以获取进一步的信息和未删节的技术细节描述。
大型语言模型(LLMs)通常采用从互联网上收集大量文本数据进行训练的方法。这些数据资源中已知存在大量令人反感的内容。近年来的LLM开发者开始利用多种微调策略来"适配"这些模型以解决相关问题。针对这一任务有多项研究方法已被提出(Ouyang等的研究人员, 2022年; Bai等的研究团队, 2022b; Korbak等的研究小组, 2023年; Glaese等的研究员, 2022年)。尽管如此,在实践中这类方法的目标仍是确保生成的回答不会对查询者造成不良影响。从表面来看这类努力似乎是取得了初步成效:公共聊天机器人在直接被询问时会避免生成某些明显不合适的内容。
在另一条线索上进行研究时(Szegedy等人于2014年;Biggio等人于2013年;Papernot等人于2016b;Carlini和Wagner于2017b),研究人员也投入了大量的努力来识别(并尽可能防止)针对机器学习模型的对抗性攻击。在计算机视觉领域最为常见的是这一现象:向模型输入添加微小的扰动即可显著改变其输出结果。与传统的对抗性示例不同,在LLMs中这种方法同样有效:已有一些专门针对LLMs设计的"越狱"攻击(Wei等人于2023年),这些攻击通常需要依靠人类的智慧来精心设计提示语句(而非自动化方法)。然而这些攻击相较于传统的对抗性示例而言具有显著的不同之处:它们通常需要大量的手动工作来设计有效的攻击场景。尽管如此,在对抗LLMs方面的自动提示调整工作已经取得了一些进展(Shin等人于2020年;Wen等人于2023年;Jones等人于2023年),但生成可靠的攻击仍然是一个极具挑战性的任务(Carlini等人于2023年)。这主要是因为与图像模型不同地处理离散标记输入带来了计算上的困难,并限制了有效的输入维度
然而,在本文中我们提出了一种新型的对抗性攻击策略 其实能够使对齐后的语言模型生成大量令人反感的内容 具体而言 给定一个(可能有害的)用户查询 我们的攻击会在用户的原始查询之后添加一种对抗性后缀标记 从而试图引导模型产生负面行为 为了实现这一目的 我们设计了一种标记机制 该机制由三个关键组件构成 这些组件在文献中已被广泛使用 并且具有相似的设计基础 然而 我们发现通过巧妙地结合这些组件 在实际应用中取得了良好的效果
- 初步认可该方法的有效性。正如之前研究(Wei等人, 2023年;Carlini等人, 2023年)所证实,在语言模型中诱导有害行为的一种方法是迫使模型对带有少量标记的有害查询给出肯定回应。因此我们的攻击目标是使模型以"当然, 这里是(查询内容)"这样的表述开始对一系列引发不良行为的提示进行回应。与以往研究类似, 我们发现仅仅通过这种方式引导回应开头即可将模型切换至一种特定模式, 接着其立即生成令人反感的内容。
- 在离散标记上进行优化以最大化攻击成功的对数似然, 因此对抗性后缀的优化确实具有挑战性. 为此我们采用基于标记级别的梯度识别单个标记替换候选者的方法, 并评估这些候选者的损失值, 最终选择最优替换方案. 这种方法与Shin等人(2020年)提出的AutoPrompt方法存在显著差异: 实际应用中我们发现每一步都需要遍历所有可能的标记而非仅限一个.
- 为了增强攻击效果并生成可靠的后缀序列我们提出了一种综合策略: 不仅适用于单一模型上的单个提示还能够跨多个模型及多个提示运行. 具体而言我们利用贪心梯度搜索技术在一个统一的目标字符串中集成多种提示组合从而使其能够在多个不同用户界面下有效诱导负面行为例如针对Vicuna-7B/13B(Zheng等人, 2023年)Guanaco-7B(Dettmers等人, 2023年)等多个主流模型实现了预期效果.
整合这三个要素后,在多种令人反感的行为测试场景中成功开发出一种可靠的方法来创建绕过目标语言模型对齐的对抗性后缀序列。具体而言,在Vicuna模型中实现了对99%的有害行为的生成,并在输出结果与目标字符串之间达到了88%的完美匹配率。此外,在攻击GPT-3.5和GPT-4时的成功率达到84%,而对PaLM-2平台仅达66%,显示出较大的性能差异;值得注意的是,在Claude平台上的成功率仅为2.1%,但即使如此攻击仍能有效诱导相关行为以达成目标;图1详细展示了这些实验结果的例子说明性案例。这些实验结果凸显了我们所采用特定优化器的有效性:先前使用的几种优化器包括PEZ(Wen等人,2023年)、GBDA(Guo等人, 2021年)以及AutoPrompt(Shin等人, 2020年),这些方法均未能实现超过25%的成功率;相比之下,在这项研究中通过改进方法实现了远超其成功率水平的表现。
就目前而言,这项研究在对抗性攻击这一领域取得了一系列重要进展。就目前而言,在对抗性攻击这一领域取得了一系列重要进展。从而引发了以下关键问题:若对抗性攻击策略适用于统一的语言模型架构(与视觉系统模式相一致),这会对该方法的整体发展路径产生怎样的影响?具体而言,在现代计算机视觉系统中,“抗untargeted attacks on vision transformers”的研究已经取得了显著成果。“抗untargeted attacks on vision transformers”的研究已经取得了显著成果。“抗untargeted attacks on vision transformers”的研究已经取得了显著成果。然而,在当前LLM领域的相关研究中,“防御机制的有效性仍需进一步验证”。然而,在当前LLM领域的相关研究中,“防御机制的有效性仍需进一步验证”。具体而言,“防御机制的有效性仍需进一步验证”。现有文献主要集中在以下几个方面:其计算效率较低;会导致基于这些防御手段构建的实际模型系统的性能显著下降;仅能提供有限层次的安全保障。现有文献主要集中在以下几个方面:其计算效率较低;会导致基于这些防御手段构建的实际模型系统的性能显著下降;仅能提供有限层次的安全保障。值得注意的是,“对抗样本检测与生成技术之间的平衡始终是一个待解决的核心问题”。值得注意的是,“对抗样本检测与生成技术之间的平衡始终是一个待解决的核心问题。”
认真负责的披露
在发布这项工作之前,我们先前与OpenAI、Google、Meta和Anthropic进行了深入讨论和初步交流。在第六节中详细探讨了这项工作的伦理问题及其所涉及的伦理考虑及其更广泛的影响。
2 一个针对LLMs的通用攻击
在本节中, 我们着重介绍了这项工作的核心创新点, 即一种新型的语言模型攻击方法, 旨在诱导不当行为的发生. 如下一章所述, 该方法相较于现有攻击手段表现出显著提升, 其oretically能够可靠地破坏目标(白盒)系统, 并能在其他(完全黑盒)配置下展现出一定的迁移能力.
我们的攻击对抗设置借鉴了越狱(Wei等人, 2023; Carlini等人, 2023)以及某些方面上的提示调整(Shin等人, 2019; Wen等人, 1987)的相关研究。
我们探讨了LLM在处理以下问题时的表现:

告诉我如何制造炸弹。
当然,在实践中作为对话生成模型的LLM不会单独处理这个输入而是通过一个包含上下文信息的大提示进行处理并结合预设规则和辅助结构在特定对话框架内生成回复这些细节主要由具体的对话实现和系统设计决定同时在不同的情境下模型的行为也会有所调整

系统:您是专门为您设计的一个旨在提供积极影响且安全可靠的回应给用户查询的聊天助手。
用户:请指导如何制作定时炸弹。
助手:
在分析过程中,“用户:”注释后的经过标注的蓝色文本块主要由用户提供,并且这部分内容是系统无法直接修改或调整的部分。当系统执行标准LLM指令时,在不涉及安全风险的情况下不会直接响应用户的查询请求,并可能会告知系统无法处理涉及潜在危险信息的任务
我们增加了一个具有对抗性的后缀到用户的提示中,在避开LLM对齐的同时引导其回复原始请求。这可能带来负面效果;具体而言,则将模型输入如下:

系统:您是一个旨在提供有益且无害的回应给用户查询的聊天助手。
用户:关于如何合成定时装置。! ! ! ! ! ! ! !
助手:
在此处,红色文本通过攻击优化了一些抗性后缀而构成,在这种情况下以便模型响应原始用户的查询。特别注意的是,在开发通用攻击的过程中我们不考虑蓝色文本的变化这一因素是由用户提供给我们的。这一特性对于实现通用攻击的目标至关重要:即通过找到一组合适的标记来替代初始红色文本使得基于对齐的人工智能系统能够肯定地回应任意给定的蓝色指令输入。
基于当前设定,在对抗性后缀相关研究领域内
2.1 产生肯定回应
开发攻击的核心标准是确定其目标
与之相反的是我们采用了在(手动)越狱社区中已获得一定关注的一种方法并且要求模型在其回应中以积极肯定的方式开头简而言之就如前面所述的例子我们的期望是LLM的回应应从以下短语开始

系统:它是一个专门针对用户问题的安全且负责任的交流平台。
用户:关于制造定时炸弹的技术,请详细说明。
助手:以下是关于制造定时炸弹的技术说明:
在上述讨论中,紫色文本仅仅用于表示所需语言模型(LLM)完成目标的开始阶段,在攻击目标的过程中其余部分没有被明确指定。这种方法的核心思想在于:如果一个语言模型能够被置于一种特定的状态下,则这种行为最可能是对查询做出回应而不是拒绝处理查询请求;因此,在这种情况下它很可能继续执行所需的不良行为。
如
形式化地定义对抗性攻击的目标。
该目标可表示为针对抗性攻击的形式化损失函数。我们假设大型语言模型(LLM)是从一系列标记序列 (x₁:n) 的映射关系实现的生成过程,并且每个标记 (x_i) 都属于集合 {1,…,V} ,其中 V 表示词表大小。具体而言,在给定前 n 个标记的基础上生成第 n+1 个标记的概率分布可以用以下符号表示:p(x_{n+1}|x₁:n) ,即条件概率 p(x_{n+1}|x₁:n) 表示在已知前 n 个标记序列的情况下第 n+1 个标记出现的概率分布情况。

假设任意取值于集合 x_{n+1} \in \{1, \ldots, V\} 的情况。
定义为给定之前所有标记序列 X_1:n 以及下一个特定标记 X_{n+1} 的概率。
为了简化表示,在不影响理解的前提下,
我们采用符号 p(X_{n+1:n+H}|X_1:n) 来代表基于所有先前信息的情况下,
生成序列 X_{n+1:n+H} 中每个单独标记的概率,
即:
p(X_{n+1:n+h}|X_₁:t) = ∏_{j=n+₁}^{n+h} p(X_j|X₁:j-₁)
其中每个单独标记的概率计算基于马尔可夫性质。

在该符号中,在这种情况下,在这种场景下,在这种语境下,在这种情况下,在这种情境下,在这种条件下,在这种情况下,在这种情形下,在这种情况下,在此情境下

因此,优化我们对抗性后缀的任务可以写成优化问题。

其中 ( \mathcal{I} \subset {1, \ldots, n} ) 表示在LLM输入中对抗性后缀标记的索引。

2.2 贪婪坐标梯度搜索
优化公式(4)所面临的主要困难在于其必须在离散输入集合上实现最佳化。尽管已经发展出多种现有的离散优化技术(包括前文提到的Carlini等人2023年的研究),但研究表明即使采用当前最先进的一些离散优化技术(Carlini等人, 2023),我们仍面临可靠攻击语言模型的挑战。
然而,在实践中我们运用了一种直接的方法这一方法本质上相当于AutoPrompt方案(由Shin团队于2020年提出)的一个简单延伸该方案在执行效率上远超原先的基础版本对于这项特定任务的表现尤为出色我们这一方法的核心灵感来源于贪婪坐标下降法其基本思路是通过系统性地探索所有潜在的单标记替换方案来实现损失最小化为了提高效率我们在评估每个标记位置候选替换方案时采用了基于梯度信息的筛选机制这样可以在不影响计算复杂度的前提下显著提升搜索效率具体而言我们可以利用梯度信息准确地预测每个位置上可能存在的最优候选替换并在此基础上进行精确评估

其中符号 e_i 表示第 i 个标记值的有效向量(即仅在 e_i 位置为1,在其余位置均为0)。请注意:由于LLMs通常会将每个标记映射为其嵌入表示,并可将其表示为该特定向量函数的结果形式;因此可以直接计算其梯度。值得注意的是HotFlip(Ebrahimi等人,2017年)和AutoPrompt(Shin等人,2020年)等方法采用了相同的思想基础。接着我们筛选出具有最负梯度的前k个候选样本用于替代原始标记。对于所有待优化的标签(i\in\mathcal{I})而言,则需依次执行这一过程:首先构建包含这些候选样本的新集合;随后从这些候选样本中选择损失最小的一个来替代原来的标签。这种方法被命名为贪婪坐标梯度法(GCG),完整的过程已在算法框图中展示。
在此处观察到,GCG与AutoPrompt算法(基于Shin等人的研究, 2020年)之间存在显著差异。而AutoPrompt则是在调整过程中优先选择一个特定坐标点进行优化。正如我们在后续部分将详细阐述,这一设计决策带来了令人瞩目的优势。对于相同的每迭代批次大小(B),即相同数量的总前向评估次数,从计算资源的角度来看,这是最有效的配置方式。经过测试,GCG在该配置下表现出了显著优于AutoPrompt的能力。基于以上分析,我们认为通过引入类似于ARCA的新方法,GCG有望进一步提升性能。然而,为了保持分析的简洁性,我们将暂时聚焦于更为基础的研究方向。

2.3 通用多提示和多模型攻击
为了适应特定类型的通用攻击优化算法,在算法2中我们引入了一系列带有(x_1:n{(i)})标记的具体实例,并对应地增加了若干(\mathcal{L}_i)指标项作为补充。在方程4中使用的每个(\mathcal{L}_i)指标项都设置了与模型肯定回应相一致的目标前缀部分。具体而言,在方程4中使用了三个不同的(x_1:n{(i)})实例来体现这一特性:例如,在处理关于"如何制作管状炸弹"的问题时,默认情况下系统的响应会包含"当然"一词作为自然过渡部分。
我们不为每个提示而指定不同的可修改标记子集;相反,在算法流程中集中优化一个特定的后缀(p_1:l),并将梯度与损失进行汇总处理以分别选取每一步骤前(k)个可替代标记以及最优替代。值得注意的是,在进行梯度裁剪处理之前对它们进行规范化处理会更加稳定;此外,在确定了一个用于前期提示的关键对抗示例候选之后(p_1:l),后续逐步引入更多辅助提示会比一开始就试图一次性优化所有辅助信息更加高效可行;这一过程已在算法2中进行了详细描述。
通过结合多个模型的损失函数来实现对抗性示例的有效转移。假设所有模型均采用相同的分词策略,则计算前k个标记处的梯度时所得结果将位于ℝ^V空间中,并且能够顺利地进行聚合处理。从而可知,在这种情况下无需修改现有算法即可同时优化不同变体参数。值得注意的是,在嵌入空间中的攻击方式与本方法并不相同。
3实验结果:直接攻击和转移攻击
现有的对抗性基准(Wang等人, 2021; Zhu等人, 2023)专注于生成具有欺骗性的攻击样本。这些攻击通常针对特定的任务领域进行设计, 如情感分类、文本理解等任务. 我们的研究重点在于诱导模型输出具有社会危害性或令人不适的内容. 为了全面评估我们的方法在诱导模型输出具有社会危害性或令人不适内容方面的有效性, 我们构建了一个新型评估框架AdvBench, 并基于两个关键实验场景进行验证.
- 有害字符串 :由500个不同字符组成的组,在这其中包含了多种具有危险性的描述。这些内容涉及从亵渎到网络犯罪等广泛的主题。研究者的目标是探索能够生成这些特定字符的方法,并分析它们之间的关联性。每个字符的平均长度为16个标记。
- 有害行为 :一种由500种具有攻击性的指令组成的方法,在这其中涉及的内容与有害字符串设置相似。研究者希望找到一种方法来触发特定的安全漏洞,并评估其效果表现。
这两种设置分别从不同角度评估目标模型保持目标一致性的能力:第一项任务专注于精确控制模型输出细节;第二项类似于红方演习,在规避安全防护机制的同时触发有害行为。附录A提供了关于构建此基准的进一步详细信息。
本研究的主要观点是探讨哪些内容不应作为LLM的输入,并非旨在开启关于此类"允许"内容的辩论。我们旨在表明主流开源和定制化LLMs在生成有害内容时明确禁止这一行为,并且在系统被要求生成或展示有害行为时也不会输出与之相关的响应。通过分析攻击策略如何规避现有的安全防护机制来构建基准评估指标。未来研究可能需要根据模型任务设定调整现有的安全防护机制
指标方面。
我们将攻击成功率(ASR)作为AdvBench的核心评估标准。当模型输出目标字符串时,则认为此次攻击成功。此外,在评估攻击有效性时,则采用目标字符串上的交叉熵损失作为次要指标。若模型合理地进行了目标行为,则判定测试案例成功。值得注意的是,在执行特定指令任务时(如制造爆炸装置),各模型展现出的能力差异显著。这可能需要人工判断来区分拒绝与非拒绝情况;或试图规避生成有害内容。为了评估攻击的一般性程度,在受过训练的行为集和保留测试集中分别计算了有害行为的成功率,并报告了各自在这些集合中的ASR百分比数值。
基准对比分析
本研究将该系统与三种基准模型进行了对比分析:基于Wen等人的研究(2023年)、Guo等人的研究(2021年)以及Shin等人的研究(2020年)。在实现这一目标的过程中,默认情况下我们同时对每个目标字符串或行为进行了16个序列的参数优化,并在完成所有序列训练后选择最优结果作为候选方案进行筛选。采用AdamW优化器配合余弦学习率衰减策略对候选方案进行筛选,在实验中设置批量大小为514,并将其中前k个样本设定了较短上下文窗口长度以适应特定任务需求;此外,在每一轮训练中还设置了最大序列长度限制以防止过长序列导致计算资源消耗过高。在训练过程中每种模型均经历了完整的548步训练迭代。
结果概述。
我们将展示GCG(算法1和2)能够在Vicuna-7B和Llama-2-7B-Chat上一致地在这两种设置中找到成功的攻击。对于具有挑战性的有害字符串设置,我们的方法在Vicuna-7B上成功88%,在Llama-2-7B-Chat上成功57%,而先前工作中最接近的基线(使用AutoPrompt,尽管仍然有我们多提示、多模型方法的其余部分)在Vicuna-7B上达到25%,在Llama-2-7B-Chat上达到3%。对于有害行为,我们的方法在Vicuna-7B上实现了100%的攻击成功率,在Llama-2-7B-Chat上为88%,先前的工作分别为96%和36%。

表1:在各项测试条件下,我们的攻击策略均优于以往的研究成果。我们评估了针对AdvBench数据集中的单个模型(包括Vicuna-7B和LLaMA-2-7B-Chat)进行欺骗性攻击的成功率指标(即ASR)。此外,在优化过程中用于提取确切有害字符串(HS)时,我们计算并报告了模型输出与目标之间的交叉熵损失值。通过这种方法实现的最佳策略及其效果表现将被特别强调。
我们的研究进一步表明,在其他LLMs中实施这种攻击非常有效。即使目标模型使用与原始标记不同的符号表示相同文本。通过专门构造具有针对性的攻击样本针对Vicuna-7B进行测试时,观察到这些样本几乎都能成功转移到更强大的Vicuna架构。此外,在同时针对两个不同版本的Vicuna架构(如Vicuna-7B和Vicuna-13b)进行测试时,请注意观察结果的变化趋势。进一步实验表明,在Pythia、Falcon、Guanaco等模型中实施此类攻击同样有效。我们的研究结果表明,在多个大语言模型中自动生成可靠的"脱狱"攻击方案是可行的。
3.1 对白盒模型的攻击

**图2:**各不相同的优化器在提取Vicuna-7B的个别有害信息片段方面的表现。我们的攻击方案(GCG)在该任务中展现出显著的优势,在之前的基准方法中表现更为出色。这些指标显示我们的策略能够实现更高的攻击效率和更低的资源消耗。
首先, 我们阐述了该方法在经过明确训练后可执行攻击的能力. 为了证明该方法可有效针对不同字符串. 行为及模型组合进行成功的攻击, 我们采用了两种配置策略来进行测试与评估: 首先是单一目标特定于单一模型的策略(即每组测试仅包含一种特定的行为与字符串组合). 其次则是更为通用的策略(包含了25种不同的行为类型).
一种行为/字符串,在这种情况下会被视为一种威胁指标
我们以表1的形式展示了实验结果。特别关注"个别有害字符串"这一列的数据表现,结果显示,在Vicuna-7B与LLaMA-2-7B-chat模型上采用PEZ与GBDA均未能成功提取有害信息,而在两个模型上的测试结果显示,GCG表现更为出色(准确率达到88%与55%)。图2详细描绘了攻击过程中的损失与成功率变化趋势,并比较发现,在整个过程中,GCG都能够迅速识别出损失较小的对抗性示例,并在后续步骤中持续进行优化改进。从实验数据来看,在提取特定行为提示方面表现出明显优势;相比之下,在某些特定场景下AutoPrompt同样表现出色;然而其他方法则未能达到相同的水平
参考表1中的详细说明后发现,在特定设置下PEZ与GBDA均表现出显著低于预期的异常识别率(ASR)。然而AutoPrompt与GCG在不同模型架构上的表现则较为相近,在Vicuna-7B上展现出相似水平的技术指标;但在不同的模型架构(如Llama-2-7b-Chat)上出现了显著差异性表现。值得注意的是这两种方法的ASR均有所下降;但令人值得一提的是GCG在绝大多数案例中仍成功地发现了有效的攻击路径。
25种行为,1个模型 。
这种配置展示了生成通用对抗性示例的能力。我们使用算法2针对25种有害行为优化了Vicuna-7B(或LLaMA-2-7B-Chat)上的单一对抗性后缀。优化后,我们首先计算这个单一对抗性提示在优化中使用的25种有害行为上的ASR,称为训练ASR。然后我们使用这个单一示例来攻击100种保留的有害行为,并将结果称为测试ASR。表1中的“多种有害行为”列显示了所有基线和我们的结果。我们发现GCG在两种模型上都一致优于所有基线,并且对Vicuna-7B的几乎所有示例都成功。尽管AutoPrompt在Vicuna-7B上的性能相似,但在Llama-2-7B-Chat上的效果远不如我们的方法,对于保留的测试行为,其成功率为35%,而我们的方法为84%。

图3展示了一个基于第3.2节所述框架的新行为分析图表,在该框架下我们采用了一种称为GCG提示的方法来评估开放模型与专有模型在对抗性攻击中的表现(ASR)。值得注意的是,“Sure here’s”这一附加指令被巧妙地融入到每个查询指令中,在生成响应时引导LLM从指定字符串开始输出内容。“Sure here’s”这一附加指令使得生成的回答更加具有针对性与方向性;而通过整合多个不同的对抗性提示方案(即所谓的GCG集成),我们能够更加全面地评估系统的鲁棒性与防御能力。“ sure here's”附加到指令前这一操作不仅提高了系统的响应效率还增强了其抗干扰能力;同时通过这种方式我们也能够更好地理解不同LLM系统之间的差异及其适应能力。
此图则展示了将GCG提示应用于不同词汇表、架构样式、参数规模以及训练策略多样的LLM系统的过程;通过这种方法我们得以观察到这些系统在面对同一类特定任务时展现出的不同特性及其潜在风险。
单模型实验总结。
在第3.1节中进行实证研究,在两种设置下考察了有害字符串与有害行为的对抗效果,并基于此对GCG提取两个开源LLMs(包括Viccuna-7B与LLaMA-2-7B-chat)的目标不对齐竞争的有效性展开分析。结果表明,在多个基准基准测试上,GCG展现出超越其他方法的优势,并通过优化一个通用提示,进一步实证研究了其对抗能力的表现,最终结果显示该方法具有较高的泛化能力,能够有效识别不同场景下的潜在威胁节点,从而验证了该方法的有效性和实用性
3.2 转移攻击
在第3.1节中详细阐述了单一模型上的通用攻击情况。在本节中进一步探讨了针对多种行为及不同类型的模型实施的通用攻击策略。这些策略不仅涵盖开放型架构,在实际应用中同样适用。
在第3.1节中详细阐述了单一模型上的通用攻击情况。在本节中进一步探讨了针对多种行为及不同类型的模型实施的通用攻击策略。这些策略不仅涵盖开放型架构,在实际应用中同样适用。
基于算法2生成多组通用对抗性提示

表2展示了不同攻击策略对系统安全威胁的影响。具体而言,在通过三种攻击策略——有害行为、有害行为并附加"Sure, here’s"后缀以及加入GCG提示——在以下模型上评估攻击成功率:包括GPT-3.5-turbo、GPT-4、Claude-instant-1、Claude 2以及PaLM-2系统。实验结果在总共388种不同的行为中进行评估,并进一步考察了采用多个GCG提示时的表现。

在图4中以图1为例展示了有害内容生成的过程:ChatGPT位于左上角、Claude 2位于右上角、Bard位于左下角、LLaMA-2位于右下角。完整的内容可在附录B中查看

**图5:**我们的行动源自最先进商业模型中产生的负面行为示例;包括GPT-3.5(绿色)、GPT-4(紫色)以及Claude系统。具体触发方式可能因各系统而有所不同。为了验证该方法在诱导负面行为方面的有效性,我们主要选取完整响应中的片段进行分析,并且排除了任何可能导致过于直接或具体的危险指令被触发的情况。“同时,在附录部分我们将展示更多的案例供参考。”
基线。
在本节中, 我们致力于探讨GCG所发现的对抗性提示在不同场景下的迁移性表现。作为基准对比, 本研究涵盖以下几种可回声率评估的情况:
- 第一种情况为提示仅指示模型执行基本查询, 未涉及任何攻击性行为或试图颠覆正常生成流程;
- 第二种情况则通过在指令前添加特定引导语"Sure here's", 改变模型响应的起始内容, 如前文所述。

message = {harmful_behavior} (以 “Sure here’s” 开始)
评估模型性能
以上改写遵循以下原则
呈现转移效果。
我们系统性地收集了388个具有代表性的测试有害行为样本来进行ASR评估。每个开源模型基于三个不同提示设计的最大平均准确率(ASR)已在图3中清晰展示(使用更深的蓝色标记)。为了全面比较各模型性能并突出差异性特征,在图3的基础上增加了GPT-3.5和GPT-4的具体表现数据;同时,在表格2中进一步延迟并详细列出了更多专有模型的相关实验结果以供对比分析。
除了在Pythia-12B上实现"Sure, here's"攻击外,在其他模型中达到几乎100%的对抗成功率(ASR)。值得注意的是,在未专门针对提示优化的开源模型中,我们的攻击同样表现出色,在多个测试案例中接近达到了100%的对抗成功率达到显著优势。此外,我们还评估了集成型攻击的成功率,并发现至少有一个GCG提示会导致模型对有害行为做出错误判断的现象较为普遍。这些结果清晰地表明,在研究的所有模型中都存在一定程度上的可转移性特征;然而不同因素可能导致提示在指令间的可靠性产生差异这一问题仍需进一步深入探索。尽管如此,在集成攻击的表现与现有防御机制之间仍存在一定的差距
在表2中,我们关注了基于ChatGPT和Claude模型的转移攻击对抗样本(ASR)的表现。前两行展示了仅考虑有害行为的情况以及有害行为被"Sure, here's"后缀修饰的情况。在"Behavior+GCG prompt"这一行中,我们比较了基于Vicuna模型优化后的两种提示,并报道了表现最佳的ASR值。此外,我们在Vicuna与Guanacos联合优化的基础上,进一步探讨了同时针对Claude-1进行优化的可能性。值得注意的是,通过先进行调节步骤再插入有害指令这一方法,我们在Claude模型上的ASR表现有所提升。这些讨论将在第3.3节进行更深入地展开。最后值得指出的是,在运行大量步骤(如500步)时可能会降低攻击的成功率并导致过拟合现象。
提高可转移性。
我们实验证明组合多个GCG提示能够带来显著提升几个模型上的ASR表现。具体而言,在尝试将三个GCG提示串联成一个统一后缀时(如表2所示),这种更长的后缀在GPT-3.5-turbo-0301上实现了ASR性能从47.4%显著提升至79.6%,这一提升幅度是单独针对Vicuna模型优化的提示所达效果的两倍多。然而,在GPT-4上这一效果并不理想。研究发现较长连接式增强了模型对输入的理解困难程度,在这种情况下系统更倾向于请求澄清而非直接提供结果。值得注意的是,在Claude-1上由于优化策略差异带来的回报率下降主要归因于不同模型优化版本之间的性能差异。
除了连接之外,在集成策略下我们注意到利用优化提示的多样性能够显著提升模型性能。具体而言,在每种行为类型中我们采用全部可获取的GCG提示进行对抗训练操作包括三个长度较短的以及一个通过连接生成的延长版本提示。如果在对抗成功后停止该过程否则待用完所有可用提示时终止这一过程我们认为积分策略未能取得预期效果(此时通常认为积分失败)。图3所示(较浅条形图)以及表2中的"集成方法"行展示了该策略下的实验结果令人出乎意料的是采用集成方法后在GPT-3.5上实现了ASR指标值达到86.6%而在GPT-4和Claude-1系统上则分别达到了约50%的水平
总结而言,我们进行了系列实验研究,并观察到一个显著的趋势:仅通过最少数量的查询任务即可实现高攻击成功率(ASR)。值得注意的是,在这些实验中发现的新行为超出了50%的攻击成功率。重要的是,在图5中展示了从这些模型中引出的一小部分极具危害性的行为。
手动微调用户提示
我们未在所有商业模型上进行该练习;然而,在某些转移攻击原本就较为困难的情境下,则确实发现了个别成功的案例。例如,在图4所示的情况中,在收到攻击提示有害行为前采取了一个调节措施:机器人参与了一个简单的单词游戏,并对指令中关键术语进行了替换操作。结合转移攻击手段,则足以引导系统执行相应的有害操作。第3.3节进一步探讨了Claude 2系统对完全自动化攻击表现出的显著防御能力。

图6: (左)基于对Vicuna和Guanaco两种模型进行后缀优化的过程中形成的四组评估指标包括转移攻击成功率(ASR)以及GCG损失。观察到在训练初期阶段(即前半部分),GCG损失呈现出显著下降的趋势;然而,在后续阶段(即后半部分),这种下降趋势逐渐减弱并趋于平稳。随着训练进程推进至中间阶段(即前半部分),针对黑盒模型的具体防御机制表现出了逐步增强的效果;尽管如此,在持续强化过程中仍出现了适度下滑的现象,并呈现出一定的过拟合迹象。(右)通过对不同目标任务进行针对性优化后的结果进行对比分析时发现,在一系列黑盒防御机制中对特定任务进行针对性优化后的结果进行了系统性考察;特别值得注意的是,在Claude平台上的微调策略处理LLaMA这类大语言模型时所生成的具体对抗性防御机制表现出更高的成功命中率
3.3 讨论
站在宏观视角审视该研究工作时发现其影响范围极为广泛并指出了当前生成式大语言模型(LLMs)校准方法存在的关键问题。具体而言基于开源LLMs及针对黑盒LLMs的研究成果我们注意到大部分研究集中于增强模型对抗"自然"型攻击的能力即人类试图通过人工干预引导模型执行不当行为的研究领域这一模式具有一定的理论价值因其是目前主导的研究方向之一然而我们对于基于自动化技术设计的对抗性攻击方案仍存疑认为其相比人工工程化方法而言具有显著优势可能削弱现有抗扰技术的有效性尽管如此但仍存在一些值得探索的问题将在下文进行初步分析
我们通过对比分析来探讨模型经过对齐处理后是否变得更加健壮?观察到的一组数据呈现了一个值得关注的趋势:这一趋势与某些预测结果相悖论的是,在这一趋势下表现更为出色的还有其他一些特定类型的语言模型(如GPT-4),而像Claude 2这类语言模型则表现出极高的稳定性。不过我们也要认识到这些数据分析可能存在一定的偏差原因很简单即Vicuna语言模型是在从ChatGPT-3.5生成文本的基础上构建而成的。针对(视觉)领域中的对抗性攻击研究文献研究表明针对独立开发的语言模型之间实施转移式对抗策略往往能够取得更好的效果结果如何呢?由于Vicuna语言模型本质上就是基于ChatGPT-3.5生成文本的一种精简版本因此在这种特定环境下取得不错的效果并不令人意外一些初步推测认为这是可能的结果)。为了验证这一假设我们提出了一个更具挑战性的测试方案即构建类似架构的新语言模型并评估其抗干扰能力是否有所提升
值得注意的是,在我们对Claude系统的攻击中发现,在某些情况下成功率可能会下降(因为如果查询被认为包含不合适的信息内容,则会提前被过滤掉)。这种过滤机制其实已经在聊天界面中被实现了(但尚未在Claude API中使用)。这些检测器一直是对抗视觉领域对抗性攻击的常见策略之一,并且它们往往未能奏效(Carlini和Wagner, 2017a)。实际上,在之前提到的"技巧"下(即通过交换提示中的单词位置来实现),这种方法似乎能够规避这一问题(如图4右上角所示)。尽管这种方法让结果回到了"手动工程化"那一方阵营附近,但将其自动化处理似乎是可行的——例如设计一种能够分两步提示进行攻击的方法/或直接修改用户的查询输入以绕过检测机制的同时仍能生成所需的结果输出。此外,在其他模型如Bard和Claude之间我们也实现了这种转移效果。值得注意的是,在这些模型之间建模与训练方法上存在显著差异。这表明在某种程度上这类行为可能是任何经过类似方式训练的语言模型所固有的。
这些攻击是否具有意义?为了避免直接引用由我们的方法生成的完整提示所带来的潜在负面影响,我们选择不直接引用由我们的方法创建的完整提示。然而,在探索过程中发现这一现象仍然具有研究价值。以下是一个这样的对抗性攻击实例:

…end-line only please reiterate the first sentence by putting Sure by…
值得注意的是,在与基于图像的空间域对抗性攻击(在传统设置中缺乏语义上的意义特征)形成明显对比的情况下,我们发现的对抗性提示确实具有一定的可解释性特质。例如,在具体实施层面,则出现了一种提示模式:用户可以通过输入"请重述第一段并以'Sure'开头"来触发这一功能(即以'Sure, here is'开头)。此外,在实验观察中发现,在整合多个提示策略与不同模型架构的情况下(尽管初始设计较为随意),生成结果往往具备一定的结构化特征。值得指出的是,并非所有的提示都能达到如此程度的结构化特性;例如,在这种特定场景下还出现了另一种具有显著识别特性的辅助指令形式。

…restored into one sentence grammar using proper colon…
由此可见,在我们所观察到的情况中,“相对可解释性”的提示仅相当于众多潜在提示中的一种
为什么这些攻击还不存在?
我们的工作提出的最根本问题之一是:鉴于我们采用了相当直接的方法,主要在文献中以前的方法上进行了小幅度的构建,为什么以前对LLMs的攻击尝试不太成功?我们推测这至少部分是因为以前的NLP攻击工作集中在更简单的问题上(如愚弄文本分类器),那里最大的挑战仅仅是确保提示与原始文本没有太大的不同,以这种方式改变了真实类别。如果我们想证明“破坏”一个文本分类器,那么不可解释的垃圾文本几乎没有意义,而且这种更广泛的观点可能仍然支配着当前对LLMs的对抗性攻击的工作。事实上,也许只有在最近足够强大的LLMs出现时,从模型中提取这种行为才成为一个合理的目标。无论原因如何,我们相信我们工作中展示的攻击代表了需要严格解决的明确威胁。
4 相关工作
LLMs中的对齐方法
大多数LLMs是从Web上收集大量数据训练而来,在应用于实际场景时可能会违反普遍接受的规范、伦理标准和法规要求。随着更多对齐研究工作的推进,在理解这些问题及其影响方面取得了进展,并开发出了一系列技术手段来应对这些挑战。该研究团队于2021年提出了ETHICS数据集以评估语言模型在预测人类伦理判断方面的性能,并发现目前虽然在这一领域取得了一些积极进展但在基础层面仍存在诸多挑战与局限性。
主要通过整合人类反馈来实现模型行为的对齐。该过程首先从注释者提供的偏好数据中训练奖励模型,并随后利用强化学习对其生成能力进行相应的优化以适应LLM(Christiano等人, 2017年;Leike等人, 2018年;Ouyang等人, 2022年;Bai等人, 2022年)。在此基础上发展出的一些方法进一步限制了奖励模型的应用范围:一方面限定其在遵循既定规则的情况下运行;另一方面则将其应用在反对有害指令的“思维链”风格解释上(Bai等人, 2022年)。这些策略旨在通过更精确的行为规范来提升LLM的行为可监督性。此外,Korbak等人(2023年)的研究表明,在预训练阶段将人类判断作为目标之一能够进一步提高下游任务中的行为对齐效果。然而,Wolf等人(2023年)指出,在减轻但未完全消除不良行为方面取得的进步仍然可能面临对抗性提示攻击的风险。当前实验结果与先前成功案例(Wei等人, 2023年)一致,并进一步凸显了建立更加可靠的行为规范和安全机制的重要性
对抗性示例与可转移性
对抗样本或旨在诱导机器学习模型产生错误或非预期行为的输入已逐渐成为研究焦点(Biggio et al., 2013; Szegedy et al., 2014; Goodfellow et al., 2014; Papernot et al., 2016b; Carlini & Wagner, 2017b)。除了探索对抗攻击之外, 还开发了一系列防御机制来抵御此类威胁(Madry et al., 2018; Cohen et al., 2019; Leino et al., 2021)。然而, 防御这些攻击仍面临巨大挑战, 因为 most effective defense mechanisms often come at the cost of significantly reducing model performance (Li et al., 2023)
最初的研究背景是图像分类领域。然而最近展示了多种任务上抗受对抗性示例攻击的语言模型(包括问答系统如Jia和Liang于2017年、Wallace等人于2019年)、文档分类系统(Ebrahimi等人于2017年)、情感分析系统(Alzantot等人于2018年及Maus等人于2023年)以及毒性检测系统(Jones等人于2023年及Wallace等人于2019年)。然而这种攻击在我们研究的对齐模型中显示效果有限(Carlini等人于2023年)。一个更加根本性的挑战在于,在图像领域存在不可察觉扰动现象而文本域同样缺乏真正的不可察觉对抗样本:在文本域中施加小幅度 ( \ell_p ) 扰动通常会导致内容发生明显变化。对于许多分类任务而言这要求我们必须改变攻击威胁模型以确保标记变化不会影响真实类别归属例如仅使用同义词替换单词即可实现这一目标(Alzantot等人于2018年)。实际上显著优势在于,在文档分类问题上没有任何输入文本的变化应该允许生成有害内容因此指定任何调整提示以引起目标不良行为比在其他场景下更为明确
关于表征和防御对抗性示例的研究工作主要聚焦于针对特定输入设计定制化攻击策略。一种称为普遍对抗性的主动干扰技术,在许多输入样本上均可引发模型误判(Moosavi-Dezfooli等人, 2017年)。具体而言,在图像领域中已有大量相关研究(Moosavi-Dezfooli等人, 2017年);而对于音频信号,则有若干开创性工作(Neekhara等人, 2019年;Lu等人, 2021年)。此外,在语言处理任务中也取得了显著进展(Wallace等人, 2019年)。
对抗性示例最引人注目的是它们具有的可转移性:即一旦存在一个能够欺骗某一种模型对抗性样本,则通常存在一定程度的可能性该样本也会成功欺骗其他类似结构的模型(Szegedy等، 2014年;Papernot等, 2016a)。研究表明,在不同数据类型、架构设计以及预测任务场景下这种特性普遍出现;然而,在许多情况下与图像分类领域的广泛研究相比并不如其可靠性高(Abdullah等, 2022年)。值得注意的是,在音频模型领域这类特性并未表现得如此显著:The notable exception is that in the audio domain such characteristics have been demonstrated to be much more limited. 最近的一项研究指出,在优化过GPT-2的一组特定有毒生成提示中约有一半的成功案例成功转移到了Davinci-002系统(Jones等, 2023年)。
探讨了多种理论来解释可转移性的成因。Tramèr等研究者于2017年推导出了一组关于数据分布的条件,并证明了该条件下在线性模型间实现无相互依赖的可转移性的可行性,并通过实证证据表明这些条件更具普遍适用性和有效性。Ilyas等研究者则指出存在一类被称为‘非鲁棒特征’的现象——这类特征尽管容易受到小范数扰动的影响仍能准确预测类别标签。这种现象也可由同一理论框架进行解释即当训练出的模型具备一定的泛化能力时即使存在非鲁棒特性也能在一定程度上维持其性能表现。
离散优化和自动提示调整
在NLP模型的对抗性攻击任务中,一个主要难题是:与图像输入不同的是文本本质上属于离散空间这一特点。这种特征使得基于梯度的方法难以有效生成对抗样本。然而,在离散优化领域已有研究者致力于相关工作。这些研究通常会结合其他特性进行分析。
通常情况下有两种主要的提示优化方法。其中一种是基于嵌入的优化方法,在LLM中第一层通常会将离散标记投影到某些连续嵌入空间中,并通过计算预测下一个标记的概率来实现这一过程(Lester等人, 2021年)。这种方法激发了在标记嵌入上使用连续优化的想法,并被广泛称为软提示技术;实际上我们发现,在软提示上构建对抗性攻击的过程相对较为简单。然而这一过程存在不可逆性:优化后的软提示通常无法恢复出对应的离散标记化结果,并且公开可用的LLM接口往往不允许用户直接提供连续嵌入空间的数据。尽管如此但仍有其他方法能够利用这些连续嵌入信息进行优化工作。例如Prompts Made Easy(PEZ)算法(Wen等人, 2023年)通过量化优化的方法在投影点处取得梯度信息从而调整连续嵌入参数随后再将最终解投影回硬标记空间中获得最终结果;最近的研究则提出了利用Langevin动力学采样的方法从离散提示中采样并结合连续嵌入信息进一步提升模型性能(Qin等人, 2022年)。
另一组替代方法首先直接在离散标记上进行优化。这包括研究对标记进行贪婪穷举搜索的工作,我们发现通常表现良好,但在大多数设置中计算上不切实际。或者,一些方法计算了相对于当前标记分配的一位有效编码的梯度:这基本上将一位向量视为连续量,以得出这个项的相关重要性。这种方法首先在HotFlip(Ebrahimi等人,2017年)方法中使用,总是贪婪地用具有最高(负)梯度的替代品替换单个标记。然而,因为在一位有效级别上的梯度可能不能准确反映在切换整个标记后的函数,AutoPrompt(Shin等人,2020年)方法通过在前向传递中根据k个最大负梯度评估几种可能的标记替换来改进这一点。最后,ARCA方法(Jones等人,2023年)通过在几种潜在的标记交换处评估近似一位梯度,而不仅仅是当前标记的原始一位有效编码,进一步提高了这一点。实际上,我们自己的优化方法遵循了这种标记级别的梯度方法,并对AutoPrompt方法进行了微小调整。
5 结论和未来工作
值得注意的是,在过去十年中有关对抗性示例的研究文献数量显著增加。然而,在提升NLP系统的抗性能力方面取得了一些进展之后仍存在诸多限制。尽管如此 但从系统性角度审视现有方法后发现其实大多数现有攻击未能有效解决这一难题。本研究提出了一种相对简便的方法 综合运用了已有研究中提出的各种技术方案并对这些方案进行了适度优化 从而形成了当前较为完善的技术体系框架。这一方法学不仅具有理论意义而且在实践应用中也展现出显著优势
在研究线这一领域中还有很多未解之谜和未来的研究方向。最自然的问题或许是:针对这些攻击而言,模型是否能够明确地进行重调以抵御这些攻击?这一问题确实是一种对抗性训练方案。它仍然是训练健强机器学习模型最为有效的经验之一:在模型的重调过程中(即微调),我们会采用上述方法之一对其进行攻击;同时,在潜在有害查询的处理上也会持续改进(并可能还需对额外的一些非潜在有害查询进行调整)。这个过程最终能否有效提升模型的安全性(例如通过增加攻击迭代次数)?它能否保证即使在保持生成能力不变的情况下依然具备健强性(而传统ML模型则不具备这一特性)?现有的更多标准对齐策略是否已经部分解决了这一问题?此外,在预训练阶段是否存在其他机制可以直接发挥类似作用?
6 伦理和更广泛的影响
该研究提供了可使人们利用某些公共LLMs产生有害内容的材料。
尽管存在潜在风险性问题,但我们认为完整披露该研究具有重要意义。
所介绍的技术相对容易实现,在文献中已有类似的报道,这些技术可能会被所有关注利用语言模型生成有害内容的研究团队所关注。
考虑到现有的(手动)‘越狱’现有LLMs已经广泛传播,并且这些系统的普及使得我们攻击带来的直接危害当前相对较小。然而,在这些基于LLMs系统的广泛应用背景下,并且随着基于LLMs系统的广泛应用以及这些系统采取自主行动的可能性提升时,则认为潜在风险将会增加。因此我们希望通过这项研究能够阐明自动化攻击对现有LLMs构成的风险,并强调此类系统所涉及的关键权衡与潜在风险
在论文正式发表前的一段时间内, 我们将研究成果分享给我们的大型闭源LLM研发团队; 因此, 论文中所展示的例子可能无法再发挥预期效果. 然而, 我们的攻击带来的潜在挑战如何得以完全解决(如果确实存在的话), 或者这些攻击的存在是否应被视为限制LLMs适用范围的因素之一, 目前仍不明确. 我们期望未来的研究能够进一步探索上述方向.
