Advertisement

论文翻译:A survey on large language model (LLM) security and privacy: The Good, The Bad, and The Ugly

阅读量:

An overview of large language models (LLMs) security and privacy aspects: three main areas emerge—positive outcomes, challenges, and significant issues.

文章目录

  • 关于大型语言模型(LLMs)安全性和隐私特性的调查:正反两面及其负面特性

    • 摘要部分

    • 1. 引言部分

    • 2. 背景分析

      • 2.1 大型语言模型(LLMs)
      • 2.2 当前主流LLM的技术对比
    • 3. 概述

      • 3.1. 范围
      • 3.2. 研究问题
  • 4. 对安全与隐私的重要保障

      • 4.1. 这些LLMs特别适用于代码层面的安全防护
      • 4.2. 这些模型在数据处理过程中能够有效保护个人隐私信息
  • 5. 影响到安全与隐私的方面

  • 6. LLMs存在的漏洞及应对措施

    • 6.1. LLMs面临的漏洞与威胁

        • 6.1.1. 由AI本身引发的漏洞与威胁
        • 6.1.2. 由非AI因素导致的漏洞与威胁
      • 6.2. LLMs的防御

        • 6.2.1. 模型架构中的防御
        • 6.2.2. LLM训练和推理中的防御
    • 7. 讨论

      • 7.1. LLM在其他安全相关主题中的应用
      • 7.2. 未来方向
    • 8. 相关工作

    • 9. 结论

关于大型语言模型(LLM)安全性和隐私的调查:好的、坏的和丑陋的

摘要

大型语言模型(LLMs),如ChatGPT和Bard,已经彻底改变了自然语言理解和生成。它们具有深度语言理解能力、类似人类的文本生成能力、上下文意识和强大的问题解决技能,使它们在各个领域(例如搜索引擎、客户支持、翻译)中变得不可或缺。同时,LLMs也在安全领域获得了关注,揭示了安全漏洞并展示了它们在安全相关任务中的潜力。本文探讨了LLMs与安全性和隐私的交集。具体来说,我们研究了LLMs如何积极影响安全性和隐私,与它们使用相关的潜在风险和威胁,以及LLMs内部的固有漏洞。通过全面的文献综述,本文将论文分类为“好的”(有益的LLM应用)、“坏的”(攻击性应用)和“丑陋的”(LLMs的漏洞及其防御)。我们有一些有趣的发现。例如,LLMs已被证明能够增强代码安全性(代码漏洞检测)和数据隐私(数据保密性保护),超越了传统方法。然而,它们也可以因其类似人类的推理能力而被用于各种攻击(特别是用户级攻击)。我们已经确定了需要进一步研究的领域。例如,对模型和参数提取攻击的研究是有限的,并且通常是理论上的,受到LLM参数规模和保密性的阻碍。安全指令调整,这是一个最新发展,需要更多的探索。我们希望我们的工作能够揭示LLMs在加强和危及网络安全方面的潜力。

关键词
大型语言模型(LLM)LLM安全性LLM隐私ChatGPTLLM攻击LLM漏洞

1. 引言

大型语言模型是一种拥有海量参数的数据驱动语言系统。该系统通过预设任务机制(如遮蔽语料建模与自回归分析)来解析并处理人类自然语言。通过对海量文本语料进行跨上下文语义建模与概率统计分析,在自然语言理解方面具有深厚的背景知识;能够生成内容丰富且具有人类思维特征的文字描述;具备高度的语境感知能力;在问题解决与决策支持方面展现出显著的优势。(参考文献[1])。

在2023年推出的一些大型语言模型(LLMs)赢得了广泛的知名度。值得注意的是几个具有代表性的实例包括OpenAI开发的ChatGPT(编号2)、Meta AI推出的LLaMA(编号3)以及Databricks提供的Dolly 2.0版本(编号4)。值得注意的是ChatGPT独立 accounts已达到超过一亿八百万名注册用户。具体而言,在多个领域都得到了广泛应用。其中包括搜索引擎技术(如百度和谷歌)、客户支持系统、翻译工具以及金融领域的风险管理功能等主要应用分支。这突显了其适应性和广泛的应用潜力,在不同行业和场景中简化与语言处理相关的复杂任务并带来显著效益

随着LLM技术的普及,在安全社区中其影响力与日俱增。最新研究表明,在一个特定代码库中GPT-3识别出了总计213处安全缺陷(其中仅有4项经验证实为误报)[15]。相比之下,在当前市场上的主流安全分析工具仅识别出约99处潜在问题。最近的研究表明,在IEEE S&P 2023会议上研究团队借助多种开源可用的人工智能模型对系统进行了系统性评估,并重点关注了多种应用场景:包括生成式对抗攻击模拟、传统威胁检测任务以及真实世界环境下的安全性评估。结果是有希望的,因为这些模型成功解决了所有合成和手工制作的场景。在NDSS 2024会议上一个名为Fuzz4All[17]的工具展示了LLMs在输入生成和变异中的使用辅以创新的自动提示技术和模糊测试循环。

这些显著的初步尝试促使我们深入研究三个关键的安全相关问题:

RQ1. LLM们在各个领域如何提升安全性与隐私性,并带来了哪些社区贡献?

• RQ2. 在网络安全领域,LLM的使用带来了哪些潜在风险和威胁?

• RQ3. LLM内部的漏洞和弱点是什么,如何防御这些威胁?

此发现表明

在第四部分中讨论的是大语言模型(LLM)对安全社区的重要影响及其带来的积极成果。研究表明,在增强安全性这一领域上取得了显著进展的主要原因在于发表于相关领域的高质量论文数量大幅增加。这些成果主要体现在两个关键方面:首先是大语言模型被广泛应用于包括代码安全在内的多个技术领域;其次是在数据安全性与隐私保护方面也展现了独特的优势与应用潜力。具体而言,在代码安全领域中大语言模型被广泛应用于包括但不限于以下环节:生成高质量的安全代码;自动创建并优化测试用例;识别潜在的安全漏洞;检测并防止恶意行为模式;以及修复已知的安全缺陷等多重功能。同样地,在数据安全性与隐私保护方面大语言模型不仅能够确保数据在整个生命周期中的完整性和机密性而且还能有效维护数据的一致性和追踪能力等关键特性。值得注意的是这项研究结果还表明基于大语言模型的方法不仅达到了现有的先进水平而且还显著优于现有传统方法

在第5部分中讨论了现代大语言模型(LLMs)在安全性和隐私保护方面存在潜在威胁。我们按照攻击范围与技术特征的不同将这些威胁划分为五大类:硬件级别:如侧信道攻击;操作系统的角度:包括通过对操作系统信息进行分析来获取敏感数据;软件层面:主要表现在恶意软件构建过程;网络层面:如网络钓鱼等行为;以及用户层面的操作失误或社会工程行为等。其中用户层面的操作失误案例数量最多(共32篇相关论文),其广泛性可归因于LLMs模仿人类-like推理能力的特点。值得注意的是,在当前技术条件下,这些模型尚不具备直接控制操作系统的权限。然而若这些模型未来能够突破当前技术限制并实现对操作系统的控制,则潜在威胁将进一步加剧。

丑陋的(第6节):我们对LLM中的漏洞及其防御机制进行了深入分析,并将其划分为两大类:一类是AI模型固有的缺陷(如数据投毒攻击、后门攻击以及训练数据泄露),另一类是非AI模型固有的缺陷(如远程代码执行攻击、提示注入攻击以及侧信道信息泄露)。这些攻击手段构成了双重威胁:一方面它们可能导致严重的安全问题(如远程代码执行攻击),另一方面它们可能严重侵犯隐私权(如数据泄露)。在LLM的安全性保护方面采取了两种主要策略:一种是在架构层面采取的防护措施;另一种则是在训练与推理环节应用的具体防护策略。在训练阶段采取了语料库清洗与优化方法;在推理阶段采用了指令预处理、恶意检测以及生成后处理等技术手段。这些综合措施旨在全面提高LLM的安全性水平及其实用性表现。然而,在当前的研究中发现:对于模型提取与参数提取等攻击手段的研究仍显不足;即使是在理论上探讨也较为局限;而在实际应用层面的研究更是少之又少。值得注意的是,在面对海量参数规模时传统防护手段效果逐渐降低;而由于LLM的强大特性使得其防护工作更加复杂困难;再加上严格的安全输出审查机制对黑盒ML攻击形成了有效制约;但目前对LLM架构特性及其安全性影响因素的研究却进展缓慢;主要原因在于相关研究工作投入计算资源过大;尽管如此相关研究仍在持续推进中。“安全指令调整”作为一种新型防护手段也已提出并亟需进一步探索。

贡献
我们的工作具有双重重要性。首先,在系统性地探讨LLM在数据安全与隐私保护领域的作用定位方面具有首创性。其次,在深入分析了LLM对数据安全带来的积极影响及其潜在风险的同时,并探讨了其内部漏洞及其应对策略。值得注意的是,在全面覆盖数据安全与隐私保护的关键领域方面(包括安全性、威胁性及防御措施),据我们所知目前的研究还处于初步探索阶段。此外,在评估LLM的安全性时(例如,在评估LLM的安全性时),我们发现其积极贡献往往超过消极影响。进一步而言,在研究过程中发现大多数研究人员普遍认为(例如,在评估LLM用于保护敏感信息时),这些技术超越了现有的最佳实践方案(例如,在评估敏感信息保护方案时)。然而,在实际应用中(例如,在评估普通用户的攻击行为时),普通用户的攻击行为最常见

路线图
本文其余部分的结构安排如下:我们将从第2节开始进行LLM概述性介绍。随后,在第4节中将探讨使用LLM所带来的积极影响;而在第5节中则深入分析其对安全性和隐私可能带来的负面影响;接着,在第6节中我们将详细讨论与LLM相关的普遍威胁、漏洞及其应对策略;最后,在第9节中将总结全文并结束全文。

2. 背景

2.1 大型语言模型(LLMs)

大型语言模型(LLMs)[18]在语言模型的发展中扮演了重要角色。最初的语言模型基于统计学原理,并为计算语言学奠定了理论基础。随着变换器架构的提出,这类模型规模得到了显著提升。此类技术的发展对于科学人工智能、逻辑推理以及具身人工智能等多个领域具有重要意义。这些大型语言模型通过大规模的数据集训练实现了对人类语言的理解与生成能力,并且通常拥有数千亿甚至更多的参数量,并通过处理海量文本数据进行持续优化。在自然语言处理(NLP)领域取得了显著进展的同时,在风险评估、编程、漏洞检测等不同领域也展现了广泛的应用潜力。

基于杨的研究[1],LLM应至少包含四个关键特性。其一为理解能力,在此指明人能处理自然语言文本并提取信息的能力,并可执行诸如翻译之类的语言相关任务(如翻译)。其二则为生成能力,在此强调当被指示时能够完成句子、撰写段落或撰写文章的能力。其三则涉及上下文意识,在此指涉考虑领域专业知识等因素的影响因素,并由此形成被称为"知识密集型"的品质。最后则强调此类模型应在解决问题和决策制定方面展现出色,在此指涉利用文本段落中的信息使其在信息检索与问答系统等任务中展现出色的价值。

2.2 流行LLM的比较

如表1所示,语言模型的提供者种类丰富多样,并非单一来源所能涵盖。这些提供者包括行业领军者如OpenAI、Google以及Meta AI等企业级平台,在此之外还有诸多新兴参与者如Anthropic与Cohere等新兴力量不断加入竞争与合作。发布日期涵盖自2018年至2023年间的历史跨度内,在这一时间段内我们可见语言技术的发展速度之快以及演进路径之多变。值得注意的是GPT-4等新型语言模型于2023年问世并迅速崭露头角这无疑是对该领域持续创新的一种有力证明。然而就目前情况来看多数语言模型并非开源产品但值得注意的是像BERT T5 PaLM LLaMA及CTRL等开源工具则可自由获取以满足不同需求与应用场景的需求。此外在计算资源方面大型预训练语言模型通常具有更高的参数规模这不仅意味着更强的能力也预示着更高的计算成本与资源需求。例如PaLM凭借其惊人的540亿参数规模成为了当前领域中最具代表性的大型预训练语言模型之一其中LLMs以其庞大的参数规模更是成为研究热点对象之一而其核心特点在于高度可定制化即所谓的"可调性"这一特性表明这些预训练语言模型是否支持针对特定领域任务进行微调优化

表1. 流行LLM的比较[24][25][26][27][28][29][30]。

在这里插入图片描述

3. 概述

3.1. 范围

我们的研究目标是系统性地梳理现有的文献信息, 进行深入分析与探讨. 本研究旨在总结当前领域的技术发展现状, 并识别集体知识体系中的不足之处. 尽管LLMs显然具备多方面的应用(例如, 社会与金融应用), 但我们的核心关注点始终坚定不移地聚焦于安全与隐私问题. 此外, 其中值得注意的是,在这一领域中,GPT-4等大语言模型已展现出卓越的能力. 基于上述分析, 我们将采用GPT-4等大语言模型作为基准案例, 以深入探讨相关问题.

3.2. 研究问题

大型语言模型(LLMs)在多个领域均展现出显著影响力。然而需要意识到这些技术与以往其他强大技术不同它们肩负着独特的历史使命与社会责任。本研究旨在系统性分析LLMs在安全与隐私双重背景下的多重作用及其在全球治理中的位置。研究团队计划全面审视其正面影响同时深入探究其可能引发的安全威胁并揭示可能导致系统完整性受损的关键漏洞。为此我们将聚焦于三个核心研究方向展开详尽的文献梳理与理论探讨:包括技术伦理框架构建、全球治理影响评估以及安全风险量化分析等

• 好的(第4节):LLM如何积极地促进各个领域的安全和隐私,它们为安全社区带来了哪些潜在的好处?

在网络安全的环境下,在网络安全的背景下,在网络安全的情况下,在网络安全的情形下,在网络安全的框架下,在网络安全的条件下,在网络安全的支持下

使用LLMs可能带来的潜在风险和威胁是什么?具体来说

这些技术能够被用来实现恶意目的

不优雅的(第6节):LLMs内部潜在的安全隐患及其对系统的安全性和数据隐私构成威胁。

基于一系列关键问题导向的研究探索,在Google Scholar数据库中进行了系统性检索与分析,并重点筛选出涉及大语言模型(LLMs)在安全性和隐私保护方面具有代表性的学术论文。如图1所示,在这一系列研究中我们收集整理了共计83篇"优质"论文样本;这些研究成果充分体现了LLMs技术在提升安全性和保障隐私方面的显著价值与应用潜力。进一步深入分析发现,在这83篇优质论文样本中我们识别出54篇"存在问题"类型的代表性研究;这些研究主要聚焦于攻击者如何利用LLMs技术针对特定用户进行恶意攻击行为;此外我们还筛选出144篇"缺陷暴露"类型的文献样本;这类研究主要关注LLMs内部潜在的安全漏洞及其成因分析。值得注意的是这项研究覆盖的时间范围主要集中在2023年;其中仅有82篇论文发表于该时间段内;而其余收集到的文献则主要集中在早期的学术探索阶段(即2007-2022年间)。从统计数据来看本研究发现显示出明显的时间分布特征:随着时间推移相关领域的研究产出呈现出持续上升的趋势;其中最具代表性的当属月份度发表量指标显示自2019年以来每月平均产出数量持续增长直至今年10月达到峰值水平;共发表了38篇相关文献(占总样本数量的约15.97%)。这一现象预示着未来将会出现更多与安全防护相关的LLM技术研究与应用成果不断涌现

图1. 我们收集的论文概览。

4. 对安全和隐私的积极影响

我们在当前阶段深入研究了LLMs带来的诸多优势。针对涉及代码和数据隐私的情境中,在这种背景下,“隐私”一词被选用以描述LLMs用于保障信息保密性的作用。然而,在现有文献中尚无专门探讨编码领域中保护个人隐秘性的研究证据;因此,在现有研究范围内,默认的重点则放在第4.1节中的编码安全性与第4.2节中的数据安全性及隐秘性上。

在这里插入图片描述

表2. 用于代码安全和隐私的LLMs。

4.1. 用于代码安全的LLMs

根据表2的数据,在机器学习模型库中

安全编码(C)
我们首先探讨了LLMs在安全编码编程[59]及其生成技术[60-63]的应用情况。Sandoval团队[31]开展了一项用户研究(共58名参与者),旨在审查LLMs的技术性能。该研究特别关注于评估LLMs辅助下参与者的代码编写质量,并发现通过AI辅助生成的安全代码相比未辅助组的风险降低不超过10%。随后的研究者He与Mohammed等人共同开发了一种创新的方法称为SVEN。这种方法通过连续提示机制增强了LLMs生成安全代码的能力,并显著提升了成功率从59.1%提升至92.3%。此外Mohammed团队引入了一个名为SALLM的新框架它由特定的安全数据集评估环境和衡量指标组成该框架旨在系统性地检验LLMs在生成安全代码方面的表现能力。最后Madhav团队则专注于审查ChatGPT平台上的代码生成过程的安全性特别是在硬件层面探讨了开发者可采取的有效策略来确保生成的安全性。

测试用例生成(TCG)
多篇论文[65-71]探讨了LLMs在自动化测试用例生成领域的应用,并重点分析了其在信息安全领域的相关研究。Zhang等的研究人员利用ChatGPT-4.0生成安全测试案例以识别软件应用程序中的脆弱库依赖性,并验证了该方法的有效性。研究结果表明,在多个标准基准测试中该方法表现优异,在对55个不同软件应用进行安全性评估时成功发现了24个潜在的安全漏洞与攻击路径。此外Libro框架采用LLMs自动生成测试用例的方式模拟并重现了软件系统中的典型安全漏洞与攻击手段

在安全领域中,在线模糊测试[40]、[72]、[73]、[74]、[75]作为一种广泛使用的技术手段,在生成测试用例方面发挥着重要作用。Deng等人提出了TitanFuzz[37]这一创新方法,在深度学习(DL)库输入程序生成方面展现出卓越的能力,并实现了显著的代码覆盖率(30.38%/50.84%),成功检测出65个错误中的41个未知问题。近期研究中,Deng等人[38]以及[76]对基于LLM的模糊测试进行了改进,命名为FuzzGPT,旨在通过生成不寻常程序来增强深度学习库的模糊测试效果。而针对普通代码生成能力,FuzzGPT则采用了历史错误触发程序引导LLMs解决边缘情况测试需求的独特策略。Fuzz4All[17]则通过将LLMs用作输入生成器和变异引擎,为多种编程语言(如C、C++)提供了多样化的实际输入案例,显著提升了覆盖率达到36.8%以上的平均水平。WhiteFox[39],一种新型白盒编译器模糊测试工具,通过LLMs优化编译器测试性能,其表现超越了现有模糊测试工具的最大值(它为复杂优化生成高质量测试用例,较先进工具高出80个以上)。Zhang等人[40]深入探讨了基于LLM驱动库API的模糊驱动器应用,结果显示该方法具有较高的实用性,其中64%的问题能够完全自动解决,91%的问题经手动验证得以解决。CHATAFL[41],一个基于LLM引导协议的模糊测试工具,通过与AFLNET[77]等先进工具相比,实现了更好的状态覆盖和代码覆盖率

利用Large Language Models(LLMs)在漏洞检测方面已得到了进一步的拓展,并已在多个专业领域取得了应用成果(包括区块链[50]、[51]、内核[79]以及移动设备相关领域[80])。具体而言,在区块链智能合约领域中,Chen等研究者与Hu等团队致力于通过LLMs来识别与应用相关的漏洞(Chen et al.[50]; Hu et al.[51])。Sakaoglu则提出了KARTAL系统[52][*](KARTAL: An innovative system leveraging LLMs for web application vulnerability detection.)该系统通过LLMs实现了高效的Web应用程序漏洞检测功能,并达到了令人瞩目的准确率水平(高达87.19%),其预测速度也达到了惊人的每秒几百次(每秒可处理约 )此外,在这一方向上的研究贡献还体现在VulLibGen工具的发展上(Chen et al.[53]})。该工具基于LLMs构建了一个用于生成漏洞库的方法论框架。Ahmad等研究者则转向了硬件安全领域并专注于利用LLMs——尤其是像OpenAI Codex这样的模型——来进行自动化的安全错误识别与修复工作(Ahmad et al.[54]})。PentestGPT系统作为一个智能化的渗透测试工具则展现了LLMs的强大能力——它不仅能够根据特定领域的知识体系来解决渗透测试中的各个子任务问题还能显著提高整体测试效率与效果

恶意代码检测(RE)
使用大型语言模型(LLM)来进行恶意软件检测是一个极具前景的应用领域。该方法主要依赖于LLM的强大自然语言处理能力和对上下文的理解能力来识别潜在的风险程序。研究者Henrik Plate[42]通过GPT-3.5模型进行实验发现,在基于LLM的恶意软件检测系统中虽然无法完全取代人工审查工作流程(FAR),但它们能够显著提升效率并提高准确性(TAP)。在总共执行的1800次二元分类测试中出现了较多误报情况的同时也不乏漏检现象存在。值得注意的是即使是最简单的技术手段也可能成功欺骗LLMs的能力评估机制(EVA)。近年来,在这一领域也出现了一些新的探索尝试。例如 Apiiro[43]是一款专注于利用大型语言模型来进行恶意代码分析的应用程序它通过构建特定类型的LLM代码模式(LCPs)将代码以向量形式表示以便更容易识别其相似性特征并实现有效的分组聚类功能。该系统还结合了多种技术手段包括基于LLMs的语言模型分析专用代码解析器的概率抽样方法以及构建高效的LCP索引系统并通过降维技术实现了潜在威胁样本的有效识别与分类功能。

针对脆弱或错误代码进行修复的工作(RE)。一些研究论文如引用文献中的编号16, 58, 99专注于评估大语言模型在代码理解与训练方面的性能。其核心任务是程序修复工作。Jin等人提出了一种名为InferFix的方法——该框架基于变换器架构设计,并结合了先进的静态分析工具以及基于变换器技术构建的语言模型。旨在解决并纠正关键的安全性和性能缺陷,并通过实验验证其准确率范围达到65%至75%之间。此外,在未接受专门针对漏洞修复任务训练的情况下

表3. 用于数据安全和隐私的LLMs。

在这里插入图片描述

其以其卓越能力在代码缺陷检测与修复领域享有盛誉

在这里插入图片描述

4.2. 用于数据安全和隐私的LLMs

如表3所示,在数据安全领域中,LLMs展现了卓越的能力,并通过提供多种保护机制来确保敏感信息的安全性。研究论文按照LLMs增强的具体数据保护方向进行了分类与归纳整理。这些方向涵盖了多个核心领域:首先是对数据完整性(I)的关注,在整个生命周期中保障数据不会被篡改或破坏;其次是数据可靠性(R),即保证数据的真实性和准确性;此外还有对数据保密性(C)的重视,在防止未经授权访问的前提下最大限度地保护敏感信息;最后是对数据可追溯性(T)的深入研究,在追踪使用路径的同时确保敏感信息不会被非法泄露或滥用。

数据完整性(I)
数据完整性保证了在其生命周期内保持完整和不可变性。当前领域鲜有研究探讨如何利用LLMs来维护数据完整性。例如,在遭受勒索攻击的情况下,部分受害者系统通过加密技术将关键文件锁定以防止未经授权的访问。这种行为不仅阻碍了合法的数据获取路径,并且可能导致重要的商业机密被不可逆地损坏[81]。Wang Fang的研究[82]考察了利用LLMs实施勒索软件网络安全策略的可能性,并提出了实时分析、自动策略生成、预测分析以及基于知识的迁移等理论框架。然而,在实际应用层面仍存在诸多不足之处:这些理论框架尚未经过充分的实践检验[83]。同样地,在另一项研究中[84],Liu等人深入探讨了基于LLMs的安全网络策略设计方法及其在减轻因数据泄露导致的勒索软件攻击中的潜在价值。他们通过对比生成模型与传统安全政策制定者的意见得出结论:企业应当将人工智能技术与现有的合规管理流程相结合以提升整体安全防护能力[85]。

异常检测是一个核心防御机制,在识别出所有类型的异常行为方面发挥着重要作用。然而它无法直接保护数据完整性这一目标,并且能够识别出可能导致数据完整性(以及数据保密性和数据可靠性)受到影响的行为或活动。Amine等人[84]提出了一种基于LLM的新颖监控框架,在这种框架下可以通过分析视觉政策中的语义异常来提升自动驾驶系统的安全性,并将其应用于学习型对象操纵政策中去实现安全防护功能。实验结果证实该方法能够在与人类推理一致的基础上有效地识别出这些语义缺陷点。HuntGPT[85]则提供了一种基于LLM的新颖网络入侵检测方案,在这一方案中系统能够显著提高用户的理解和交互体验效果。Chris等人[86]与LogGPT[88]共同研究了将ChatGPT应用于并行文件系统中的日志based异常检测方法,并在此过程中成功解决了传统手动标记技术和可解释性不足的问题。AnomalyGPT[87]则通过引入一种大型视觉-语言模型架构实现了工业场景下的自动化的异常检测功能,并在此过程中无需预先设定任何阈值标准即可完成工作。

数据保密性(C)
数据保密性指的是保护敏感信息免受未经授权的访问或披露的做法,这是一个在LLM隐私讨论中广泛讨论的话题[89]、[101]、[102]、[103]。然而,这些研究大多集中在通过最先进的隐私增强技术(例如,零知识证明[104]、差分隐私(例如[102]、[105]、[106])和联邦学习[107]、[108]、[109])来增强LLMs。只有少数尝试利用LLMs来增强用户隐私。例如,Arpita等人[89]使用LLMs通过在文本数据中用通用标记替换识别信息来保护隐私。与其存储敏感用户信息,如姓名、地址或信用卡号,不如让LLMs为掩蔽的标记提出替代品。这种混淆技术有助于保护用户数据不被暴露给对手。通过使用LLMs为掩蔽的标记生成替代品,模型可以在不破坏原始信息的隐私和安全的情况下在混淆的数据上进行训练。其他研究[103]、[110]也探索了类似的想法。Hyeokdong等人[93]探索了使用ChatGPT实现密码学,最终保护数据保密性。尽管缺乏广泛的编码技能或编程知识,作者还是能够通过ChatGPT成功实现密码算法。这突出了个人利用ChatGPT进行密码学任务的潜力。

数据可靠性(R)
在当前情境中,数据可靠性是一个衡量数据质量的关键指标。它反映了数据在准确无误、无偏见前提下能够被信赖的程度。Takahashi团队[90]建议利用ChatGPT来识别包含网络钓鱼内容的网站。实验结果显示该方法具有显著的效果,在精确度和召回率方面表现优异。Fredrik团队[91]对四种大型语言模型(包括GPT、Claude、PaLM和LLaMA)进行了评估,并发现这些模型在检测恶意意图方面表现出色,在多数情况下甚至优于人类水平的检测能力(尽管偶尔会出现一定的准确性下降)。IPSDM[92]是一种基于BERT家族模型开发的技术方案,在识别网络钓鱼邮件及垃圾邮件方面展现出卓越的效果,在处理不平衡的数据集时同样表现优异。

数据可追溯性(T)
数据可追溯性是追踪和记录数据在其所在系统或跨越多个系统中的来源、转移路径及其历史信息的能力。这一概念对于事件管理和法医调查等领域的研究与实践具有重要意义。这些领域对于掌握事件的演变过程及其转变过程至关重要,在解决问题和实现全面分析方面发挥着关键作用。生成式语言模型(LLMs)在法医调查中引起了广泛关注,并带来了新的分析手段来处理数字证据。研究者们[94]深入探讨了ChatGPT如何辅助分析操作系统组件如日志文件、文件存储、云交互以及可执行二进制文件,并通过检查内存缓存来识别可疑行为或潜在威胁。此外研究者们[95]指出像ChatGPT这样的生成式语言模型能够被用来构建所谓的实际蜜罐来欺骗人类攻击者。

水印技术涉及在模型输出中嵌入一个独特且不易察觉或难以识别的信号。Wang等人[96]探讨了LLMs训练数据知识产权的问题,并提出了WASA框架以学习不同数据提供者之间的文本映射关系。Zhang等人[97]开发了REMARK-LLM系统,专注于监控内容利用情况并验证水印检索功能的有效性。这有助于防止恶意使用行为的发生,例如垃圾邮件和剽窃活动的产生。此外,在解决代码生成过程中的法律与道德问题方面,识别LLMs生成的代码同样至关重要。同样地,Li等人[111]首次提出了一种水印技术方案,并成功应用于保护基于大型语言模型的代码生成API免受远程模仿攻击威胁。Lee等人[98]开发并发布了SWEET工具,在编程语言领域实现了水印标记的应用

在这里插入图片描述

5. 对安全和隐私的负面影响

基于图2的分布情况,在系统基础设施的不同位置上划分了五类攻击行为。具体包括硬件级别威胁、操作系统级别的威胁、软件级别的潜在威胁以及网络层面的威胁等五个维度。此外,在每个类别中所发表的相关研究论文数量也得到了统计与分析(如图3所示)。

硬核级别的攻击。
硬件级的攻击往往涉及对设备进行物理层面的操作。然而,在现有的语言模型架构中不具备直接获取物理设备数据的能力。相反地,则仅能获取与硬件相关的数据信息。
值得注意的是,在文献[112][113][114]中提到过一种LLMs能够增强的能力。
这种特定类型的侧信道攻击通常用于从诸如加密设备或软件等实体中提取非预期的信息以推断敏感数据。

在这里插入图片描述

图2展示了网络攻击分类图示。其中可辨识区域指示现有证据显示LLMs能够实施的部分,而不可识别区域则表明目前无法通过LLMs识别出的攻击类型。

在这里插入图片描述

图3. 现有攻击的普遍性。

研究者Yaman[115]研究了利用LLM技术开发一种新的侧信道分析方法。该研究旨在评估基于LLM的方法在不同硬件相关情景下对侧信道信息的提取与分析效果:具体包括AES解密过程中的侧信道效应以及深度学习加速器运行时的潜在信息泄漏途径。通过实验确定这些方法在两种情景下的有效率。

操作系统级攻击
LLMs主要基于文本的输入与输出操作运行,并不具备通过直接的操作系统层面进行攻击的能力[116]、[117]、[118]。然而,它们仍然能够解析操作系统提供的信息,并可能用于发起此类攻击。Andreas等人[119]开发了一种反馈机制,通过SSH将语言模型连接到一个存在漏洞的虚拟机环境,在此过程中语言模型能够解析操作系统提供的信息并识别潜在漏洞,并进一步提出具体的攻击策略。最近研究团队发布了一个工具[120],该工具利用本地虚拟化技术以及基于语言模型的引导方法,提供了针对不同提示策略和语言模型的自动化测试框架来评估Linux权限提升的效果。

软件层面的攻击手段
类似于他们如何使用大语言模型(LLM)针对硬件和操作系统进行渗透性攻击(例如[35]、[121]、[122]、[123]),也有实例显示这些工具可用于攻击软件系统(例如)。然而,在常见情况下,“软件层面”的攻击案例多由恶意开发者利用这些工具生成恶意代码样本。Mika团队提出了一种概念验证框架:通过将ChatGPT用于分发恶意程序的同时规避检测机制。“元宇宙”团队则研究了通过创建一系列恶意程序(如勒索ware、蠕虫、键盘记录器等)来充分利用大语言模型的可能性。“Antonio Monje”团队展示了一种方法论:通过操控ChatGPT快速生成勒索类恶意代码样本。“Marcus Botacin”则深入研究了不同编码策略:包括一次性构建完整的恶意代码以及动态生成部分代码片段的方式。“实验结果表明,在基于构建块描述构建恶意代码方面”,大语言模型展现了显著的能力优势。“此外,在实现功能相同但结构不同的版本多样性方面”,这些模型也表现出了较高的灵活性。

网络级攻击
可以被用来发起网络攻击。常见的网络级攻击案例之一是基于LLM的钓鱼攻击[128]、[129]。Fredrik等人[91]对比了两种类型的钓鱼邮件:一种由GPT-4生成的AI化定制邮件和另一种由V-Triad手动设计的独特邮件;同时将这些邮件与通用型钓鱼邮件进行了对照实验。结果显示,在个性化定制方面无论是AI生成还是人工定制的设计策略都较通用型钓鱼邮件表现出更高的点击率。Tyson等人[130]探讨了通过调整ChatGPT输入来增强生成电子邮件说服力的方法。Julian Hazell[131]则展示了如何利用ChatGPT高效地向600多名英国国会议员提供低成本且真实度极高的钓鱼信息样本。此外一项研究表明可以通过LLM部署一种新的基于文本特征的传统防御机制失效的方式——一种新的指纹式恶意软件。

用户级攻击
近年来关于用户级攻击的讨论日益热烈,主要原因在于大语言模型展示了其不仅可以生成看似可信但实则具有欺骗性内容的能力,并且还具备将看似分散或不相关的信息点串联起来的能力。这种特性为一些恶意行为者提供了实施针对普通用户的系列恶意活动的机会。以下是一些具体案例:

虚假信息的传播引起了对在线内容安全问题的广泛关注。在缺乏监督的情况下过度依赖LLM生成的内容可能导致相关问题加剧。大量研究致力于识别和检测这些虚假信息。一些研究发现...更具欺骗性风格的信息更容易被误认为真实。为了应对这些问题...开发了一系列对策与检测手段

社交工程学的研究显示,在处理能力方面存在显著差异。除了传统的社会工程手段外,在线语言模型(LLMs)为社会工程学提供了新的研究视角。Stabb等人的研究发现,在经过特定训练后的人工智能系统具备识别关键个人信息的能力,并能通过看似无害的行为获取敏感信息。Tong等人研究发现,在生成内容中可能存在用户隐私信息泄露的风险。此外表明,在基于LLM的社会工程实践中涵盖心理操控等策略。

不当行为可能源于LLMs生成原创、连贯性文本的能力不足[149-158]、[160-162]等研究机构的担忧。多个研究机构[149-158]、[160-162]等对LLMs在科学不当行为检测方面的挑战表达了关注态度。研究人员正致力于开发有效的解决方案以应对这一问题。例如,在多个领域均展现出显著的准确性。

欺诈行为得以实现的一种新型网络犯罪工具称为FraudGPT[148]、[165]。该工具的功能类似于ChatGPT程序,在促进实施网络攻击方面发挥了作用。然而,在缺乏必要的安全防护措施的情况下,在暗网平台及Telegram上可按每月200美元或每年1700美元的价格对外出售。该系统能够自动生成类似银行账户的欺诈性邮件,并建议嵌入恶意链接以进一步破坏目标机构的信任。此外,它还能列出常见靶向网站和服务列表,并协助犯罪分子规划未来攻击策略。WormGPT[166]则是一种专门针对恶意软件及欺诈活动开发的网络犯罪工具,在经过保密的数据集训练后专注于此类威胁领域的能力较强。该系统不仅具备无限字符生成能力以及保留聊天历史的功能更能指导犯罪分子实施商业电子邮件泄露(BEC)攻击等严重危害行为。

在这里插入图片描述

6. LLMs中的漏洞和防御

在接下来的部分中, 我们计划深入探讨与LLMs相关的普遍威胁与漏洞(第6.1节)。本节将系统考察LLMs背景下具体存在的风险及所面临的挑战. 在全面分析这些问题的基础上, 我们还将深入研究并探讨研究人员与实践者为有效应对这些挑战而开发出的一系列对策及策略(第6.2节)。
图4详细呈现了攻击与防御之间的相互作用.

6.1. LLMs中的漏洞和威胁

在该领域进行了系统性分析以探索潜在的安全威胁与攻击手段。我们的审查努力将其划分为两大类:由AI模型自身引发的漏洞以及非AI模型所具有的固有缺陷。

6.1.1. AI固有漏洞和威胁

这些潜在缺陷和安全风险归因于LLMs的设计特性与架构限制。由于LLMs本质上属于人工智能模型,在这种情况下,攻击者可能会通过操控输入数据迫使LLM产生不符合预期的结果。

(A1) 对抗性攻击
在机器学习领域中,对抗性攻击被视为一组技术手段和策略。这些技术手段旨在通过有目的地干扰或欺骗来影响模型的行为。它们往往具有恶意目的,并且通常会利用到模型运行时存在的潜在缺陷。为了简化讨论并专注于核心案例,在本研究中我们将重点分析数据投毒和后门攻击两大类主要的对抗性攻击方法。

在这里插入图片描述

图4. 威胁和防御的分类。线条代表可以防御特定攻击或攻击组的防御技术。

恶意数据注入行为是一种常见的攻击手段,在机器学习模型训练过程中被用来干扰学习效果。这种行为可能导致模型出现漏洞或偏见,在测试性能方面表现出明显缺陷,并可能引发道德争议甚至安全风险[134]。大量研究文献指出,在对抗性样本攻击下以及基于对抗的防御机制中发现的现象中包含此类注入行为的影响机制及其防护对策的有效性存在争议[167-172][...] 例如,在一项针对大语言模型的研究中发现即使只有少量异常样本也能显著破坏系统性能与决策质量 [...] 其他研究表明大语言模型更容易受到此类攻击的影响 [...] 目前现有的防御措施如基于统计的数据过滤方法或是减少模型容量等技术虽然能在一定程度上降低风险但难以从根本上解决该类问题同时可能还会降低系统的准确率与性能

Backdoor-based attacks involve malicious manipulation of training data and model inputs to influence the model's behavior[176]. Data poisoning attacks manipulate the training data and model inputs to influence the model's behavior[176]. In contrast, backdoor-based attacks focus on embedding a trigger within the model, which, when triggered, leads to specific behaviors. These types of attacks are particularly concerning due to their ability to subtly alter a system's operation without being immediately apparent[177][178][179]. For instance, Yao et al. developed methods that integrate trigger mechanisms with prompt tuning techniques to create robust backdoor vulnerabilities in large language models[180].

(A2)推理攻击 基于机器学习的框架中,推理攻击被定义为一类特殊的 attack 方法ology. 特别地,在这一过程中中, 该类 attack 手法通常依赖于从系统响应中提取非预期的信息.

属性推理攻击是一种威胁类型。研究者通过分析机器学习模型的行为和响应来推测个体信息。这些方法同样适用于大语言模型(LLMs)。Robin等人系统性研究了预训练大语言模型在文本中提取个人信息的能力。基于真实 Reddit 用户数据集的研究表明,在真实的数据集上训练的大语言模型能够精确识别和推断出用户的各种个人信息

基于成员推理的方法,在数据安全与隐私保护领域中是一种特殊的推断攻击形式。这种类型的攻击目标在于识别特定的数据样本是否参与过某机器学习模型的训练过程,并基于白盒或黑盒方式获取与模型相关的相关信息(参考文献: [187, 188, 189, 190, 191, 192, 193])。已有研究就该领域展开深入探讨,并在此基础上提出了多样化的分析框架与技术路径(参考文献: [206-207, 204-205, 206-207, 204-205, 206-207, 204-205, 243-245, 367-368])。其中一项关键工作聚焦于样本标签特征的研究,并在此基础上提出了一系列区分标准(参考文献: [367-368])以及普适性数学表达式(参考文献: [445])。研究表明,在轻量级子模型进行微调训练时更容易受到这类攻击的影响(参考文献: [445])

(A3) 提取攻击

(A4) 偏见与不公平利用
在LLMs中存在偏见与不公平现象通常与模型呈现歧视行为或偏向性结果相关。尽管这些问题并非专属于LLMs,但因社会道德及公众关注而受到格外重视。这促使相关组织及其开发者探讨开发、部署及使用这些模型的道德责任,并引发了更多关于这些问题的审查与研究。来自各个领域的担忧主要集中在性别、少数群体[210]、[211]、[212]、[213]等方面;此外还包括错误信息识别、政治因素等问题;多项研究表明,在查询LLMs时使用的语言可能存在偏差性;Urman等人[216]发现偏差可能源于遵守政府审查指南;职业写作中的偏差问题也成为了社区内的一个担忧;因为它可能严重损害信誉;此外LLMs的偏差还可能导致基于文本应用之外的领域的负面影响;Dai等人[219]指出这可能导致神经检索系统引入偏差;而Huang等人[220]发现偏差也可能存在于代码生成中。

(A5) 指令调整攻击

该系统通过规避安全机制实现对受控功能的响应,在受限于安全协议的功能无法完成操作的情况下仍可执行相关功能[221]至[230]中提到多种具体方法已被证实可行。Wei团队强调通过上下文演示能够影响或操控LLMs的对齐能力这一观点得到了多篇后续研究的支持[224]。此外,在现有技术基础上又提出了若干创新性解决方案如模糊测试方法优化搜索策略以及专门训练LLMs协助其他LLMs完成越狱任务等[225][230]。近期研究中MASTERKEY采用基于时间的方法深入剖析防御机制并展示了概念验证攻击的成功案例其自动生成越狱提示且成功率为21.58%这一成果具有重要参考价值[227]。值得注意的是Cao团队开发了一种无需额外训练或访问模型参数即可有效降低对抗性及提升越狱提示成功率的技术方案即RA-LLM系统[231]。

提示注入是一种干扰LLMs行为的技术手段,在其操作过程中可能会导致异常结果或产生负面效果。这种技术通过规避模型的安全机制或触发不良反应的方式生成输入提示,并已开发出了系统来分析这些过程中的有效信息量。每个研究者可能关注的重点有所不同。利用微调的方法可以在这些过程中植入后门功能,并且Gresake等人提出了潜在风险的问题。此外,在这一领域中还发现了新的途径:如指导性提示解析法、虚拟化注入技术以及整合应用等多种方法得到了广泛的研究与应用

主动发起针对受信任服务的请求以达到破坏目标的行为被称为拒绝服务(DoS)攻击。该网络攻击通过持续发送大量请求干扰正常服务运行并最终导致计算资源被耗尽使得目标系统无法正常工作。

在这里插入图片描述

6.1.2. 非AI固有漏洞和威胁

除了传统的基于人工智能的攻击外,在现有的技术框架下我们还需考虑以下几种类型的非人工智能性威胁:首先还包括外部威胁以及新型安全漏洞这两个关键要素;其中特别需要注意的是这些潜在隐患虽然未被现有技术识别或深入研究仍可能构成重大安全风险;具体来说,在实际应用中可观察到的一些典型例子包括但不限于系统级漏洞(如远程代码执行)等尚不完全明确的情形

(A6)远程代码执行(RCE)
多为软件系统、网络服务或服务器中的潜在缺陷所利用。这种攻击方式能够自由地在受感染的设备上运行任何代码。尽管RCE攻击一般不直接威胁到大型语言模型(LLMs),但在某些LLM架构中(例如,在类似https://chat.openai.com/的服务中),如果模型嵌入到这些网络服务并存在可被利用的RCE缺陷,则可能造成敏感信息泄露。Tong等人[250]研究发现,在六个主流框架中一共发现了13处潜在缺陷——其中包括12处典型的RCE缺陷以及一处任意文件读写的漏洞。此外,在对51个程序进行扫描后发现有17个程序存在至少一个缺陷:其中16个程序易受RCE攻击威胁影响,并且有一个程序则容易受到SQL注入攻击的影响。这些缺陷使得攻击者能够在应用程序服务器上通过提示注入机制运行任意代码。

(A7) 侧信道

(A8) 供应链漏洞
供应链漏洞是指LLM应用程序生命周期中可能出现的风险点。这些风险可能源于使用脆弱的组件或服务。具体而言,这些风险主要体现在第三方数据集、预训练模型以及插件上。任何这些都可能破坏应用程序的完整性[134]。这一领域的主要研究集中在插件的安全性上。LLM插件作为一个扩展或附加模块,在于增强LLM的功能表现上已经被广泛认可。已有第三方插件被开发用于增强其功能表现,并能执行多种任务如网络搜索、文本分析及代码执行等功能[252]。然而,在安全性方面存在担忧[134]、[252]:有人担心插件可能被用来窃取聊天记录、访问个人信息或在用户计算机上运行代码等行为。这些安全问题与插件中使用的OAuth机制有关联性[253]:OAuth是一种跨在线账户共享数据的网络标准协议。为了应对这些问题,Umar等人[253]提出了一个解决方案框架:该框架设计了一个全面的攻击分类系统,并特别针对LLM平台的特点进行了深入分析。通过从利益相关者的相互关系出发进行考量,这一框架有助于识别潜在的安全威胁以及相关的隐私与安全风险。

6.2. LLMs的防御

在这一部分中进行了系统性评估与LLMs相关的各种攻击及漏洞的已有的防护手段覆盖情况

6.2.1. 模型架构中的防御

模型架构主导着知识与概念的存储与组织信息的方式以及它们之间的交互模式,在大型语言模型的安全性问题上具有决定性作用[254]至[262]有多篇相关研究探讨了这一领域。Li等人[254]表明,在适当选择非标准超参数的情况下使用更大规模的语言模型能够更高效地实现差分隐私下的训练过程与较小规模的模型相比更具优势。Zhu等人[255]及Li等人[256]则发现,在对抗性攻击场景下拥有更大参数规模的语言模型通常展现出更强的鲁棒性特征这一点已在Yuan等人[257]的研究中得到验证。除了对LLM自身架构的关注之外本研究还聚焦于通过整合外部辅助模块(包括知识图谱[258]认知架构(CAs)[259][260])来提升LLM的安全性能。Romero等人[261]提出了一种通过整合多种认知架构来增强AI鲁棒性的方法而Zafar等人[262]则致力于通过知识图谱技术来增强LLM的推理能力从而建立公众对AI系统的信任

6.2.2. LLM训练和推理中的防御

LLM训练中的防御策略
LLM训练的主要组成部分包括模型架构设计、训练数据管理和优化策略。在模型架构方面,我们评估了能够有效抵抗恶意利用并具有较高可靠性的设计方案。针对训练数据质量的问题,在生成阶段、收集过程中以及清洗阶段采取措施以降低潜在缺陷的影响。在优化策略上回顾了现有安全框架的设计与实现,并探讨了如何进一步增强其安全性。

该方法基于其训练语料库塑造了LLMs的行为模式与知识体系,并从多个维度对其质量进行了严格把控。然而,在实际应用中发现现有收集的原始数据集普遍存在严重问题:存在显著问题的一致性保障机制尚未完善;数据存在潜在风险因素;数据来源的可靠性和真实有效性值得商榷;数据保护隐私层面存在明显漏洞;数据治理规范缺失等问题亟待解决。为此研究团队持续致力于优化原始数据集质量提升模型性能相关工作其中关键步骤包括:语言识别技术应用消毒处理消除潜在有害信息实施去偏见操作去除系统性偏差执行去标识化处理消除个人可识别信息实施去重操作优化数据集质量等多维度治理措施最终构建出一套完整的高质量训练样本体系

优化目标对于指导LLMs从训练数据中学习具有重要意义,并且会直接影响鼓励或惩罚行为的机制。这些目标会塑造语料库中知识和概念的优先级分布,最终将直接影响LLMs的安全性和道德一致性。借鉴了图像领域对抗性训练的传统方法[Ivangi等人(295)]后,Ivgi等人[Ivangi et al.(296)]与Yoo等人(Yoo et al.(291))通过生成一系列离散标记的扰动样本,在应用抗干扰能力方面取得了突破进展。随后的研究逐步推进这一方向的发展:Wang等人(Wang et al.(289))将这种方法拓展至连续嵌入空间,并提出了一种更具实际效果的方法;后续研究逐步推进这一方向的发展:Wang等人(Wang et al.(289))将这种方法拓展至连续嵌入空间,并提出了一种更具实际效果的方法;随后的研究A,B,C,D,E,F,G,H,I,J,K,L,M,N,O,P,Q,R,S,T,U,V,W,X,Y,Z进一步完善了这一技术体系;安全对齐作为一个新兴的学习范式指导LLM行为,在道德对齐方面展现出显著的有效性;与此同时,在人类注释方面,Zhou等人(Zhou et al.(300))与Shi等人(Shi et al.(301))强调了构建高质量训练语料库的重要性;Bianchi等人(Bianchi et al.(302))则提出了在微调过程中引入有限比例(例如3%)的安全示例以显著提升模型安全性。

LLM推理中的防御策略
在云服务环境中部署LLMs时,这些模型会接收用户的提示或指令,并生成完整的句子作为响应来运行。鉴于这种交互模式的特点,在测试阶段实施LLM防御措施对于保障其安全性和适当性至关重要。测试时间防御措施包括一系列策略:对输入进行预处理以过滤或修改;识别可能涉及滥用或异常查询的行为;以及对生成的响应进行后处理以确保其符合安全与道德标准。这些措施对于维护LLMs在实时应用中的完整性和可信度具有重要意义。

指令处理(预处理)。指令预处理对用户发送的指令应用转换,以破坏潜在的对抗性上下文或恶意意图。它起着至关重要的作用,因为它阻止了大多数恶意使用,并防止LLM接收到可疑的指令。一般而言,指令预处理方法可以分为指令操作[303]、[304]、[305]、[306]、[307]、净化[308]和防御性演示[224]、[249]、[309]。Jain等人[306]和Kirchenbauer等人[305]评估了针对越狱攻击的多种基线预处理方法,包括重新标记化和释义。Li等人[308]提议通过首先遮蔽输入标记,然后使用其他LLM预测被遮蔽的标记来净化指令。预测的标记将作为净化后的指令。Wei等人[224]和Mo等人[309]证明,在指令中插入预定义的防御性演示可以有效地防御LLM的越狱攻击。

恶意攻击检测对LLM中间结果(如给定指令对应的神经元激活)进行细致评估。这些评估手段能够更能捕捉到恶意使用的特点,并能更精确地识别其行为模式。Sun等学者[310]提出了基于生成反向概率的方法用于后门指令检测。Xi等研究者[311]则通过分析不同指令的掩码敏感性来区分正常指令与被污染的指令。Shao等专家[303]则采用了基于文本相关性分析来识别可疑词汇。Wang等团队[312]则提出了基于多轮对话中的语义一致性来探测异常示例的方法,在Duan等人的研究中已有相关探讨的基础上进一步发展和完善。此外,在LLM自身特性之外,在语言统计特性方面也有相关研究工作

后处理过程旨在评估和修正生成内容的质量指标(如安全性),确保最终输出符合预期。Chen团队[315]建议通过对比多套模型预测结果来降低输出中的毒性特性。The Helbling group [316] incorporated individual LLMs to identify harmfulness in generated responses. This aligns with the approaches taken by Xiong et al. [317] and Kadavath et al. [318]. They demonstrated that LLMs can be effectively prompted to assess the confidence level of generated responses.

在这里插入图片描述

7. 讨论

7.1. LLM在其他安全相关主题中的应用

LLM在网络安全教育中的应用
LLM可用于安全实践与教育领域[319-321]。例如,在软件安全课程中,学生被要求使用LLM来识别并解决Web应用程序中的漏洞问题。Jingyue等研究者探讨了学生如何利用ChatGPT进行相关练习,并观察其学习效果的变化情况。Wesley Tann等人则专注于评估LLM在网络安全竞赛(CTF)练习中的表现能力。具体而言,在这项研究中,他们首先考察了不同难度级别下的Cisco认证测试中LLM的回答质量,并进一步分析了其在CTF挑战任务中的解题能力表现。此外,在另一项研究中[Jin et al., 2022]团队深入分析了不同架构和优化级别下LLM对二进制代码语义理解的能力差异,并基于此提出了若干关键见解和改进建议以提升其处理复杂技术文档的能力水平

LLM在网络安全法律、政策和合规性中的应用

LLM可以辅助制定安全政策、指南和合规性文件以满足法规要求与行业标准。需要注意的是,在引入LLM时可能会导致相关法律框架发生调整。Ekenobi等人[324]对LLM引入引发的法律影响进行了深入研究,并特别关注数据保护与隐私问题。该研究认可ChatGPT隐私政策中具备 commendable 的条款用于防范潜在威胁并保护用户数据。进一步强调了现有法律体系的重要性

7.2. 未来方向

我们已经总结了珍贵的教训,并深信不疑地认为这些经验和智慧结晶能够为未来的道路提供指引。

我们观察到LLM在某些情况下可作为传统机器学习方法的有效替代者。我们注意到LLM可应用于特定于机器学习的任务。如果我们发现某类任务中传统机器学习方法表现良好(无论其性质是主动攻击还是防御措施),那么对于这类问题来说LLM也可能展现出相应的解决能力。例如,在恶意软件检测这一领域中传统机器学习方法展现出显著的能力 LLM同样具备应对相应挑战的可能性因此在利用LLMs潜在优势时我们需要深入探索其应用场景并评估其适用性作为一种安全领域的研究者们而言 在利用LLMs开发相关技术方面仍具潜力 通过与现有最先进技术进行对比研究和优化改进工作 则有望进一步提升该领域的发展水平

代替人类付出 effort. 显然 LLM 在攻击性和防御性安全应用方面具有巨大潜力, 可以分别应用于攻击性和防御性安全领域. 例如, 传统上依赖人文员干预的任务, 如社交工程任务, 现在能够高效地利用 LLM 技术执行. 因此, 安全研究人员的一个值得探索的方向就是识别那些传统安全任务中人类参与至关重要且不可替代的部分, 并寻求通过 LLM 技术来取代这些人类付出的努力机会.

为了适应大语言模型(LLM)的需求而调整基于传统机器学习(ML)的攻击策略。
经过研究发现,在生成式模型中普遍存在的安全漏洞其实是传统机器学习场景中被发现漏洞的一种延伸。
因此可以推断大型语言模型仍是基于深度神经网络的安全特例,并延续了许多常见的威胁模式。
具体而言,在适当的情况下进行策略性调整即可使传统的ML攻击方法对LLM发挥效力。
其中一种典型的案例是越狱攻击。

采用传统的ML防护策略来应对LLM的问题。传统上用于漏洞缓解的防护策略同样适用于解决当前的安全挑战。例如,已有研究已开始利用这些隐私增强技术(如零知识证明、差分隐私和联邦学习[325]、[326])来应对LLM带来的挑战。进一步探索 Pete 技术的新发展路径将为应对这些问题提供新的解决方案。

应对LLM特定攻击所面临的挑战。如前所述,在实施模型提取或参数提取攻击方面(尤其是考虑到LLM参数的巨大规模以及其强大的隐私性和保密性)存在着诸多挑战。这些由LLM带来的新型特征预示着根本性的转变,并可能引发新的威胁;传统的机器学习攻击手段可能需要相应地进行调整。

8. 相关工作

已有大量关注LLM不同应用场景的综述文献已被发布(例如:Ref. [18], [327], [328], [329], [330], [331], [332]; Software Engineering[333], [334]; 和Medical[12], [335])。本文特别聚焦于LLM在安全与隐私领域的相关研究。我们深入探讨了与此主题相关的现有文献。Peter J. Caven[336]对LLM(尤其是ChatGPT)如何结合技术和社交因素以重塑当前网络安全格局进行了详细探讨,并更倾向于从社交角度分析问题。此外,Muna等人[...]和Marshall等人[...]讨论了ChatGPT在网络空间中的实际应用(如代码安全与恶意软件检测)。Dhoni等人通过实验分析表明,在面对网络威胁时, 利用LLMs能够显著提高安全分析师的工作效率, 但其研究并未充分考虑潜在的网络安全风险隐患。相比之下, 其他综述文献(如Ref. [...])则着重强调了针对LLM的威胁与攻击策略, 这种研究方向与其说侧重防御, 说不如说是侧重于揭示潜在风险所在。Attia Qammar等人则深入剖析了网络犯罪分子所利用的关键漏洞, 并特别关注这些漏洞对LLMs的影响, 认为理解这种影响对于制定有效的应对策略至关重要Haoran Li等人则系统性地分析了当前LLLs面临的隐私挑战, 并基于对手能力对其进行了分类, 同时提出了现有的防护措施Glquin Sebastian则系统阐述了构建隐私增强技术(如差分隐私[...],[...],[...])的重要性Smith团队也对此展开了深入探讨我们的研究工作则致力于全面评估LLLs的安全性与隐私性优势与挑战三者之间的平衡关系总结而言, 我们的综述涵盖了LLLs的安全应用、负面影响及其潜在威胁三个方面

9. 结论

我们的工作体现了系统性考察LLM在安全与隐私方面多重功能的独特探索.就积极的一面而言,LLM不仅显著提升了代码与数据的安全防护水平,其功能特性则可能使恶意软件轻易侵入.我们深入研究了这些模型潜在存在的漏洞,并探讨相应的防御策略.为了引导LLM发挥积极作用,我们将持续优化技术路径,逐步降低潜在风险.随着LLM技术持续发展,在其应用领域不断扩张的过程中,我们必须始终保持警惕,以解决相关的安全与隐私问题.

作者们表明立场如下:他们确认目前没有可知的竞争财务利益或个人关系可能会影响本研究工作的开展。

作者们表明立场如下:他们确认目前没有可知的竞争财务利益或个人关系可能会影响本研究工作的开展。

全部评论 (0)

还没有任何评论哟~