A Survey on Large Language Model (LLM) Security and Privacy : The Good, the Bad, and the Ugly
Good:LLM 的积极影响
在代码安全性的上下文中:LLM已用于代码的整个生命周期。例如,安全编码(C)、测试用例生成(TCG)、易受攻击的代码检测(RE)、恶意代码检测(RE)和代码修复(RE)。
![]() |
在数据安全和隐私方面:LLM已被应用于确保数据完整性(I),数据机密性(C),数据可靠性(R)和数据可追溯性(T)。

Bad: LLM 的负面影响(可能遭受的攻击)
硬件级攻击:LLM不能直接访问物理设备,只能访问与硬件相关联的信息。因此通常需要分析来自物理系统或实现(例如,密码设备或软件)的无意信息泄漏,目的是推断秘密信息(例如,键)。
侧信道攻击
OS级攻击:由于缺乏执行操作系统级攻击所必需的低级系统访问权限,OS级攻击主要涉及基于文本的输入和输出
分析来自操作系统的信息
软件级攻击
创建恶意软件
网络级攻击
网络钓鱼
用户级攻击:创建非常有说服力但最终具有欺骗性的内容,由于LLM所表现出的类人推理能力,用户级攻击最为普通常见
错误信息
社会工程
科学不端行为
Ugly:LLM中的漏洞和防御
1.漏洞:
- AI模型固有漏洞:这些漏洞和威胁源于LLM的本质和架构
对抗性攻击(故意操纵或欺骗)
数据中毒: 数据中毒是指在训练数据中故意注入错误的、有害的或者误导性的数据,目的是在模型训练过程中影响模型的学习效果,导致模型在实际应用中表现不佳或者产生错误的预测。
后门攻击:在模型训练过程中植入一个或多个特定的触发器(Trigger),使得模型在遇到带有这些触发器的输入时,会产生攻击者预设的输出,即使这些输入与正常数据看起来非常相似。
推理攻击(意外信息泄露)
属性推断攻击:攻击者试图通过分析机器学习模型的行为或响应来推断个人或实体的敏感或个人信息。
成员资格推断:成员推断攻击是数据安全和隐私领域中的一种特定类型的推断攻击,其确定数据记录是否是模型的训练数据集的一部分,给定对模型和特定数据记录的白色盒/黑盒访问。
提取攻击(提取敏感信息或见解)
偏见和不公平剥削(LLM时使用的语言,书写代码时存在偏见)
指令调整攻击(利用LLM中的漏洞或限制)
越狱:LLMS中的越狱涉及绕过安全功能,以实现对其他受限或不安全问题的响应,解锁能力通常受到安全协议的限制。
提示注入攻击:操纵LLM的行为以引发意外的和潜在有害的响应。
拒绝服务:拒绝服务(DoS)攻击是一种网络攻击,旨在耗尽计算资源,造成延迟或使资源不可用。
- 非AI模型固有漏洞:LLMS可能遇到的外部威胁和新的漏洞
远程代码执行(RCE)
侧信道攻击
供应链脆弱性(第三方应用)
2.防御:
模型架构中的防御:与较小的模型相比,具有较大参数大小的语言模型更容易受到攻击,可以使用适当的非标准超参数以差分隐私方式更有效地训练较大参数模型。
设计安全的模型架构
训练阶段防御:减少不期望的属性在生成,收集和清理训练数据的方法。
语料库清理:语言识别,解毒,去偏
优化方法:鼓励或惩罚哪些行为
推理阶段防御:维护实时应用中LLM的完整性和可信性
指令预处理:防止LLM接收可疑指令
恶意检测:对LLM中间结果的深入检查
生成后处理:检查属性(例如,危害性)并在必要时进行修改

