The Emerged Security and Privacy of LLM Agent: A Survey with Case Studies
目录
概要
LLM代理基础
定义
结构
能力
实例研究
LLM代理的威胁来源
继承自大模型的威胁
技术漏洞
恶意攻击
对特定LLM的威胁
威胁带来的影响
针对威胁的防御策略
针对技术漏洞的防御策略
恶意攻击防御策略
针对特定威胁的防御策略
未来趋势及讨论
结论
概要
本文将阐述LLM代理的核心概念,并进一步对各类威胁进行系统性分类与深入分析。接着探讨这些潜在威胁对人体、环境以及其它相关因素可能产生的影响。继而回顾当前采用的主要防御策略,并最终深入分析大模型代理技术在未来发展方向与应用前景的潜力。
这篇论文将大型语言模型(LLM)代理面临的安全威胁归类为源自LLM的攻击与独特于代理的安全威胁。具体表现为:继承自LLM的威胁则可进一步划分为技术缺陷与**恶意行为:其中技术缺陷又可分为已知漏洞与潜在漏洞:已知漏洞主要是由于LLM在发展过程中暴露出来的设计缺陷所导致的。
技术漏洞涵盖幻觉、灾难性遗忘以及误解等多种形式。这些缺陷源于初始模型的构建过程,并受到模型架构设计的影响。针对LLM的恶意攻击涵盖数据盗窃与响应篡改两大类问题,在具体实施过程中主要表现为数据提取攻击与经过修改后的指令执行威胁。
本节将对LLM代理面临的新兴威胁进行分析与归纳分类,并探讨源自底层LLM的威胁及其特有的代理相关威胁;对于每种威胁类别将给出具体实例及应用场景。
第4节将深入阐述这些威胁在现实世界中的实际影响,并探讨这些威胁如何对用户、环境以及其它代理产生作用,关注尚未得到缓解的风险可能带来的严重后果。
第5节将回顾现有的缓解策略和解决方案,以应对所提到的威胁。
第6节将讨论当前研究中的空白并提出未来趋势。
第7节将总结本文。
LLM代理基础
定义
LLM代理是一种基于大型语言模型(LLM)为基础运算单元的人工智能系统。它不仅局限于文本生成功能,还能够处理对话交流、执行任务以及具备逻辑推理能力,并展现出一定程度的自主性行为。
结构
LLM代理是一种复杂的系统结构,并由多个组件共同构成。其中LLM引擎作为核心模块发挥着关键作用,并通过与辅助组件协同工作来完成多种功能任务。一种基础的代理系统具备指令理解和技能展示能力,并能够与人类进行协作操作,则通常由三个主要模块构成:LLM引擎、指令处理系统和接口模块 。当整合额外可选组件时,在保持原有功能的基础上还可以拓展出更为先进的任务导向型代理或对话型代理系统

LLM代理的结构
- LLM引擎 作为LLM代理的核心组件,在复杂计算与深度学习领域发挥着关键作用。它通过广泛的数据集训练形成强大的模型架构,在多维度数据分析方面展现出卓越性能。
- 指令 为LLM代理设定具体操作流程与预期输出标准。实质上作为一种指导原则, 它确保任务分解过程得以实现并促进思维链的自然生成。
- 接口 提供了LLM代理与外部系统交互的功能模块, 实现输入提示与代理输出的有效交换, 确保信息传递过程的一致性和准确性。
- 风格 决定了LLM代理在人机交互中的表达方式, 包括情感色彩与逻辑连贯性等元素, 这有助于构建更加自然流畅的人机对话环境。
- 工具 为LLM代理提供了外部服务支持, 进一步扩展其功能边界并提升复杂任务处理能力。
- 知识 构建了包含常识与专业信息的知识库, 并通过持续更新优化模型参数来增强特定领域内的理解和讨论能力。
- 记忆 实现了基于过去交互的历史记录管理功能, 增强了上下文理解的一致性和连续性, 提升整体应用效果。
能力
LLM代理依托大型语言模型内在的语言理解能力来处理指令、背景信息及目标,通过用户的指示实现自主或半自主的功能
工具应用:LLM代理熟练运用多种工具组合,在线服务与API接口协同工作模式下运行稳定可靠。该系统能够通过整合外部数据源获取所需的数据资源,并提供高效的人工智能交互体验;不仅能够在复杂的情境下进行自主决策分析...还能够完成常规语言处理任务...
高级认知推理 :通过采用链式思维(chain-of-thought)与树状思维(tree-of-thought)等高级提示工程概念体系设计的LLM代理系统能够建立逻辑联系进而演导出结论并解决相关问题从而增强了其在处理复杂信息方面的能力
定制文本生成 :LLM代理展现出卓越的定制文本生成能力,在邮件、文档以及营销相关的内容中都能提供高效的解决方案,并融合了理解上下文和以目标为导向的语言处理技术。
自主性等级:这些代理在各自拥有一系列不同的自sciously后,在从完全独立到一定程度的部分独立之间存在差异;而用户的交互干预程度则根据具体的任务需求进行调节。
与其它AI系统连接:LLM代理能够与其它AI系统结合使用,并通过图像生成等功能实现更全面的应用场景覆盖。
实例研究

为了使LLM代理能够模仿人类的某些特征或行为(即具备人类般的身份),每个代理都应拥有独特的个性特征。例如Eva, 她是模拟一个虚拟城镇中的店员角色的人工智能角色。
- 首先,在实时解析顾客陈述的同时给予回应反馈。例如引导顾客前往特定产品的位置,并提供产品成分信息等细节信息。通过与库存管理系统进行集成操作后实现了对库存水平的有效追踪,并在必要时自动触发补货流程以确保货架上始终有充足的库存。
- 针对复杂客户需求情况而言,Eva系统运用了先进的推理技术来协助客户做出更加明智的选择,展现了其在应对复杂问题方面的卓越能力。
- 此外,Eva系统还拥有定制化的文本生成能力,能够根据当前促销活动以及顾客的历史购物数据自动生成并发送个性化促销邮件,从而提升客户的整体购物体验。
- 在日常运营过程中,Eva系统展现出极强的自主性,不仅能够独立管理货架上的库存数量,还负责更新价格标签上的信息等基础工作;对于更为复杂的情况如客户退货或投诉,Eva系统能够主动介入处理问题,并在必要时调用专业团队进行升级操作以确保服务质量。
- Eva系统的能力范围不仅限于线下销售环境,它还成功拓展到了线上购物平台,特别是在协助处理电子订单方面表现出了卓越的技术整合能力。
这些具体示例通过实例展示了Eva在虚拟城镇商店环境中如何灵活运用她的能力。从提升客户服务质量的角度来看,在实际应用中不仅优化了库存管理流程,并且成功地推动了市场营销策略的有效实施。经过这些实践操作后,在虚拟城镇商店运营领域中她逐渐成为了不可或缺的重要角色
LLM代理的威胁来源

继承自大模型的威胁
技术漏洞
- 幻觉
- 灾难性遗忘
- 误解

当顾客走进商店并试图购买商品时与伊娃进行交谈。
恶意攻击
- 越狱
- 提示注射
- 数据抽取攻击
- 推理攻击

"越狱":攻击者通过修改系统提示符实施越狱攻击,使得 Eva 输出内容受到限制,从而窃取机密信息。
"提示注入":攻击者利用 Eva 系统漏洞,无需密码即可完成渗透,无论客户提出什么问题,Eva 都会给出所有东西半价的回答。
"数据提取攻击":攻击者诱导 Eva 生成包含目标用户数据的查询语句。
"推理攻击":通过对两个不同用户的VIP活动参与情况进行询问,Eva 的不同回答帮助识别出 attacker 的身份。
对特定LLM的威胁
- 知识中毒
- 功能操纵
- 输出操纵

“知识中毒”:当客户询问清洁建议时,Eva检索并回复由于知识库污染而产生的有害信息。
“功能操作”:Eva使用第三方工具上传私人信息,同时协助客户完成订单。
“输出操纵”:当客户询问鞋子时,Eva故意推荐特定的产品,并编造特价的谎言来引导客户购买。
威胁带来的影响
对人类的影响:
- 泄漏隐私
- 安全风险
- 社会舆论
- 导致网络攻击技术普及
对网络环境的影响:
- 数据篡改和误操作
- 物理安全威胁
- 网络安全风险扩散
对其他LLM代理的影响:
- 信息扭曲与误导
- 决策操纵
- 安全威胁

在办公环境中,攻击者会向员工提供不被信任的第三方服务;这些服务不仅能够高效处理大量数据,在操作过程中也可能导致关键信息泄露;员工在使用过程中察觉到他们的客户资料库和其他重要机密文件被未经授权访问。

在餐厅环境中, 因受到威胁而, 某位女服务员为顾客提供了错误的食物建议, 使顾客感到不适

对智能家居场景的影响:在虚拟世界中通过操控智能家居代理的学习阶段会影响其性能。当将其应用于现实环境中时,在学习过程中会导致智能设备过劳损毁,并造成能源损耗以及负面影响。

受知识毒害影响的博物馆讲解员会传递错误的历史知识。在学校内的教育型机器人系统中接收并传递了这一信息后不久就将错误的知识传递给学生群体,在此过程中导致学生对古生物相关知识的认知出现偏差。
针对威胁的防御策略
针对技术漏洞的防御策略

恶意攻击防御策略

针对特定威胁的防御策略

未来趋势及讨论
- 多模态大型语言模型代理
- 大型语言模型多智能体系统
结论
本文深入分析了LLM代理所面临的安全与隐私问题,并具体涉及两个主要威胁源:一个是LLM自身的继承风险(即从训练数据中可能泄露的信息),另一个是直接针对代理系统特有的威胁(如恶意攻击或数据篡改)。进一步阐述了这些安全与隐私问题对人类、自然环境以及其他系统产生的影响,并在此基础上探讨相应的防护措施。最后分析了该领域的发展前景。为了更深入地研究这一问题,在分析中引入了一个虚拟城镇项目的案例研究作为补充,并强调了LLM代理所面临的主要挑战及其对未来发展的潜在影响
