Advertisement

Large Language Models for Cyber Security: A Systematic Literature Review

阅读量:

目录

概要

方法论

1.研究问题

2.文献搜索策略

步骤1:确定相关来源和数据库

步骤2:建立QGS

步骤3:定义搜索关键字

步骤4:执行自动搜索

3.研究选择

粗筛

精筛

向前和向后滚雪球搜索

入选论文统计

4.数据提取

问题研究

rq1:基于llm的方法促进了哪些类型的安全任务?

rq2:哪些大模型被用来支持网络安全任务?

rq3:哪些领域规范技术用于使LLMS适应安全任务?

1.微调

2.提示工程

3.外部增强

Rq4:在将LLMS应用于安全任务时,数据收集和预处理有什么不同?

1.数据收集

2.数据预处理

挑战与机遇

大模型目前面临的挑战

大模型当下的机遇

大模型未来的蓝图

总结


概要

本文通过全面收集超过3万篇相关论文,并系统分析来自顶级安全和软件工程场所的127篇论文,旨在提供法学硕士如何用于解决网络安全领域各种问题的整体视图。通过分析,作者确定了几个关键发现:

  • 首先,大模型正在广泛应用于网络安全任务,包括漏洞检测、恶意软件分析、网络入侵检测和网络钓鱼检测。
  • 其次,这些任务中用于培训和评估法学硕士的数据集通常在规模和多样性上受到限制,这突出了对更全面和更具代表性的数据集的需求。
  • 第三,确定了几种有前途的技术,使大模型适应特定的网络安全领域,如微调、迁移学习和特定领域的预训练。
  • 最后,本文讨论了LLM4Security未来研究的主要挑战和机遇,包括对更多可解释和可解释模型的需求,解决数据隐私和安全问题的重要性,以及利用大模型进行主动防御和威胁搜索的潜力。
    本文的研究思路

方法论

1.研究问题

  • RQ1:基于大模型的方法促进了哪些类型的安全任务?
  • RQ2:哪些大模型被用来支持安全任务?
  • RQ3:哪些领域规范技术用于使大模型适应安全任务?
  • RQ4:在将大模型应用于安全任务时,数据收集和预处理有什么不同方法和种类?

2.文献搜索策略

为了尽可能准确地收集和识别一组相关文献,本文采用“准黄金标准”(QGS)策略进行文献检索:

步骤1:确定相关来源和数据库
  • 网络安全会议和期刊:S&P, NDSS, USENIX Security, CCS, TDSC和TIFS
  • 软件工程会议和期刊:ICSE, ESEC/FSE, ISSTA, ASE, TOSEM和TSE
  • 数据库:ACM数字图书馆, IEEE Xplore, Science Direct, Web of Science, Springer, Wiley和
  • arXiv.
步骤2:建立QGS

作者识别出41篇与LLM4Sec相关的论文,涵盖了各种技术、应用领域和评估方法。

步骤3:定义搜索关键字
  • LLM相关的关键词:大模型、LLM、语言模型、LM、预训练、CodeX、Llama、GPT-*、ChatGPT、T5、AIGC、AGI。
  • 安全任务相关关键词:网络安全、Web安全、网络安全、系统安全、软件安全、数据安全、程序分析、程序修复、软件漏洞、CVE、CWE、漏洞检测、漏洞定位、漏洞分类、漏洞修复、软件漏洞、漏洞检测、漏洞定位、漏洞分类、漏洞报告、漏洞修复、安全操作、侵犯隐私、拒绝服务、数据中毒、后门、恶意软件检测、恶意软件分析、勒索软件、采购产品恶意命令,模糊测试,渗透测试,网络钓鱼,欺诈,诈骗,取证,入侵检测。
步骤4:执行自动搜索

作者自动搜索集中在2019年之后发表的论文,搜索结果如下:

  • ACM数字图书馆:3398篇
  • IEEE Xplore :2112篇
  • Science Direct :724篇
  • Web of Science :4445篇
  • Springer :23721篇
  • Wiley :7154篇
  • arXiv :3557篇

3.研究选择

粗筛

论文选择与排除的标准

在此人工检查阶段后,156篇论文被纳入进一步的质量评估中。

精筛

本文标准改编自软件工程中系统审查的现有指导方针:

  • QAC1:研究目标和问题的清晰性和适当性;
  • QAC2:方法和研究设计的充分性;
  • QAC3:数据收集和分析过程的严谨性;
  • QAC4:结果和结论的有效性;
  • QAC5:报告和文件的彻底性。

经过质量评估,93篇论文保留在入选集中。
论文搜索和选择过程

向前和向后滚雪球搜索

作者通过向前滚雪球确定了引用所选论文的论文2056篇,向后滚雪球确定了被所选论文引用的论文5255篇,经过进一步筛选,只保留了44篇论文,最终有127篇论文用于数据提取和合成。

入选论文统计

选定的127篇论文的分布

4.数据提取

提取的数据项及相关研究问题

问题研究

rq1:基于llm的方法促进了哪些类型的安全任务?

分布在六个安全域中的安全任务

rq2:哪些大模型被用来支持网络安全任务?

模型趋势分析:网络安全方面大模型的转型,从纯编码器架构发展到纯解码器架构,强调了该领域的动态性和灵活性。这一变化从根本上改变了解决网络安全任务的方法,标志着该学科正在进行创新。

llm在开源社区的分布概述:

rq3:哪些领域规范技术用于使LLMS适应安全任务?

1.微调

微调技术广泛应用于NLP的各种下游任务,可以减轻模型大小带来的约束,使针对特定任务进行微调的较小模型优于缺乏微调的较大模型。

作者利用llm进行安全任务的论文中使用的微调技术分为两类:完全微调和部分微调。由于许多论文采用微调而没有明确说明技术。在这种情况下,如果使用开源LLM,则假定完全微调;如果使用像GPT系列模型这样的闭源LLM,则假设部分微调

  • 完全微调。全面微调涉及调整llm的所有参数,包括模型的每一层,以使其与目标任务的特定需求保持一致。当任务与预训练模型之间存在较大差异或任务要求模型具有较高的适应性和灵活性时,这种方法更受欢迎。 虽然完全微调需要大量的计算资源和时间,但它通常会产生卓越的性能。
  • 局部微调。局部微调是指在微调过程中只更新模型的顶层或几层,而保持预训练模型的底层参数不变,同时通过微调顶层来适应特定的任务。这种微调方法主要是为了在考虑计算资源限制和模型版权约束的同时解决安全任务。这种方法的目的是保留预训练模型的一般知识,当目标任务和llm之间存在一些相似性,或者任务数据集很小时,通常使用此方法。
    论文采用的微调技术分布
2.提示工程

提示工程作为一种新兴的微调方法,旨在弥合预训练和下游任务期间大型语言模型输出期望之间的差距,它指导大型语言模型生成特定的输出,同时也充当一个接口,用于挖掘这些模型中封装的大量知识。在LLM4Security中,上表中列出的几乎所有安全任务都涉及提示工程,突出了提示的不可或缺的作用。

3.外部增强

虽然大模型在广泛的数据集上进行了全面的预训练,但由于领域数据的多样性、领域专业知识的复杂性和领域目标的特殊性,直接使用大模型来处理复杂任务仍面临着许多挑战,LLM4Security中的一些研究引入了外部增强方法,以增强llm在解决安全问题方面的应用。这些外部增强技术有助于改善与大模型的互动,弥合他们知识库中的差距,并最大限度地提高他们基于现有知识产生可靠输出的能力。
当前外部增强技术的研究

  • 特征增强:许多使用llm进行安全任务的研究从原始数据中提取上下文关系或其他隐式特征,并将它们与原始数据集成以自定义提示,从而提高模型性能。
  • 外部提取:外部知识库可以减轻大模型因缺乏领域专业知识而产生的幻觉或错误。llm可以在管道处理过程中不断与外部知识库交互,检索与安全任务相关的知识,从而提供更好的解决方案。
  • 外部工具:基于规则的外部工具也可以作为专门的外部知识库,在处理安全任务时,llm可以利用其结果来纠正输出,从而避免冗余和错误。
  • 适应性训练:现有研究采用从预训练到强化大模型对复杂安全任务的适应能力的各种训练策略,使大模型能够生成更有针对性的产出。
  • 模型间交互:单个LLM可能难以处理复杂的任务,我们可以分解管道过程并引入多个大模型以提高性能,这种方法利用模型之间的协作和交互来利用每个LLM的底层知识库优势。
  • 后处理:大模型的输出被验证或处理,用于需要特定输出类型的某些安全任务。这一过程有助于减轻大模型因缺乏领域知识而产生的幻觉等问题。

Rq4:在将LLMS应用于安全任务时,数据收集和预处理有什么不同方法和种类?

1.数据收集

本文根据数据源将数据集分为四类:开源数据集、收集数据集、构建数据集和工业数据集。
LLM4Security中数据集的收集策略

  • 开源数据集:通过开源平台或在线存储库公开访问和分发的数据集。这些数据集的可信度由它们的开源性质保证,也允许社区驱动的更新。
  • 收集的数据集:研究人员直接从各种来源收集数据集,如主要网站、论坛、博客和社交媒体平台。这些数据集可能包括来自GitHub的评论,来自社交媒体的有害内容,或来自CVE网站的漏洞信息,针对特定的研究问题量身定制。
  • 构建数据集:研究人员通过对现有数据集进行修改或扩充,以更好地适应其特定研究目标而创建的专门数据集。
  • 工业数据集。工业数据集是从现实世界的商业或工业环境中获得的数据,通常由工业应用程序、用户行为日志和其他敏感信息组成,这些数据集对于旨在解决实际应用场景的研究特别有价值。

本文又根据数据的类型将数据集分为三类:基于代码的、基于文本的和混合数据类型。
当前研究中涉及的数据集的数据类型

2.数据预处理

数据预处理包括清理、降低噪声和规范化等任务。不同类型的数据可能需要不同的预处理方法,以提高llm在安全任务中的性能和有效性,保持数据的一致性和质量。本节详细解释为两种主要类型的数据集定制的数据预处理步骤:基于代码的数据集和基于文本的数据集。
基于代码的数据集数据预处理技术
基于文本数据集的数据预处理技术

挑战与机遇

大模型目前面临的挑战

  • 1.模型适用性:模型大小和部署、数据稀缺
  • 2.模型泛化能力
  • 3.可解释性

大模型当下的机遇

  • 安全任务训练模型
  • 大模型间交互作用
  • ChatGPT的影响和应用
  • 大模型作为外部检索和工具
  • 应对特定领域的挑战
  • 集成新的输入格式
  • 扩展LLM应用

大模型未来的蓝图

  • 自动化网络安全解决方案
  • 将安全知识融入大模型任务
  • 安全代理:集成外部增强和llm
  • 安全的多模式llm
  • 安全的大型语言模型(Security4LLM)

总结

在这篇全面的文献综述中,深入研究了大模型在网络安全中的新兴用途。首先探索了部署llm的各种安全任务,强调了它们的实际影响(RQ1)。分析涵盖了安全任务中使用的不同llm,讨论了它们的独特特征和应用(RQ2)。此外,还研究了将llm应用于安全任务的领域特定技术(RQ3)。最后,本文仔细研究了数据收集和预处理程序,强调了精心策划数据集的重要性,从而有效地应用大模型来应对安全挑战(RQ4)。文章结尾,作者概述了LLM4Security面临的主要挑战,并为未来的研究提供了路线图,概述了有希望的探索途径。

全部评论 (0)

还没有任何评论哟~