翻译:Advancing TTP Analysis-Harnessing the Power of Large Language Models with Retrieval Augmented ...
推进 TTP 分析:利用检索增强生成技术释放大型语言模型的潜力
Advancing TTP Analysis: Harnessing the Power of Large Language Models with Retrieval Augmented Generation

摘要
该术语(TTPs)阐述了攻击者如何利用漏洞实施攻击的方法论。从 MITRE ATT&CK 框架的角度来看,理解 TTP 需要较高的专业知识和复杂的依赖关系。与此同时,在网络安全领域应用 LLM 开始呈现出蓬勃发展态势。尽管如此,在网络安全等关键领域利用 LLM 生成准确响应仍面临诸多挑战。我们的研究重点比较了两种策略:一种是通过监督微调优化仅编码器 LLM 模型;另一种是采用检索增强生成技术提升仅解码器 LLM 的性能。实验结果表明,在适当应用检索增强生成技术后,在处理特定任务时仅解码器架构的表现优于传统监督微调方法。此外,在捕捉关键上下文信息方面表现更为出色。有趣的是,在提示设计上采用通用策略反而能够显著提升模型在预测网络攻击战术方面的准确性
1 引言
网络安全漏洞的不断演变给事件和威胁分析带来了重大挑战。安全分析师利用网络威胁情报(CTI)收集、分析并解释对手的战术、技术和程序(TTPs)。理解各种网络攻击程序的过程(在参考模型如 MITRE ATT&CK 中不断更新 [MITRE]),需要大量的专业知识和努力。ATT&CK 框架采用三级或四级的战术-技术/子技术-程序层次结构来解释攻击者利用漏洞的方式和原因。然而,这些描述的复杂性和潜在模糊性可能使其难以解读,导致不同分析师对同一描述得出不同的结论。例如,考虑以下攻击程序描述:
威胁组织-3390 执行了 DLL 搜索顺序劫持以执行其有效载荷。
该框架将该程序与其所涉及的三个具体战术相关联。具体包括权限提升、防御规避以及持久化。值得注意的是 DLL 搜索顺序劫持技术可能引导到这三项中的某一项或全部。更不用说所有三项敌对意图了。实际上 有人可能会辩称 这种描述更倾向于执行策略 因为对手试图进行恶意加载
因此,在本研究中,我们系统性地考察了大型语言模型(LLMs)在程序行为解读与攻击手段映射方面的潜力。值得注意的是,在现有体系框架下,我们认为ATT&CK TTP映射存在固有缺陷这一事实促使我们系统性考察LLM在实际应用场景下的效能与局限。回顾LLM的发展历程中可以看到,在自然语言处理(NLP)领域取得了长足进步[如GPT-3.5]。这一进步主要得益于LLM增强了对语义信息的理解能力及其扩展能力[Min等人, 2023; Zhao等人, 2023]。此外还有研究表明通过利用LLM处理TTP相关工作取得了进展[Rani等人, 2023; Alves等人, 2022; Orbinato等人, 2022]。然而这些研究工作并未对基于编码器架构的模型与解码器架构的模型在应用检索增强生成技术时的表现进行对比分析。
仅编码器 LLM(e-LLM)专注于处理诸如序列分类等特定类型的任务,在生成上下文表示方面表现出色。相比之下,专为语言生成而设计的解码器模型(d-LLM)具备生产连贯且高度相关的人工语言文本的能力,在这一领域展现出卓越的应用前景。然而,d-LLM面临一个显著的问题:容易产生误导性的或完全虚构但自认为真实的回答 [Huang 等人, 2023; Rawte 等人, 2023]。这一特性源于其在生成过程中可能输出看似真实但并不准确的信息能力。针对这一挑战提出了一种名为 RAG 的技术:通过检索与相关信息最相关的文档资料,并将其作为补充信息供指定提示部分使用。RAG 机制首先识别可能包含相关信息的文档内容,并将这些材料引导到模型注意力的核心区域,从而提升输出的质量与可信度。值得注意的是,在本研究中并未对 d-LLM 进行微调训练,因为这一过程因计算需求巨大而耗资惨重。相反地,则认为 RAG 是一种潜在高效的技术手段,在为 d-LLM 提供安全背景信息方面发挥着重要作用。
认识到e-LLMs和d-Llm在网络安全操作领域可能具备的不同功能及其优势。本研究旨在比较两种模型——即e-lm的监督微调(Sft)与dlm的rAg——在解释tTp方面的有效性(通过预测att&ck战术评估)。具体而言:
第一组是直接使用dlm(gpt−3.5模型);
第二组是对elms(包括roberta[lIu等人, 2019] 和secureber t[aHgEi等人, 2022])施加监督微调并结合att&ck描述;
第三组是对dlms应用rAg技术;
第四组则是分析当dlms采用更加具体的提示与更为通用的提示时在网络攻击战术预测方面的表现。
据可靠信息 sources指出, 第一项系统性研究综合评估了多种方法用于解析网络安全事件日志。我们的目标是深入分析并提出一套实际适用的方法框架。基于 MITRE ATT&CK v14.1 数据集, 我们进行了系列实验分析。通过对两种LLM架构的性能对比, 我们揭示了各自的优劣势, 同时对未来优化d-LLM技术方向进行了探讨。我们的主要贡献体现在三个方面: 首先, 提出了创新性的理论框架; 其次, 给出了详细的实验结果; 最后, 明确指出了未来改进方向。
- 我们系统性分析和对比了较小规模 e-LLM 的 SFT 与较大规模 d-LLM 的 RAG 在增强解释 TTP 方面的作用。
- 通过实证研究发现,在收集直接相关信息时,d-LLM 显著优于其他模型,在解释 TTP 方面展现出更强的优势。
- 研究表明尽管 d-LLM 在检索精度方面表现优异(保持较高"召回率"),但其在检索准确性方面的表现相对较弱(存在显著"精确率"不足)。因此,在不牺牲"召回率"的前提下提升"d-LLM""精确率"具有重要的理论价值和实践意义。
- 研究结果表明,在回答质量方面通用提示策略相较于特定提示策略能显著提升信息检索的效果和准确性。
2 相关工作
2.1 大型语言模型
Transformer 架构的应用为大型语言模型的进步做出了显著贡献 [Vaswani 等人, 2017]。这一架构体系的核心是编码器和解码器组件,在不同类型的LLM中能够发挥着独特的功能。这些组件能够在不同类型的LLM中展现出独特的功能。
仅编码器模型: 其中一项具有里程碑意义的是 BERT [Devlin 等人, 2019] ,它属于预训练的双向扩展语言模型。该模型通过Transformer编码器实现对语言语境与细微差异的深入理解。此外,在RoBERTa [Liu 等人, 2019] 的基础上进一步优化超参数以及采用更大的批次大小与更长的序列长度进行强化训练 ,显著提升了BERT的能力 。另一个值得提及的扩展语言模型是SecureBERT [Aghaei 等人, 2022] ,它是基于RoBERTa构建并在网络安全数据上经过微调优化的
仅解码器模型: d-LLM改变了传统LLM的整体架构,在规模和技术配置上体现出显著优势。基于当前研究领域的领先架构包括 OpenAI 的 GPT-3.5(由OpenAI开发)以及 Meta 的 LLAMA-2(由Touvron 等人于2023年提出)。它们在生成类型文本方面表现出色,并能够识别复杂的多维度模式。多个研究案例展示了这些架构在处理多样化任务中的高效性和多功能性(如Min等人与Zhao等人于2023年的研究)。然而目前尚不清楚这些架构对特定任务(TTP)的理解机制是什么样的
2.2 用于 TTP 解释的 LLM
基于对 TTP 描述的研究背景下
我们对 [Fayyazi & Yang, 2023] 的研究进行了初步考察,在比较 e-LLM 和直接应用 d-LLM(提示工程)时关注了更为复杂的战术和技术描述(但不包括程序)。在该研究中,则通过从战术与技术描述库中选取样本数据来微调 e-LLM 分类器;而后者未涉及 RAG 技术。本研究表明,在应对更为难以解释的攻击程序时
2.3 检索增强生成(RAG)
尽管 d-LLM 在指令跟随任务(例如问答)中表现出色,但这些模型在其生成的响应中已被证明容易产生幻觉 [Huang 等人, 2023; Rawte 等人, 2023]。它们对预训练知识的依赖(即受限于训练数据的时间范围)带来了局限性。这种局限性在需要高精度的领域(如网络安全)尤为关键。因此,为了适应新信息并提供事实性知识,RAG 被引入 [Borgeaud 等人, 2022]。
RAG 常常依赖向量数据库以存储最新的信息。
当接收查询时,RAG 从数据库中筛选相关信息来丰富LLM的提示。
这样可以确保回应既紧跟时代又基于上下文。
这种做法无需持续微调。
已有研究已将 RAG 应用于自然语言处理任务 [Borgeaud 等人, 2022; Mallen 等人, 2023; Ram 等人, 2023; Al Ghadban 等人, 2023]。
在此研究中,
我们提议利用 RAG 向LLM提供更多关于攻击程序的信息,
并使LLM关注通过RAG检索到的内容。
3 方法论与实验设计
我们致力于本研究旨在比较以下内容:第一部分是通过标记的ATT&CK技术和其子技术对e-LLM进行监督微调(SFT),第二部分是直接采用d-LLM(即预训练的知识体系),第三部分是结合基于检索增强的生成模型(RAG)来应用d-LLM的技术,并通过检索最相似的攻击程序获取相关URL;第四部分则是探讨d-LLM在解析攻击行为时所依赖的具体提示与通用提示的作用机制。这些实验设计的目的在于评估基于逻辑推理模型如何能够将攻击描述映射至相应的战术能力。然而这一过程面临多重挑战:第一种挑战是没有公开可用的标注数据集用于将程序行为准确映射到ATT&CK战术体系中;第二种挑战是每个程序可能对应多个ATT&CK战术,在这种情况下模型需要同时考虑这些潜在的可能性;第三种挑战是需要精心设计有效的提示来引导模型输出所需的结果;第四种挑战则是RAG系统必须具备高效的检索能力以获取最相关的信息资源。我们将概述我们的方法论框架并详细阐述实验设计思路以应对上述难题
3.1 数据集
为了进行实验,我们从 MITRE ATT&CK 框架中收集了数据。我们选择 ATT&CK 是因为它在行业 SIEM 工具中的广泛采用以及相关的详细网络安全描述。我们整理了企业战术、技术和子技术的描述,并将其映射到相应的战术,用于微调 e-LLM。我们不对目标 d-LLM(GPT-3.5)进行微调;相反,我们对 d-LLM 使用 RAG,以便与微调后的 e-LLM 进行比较。总共,我们从 ATT&CK 框架中获得了 639 条描述,用于微调 e-LLM。某些描述包含 2、3 或甚至 4 种不同的战术。需要注意的是,639 条标记的 ATT&CK 描述的小规模反映了现实世界场景中仅存在有限标记数据的情况。为了测试 e-LLM 和 d-LLM 的性能,我们爬取了所有描述攻击方法的企业程序示例。我们删除了包含 14 种 MITRE ATT&CK 战术之一的程序描述,以防止潜在的偏差或捷径。总共,我们收集了 9,532 条程序描述及其对应的 URL(用于 RAG)。需要注意的是,这些程序描述未用于 e-LLM 的 SFT。
图 1 展示了攻击程序在不同战术间的交叉情况。研究表明,“持久化策略”、“权限提升策略”以及“防御规避策略”的应用范围较广。我们计划将优化后的数据集与源代码共享,并作为研究社区的重要资源发布。
3.2 仅编码器 LLM 的监督微调
为了对 e-LLM 进行监督微调,我们选择了 RoBERTa-base [Liu 等人, 2019] 和 SecureBERT [Aghaei 等人, 2022]。我们选择这些模型是因为它们在处理 TTP 方面已被证明优于传统机器学习和深度学习技术 [Rani 等人, 2023; Alves 等人, 2022; Orbinato 等人, 2022]。SecureBERT 模型已经使用广泛的网络安全文本语料库进行了微调。我们的目标是评估这些 LLM 在通过微调最具相关性的 ATT&CK 战术、技术和子技术描述(而非程序)提取关键信息方面的有效性。

图 2 显示了微调 RoBERTa 和 SecureBERT 模型的整体过程。首先,我们对 ATT&CK 描述进行分词,以确保其与 RoBERTa 和 SecureBERT 模型兼容。其次,我们添加了一个包含 14 个节点的分类层,每个节点对应一个 ATT&CK 战术。为了解决多标签分类的挑战,我们在该层中采用了 Sigmoid 激活函数。该函数至关重要,因为它计算给定描述中每个战术的独立概率,从而使模型能够有效识别并分配多个标签。

表 1 载明了用于微调模型的关键参数设置。损失函数采用二元交叉熵(因每个战术的预测本质上是二元分类问题),实验设定中采用 16 作为批量大小,在训练周期设定为 30 次的情况下优化得到的学习率值定为 5 \times 10^{-5} 可以获得最佳性能表现。该模型通过 Sigmoid 函数将输出压缩至 [0,1] 区间,在此范围内当 Sigmoid 输出结果超过 0.5 则认为模型对该战术进行了预测。
3.3 结合与不结合 RAG 的仅解码器 LLM
本研究采用了 OpenAI 发布的 GPT-3.5-turbo-1106 模型作为 d-LLM 的基础架构。该研究模型采用了一个长度为 16K 令牌的上下文窗口设计。由于 OpenAI 模型的设计特性具有高度不确定性,这种特性可能导致对于同一输入的不同输出结果。通过调整参数设置来平衡这种不确定性并维持一致输出需求,在实验中我们选择了温度参数设为 0 并设定固定种子数(此处指 1106)以实现结果的一致性。该研究并未将 GPT-3.5-Turbo 与检索增强生成(RAG)技术整合作为基准版本。在提示设计方面,我们采用了一个工程化的指导原则:避免过度引导 LLM 过度关注提示内容;同时遵循社区报告的最佳实践建议以规避生成幻觉现象的影响。以下是一份用于 d-LLM 基线测试的具体提示模板:
You are a cybersecurity expert. Recognizing the fact that <
我们设计了结合 RAG 的 d-LLM,试图模拟一种现实场景,其中所讨论的程序不存在且无法直接搜索以找到相应的战术。

图 3 呈现了一个结合 RAG 使用 d-LLM 的完整流程框架。通过利用 FAISS Meta 技术,在数据集中识别出每个测试程序的前三个最具代表性的相关程序。这些相似程序将提供最多三个 URL 地址,并将这些 URL 用于从文档库中检索上下文段落作为提示信息的基础来源。为此我们特意选择了长度均为 8,000 字符并具有 500 字符重叠度的文本块并将它们存储于向量数据库中以提高检索效率和准确性。随后系统会调用 OpenAI 的嵌入模型对问题与存储在向量数据库中的文本块进行分析并从中提取出最相关的三个片段作为辅助上下文插入到 GPT-3.5-Turbo 的提示模板中以优化生成结果的质量与相关性
You are a certified cybersecurity professional. Consider the following background information and address the subsequent question. Background Information: {context} Question: Having knowledge of <<程序>>, what MITRE ATT&CK tactics can a network adversary employ using this technique? Please only list the MITRE ATT&CK tactics you are certain about.
值得注意的是,在这种情况下,可能存在一些相似程序与所讨论的程序拥有相同的URL。这可能会导致GPT-3.5-Turbo借助RAG机制找到直接的答案。然而,在我们的结果显示中可以看出,即使确切的URL存在于检索结果中其性能依然良好但并非完美。此外,请注意ATT&CK的技术/子技术URL实际上包含了战术名称。
值得注意的是,在这种情况下, 可能存在一些相似程序与所讨论的程序拥有相同的URL. 这可能会导致GPT-3.5-Turbo借助RAG机制找到直接的答案. 然而, 在我们的结果显示中可以看出, 即使确切的URL存在于检索结果中其性能依然良好但并非完美. 此外, 请注意ATT&CK的技术/子技术URL实际上包含了战术名称.
为了制定RAG的最佳性能基准,在理想化场景下进行了测试工作。其中RAG被配置仅接收目标程序确切对应的URL链接。这一设置从而强制选择了最相关URL的前3个8,000字符块。我们注意到一些URL包含较少文本信息而其他则较为丰富内容。这种变化可能对RAG的性能产生影响。尽管如此,在结果显示部分我们将展示这种理想情况达到了最佳上限水平。
4 结果与讨论
我们首先进行评估以确定哪种 e-LLM 的性能更为优异。随后进行比较分析的是结合与不结合 RAG 的 d-LLM 模型。接着重点探讨所选 e-LLM 以及结合 RAG 的 d-LLM 在能力表现及其局限性方面存在的差异与共性。最后通过对若干具体案例的研究并深入讨论灵活提示对 d-LLM 性能表现的影响程度等研究环节展开研究工作。
本研究采用"样本平均 F1"得分作为核心评价指标。
F1 分数反映了精确率与召回率的最佳折中方案。
我们采用"召回率"指标来量化 LLM 在广泛语境下执行程序解释任务的能力。
精确率则用于评估其将程序映射至具体战术的能力。
"样本平均 F1 分数"计算方法是针对每个实例分别计算其 F1 分数而后取所有实例得分的算术平均值。
选择样本平均这一统计方法的原因在于其能够有效减少由于少数战术程序数量过多或过多关注多标签程序而产生的统计偏差影响。
4.1 仅编码器 LLM 的监督微调评估
我们采用了经过整理的 MITRE ATT&CK 企业战术、技术和子技术描述,并将其映射至 ATT&CK 战术框架上来进行 e-LLM(RoBERTa-SFT 和 SecureBERT-SFT)的微调训练。值得注意的是,在这项研究中未涉及使用程序描述来实现这种微调的目的;相反的研究目标是评估这些大语言模型(LLMs)的能力——即通过不提供明确的程序与战术映射的方式使它们得以解释数据特征的能力)。实验结果表明,在测试集上的平均 F1 得分分别为 0.54 和 0.41 分;其中 SecureBERT 在这一指标上的表现优于 RoBerta 模型,在后续的研究中将被选作进一步比较的对象与 d-LLM 进行对比分析。
4.2 仅提示 vs. GPT-3.5-Turbo 的 RAG

表2展示了上述测试用例在全部9,532条ATT&CK程序描述中的表现情况。值得注意的是,在这种情况下某些程序可能与多个战术相关联;因此导致所有支持的数量总和(10,952)超过了用于测试的程序数量(9,532)。结果显示,在仅依赖提示的情况下(即基于GPT-3.5预训练知识),该模型在解释ATT&CK战术方面的能力较弱,“样本平均F1”得分为0.60分(但仍优于SecureBERT-SFT)。结果显示,在这14种战术中,有4种战术的F1得分超过0.5分;但资源开发方面的得分却为零分。相比之下,在提供确切URL的理想情况下(基于RAG),模型的样本平均F1显著提升至0.95分,在这14种战术中约有11种 tactic 的F1得分超过0.9分
该研究结果表明,在不进行微调的情况下(即直接向模型传递精确的信息块),该方法能够在现有数据上展现出显著的性能提升效果。然而,在更具代表性的应用场景中(使用与目标相关度最高的三个程序),当新攻击程序的具体信息难以获取时(即采用RAG技术前三个最相似程序作为参考),其在测试集上的F1分数降至约0.68(尽管仍优于仅提示的情况)。这一结果表明,在结合RAG技术后,人们对于LLM解释未曾见过的新攻击程序的能力仍应抱有较为审慎的态度。
值得注意的是,在本研究中应用了ATT&CK战术的关键词检索。d-LLM 的响应不仅仅局限于战术名称,在这一过程中,默认会忽略潜在类别的术语。我们对 d-LLM 响应的表现进行了详细检查,并发现这类情况较为罕见。经过进一步分析和计算,在全面提取相关类别术语时,我们估计性能指标可能会有所下降(具体预测约为1%左右)。
4.3 结合 RAG 的仅解码器 vs. 仅编码器的 SFT
我们进一步通过分析精确率、召回率和 F1 分数来比较 e-LLM(SecureBERT)的 SFT 和结合 RAG 的 d-LLM 模型。对于结合 RAG 的 d-LLM,我们将 9,532 条程序分为两组:1)至少一个前 3 URL 匹配到目标程序的确切 URL,以及 2)没有前 3 URL 匹配到确切 URL。这种分离提供了 RAG 在有无确切 URL 情况下的详细表现,并突出了这些 e-LLM 和 d-LLM 之间的主要差异。

表3呈现了它们的表现情况
当前阶段我们的实验设计致力于通过LLM准确地预测ATT&CK战术. 这一目标要求LLM能够识别关键短语并生成最佳回应. 这就提出了一个问题:如果不将提示中的具体术语(如ATT&CK战术)从提示中移除则是否能提高模型的准确率和召回率? 在后续章节中将深入探讨这一假设.
4.4 结合 RAG 的仅解码器具体案例分析
为了检验融合 RAG 技术的 d-LLM 可能性带来的不同回应效果, 我们开发了通用类型的指示(即无需特别指定 ATT&CK 战略), 如下所述:
You are a cybersecurity professional. As a cybersecurity expert, you should take into account the relevant context provided below to address the inquiry. Relevant Context: {context} Informed by <<程序>>, what can cyber adversaries achieve through this technique?
我们为此研究选取了 20 个程序样本,并意识到评估响应不仅需要投入大量时间和精力还需要具备专业知识。随后我们选择了一个具代表性的程序来进行详细分析如图所示 其中涵盖了其战术 RAG 检索到的相关程序以及部分相关的上下文信息
示例:MuddyWater

目标程序(战术:数据提取): 通过MuddyWater,利用Mimikatz和procdump64.exe完成了数据提取任务。
前 3 个最相似程序:
- Apt39 采用了 Mimikat、基于 Windows 的证据编辑软件以及 ProcDump 等工具来进行证据存储。
- ApT32 利用 Mimikat 和专门开发的基于 Windows 的证据收集工具来获取证据。
- Okrum 被观察到正在利用 MimikatLite 来执行证据收集过程。
在相关上下文中,Mimikatz通过执行凭据转储来获取有助于访问账户信息的数据内容
模型响应:
“凭据访问”、“防御规避”、“发现”和“横向移动”
在该程序中
同时,通用提示生成了以下内容:

模型响应:
我们进行了人工评估,并对模型的预测结果进行了分析得出结论指出该系统识别出'凭据访问'以及'防御规避'两种行为并且可能后续还关联了'横向移动'以及'权限提升'等多个对手行为的现象与此同时在原始输入中通常会提供具体的战术建议并未包含详细说明的情况下针对这一案例我们发现通过引入通用提示能够显著提升模型的识别准确性即使在将通用提示与原始提示所提取的所有四个战术进行对比分析后发现在这四个战术中与通用提示相关的策略相较于仅使用原始提示表现出更高的适用性
我们对 20 个程序重复了这种手动分析,其中 10 个程序 RAG 检索到匹配的 URL,另外 10 个未匹配(参见表 3)。对 10 个匹配案例的评估表明,新通用提示在“精确率”和“召回率”方面优于原始提示。对于 10 个未匹配案例,两种提示的性能似乎相当,这再次强调了检索直接相关信息对 d-LLM 表现良好的重要性。在所有 20 个案例中,类似于 MuddyWater 的情况,通用提示生成了更详细的响应,我们认为这些响应对安全分析师更有价值。这一初步发现似乎表明,结合 RAG 的 d-LLM 在不提供过于具体指令(即明确要求 ATT&CK 战术)的情况下表现更好。这一现象反直觉,因为提供更通用的提示实际上可能导致更高的精确率。可以假设这是由于 d-LLM 的生成能力,帮助推导出更精确的最终答案。需要进一步系统化和大规模研究来验证这一假设。这将是一项艰巨的任务,需要耗费大量精力并具备网络安全专业知识。
5 结论
我们对较小规模的e-LLM及其稀疏表示性能与结合检索增强型生成(RAG)后较大规模的d-LLM进行了系统性对比分析。主要关注评估哪类模型在详细描述网络攻击程序方面表现更为卓越。研究表明当d-LLM配合适当引入RAG信息时其性能得到了显著提升。我们的研究揭示了在无法检索关键信息的情况下RAG可能会受到限制。尽管当前d-LLM展现出较高的召回能力但在精确度方面仍显不足。为此我们进一步探索了更具通用性的提示方案并展示了在这种情况下结合RAG后改进型的d-LLM不仅能够提供更为详尽的解释还实现了更高的精确度水平。这项小规模研究的结果基于对广泛专业领域知识的需求及手动评估标准提供了宝贵的参考价值。实际网络操作将获益于能够结合上下文进行推理处理的详尽LLM回应。我们设想一种经过微调优化且融合RAG技术的大规模d-LLMs具备通过通用提示实现高效处理的强大能力
