Advertisement

基于攻防博弈的网络防御决策方法研究综述

阅读量:

摘要

博弈论探讨最优决策问题,在网络安全领域具有重要理论支撑作用,并为解决网络防御决策问题提供了理论依据

关键词: 网络防御 ; 决策方法 ; 攻防博弈 ; 博弈特征

0****引言

在网络攻防过程中(network defense process),攻击者与防御者可能采取多种策略以应对威胁(threat)。对于特定类型的攻击手段(attack手段)而言,在选择相应的防御措施(defense measures)时会带来不同的安全效益(safety benefit)[1]。(1)受可用资源(available resources)、技术能力(technological capability)以及个人偏好(personal preferences)等因素 [2] 的限制,在进行网络防护时需要权衡如何优化配置防御资源(defensive resource allocation)、选择最优防护方案(optimal defense scheme selection)以及追求收益最大化的目标 [2].

基于经验的传统网络防御决策方法往往依赖主观判断,在网络安全领域难以为管理人员提供可靠且有说服力的防御策略选择。在决策分析框架下,网络防御策略应当结合科学理论与方法对可选方案进行分析与推理筛选出最优策略以实现自身收益最大化。博弈论作为运用数学模型研究冲突对抗情境中个体互动行为及其结果影响的理论在经济学[3-4_]以及管理科学领域[5-6_]得到了广泛应用。博弈论能够帮助解决参与者间相互依存关系下的最优决策问题并构建用于描述网络攻防矛盾冲突的数学模型 [7, 8]。综上所述相关文献如[9, 10, 11, 12, 13]对基于博弈论的安全威胁评估相关研究进行了系统综述。

近年来的研究表明, 基于攻防博弈理论的网络安全防护策略被广泛研究为前沿领域[14, 15, 16, 17, 18] 。有必要进行系统梳理, 对比不同类型的攻防博弈模型在实际应用中的适用性及其优劣特点, 最终归纳现有技术的发展脉络及其优势与不足, 并明确未来研究的重点方向

1****网络攻防博弈特征分析与模型定义

1.1 网络攻防博弈特征分析

网络攻防博弈特征主要体现为六个核心要素:目标对立关系、相互依存策略、非合作性互动模式以及动态演变过程等关键属性共同作用的结果;此外还包括参与方之间基于自身利益所形成的互动机制与决策动力机制等多重维度的综合体现

(1)网络攻防双方的目标相互对立

在网络安全战局中,攻防双方都具有明确的目标.攻击者采用多种策略对防御者发起进攻,以损害目标网络系统的机密性与完整性并使其利益最大化;而防御者则采取多种防护措施来抵御进攻,其目的则是保护自身网络系统的机密性、完整性与可用性的安全属性不受侵害.由此可知,双方的目标相互对立,利益关系尖锐冲突,矛盾难以调和,呈现出明显的对抗特征.

(2)网络攻防双方的策略相互依存

在网络安全对抗中,在网络安全对抗中,在网络安全对抗中,在网络安全对抗中,在网络安全对抗中,在网络安全对抗中,在网络安全对抗中,在网络安全对抗中,在网络安全对抗中,在网络安全对抗中,在网络安全抗在网络安全抗在网络安全抗在网络安全抗在网络安全抗在网络安全抗在网络安全抗在网络安全抗在网络安全抗在网络安全抗在网络安全反, 两者的行为相互制约与影响, 对抗结果是双方战略选择共同作用的结果, 受制于防御策略自身, 还受到攻击策略的影响; 受到防御策略的影响; 而攻击效果则不仅取决于攻击策略本身, 还受到防御策略的影响. 双方之间存在战略依存关系, 博弈收益以特定攻防策略组合的形式出现[21]. 因此, 不论是进攻方还是防守方, 都必须重视双方互动决策的重要性. 作为具备理性思维的防守方, 在制定防守决策时应当综合考虑自身因素的同时, 还应考虑到对方决策可能带来的潜在影响, 实施"基于系统思维的理性换位思考".

(3)网络攻防双方的关系非合作

作为一对具有根本对立特性的主体[22] ,网络攻防双方彼此之间展开了一场激烈的对抗 ,这种状态下的利益冲突 且目标无法达成统一 ,使得它们被视为具有对抗性特征的存在 。从博弈模型的角度来看 ,其间的对抗性关系已经形成了一个基础性的框架 。然而 ,由于其间体现出了非合作性质的关系 ,其缺乏共同的利益基础 ,并且无法在决策前进行有效沟通 ,不具备达成具有约束力协议的可能性 。这种情况下 , 网络攻防双方之间的关系直接导致了其作为非合作博弈的基础特性

(4)网络攻防双方掌握的信息不完备

作为构建博弈模型的关键要素之一的信息,在特定条件满足时对博弈决策产生重要影响。当特定条件满足时, 一方的信息优势可转化为其在动态对抗中的战略优势, 即使另一方同样拥有自己的全部策略方案, 在这种非合作对抗的关系下, 双方无法事先交换彼此的决策方案, 因此多数情况下各方仅能获取己方完整的策略体系以及部分对手策略体系的部分情报资料, 这种情报资料往往具有有限性和不完整性特征, 但在持续不断的动态对抗过程中, 某一方可以通过贝叶斯法则不断更新先验认知, 并据此强化对对手的认知水平

(5)网络攻防态势不断动态演化

从系统论视角来看, 安全是一个动态演化的进程而非一个静态不变的状态. 网络安全作为一种涌现属性[23], 涉及到微观-宏观效应(micro-macro link)的问题, 其中微观层面的网络攻防动态博弈行为将推动宏观层面网络攻防博弈系统的动态演化. 网络边界逐渐变得模糊, 而攻击来源与攻击手段逐渐变得复杂多样, 此外, 网络攻击的自动化程度越来越高, 智能化水平也在不断提升, 动态化趋势日益明显. 传统的静态防御思维已不再适用. 在网络攻防对抗过程中, 网络环境以及目标偏好等关键因素可能会发生持续变化. 因此, 防御方需树立一种动态化且综合性的安全防御理念, 并根据实际情况采取灵活多变的应对策略.

(6)网络攻防博弈的内因是利益驱动

基于信息安全经济学的理论框架下

1.2 网络攻防博弈模型形式化定义

为构建网络攻防博弈模型并开展网络防御决策分析的研究本文提出了基于理性主体的假设以及资源受限的假设

在理性决策者模型下,在面对某一决策情境时

假设2 资源有限性假设:网络攻击方与防御方均受限于能力、资源与偏好等现实条件的影响,并且它们能够控制或支配使用的资源以及可供选择的战略方案或策略的数量上都是有限制而并非无限不受限制。

理性局中人假说与资源有限性假说都能契合网络攻防对抗的实际情形。其中,在网络攻防博弈建模方面, 理性局中人假设有着基础前提的作用; 而资源有限性假设有着限制条件的作用

网络对抗博弈:在一定规则范围内进行的参与者基于已知信息,在同时或先后进行多次策略选择和实施对抗行为从而获得各自收益的过程。

称作网络攻击防御博弈机制(缩略体为NADSGM),其形式化表示为(N,S,M,I,U),其中各要素分别代表参与方角色集合N;策略空间S;可能的操作集合M;信息框架I;以及收益矩阵U。

(1)攻防局中人N

网络攻击者与防御者构成了博弈论模型中的两大类参与主体,并具体表现为攻击者局中人NA与防御者局中人ND。

局中人内涵在微观视角下指代网络攻防参与者,在宏观视角下则涵盖攻击者群体与防御者群体两部分。于不完全信息博弈分析框架内便于推演时,则需运用海萨尼转换法,并引入虚拟局中人"自然者"作为不确定性因素代表,在此基础上将不确定性条件的选择问题转化为风险导向的决策模型。

(2)攻防策略集S

攻防局中人均拥有专门的策略集。攻击者策略集SA旨在实现特定目标而可供采用的战略方案集合;防御者策略集SD则旨在保护本方网络并抵御网络攻击所能采用的战略方案集合。

局中人在选择战略时可采取纯战略或混合战略。纯战略是指局中人直接从其可用的战略集中选择并采用单一特定的战略;而混合战略则是指局中人根据特定的概率分布,在其可用的战略集中随机选择并采用多于一个的战略。

(3)攻防动作集M

攻防人员依据既定策略规划并实施具体的攻防行为。其中攻击动作集MA涵盖了多种网络扫描、系统探测以及针对潜在弱点的利用手段;而防御措施MD则涉及制定防火墙规则、实施关键数据备份以及修复系统漏洞三项具体措施。

(4)攻防信息集I

在对抗过程中代表所掌握的知识 攻防信息集 I 由攻击性情报集合 IA 和防御性情报集合 ID 组成 涉及局中人采取的策略选择及其采取的行为方式直接影响其决策能力和判断力

(5)攻防收益集U

收益是由局中人策略选择所形成的产物,并且被视为制定与优化策略的参考标准。攻防收益集合U由攻击方的收益UA以及防御方的收益UD组成。

双方在战略选择上存在密切关联。各组战略配置对应着独特的攻防结果。通常情况下,我们会以网络化的方式呈现各参与方的策略及其对应的收益。例如,在这种情况下,在攻击者和防御者的博弈中,在假设攻击者采取第k个行动方案而防御者采取第m个应对方案时,则该特定战略配置下的攻击者损失计算式可表述为L_A(k,m),而相应的防御者损失计算式则为L_D(k,m);此外,在这种情形下构建的损失矩阵能够直观地反映出所有可能的战略互动及其结果。

UA=⎡⎣⎢UA11(SA1,SD1)⋯UAi1(SAi,SD1)⋯⋯⋯UA1j(SA1,SDj)⋯UAij(SAi,SDj)⎤⎦⎥ (1)UA=[UA11(SA1,SD1)⋯UA1j(SA1,SDj)⋯⋯⋯UAi1(SAi,SD1)⋯UAij(SAi,SDj)] (1)

采用矩阵形式表示不同策略组合下防御方收益UDUD为

该矩阵由元素U D_{i j}(S A_i, S D_j)组成(见公式2);而另一个矩阵则按不同的排列方式组织其元素(见公式2)。

网络攻防过程与博弈模型元素的对应关系如 1 所示。

纳什基于角谷不动点定理(Kakutani fixed-point theorem)成功地证明了任何有限非合作博弈模型下的均衡存在性 [19] 。纳什均衡是一种策略集合 [24] ,其定义为:每个局中人在给定其他局中人选择的条件下所采取的最佳反应 [24] 。具体而言,在数学上可表示为:若一个策略组合σ*(不考虑纯策略与混合策略的区别)满足对于所有局中人i及其对应的策略空间Si中的任意si均符合式(3):

图1

1网络攻击防御流程与博弈论要素之间的对应关系 Figure 1 Correspondence between network attack and defense process and elements of game model

ui(σ∗i,σ∗−i)≥ui(si,σ∗−i) (3)ui(σi*,σ−i*)≥ui(si,σ−i*) (3)

则该变量\sigma^*表明为该博弈模型的纳什均衡。其中,在数学表达式中:\sigma_i^*代表了博弈局中人i采取其最优策略的方式;而\sigma_{-i}^*则代表了其他参与者的策略配置。

纳什均衡可用更易懂的方式解释为"如果我固定了我的战略选择,则你最佳的选择是我的最佳选择;反之亦然"。从博弈论的角度来看,在达到均衡时的所有参与者都选择了各自最优的战略。当达到博弈论中的均衡状态时,在任何情况下参与者都无法通过独自改变自己的战略而提升自己利益。

在网络安全对抗中存在有限的参与者,在每个参与方的可选策略数量也是有限的情况下(即每个参与方都拥有明确的策略选择空间),其收益(即得失函数)均为实值函数(即其输出结果属于实数范围)。因此,在这种情况下,在混合策略框架下确实存在纳什均衡(Nash Equilibrium)。如 1 所示,则列出了相关存在的充分必要条件。

1 列出了纳什均衡存在的条件 Table 1 lists the existence requirements for Nash equilibria

序号 条件 网络攻防博弈是否满足
1 局中人数量有限
2 每个局中人策略集有限
3 收益函数为实值函数

张等[25]及刘景玮等[26]参考了纳什理论,并提出了混合策略概率贝叶斯纳什均衡的存在性证明及博弈分析方法。基于表1所述的纳什均衡存在条件,则可推断网络攻防博弈中存在混合策略贝叶斯纳什均衡。

网络攻防博弈均衡行为模式称为EQ = (S_D^*, S_A^*)。参与者(S_D^*, S_A^*)构成了网络攻防局中人的最佳策略组合,并满足式(4):

∀i,UA(S∗D,S∗A)≥UD(S∗D,SAi)∀i,UA(SD*,SA*)≥UD(SD*,SAi)

∀j,UD(S∗D,S∗A)≥UD(SDj,S∗A) (4)∀j,UD(SD*,SA*)≥UD(SDj,SA*) (4)

其中

该研究将以攻防博弈理论为基础构建的网络防御策略体系,并从单一主体的角度展开行为建模与评估。该方法并扩展至攻防对抗系统的逻辑推演,并结合图2所示的具体案例进行验证

图2

图 2 基于攻防博弈模型的网络防御决策流程 Figure 2 General process of network defense decision-making based on attack and defense game model

近年来学者们针对不同类型网络安全攻防博弈展开了深入研究 并系统性地提出了一种适应多场景使用的网络防御决策方案 这种方案特别应用于入侵检测规则设置蜜罐策略配置移动目标防护以及网络空间欺骗防护等多个策略选择上

2****基于不同类型攻防博弈的网络防御决策方法

2.1 基于经典博弈的网络防御决策方法

从博弈信息维度和博弈时序维度两个方面来看, 经典博弈模型可被划分为完全信息静态. 完全信息动态. 不完全信息静态以及不完全信息动态四种类型[40]. 研究者基于上述四种类型分别设计了相应的网络防御决策方案.

2.1.1 基于完全信息静态博弈的网络防御决策方法

(1)适用场景

完全信息静态博弈是非合作博弈中最基础的一种类型,在这种情况下网络攻防双方能够在信息获取上实现全面覆盖,并且在策略制定过程中彼此互不了解或者无法反制的情况下完成整个攻防过程。其中‘同时决策’这一概念指的是决策过程在逻辑上是同步的,并非仅限于时间上的同步。例如,在网络攻防中双方互不掌握对方策略的情况下做出决策或者即使掌握策略也无法改变自己的决策,则整个过程可被视作逻辑上的同步决策。

(2)研究思路

针对完全信息静态博弈场景下的网络防御决策方法,通常以收益矩阵为基础进行推理与分析过程,在纳什均衡理论指导下得出相应的防御策略。

(3)相关研究

姜伟等[41]对网络系统安全测评与最优主动防御问题展开了深入研究,并提出了一种网络防御图模型以及一种综合性的攻防策略分类与量化方法来确定最优主动防御策略;刘 等[42]则开发了一种基于博弈理论的形式化模型来推理入侵意图、目标与相关战略;王增光等[43]专注于军事信息网络的安全风险评估问题,并提出了一种基于攻防博弈的网络安全风险评估方法;他们从安全属性的角度量化了相关的攻防收益,并据此建议采取相应的防御对策;陈永强等[44]针对攻防对抗过程中双方收益不完全对称的问题开发了一种网络安全博弈图模型;结合主机重要性指标与各类具体的 defense measures success rates 来计算相关的 attack-defend 收益值;并据此给出了主动 defense 策略的选择方案

(4)方法优缺点

基于完全信息静态博弈网络防御决策方法的优势在于:该方法具有较好的构建性,并且能够便于进行逻辑推理与分析;其计算过程相对简便。然而该方法也存在一定的简化的局限性:涉及的前提假定较多;覆盖的场景相对有限;难以适用于不完全信息环境以及攻防过程具有动态变化特征的情况。

2.1.2 基于完全信息动态博弈的网络防御决策方法

(1)适用场景

静态博弈与动态博弈的主要区别在于决策过程是否存在时间先后顺序。在完全信息的动态博弈中,可用于攻防双方均能全面掌握对方信息、攻防决策存在先手与后手之分,并且后方参与者能够对先方采取的策略进行观察和分析;同时该对抗过程本身具有明显的动态特性的情形下

静态博弈与动态博弈的主要区别在于决策过程是否存在时间先后顺序。在完全信息的动态博弈中,则是适用于攻防双方均能全面掌握对方信息、攻防决策存在先手与后手之分,并且后方参与者能够对先方采取的策略进行观察和分析;同时该对抗过程本身具有明显的动态特性的情形下

(2)研究思路

主要依赖于完美信息动态博弈理论的网络防御决策方案通常会使用攻防博弈树形式进行推理分析,在子博弈完美纳什均衡解理论框架下确定最优防御策略。

(3)相关研究

Agah等[45]基于重复博弈理论,在无线传感网中构建了入侵检测系统与节点之间的互动模型,并设计了一种可识别恶意节点的通信协议。林旺群等[46]在面对动态攻击意图时,在网络攻防图中引入虚拟节点将其转化为攻防博弈树结构。孙骞等[47]通过定义关键指标如攻击成本、惩罚因子及防御代价,并在此基础上构建了一个适应多路径组合攻击特点的攻防博弈模型。

(4)方法优缺点

基于完全信息动态博弈模型设计的网络安全防御决策方法具有显著优势,在考虑攻防双方持续互动与动态变化的基础上能够适应多种变化情况下的网络安全防护任务;然而该方法的主要缺陷在于对完全信息这一前提条件的要求较为严格导致该方法仅适用于较为有限的具体网络攻防情境

2.1.3 基于不完全信息静态博弈的网络防御决策方法

(1)适用场景

不完全信息静态博弈也被称作静态贝叶斯博弈,在网络安全与战备对抗中具有重要应用价值。其中,在这一框架下,双方决策行为同时进行,并且任何一方都无法全面掌握另一方的决策及其相关收益等关键信息。在这一框架下,引入了局中人的类型概念。这些类型属于局中人的私人信息,并且通过静态贝叶斯方法推断出其他参与方的可能类型。

(2)研究思路

该网络防御决策方法主要建立在不完全信息静态博弈理论基础之上,在这种情况下一般会运用海萨尼转换技术。通过构建虚拟局中人"自然"的形式来展开推理分析,并在此基础上得出最优防御策略方案

(3)相关研究

王晋东等[48]针对网络安全中的防御决策问题提出了创新性研究,在网络攻防博弈模型构建方面进行了深化探索。他们不仅关注于攻击方类型及防御方反击行为的影响因素,还对攻击成功率这一关键指标进行了优化评估,在此基础上提出了一套较为完善的主动防御策略选择方法。陈永强等[49]则聚焦于网络攻防过程中的信息获取难题与损益评估挑战,构建了基于模糊信息理论的静态贝叶斯博弈模型,通过引入三角模糊数定量刻画双方参与者的效用水平,并在此基础上设计出一套科学合理的主动防御策略选择方案。余定坤等[50]在现有研究基础上进一步完善了防御决策框架,将双方参与者按照类型进行细分,认为攻击方混合策略能够有效模拟防御方对潜在攻击行动的可能性预判,在此基础上提出了更具操作性的最优混合防御策略选择方法。刘玉岭等[51]则针对网络蠕虫病毒的最佳防御策略选取问题,构建了一个新型静态贝叶斯绩效评估模型,并基于灰色系统理论提出了一种多属性防护策略绩效评估新方法,为实现最优防御策略选择提供了可靠的技术支撑

王晋东等(48)针对网络安全中的防御决策问题提出了创新性研究,在网络攻防博弈模型构建方面进行了深化探索。他们不仅关注于攻击方类型及防御方反击行为的影响因素,并且对攻击成功率这一关键指标进行了优化评估,在此基础上提出了一套较为完善的主动防御策略选择方法

(4)方法优缺点

基于不完全信息静态博弈模型的网络防御决策方法具有以下优势:一方面,在考虑攻防双方信息掌握的不完全性方面具有明显优势;另一方面,则相较于基于完全信息假设的情况更加贴近实际应用特点。然而,在应用层面存在一定的局限性:即假定攻防双方仅进行单次博弈互动的情况下可能难以满足多轮对抗的需求

2.1.4 基于不完全信息动态博弈的网络防御决策方法

(1)适用场景

不完全信息动态博弈即为动态贝叶斯博弈,在网络安全与系统防护的对抗过程中具有重要应用价值。该博弈模型特征在于参与者采取行动存在先后顺序,在这种情况下后行动的一方能够在观察到先行动方的具体行动基础上获取相关信息。

(2)研究思路

基于不完全信息的动态博弈模型在网络防御决策中通常采用海萨尼转换方法,并运用博弈树结构进行分析与推理过程。在完美贝叶斯纳什均衡解的基础上确定最优防御策略方案。其中信号博弈属于具有信息传递机制的不完全信息动态博弈模型。它通过信号传递机制描述局中人的策略交互过程,并在包括网络主动防御[52 -53]和网络欺骗防御[54]在内的相关领域得到了一定应用。

(3)相关研究

胡永进等 [55 -56]针对网络欺骗防御中的最优策略选取问题,构建了一个多阶段网络欺骗博弈模型,考虑了网络欺骗信号衰减作用,设计了一种优化的网络欺骗防御策略选取算法。Yang等 [57]针对物联网环境下的最优防御策略选取问题,结合物联网特点,提出了一种改进型的多阶段网络攻防博弈模型,并设计相应的防御策略选取算法。Chen等 [58]针对工业控制系统中钓鱼叉式攻击的最佳防御策略选取问题,提出了一个基于多阶段攻防信号博弈模型的方法框架;该方法通过引入符号变量量化表示攻防收益,得出了一个较为合理的最优策略选择方案;同时深入探讨了影响博弈结果的关键因素及其相互作用机制。Liu 等 [59]指出现有基于信号博弈的网络安全防护决策方法大多采用了单向信号传递机制这一缺陷,深入分析了攻防对抗中的双向信号传递机制特性;在此基础上提出了一个更为完善的网络攻防双向信号博弈模型框架;该框架给出了实现最佳欺骗防御策略选择的具体方法论步骤,并分析阐述了不同条件下信报信号的作用机理及其对系统安全防护性能的影响规律。Aydeger等 [60]针对 stealthy链接 Flooding攻击的有效防御策略选取问题,建立了基于移动目标防御信号的改进型网络攻防博弈模型;通过求解平衡态方程组获得了优化后的最佳防御策略选择方案;该方案能够有效缓解stealthy链接 Flooding攻击所造成的影响与危害。Pawlick等 [61 -62]针对网络安全防护体系中最优的防守策略选择问题,建立了一个改进型的网络攻防信号博弈模型框架;通过对平衡态条件下的均衡状态求解过程分析得出了实现最佳防守效果的最佳策略选择方案

(4)方法优缺点

该网络防御决策方法以不完全信息动态博弈理论为基础,在应对网络攻防对抗时表现出显著的优势:它不仅体现了动态性和持续性特征,并且能够有效描述多阶段、多回合式的对抗过程;然而该方法也存在明显的局限性:其在网络攻防建模过程中所涉及的工作量规模较大,并且在进行博弈均衡分析时需要投入较为复杂的计算资源。

2.2 基于新型博弈类型的网络防御决策方法

近年来已有演化博弈理论、微分博弈理论以及时间博弈理论等新型数学模型逐渐广泛应用于网络安全领域的分析与决策中。

2.2.1 基于演化博弈的网络防御决策方法

(1)适用场景

经典博弈论通常假设参与者具备无限的信息处理与计算能力,并声称参与者在决策过程中不会犯错误且不受外界干扰。然而,在网络攻防对抗这样的现实场景下 [64] ,这一假设往往难以成立。由于攻防双方都仅具备有限程度的理性,在此情况下演化博弈论则关注随着时间推移而不断变化发展的群体动态,并将其视为参与者通过学习与进化逐步优化自身策略的过程 [64] 。其核心创新在于突破了传统经典博弈理论对完全理性的过度要求

(2)研究思路

在演化博弈过程中,在学习机制驱动与收益差异影响下,优势策略会在群体中逐渐蔓延,并最终形成演化稳定策略(ESS)。局中人基于演化稳定策略采取防御性决策。

(3)相关研究

Alabdel等[65]基于云存储环境下研究防御APT攻击的最优策略选取问题,并通过演化博弈理论分析APT攻击与防御行为之间的互动关系。黄健明等[66 ,67 ,68]提出改进型激励系数以优化复制动态学习机制,并完善复制动态速率计算方法,在此基础上提出了最优防御策略选取算法。Shi 等[69]构建了一个由防御方、攻击方及合法用户共同参与的三方博弈模型,并通过复制动力学方程求解得到演化稳定策略的状态及其对应的最优诱骗策略选择方案。张恒巍等[70]在考虑攻防双方有限理性及动态变化特征的基础上,结合演化博弈理论与Markov决策过程(MDP)模型,在多阶段Markov攻防博弈框架下构建了完整的对抗性网络防御模型。Hu 等[71]将攻防双方对策略收益的认知不确定性转化为对对方类型分布的概率估计问题,并引入选择强度因子来描述环境噪声的影响程度,在此基础上改进了经典的复制动态学习机制,并设计出了一种新型的最优防御策略选取算法框架。Liu 等[72]针对实际网络中防御方学习能力受限的问题,在拓扑结构已知的情况下提出了基于演化网络博弈理论的网络防御决策方法论框架

(4)方法优缺点

该网络防御决策方法基于演化博弈理论,在突破局中人完全理性假设方面具有显著优势;其主要缺陷在于复制动态学习机制假设所有参与者之间能够以均匀混合、完全接触的方式进行互动;尽管存在这一局限性但在异质群体网络攻防场景下仍可提供可行的解决方案;同时研究者正致力于从多角度对复制动态学习机制进行改进与优化

2.2.2 基于微分博弈的网络防御决策方法

(1)适用场景

微分博弈是在时间实时变化的情况下研究冲突对抗中连续控制过程的一种理论方法。这种理论方法通过将离散博弈过程延展至连续时间域来分析参与者间的互动关系,并允许参与者能够即时更新其控制策略以适应动态环境的变化。该理论框架特别适用于分析具有持续性、实时性和动态性的攻防互动情境中的战略选择与决策机制。

(2)研究思路

该网络防御决策方法的研究流程主要涉及:首先建立网络攻防微分博弈模型;其次开发相应的攻防决策控制函数以及收益积分函数;最后通过求解鞍点控制策略确定最优防御策略。

(3)相关研究

张恒巍等人(参考文献[20])基于快速变化及持续对抗型网络环境下的网络安全防护决策难题,在借鉴传染病动力学理论的基础上构建了安全状态演进模型来阐述网络系统安全状态演变的过程。
黄世锐(参考文献[75])致力于解决网络安全威胁预警中面临的网络攻防持续对抗及动态环境下的实时性挑战,在利用传染病动力学理论深入剖析网络安全威胁传播规律的同时构建了攻防界线栅格以及设置了捕捉区域、规避区域等概念框架,并引入多维度欧氏距离量化评估威胁强度。
孙岩(参考文献[76])致力于探索移动目标下最优化防御策略的有效性研究方法论问题,在综合考量节点级传染病模型与微分博弈理论的基础上提出了适应于连续实时对抗的移动目标防御微分博弈模型框架,并设计开环纳什均衡求解算法以获得最优防御策略。

(4)方法优缺点

该种网络防御决策方法采用微分博弈理论具有显著优势,在连续性、实时性和动态性方面表现突出;其主要缺陷在于搭建网络攻防微分博弈模型以及对决策控制函数进行深入考察的同时还需要进行复杂鞍点控制策略的推导。

2.2.3 基于时间博弈的网络防御决策方法

(1)适用场景

时间博弈源自美国RSA实验室的研究人员Dijs提出的, 其目的是为了构建并研究APT攻击与防御机制的过程. 网络攻防时间博弈则由包括攻击方参与者、防御方参与者以及共同资源共3个要素组成, 而这些参与者将共同努力以获得对共同资源支配权.

(2)研究思路

以时间为参数构建网络防御决策的方法研究,在理论层面通常通过分析公共资源的时间利用情况来评估攻防双方的利益。其中FlipIt博弈及其衍生版本构成了时间博弈分析的核心内容。

(3)相关研究

Dijkstra等[77]针对APT攻击场景中的最优防御策略选择问题最先提出FlipIt博弈模型并将其成功应用于网络攻防博弈分析中得出了最优防御策略选择方法。丁绍虎等[78 -79]则针对APT攻击场景下异构性条件下的拟态防御动态策略评估问题改进了原有的FlipIt博弈模型提出了M-FlipIt模型对拟态防御动态策略进行了更加科学的评估与分析。Laszka等[80]则针对由多组目标资源组成的系统优化防御策略选择问题提出了新的FlipItThem模型并引入了两种新型控制模式即AND模式与OR模式从而实现了更为精确的博弈目标及策略形式化描述。谭晶磊等[81 -82]则致力于解决移动目标防御场景下最优防御策略选择问题构建了完整的移动目标攻防策略集合并运用时间博弈理论深入刻画了单阶段移动目标防御过程中的动态特性同时采用马尔可夫过程来模拟描述移动目标防御状态转换过程以获得更为准确的最优防御响应结果与最优防御策略制定方案。Miura等[83]则基于恶意软件传播特性结合经典的传染病模型构建了一个改进型的FlipIt博弈模型将攻击方与防御方之间的资源争夺关系表现得更为直观具体并基于纳什均衡理论得出了双方在资源分配上的最优响应结果从而确定出一套切实可行的最优防御策略方案。Merlevede等[84]则从时间折扣因子角度出发深入探讨了时间博弈过程中未来收益计算方式提出了一种新型的时间折扣优化方法使得攻防效用函数计算更加科学合理地解决了因收益随时间变化而产生的不确定性问题进而建立了改进型Fliplt模型使得收益成本随时间进行指数折扣分配成为可能实现更为精确的投资回报计算与收益分配方案设计提供了有力的技术支撑保障了系统的长期稳定运行与可持续发展发展需求。Pawlick等[85]则基于物联网环境下复杂网络安全防护需求构建了一个云服务管理员与攻击方之间的信号博弈框架并将改进型Fliplt博弈模型引入其中形成了一个相互依存的合作对抗态势最终通过信号博弈均衡机制实现了双方在初始先验概率条件下的最佳利益平衡从而构建了一个能够有效应对多种网络威胁威胁检测威胁应对及安全防护协同作战的新一代网络安全防护体系

(4)方法优缺点

利用时间博弈理论构建网络防御决策方法具有显著的优势,并特别适合用于刻画资源控制权交替变化的过程;这些方法特别适合用于描述 alternating control of resource access, 特别是在 attacker-defender interactions以及 mobile targets' attack surfaces transitions这样的场景中;其局限性在于 model's applicability and portability仍显不足,并且在 model's flexibility and generalizability方面存在较大缺陷

2.2.4 基于随机博弈的网络防御决策方法

(1)适用场景

随机博弈是博弈论与马尔可夫决策过程(Markov decision process, MDP)结合的结果,在描述系统状态转移过程中具有显著的应用价值。它特别适用于分析具有多个状态和一定随机特性的动态系统行为模式。

(2)研究思路

围绕随机博弈展开的研究工作通常运用马尔可夫决策过程来分析网络攻防行为,并构建对抗性随机博弈模型;通过求解平衡态解来制定最优防御策略。

(3)相关研究

Yue 等人(2018)针对网络安全领域的网络攻击行为预测及防御策略优化问题提出了创新性研究方法;Wang等人(2019)基于随机博弈理论设计了网络安全领域内的攻防过程模拟架构;Wang团队(2020)研究了网络安全环境下的网络生存性问题,并提出了基于动态博弈模型的解决方案;Zhang等人(2021)指出,在随机博弈理论中,默认完全信息假设存在问题,并提出了改进型理论框架;Yang团队(2023)分析发现,在实际应用中完全理性假设难以满足现实需求,并提出了更具实用价值的新一代防御决策算法

(4)方法优缺点

该研究方法的优势在于能够表征网络安全与攻击行为的随机特征及其动态演化过程;其不足之处在于随机博弈模型中网络安全状态转移概率的确立具有不确定性,这导致求解博弈均衡的过程较为复杂,并且现有研究多依赖于专家经验或历史数据来设定转移概率参数,在一定程度上引入了主观性假设。

3****总结与展望

3.1 总结

(1)发展过程

基于攻防博弈理论的网络防御决策方法研究经历了从静态到动态、从完全信息到不完全信息以及从完全理性到不完全理性的发展历程。在研究初期阶段, 为了便于分析、简化计算和易于理解, 研究者主要基于静态条件下的完全信息和完全理性等假设, 分别构建了相对简单的网络攻防博弈模型, 并提出了一系列相应的网络防御决策方法。然而, 随着网络攻防策略日益多样化和复杂化, 对网络攻防博弈建模与分析的需求日益提高。近年来, 随着博弈理论研究的深入发展, 相关学者逐渐转向采用动态条件下的不完全信息和非完全理性等理论框架, 构建更加贴合实际网络攻防场景的博弈模型, 进一步提升网络防御决策方法的实际应用价值

(2)优势特点

博弈论构建了一个数学化的分析框架来描述网络攻防矛盾的本质特征。基于建立网络攻防博弈模型的基础上,在利用数学手段量化攻防收益的同时计算博弈均衡的基础上,在应对网络攻击者的策略制定上形成一套可靠的预测方案,并确定防御方的最佳防御策略,在应对网络攻防对抗中占据主动权、实现有效防御的同时引导决策者转变思维方式,在以攻守平衡视角分析网络安全问题的过程中更加注重综合考量双方的目标偏好、策略依存关系以及信息掌握程度等关键要素,并在动态演化趋势的影响下树立起"适度安全与动态安全"的理念基础,在不断深化对网络安全本质特征认知的过程中形成了正确的网络安全观。

(3)面临问题

现有基于攻防博弈的网络防御决策方法在具体应用中可能会面临3个主要问题。第一,在博弈建模过程中存在考虑因素与模型复杂度之间的权衡关系问题。具体而言,在构建网络攻防博弈模型时需要权衡多个因素的影响程度与其计算复杂度的关系:一方面若仅考虑有限的关键因素,则可获得相对简单的模型以实现快速决策;另一方面若引入过多影响因素,则会导致模型过于复杂难以在实际应用中实现高效的实时决策支持功能。第二,在分析推理过程中存在对信息源依赖性过高的现象以及数据质量有待提升的问题:一方面网络攻防信息系统的数据来源分散且格式各异,并且部分数据可能存在缺失或不完整的情况;另一方面历史数据的可信度也有待提高,在一定程度上会影响整个分析推理过程的质量与结果可靠性。第三,在构建博弈模型时普遍面临其泛化能力不足以及在不同场景间的迁移性较差的问题:即现有的网络攻防博弈模型往往针对特定场景进行了优化设计,并未充分考虑到不同应用场景间的共通需求与适应性要求;这使得这些防御决策方法在实际推广过程中往往需要进行大量的本地化调整以适应新的应用场景

3.2 展望

(1)规范策略的描述机制

策略作为博弈模型的核心要素起着关键作用。网络攻防策略描述机制对于提升博弈建模与推理分析能力具有重要意义。而攻防策略空间规模直接决定着博弈模型的计算复杂度进而关系到网络防御决策的速度与质量。例如,在攻防策略空间相对简单的情况下虽然降低了决策难度但却削弱了网络防御决策方法的实际应用价值;当攻防策略空间过于复杂时则会导致博弈分析难度加大以及均衡求解计算量增加的问题

多数网络防御决策方法是基于研究者根据自身的建模需求来描述攻防策略的。

(2)优化收益的计算方法

网络攻防收益评估作为计算的基础,在网络安全对抗中具有重要意义。由于存在一定的不确定性与模糊性,在量化网络攻防收益时无法采用精确数值进行表征。值得注意的是,在实际应用中涉及的具体数值难以精确量化;这些值因用户偏好以及系统环境的不同而具有差异性。因此,在这种情况下通常会将网络攻防收益定量化为相对无量纲值;其具体数值仅反映强度大小而不具备实际物理意义。

在博弈论分析中进行网络攻击与防御的效率评估时,默认将其定义为空间对称性的基础要素之一

(3)与其他技术相互融合

将博弈理论与其他网络安全技术相互融合视为网络防御决策重点研究方向之一

4****结束语

科学有效的策略对于提升网络安全防护能力至关重要。以攻防游戏为基础的网络安全策略研究已成为该领域的重要前沿课题。本文系统梳理了基于完全信息静态博弈、完全信息动态博弈、不完全信息静态博弈等8种类型及其应用情况。然而如何整合不同类型的博弈模型以适应复杂攻击场景以及验证其有效性并应用于实际网络安全环境中仍是一个待解决的关键问题。

全部评论 (0)

还没有任何评论哟~