Advertisement

基于深度强化学习的智能网络安全防护研究

阅读量:

摘 要

人工智能(Artificial Intelligence, AI)技术的迅速发展为网络空间安全对抗提供了新的思路与技术支持。然而,在网络安全领域中应用AI技术会显著加快网络攻防对抗的速度、增强对抗的强度以及提高对抗的复杂性。基于深度强化学习的研究框架下展开对网络空间智能安全防护的研究工作,并深入探讨该领域中安全防御智能化问题的具体解决方案及实施路径。具体而言,在利用深度学习技术提取网络安全态势数据特征的基础上构建相应的智能系统,并将其应用于实际防护场景中;其中定义了以网络攻击威胁程度作为指导标准建立奖励惩罚机制;通过强化学习算法判断当前策略与动作的优劣性,并在虚拟化网络环境下的综合靶场模拟训练过程中最终生成相应的安全防御智能系统及其最优防护策略等

内容目录 :

1 深度强化学习基础理论

2 基于 DRL 的智能网络安全防护

2.1 状态集合设计

2.2 动作集合设计

2.3 回报函数设计

2.3.1 回报函数

2.3.2 基于动态贝叶斯的网络攻击威胁度评估

2.4 网络安全防护智能体训练过程

2013年,由DeepMind公司主导的研究项目致力于将深度学习与强化学习相结合,旨在构建价值网络以应对智能体在雅达利系列游戏中所面临的挑战。这一创新性工作于2016年引发了广泛关注,标志着强化学习领域的重大突破,alphago的成功证明了这一技术路线的有效性:它通过构建价值网络与策略网络,实现了对弈过程中的强化学习训练。
随后推出的alphagozero继承了前作的框架,在基础研究上实现了两项关键突破:第一,它整合了策略网络与价值网络,形成了一个统一的深度神经网络;第二,通过无知识先验的学习方式完成了自我训练过程。
值得注意的是,这些研究对象均属于完美信息类游戏:玩家均能在实时状态下获取到当前及历史信息。
而对于不完全信息类游戏如星际争霸而言,alpha星的成功展示了该系统成功应对了不完全信息、远期规划、实时响应以及多玩家互动等关键挑战。

DeepMind团队的显著成就促进了人工智能从感知智能向认知智能的发展。其中,在感知智能领域主要以其深度学习技术为核心方法论发展而来;而认知智能则主要基于强化学习策略逐步完善。

强化学习的核心理念在于通过与环境的持续互动来获取知识。在这一过程中, 学习者不断根据从环境中观测到的状态信息, 制定相应的行动策略, 并基于所观察到的环境反馈调整后续的行为模式, 最终达到预定的目标状态。在网络空间安全领域, 攻守双方通过实施攻击行为和防护行为对网络环境产生影响, 并根据实时监测到的网络安全态势变化, 优化自身的对抗策略组合, 最终实现网络攻击与网络安全防护的目的。作为解决网络空间安全攻防对抗问题的关键技术之一, 强化学习通过动态优化策略提升系统的智能化水平。

该文章旨在探讨强化学习的基本理论框架,并对其在网络空间中的应用展开深入分析。
在网络安全威胁防护这一领域中,
我们提出了基于强化学习的安全防御策略。
然而,
目前的研究工作仍存在局限性,
未能有效解决网络安全威胁智能化处理的问题。

01深度强化学习基础理论

强化学习(Reinforcement Learning, RL)通过试错机制与环境进行互动,在最大化累积期望回报的过程中构建最优策略体系。该系统的核心目标是其智能体Agent与环境持续交互并优化性能,在动态变化中实现最优状态到行动的映射关系构建。如图1所示展示了强化学习的基本工作原理。

图1 强化学习原理

强化学习系统主要由4个核心要素构成:状态变量s、动作选择a、奖励信号r以及策略网络π(a|s)。这些要素共同构成了强化学习的基本框架。

状态空间 S:s ∈ S,状态集合。

动作空间A:a ∈A,动作集合。

累计期望回报 R 的计算方式为:

在公式中,γ ∈ [0,1] 代表折扣因子,在累计奖励计算中决定了未来某一时刻奖励的价值比例;同时E代表r的数学期望。强化学习的核心目标在于最大化累积回报期望值,在此过程中构建有效的回报函数至关重要。

策略 π(a|s): 状态空间到动作空间的映射函数, Agent 依据策略 π(a|s) 生成动作 a。

时间序列 T:t ∈ T, t 表示当前时刻, t+1 表示 t时刻的下一时刻。

Agent 根据输入的环境状态

该策略 π(a|s) 选择相应的动作对环境施加影响,在执行相应动作后返回的状态信息以及相应的奖励信号再次输入到 Agent 中。随后该 Agent 对当前策略 π(a|s) 的性能进行评估,并根据评估结果从而进一步优化并作出新的决策。

如 图2 见示 ,强 化 学习 主 要包 括基 于值 函数 ( Value -based) 的 强化 学习 和基 于策 略函 数 ( Policy -based) 的 强化学 习 。

图 2 强化学习分类

该算法将行动者与评论家的双重优势巧妙结合,
由策略网络和价值网络组成其核心架构。
负责选择动作的策略网络通过参数化概率分布
输出可能的动作选项,
而对动作质量进行评估的价值网络则利用神经网络
计算状态与动作之间的关系。
在训练过程中,
策略网络根据时序差分误差不断优化自身参数,
这一机制确保了模型能够逐步提升决策质量。
整个系统中,
策略网络π(a|s)与价值网络(s,w)
共同作用实现对复杂任务的有效处理。
该模型适用于高维状态空间的情形

基于动作数据的采集与处理过程中,本文设计了一种深度神经网络模型,并详细阐述了该方法的核心机制。该模型通过...的形式对输入的数据进行特征提取,并结合优化策略评估模型与价值评估模型共同完成对目标函数的学习过程。

图 3 为 Actor-Critic 逻辑架构。图中,Actor 网 络使用环境状态

作为输入端的数据,在生成动作方面对模型进行训练。 Critic 网络通过计算状态下的最优价值评估,在此过程中不断优化自身性能。 Actor 通过采用改进型的价值迭代算法重新估计网络参数θ,并以此为基础选择新的行动投射至环境中。 Critic 网络则基于环境反馈的信息持续更新网络参数w,并在此基础上运用新的权重信息重新计算并输出新的价值评估结果。 在这一过程中,Critic 的核心评估依据是以 TD 误差为基准来衡量模型性能的标准,其中 TD 误差直接反映了当前估计值与预期目标值之间的差异程度,其数值越大则表明对应样本的价值判断越为精准。

图 3 Actor-Critic 逻辑架构

TD 误差的表达式为:

Critic 网络使用均方差损失函数作为参数 w 的 更新梯度,表达式为:

Actor 网络使用带权重的梯度更新策略网络参数θ,表达式为:

02基于DRL的智能网络安全防护

采用了基于DRL的安全威胁防御智能系统在虚拟化环境中建立了一个动态的安全威胁防御模型作为研究的基础。该系统通过Actor-Critic算法与深度神经网络相结合的方式搭建了完整的DRL安全威胁防御框架,并在实验环境中验证了其有效性。

基于云计算平台搭建起来的就是虚拟网络空间综合靶场这一系统模型,在真实运行环境中进行仿真实验和数据验证。系统内的数据来自真实运行的网络,并通过接口实现了对现实环境下数据的支持和同步。这样的设计让 Agent 的训练与学习更加贴近真实的场景需求。当我们把虚拟化的网络综合靶场替换成真实的运行环境时,则无需进行额外的迁移学习就能直接应用现有的训练成果。

图 4 智能网络安全防护 DRL 框架

2.1 状态集合设计

状态集合 S 被定义为网络状态信息的集合,并且表示关于网络已知信息的客观描述数据;该数据在强化学习中具有重要价值。其中各组成部分的状态要素按照表 1 进行分类说明。

表 1 状态要素

在表 1 中的状态元素被划分为一个类别。每个分类都包含更为详细的具体原子状态信息。所有这些具体的信息共同构建了环境元素集合来形成完整的环境空间。例如:攻击对象相关的具体原子状态信息包括但不限于计算机、网络路由器、网络交换机、系统及服务等基础硬件设施和相关软件组件;此外还包括安全设备与工业设备等其他关键设备;攻击来源相关的具体原子元素则涵盖了IP地址域内的地址分配情况以及对应的域名注册记录;在AS号维度上则包含了当前运行的业务骨干网AS拓扑关系信息;最后在安全策略层面还包含了针对各个关键资源的安全策略配置情况等各项必要参数数据

2.2 动作集合设计

所有可执行的动作构成了Agent的动作集合A。该策略在每一步t+1时会根据当前状态st+1遵循一定的选择规则来决定具体的行动at,并将该行动纳入到下一步的状态中。通过表2展示了不同动作要素的分类情况。

表 2 动作要素

在表2中定义的动作要素被划分为一个分类体系;每个分类包含更为具体的原子操作;这些原子操作共同构建成了完整的操作集合,并形成了一个操作空间。

2.3 回报函数设计

2.3.1 回报函数

回报函数通过每一步决策给予动作相应的奖励或惩罚,并对其性能进行评估。在强化学习过程中发挥着引导作用的回报函数,则通过指导Agent与环境交互来不断优化策略以促使选择具有最高价值回报的动作。

回报函数为:

当Agent在时间t选择动作at并执行后, 环境在时间t时给出网络攻击威胁度xt, 并且xt属于集合X.若xt大于阈值X_threshold, 则给予正向反馈以奖励Agent;若xt小于Threshold_X, 则给予负向反馈以惩罚Agent;当xt等于Threshold_X时既不给予奖励也不施加惩罚.需要注意的是, 在本框架中Threshold的具体取值需根据实际情况自行确定.

2.3.2 基于动态贝叶斯的网络攻击威胁度评估

基于动态贝叶斯方法的网络攻击威胁度评估过程中,首先需要明确攻击威胁各组成部分及其相互关系,并以此为基础按照要素间关系构建相应的贝叶斯模型框架;其次需要确定贝叶斯网络各节点的先验概率以及条件概率表;最后对构建的贝叶斯网络模型进行推理计算以评估威胁程度。

静态贝叶斯模型在时间维度上展开得到动态贝 叶斯模型,如图 5 所示。

图 5 动态贝叶斯网络威胁度评估模型

动态贝叶斯网络推理通过滤波算法基于过去结果及当前证据推导出当前状态的推理方法 其数学表达式为:P(X_t|e_t) = \sum_{x_{t-1}} P(x_t|x_{t-1})P(x_{t-1}|e_{t-1})

(6) 式中:E 代表作为证据的关键节点;X 表示与相邻时间片相关联的关键节点;t-1 代表上一个时间点;t 代表当前时间点;P(E_t) 和 P(X_t) 分别为当前证据 E 和关键节点 X 的先验概率;P(X_t|E_t) 是基于当前证据进行滤波推理前的概率结果;P(X_{t-1}|E_1:t-1) 和 P(X_{t-1}|E_1:t) 分别为上一时间段和当前时间段经过滤波推断后的概率结果;P(X_t|Ex) 表示从过去到当前状态转移的概率分布;X_x 为上一时间段滤波推断后概率最高的状态节点;A 则为归一化常数因子

2.4 网络安全防护智能体训练过程

图6展示了网络安全防护智能体的训练过程示意图。其中训练内容主要包括:包含了网络安全态势状态数据、与安全防护动作相关的样本数据集;同时还包括虚拟化的网络空间综合靶场仿真环境;并结合了Actor神经元网络与Critic神经元网络的协同运作机制。

图 6 中的网络安全防护智能体训练过程描述 如下。

步骤 1:搭建Actor与Critic神经网络架构,并建立Actor策略模型与Critic价值模型。鉴于网络安全态势信息与安全防护行动数据均为高维特征,在构建过程需采用深度学习框架设计多层感知机结构。并设定初始训练次数、折现因子及学习率等关键参数值。

步骤 2:利用实际网络环境获取相关数据样本;通过分析技术手段识别并收集网络安全攻击样本;基于动作集合设计框架中定义的动作要素和标准规范,系统性地构建网络安全防护行动数据库。

步骤 3: 将网络安全态势数据作为模型的训练数据输入。

步骤4中,基于行为决策函数,在动作空间A中挑选相应的动作由agent生成并反馈至模拟环境。

步骤5:在仿真环境中进行动作 actions 的执行,并将动作完成后所形成的网络攻击威胁程度以及新的网络安全态势状态作为 Critic 网络的价值网络输入参数。

步骤6:用于评估状态价值的Critic网络通过特定方法对TD误差(td_error)进行计算,并执行求取最小值操作以确定min(td_error²);随后,系统采用策略梯度算法对神经网络参数w进行更新,并将该TD误差作为反馈输入至用于指导动作选择的Actor策略网络中

步骤 7:Actor 策略网络使用策略梯度算法更新 神经网络参数 θ。

步骤 8: 重复步骤 3 至步骤 7, 直至训练结束。

步骤 9:经过训练后,在线性空间中求解得到的动作型智能体参数与状态值型网络参数共同构成了一个智能体 Agent,在线性空间中求解得到的动作型模型与状态值型模型共同构成了一个最优控制模型,在这个过程中所获得的行为即为网络安全攻击与其对应的最优防御策略

图 6 网络安全防护智能体训练过程

03结 语

本文致力于探索网络空间安全防护智能化的路径与方法。
研究团队深入探讨了深度强化学习在解决相关问题中的应用及其工作流程。
通过深度学习模型提取网络安全态势的数据特征信息,
构建具备自主决策能力的安全威胁识别智能体,
基于回报函数的反馈机制引导强化学习过程,
实现对威胁行为的动态评估与优化。
该智能体能够根据预设的安全防护策略模型快速响应攻击行为,
并在虚拟网络环境中的综合靶场中完成持续的学习训练,
最终形成一套完整的最优安全防护策略集合。

可被视为超越传统领土、领海及太空范畴的"第五空间"。该区域构成国家主权的重要疆域,在国家安全中扮演关键角色。当前[信息网络]安全已被确定为国家信息化建设的基础性支撑体系。相关技术领域持续取得的进步为网络安全防护提供了更为坚实的保障与创新手段。此外网络安全领域的对抗性将更加智能化 研究方向也将持续深化

全部评论 (0)

还没有任何评论哟~