Advertisement

基于深度学习的网络入侵检测研究综述

阅读量:

摘要

目的

文献范围

方法

结果

局限

结论

关键词: 网络安全; 入侵检测; 深度学习; 机器学习

引言

随着信息技术的演变,互联网已在多个关键领域发挥着重要作用。与此同时,网络空间的安全威胁也日益严峻,由国家网信办发布的《2020年上半年我国互联网网络安全监测数据分析报告》显示:(1)在恶意软件领域,我国超过30万台主机感染了计算机病毒或蠕虫程序,同比上升25.7%,造成大量僵尸网络出现;此外,移动终端端上恶意软件数量也大幅攀升。(2)在漏洞利用方面,上半年国家信息安全漏洞共享平台共发现通用安全漏洞1.1万项,同比增长89%。(3)在DDoS攻击方面,分布式拒绝服务攻击仍是当前网络安全领域的最大威胁之一,大流量DDoS事件对用户造成显著影响。(4)在网络基础设施方面,我国约3.59万个网站被植入后门程序,较去年同期增长36.9%,其中不少网站的安全防护机制已严重失效。(5)在云服务安全管理中,目前通过互联网连接的工业设备数量已达4630台,一旦这些设备遭受渗透或攻击,将严重影响生产系统的安全性;此外还有大量关键信息基础设施及其相关控制系统的网络资产信息被境外机构窃取[1]。(6)随着新型网络威胁不断涌现,保障网络安全已成为当务之急,各方必须采取有效措施加以应对

入侵检测系统(Intrusion Detection System, IDS)源自Anderson等人[2]在1980年提出的用于分析用户审计数据的"计算机安全威胁监测和监视系统"这一概念。遵循相同的思路,Denning[3]则提出了通过从审计数据中提取出用户的特征信息来识别入侵活动的方法,即通过分析主体与客体之间的行为模式获取知识,并建立一套检测异常行为规律的规则体系。这些开创性研究奠定了现代入侵检测技术的基础, IDS作为一种重要的网络安全防护技术体系,充分整合了软硬件资源,通过对网络运行状态进行持续监控工作来识别潜在的安全威胁并及时发出警报提示.这对于系统的管理者来说不仅能够快速发现潜在的安全问题还能为其制定相应的应对措施提供可靠依据.最终能够有效保障网络系统的机密性、完整性和可访问性

入侵检测技术在其所处的安全网络防护领域内扮演着关键角色,并非仅仅停留在理论层面的研究状态。伴随机器学习技术的进步,在实际应用层面已有诸多研究致力于将其应用于入侵检测任务之中。然而,在面对日益复杂的攻击手段以及急剧增长的网络数据量时,仅靠传统机器学习方法构建而成的IDS系统面临着难以克服的技术瓶颈。而深度学习作为一种子领域,则凭借其独特的特性展现出显著的优势:它不仅能够深入挖掘样本数据中的潜在模式,并且在特征提取与模型构建过程中展现出更高的效率;这种特性使其成为解决当前网络安全领域的核心挑战的理想选择。

本文对入侵检测的相关研究进行了系统梳理,随后重点阐述了基于机器学习的新进展和应用现状,最后深入探讨了深度学习在入侵检测中的具体实现和优势,并对当前的技术挑战及未来研究方向进行了深入分析。

本文内容安排如下:首先阐述入侵检测系统的分类问题;接着探讨了入侵检测数据集以及相关的评估指标;然后对基于传统机器学习算法所构建的模型展开了系统性分析;随后深入探讨了深度学习算法在 intrusion detection 中的应用现状;第五部分则对 intrusion detection 系统未来的研究方向进行了深入探讨;最后总结全文。

1****入侵检测系统的分类

一般情况下而言,在实际应用中通常会根据数据来源类型与采用的检测技术对入侵检测体系进行分门别类的划分,并且其详细分类框架则可见于图1所展示的具体结构安排。

图1

1入侵检测系统的分类框架

Fig.1 Classification framework of intrusion detection system

1.1 基于数据来源的分类

依据不同数据来源, 分类方法 可以用来对主机和网络中的异常行为进行区分。

基于主机(Host)的入侵检测系统(HIDS)[4]主要依据所监控主机的数据进行收集与分析。通常情况下,HIDS以日志文件作为主要信息来源,通过对其解码与深入分析来识别各类入侵威胁。该系统的优势在于具有较高的性价比和较低的误报率,然而其局限性在于仅能监控特定程序运行情况,且必须在每个被监控主机上进行部署安装,因此覆盖范围较为受限。

基于网络架构的入侵检测系统(NIDS)[5]通过分析数据包内容来识别潜在的安全威胁。该系统实时监控网络流量,并根据预先定义的安全规则判断是否存在异常行为。随着互联网技术的发展,入侵检测系统(IDS)已将研究重点转向针对网络内部的操作攻击。NIDS的优势在于能够实现对整个网络环境的有效监控,而无需在每台主机上部署专门的安全软件,但其局限性在于检测能力主要针对非加密数据传输过程,难以应对需要大量计算资源和长时间分析的数据安全威胁。

1.2 基于检测技术的分类

具体采用的方法,在入侵检测领域主要可分为基于误用行为的入侵检测技术和基于异常模式识别的入侵检测技术。

基于误用的入侵检测系统(MIDS)利用网络流量与现有攻击特征库进行比对分析,并依据结果来识别入侵行为.该系统的基础条件是可以采用特定形式描述攻击,例如通过模式或签名的方式进行刻画.

基于异常(Anomaly)的入侵检测(AIDS)通常需要对系统中的常规操作进行采集。随后识别这些操作的特点,并对其进行定量分析。当用户的操作模式与常规数据存在差异时,则将其视为潜在威胁。由于这种方法能够识别未知攻击手段,在学术界相关研究中占据重要地位。

2****入侵检测系统的数据集和评估方法

2.1 数据集

采用数据集对入侵检测系统的性能进行评估,伴随着IDS的进步,涌现出了众多优质的数据集。目前基于网络的入侵检测数据集种类丰富,主要包含DARPA 98、KDD 99、NSL-KDD、UNB ISCX2012、UNSW-NB15以及CICIDS2017等多个代表性实例。

DARPA 98[6]是由林肯实验室于1998年和1999年间建立的,旨在进行网络安全分析。该系统通过模拟人工注入攻击与正常网络流量来测试其安全性能,并因此受到了研究人员的广泛批评。这些模拟攻击与正常的网络流量导致了冗余资源及其他违规操作的出现。

基于DARPA 98数据集构建而成,并由美国空军模拟网络环境生成,并包含了多种模拟攻击样本,KDD 99[7]是当前应用最为广泛的流量数据库之一.该数据库将流量划分为五类:正常连接、探针攻击(Probe)、远程登录(R2L)、会话逆向(U2R)以及分布式拒绝服务(DoS).每个样本由41个特征维度和一个分类标签组成.作为对KDD 99的一个改进版本,NSL-KDD数据集[8]通过去除了训练与测试阶段重复或无用的数据样本,在保留原有核心特征基础上实现了更优的数据分布

该数据集[9]采用参数设置实现了按需生成的特点,在实验环境中展现出良好的可扩展性和灵活性。它不仅能够反映出当时整体流量构成以及入侵事件的发生情况,还允许对其进行灵活调整、扩展以及原生复现。与经典的KDD 99数据集相比,该数据集[9]在模拟真实的网络安全威胁方面表现更为贴近现实。

为了应对现有如KDD 99和NSL-KD等数据集在全面反映网络流量特征以及现代低带宽消耗攻击类型方面的不足问题,Moustafa团队[10]成功开发了UNSW-NB15数据集。该研究团队基于上述问题特点开发出了UNSW-NB15数据集,旨在弥补现有测试基准在某些关键指标上的缺失,从而更贴近真实网络环境的需求。值得注意的是,以往的数据集中存在流量多样性不足、攻击种类覆盖不够等问题,此外匿名的数据包信息与有效载荷也无法充分反映当前网络安全趋势,这使得相关研究在某些关键指标上存在明显偏差。为此,加拿大网络安全研究所为入侵检测系统提供了系列相关标准测试数据集,其中包括CICIDS2017[11]和CSE-CIC-IDS2018[...]两个著名基准库,这两个基准库不仅包含了典型的七种主要攻击类型(如DDoS、PTA、SOD、UAUQ等)以及正常流量特征,还能够高度模拟真实网络环境下的复杂情况。

2.2 评估方法

目前入侵检测系统的评估主要基于二分类算法的性能评估指标来衡量其表现水平。这些指标通常包括准确率、召回率等关键数据特征。

TPR代表真阳性率,在真实标记为恶意的所有数据中被正确识别的比例;该指标数值越大越好

(2) false positive rate(FPR),即假阳性率,在所有实际为良性样本的数据中被错误分类为恶意样本的概率;从优化目标来看,该数值应尽可能小。

(3) DR:检测效能,衡量该方法在恶意样本检测方面的能力表现,数值越大越好;

Precision度量标准:在真实类别中为恶意样本的数据占被分类器预测为恶意样本数据的比例,该指标越高越好;

(5) ACC:将实例正确地分为良性样本和恶意样本的比率;

(6) AUC值等于ROC曲线下面积。该曲线基于TPR与FPR参数计算得出。AUC值越大越好。

3****基于传统机器学习的入侵检测技术

传统机器 learning 方法在基于异常的入侵 detection 领域得到了广泛的应用。一般来说,在数据科学领域中应用最为广泛的算法之一是支持向量机(Support Vector Machine)。通过引入核函数的方法来处理非线性问题。本节主要从三个主要类别出发进行阐述:监督 learning、无监督 learning 以及半监督 learning。最后进行了归纳总结,并进一步分析了基于传统 machine learning 方法的 intrusion detection 存在的一些局限性。

3.1 监督机器学习方法

(1)隐马尔可夫模型

隐马尔可夫模型(Hidden Markov Models, HMM)是一种用于分析序列数据的概率统计工具,在网络入侵防护领域具有重要应用价值。研究者Ariu等[12]首次将HMM技术应用于Web安全领域,在分析有效加载脚本时展现出显著的效果。然而该方法未能充分考虑负载长度因素,在提升整体准确率方面仍有改进空间。Xiao团队[13]则将HMM与主成分分析结合,在异常流量based网络入侵防御中取得了不错的效果:通过PCA提取特征作为HMM输入值,并依据概率结果判断流量类型。针对车载自组网中复杂性较高的安全问题,Liang等[14]提出了基于HMM的过滤方案:通过建模车辆状态模式实现快速消息筛选功能。实验数据显示该方案在 detection rate,detection time以及 overhead等方面表现优异

(2)K近邻算法

K近邻算法(K-Nearest Neighbor, KNN)不仅具有较高的精度和成熟的理论基础,并且特别适用于解决入侵检测中的多分类问题。然而,在面对日益复杂的网络数据特征时,其维度的增长可能导致分类性能显著下降。对此,Chen团队[15]提出了一种结合树种子算法(TSA)的新方法:首先采用了基于树种子算法的数据预处理步骤;随后在提取有效特征的基础上应用标准K近邻方法进行分类;实验数据显示该组合模型能够有效地去除冗余特征,并显著提高网络入侵检测的准确性和效率。作为一种改进型的经典方法,P K近邻算法(PKNN)特别适用于解决多标签分类问题,在这一领域具有重要价值:它优先考虑样本与待分类输入项之间更为接近的类别归属关系。为此,Saleh团队[16]开发了一种新型混合入侵检测系统:该系统首先采用了基于朴素基特征选择(NBFS)的技术来降低样本数据维度;随后应用了经过优化的支持向量机(OSVM)以识别并剔除异常点;最后利用改进型P K近邻方法执行攻击检测任务。在多个典型测试集如KDD 99、NSL-KDD和Kyoto2006+上开展的实际测试表明:该混合系统不仅能够快速识别攻击行为而且具备良好的实时性特点。

(3)支持向量机

支持向量机(Support Vector Machine, SVM)主要用于解决小样本、非线性问题及高维数据的分类问题,并具有较强的泛化能力,在入侵检测领域具有广泛的应用。在数据采集阶段实施降维处理能够显著提升检测效率。Chen等人[17]提出了一种基于压缩采样的SVM入侵检测模型,在该模型中利用压缩感知理论中的压缩采样方法对网络流量特征进行提取和压缩,并通过SVM对其进行分类判断。该研究不仅大幅降低了训练时间和运行时间,并且展现出良好的分类效果。此外,在攻击检测方面[Rigas等人[18]]提出了一种基于主成分分析法的SVM攻击检测模型,在该模型中通过对原始数据集实施主成分分析得到优化属性集,并在此基础上训练SVM分类器以实现攻击行为的识别与判断。实验表明该方法能够在KDD 99标准测试集上显著提高攻击检测效率的同时降低误报率。Wang等人[19]则通过LMDRT(logarithms of the marginal density ratios)方法改进原始特征质量,并在此基础上构建基于SVM的支持向量机入侵检测系统(IDS)。实验结果表明该改进型 IDS 在准确率、召回率、误报率以及训练速度等方面均较传统 IDS 具有显著优势并展现出较强的鲁棒性能

3.2 无监督机器学习方法

无监督学习主要针对先验知识匮乏以及难以人工标注类别等情况进行问题求解,在入侵检测领域具有重要应用价值。该技术无需对数据进行类别标注即可直接完成网络数据分类任务。此外,用于降维的无监督方法能够有效消除数据集中的冗余信息及不相关性问题,并减少计算负担。常用的无监督机器学习算法包括k-means聚类、高斯混合模型以及主成分分析等方法。

(1)k-means

经典的无监督聚类(Unsupervised Clustering)方法k-means,在网络安全领域得到了广泛应用。
该算法通过与其他技术的结合来提升性能表现,并针对传统k-means算法的不足进行优化。
Aung等人[20]提出了将k-means算法与分类回归树(CART)相结合的方法以构建入侵检测模型。
Al-Yaseen等人[21]提出了一种多级入侵检测体系,在该体系中首先对原始训练数据集进行了优化处理以改善分类器效率,
然后采用支持向量机和极限学习机作为多层次分类器,在KDD 99数据集上进行了评估分析,
最终获得较高的准确率指标(ACC),达到95.75%。

(2)高斯混合模型

基于高斯混合模型(Gaussian Mixture Model,GMM)的概率分布建模机制,能够有效识别网络流量中的恶意数据样本。当攻击样本与正常样本的分布特征相仿时,可采用高斯混合模型对特征维度进行建模分析,从而实现两种类型样本的分类识别[22]。为了应对训练数据不平衡、误报率居高不下以及难以检测未知攻击等挑战性问题,Chapaneri等人[23]提出利用高斯混合模型学习各类别流量的统计特性,并通过基于四分位距自适应阈值的方法精准定位异常点。在CICIDS2017数据集上的实验结果表明该方法具有显著的异常检测能力。

(3)主成分分析法

主成分分析法(PCA)是一种广泛采用的特征提取手段,在数据处理领域具有显著的应用价值。该方法通过降维技术将高维度的数据转换为低维度表示形式,并能在这一过程中保持关键信息的主要特性。研究文献[24]则结合主成分分析法与费舍尔判别比方法(FDR)来进行特征筛选与降噪处理,在此基础上又采用了概率自组织映射模型(PSOM)对特征空间进行了建模工作,该模型能够有效地区分正常与异常连接行为。

3.3 半监督机器学习方法

面对日益增长的网络数据流量,在仅依靠专家知识进行人工标注的情况下难以获得大量高质量标注的数据,并导致训练数据集规模相对较小。这使得模型难以准确识别攻击行为。半监督学习方法结合了有监督学习和无监督学习的优势,在一定程度上避免了过度依赖标注的数据,并充分挖掘已有未标注数据中的类别信息;因此在网络安全领域得到了广泛应用。

现有未知攻击检测方法所采用的特征缺乏代表性性状,在此情况下导致了较低水平的检测精度。许等人[25]采用了改进后的k-means半监督学习算法,并实现了对历史数据的自动标注过程,在此过程中获得了大量经过准确标注的训练样本。研究者们引入了信息增益的概念,并采用信息增益率作为标准来筛选出更具代表性的特征,在此过程中从而提升了模型识别未知攻击性能。实验结果显示,在不同目标网络中实施该方法后,未知攻击被检测到的准确率达到90%以上。针对网络流量在不同类别间存在严重失衡以及训练集与测试集在特征空间中分布不一致的问题,Yao等人[26]提出了一个多层结构化的半监督入侵检测模型框架。该框架采用了层次化的半监督聚类方法(基于k-means)来缓解类别不平衡问题,并通过区分测试集中已知与潜在未知模式样本的方法来优化分布匹配度问题。实验结果显示,在总体准确率、F1-Score以及识别潜在未知模式的能力等方面均超越了现有入侵检测技术方案

3.4 总结与讨论

传统机器学习方法在入侵检测领域有着较为广泛的应用,在表1中我们列举了基于传统机器学习方法进行入侵检测的相关研究。其中具体明确了所采用的技术手段以及数据预处理方案、特征提取方法、评估基准、任务类型划分和评价标准。

1基于传统机器学习的入侵检测

Table 1 Intrusion detection based on traditional machine learning

| 文献 | 传统机器
学习方法 | 数据处
理方法 | 特征选
**/**提取 | 数据集 | 任务
类别 | 性能评价 |

--- --- --- --- --- --- ---
[13] HMM、PCA 数据传输、数据归一化和特征提取 |Kyoto 2006+ 二分类 Precision:98.3%、ACC:99.1%、Recall:95.1%
[15] KNN、树种子算法(TSA) 数据归一化 KNN-TSA KDD 99 二分类 ACC: 87.34%

| [16] | KNN、SVM | 数据缩减、攻击类别转换、数据标准化 | NBFS | KDD 99、NSL-KDD 、Kyoto 2006+ | 多分类 | DR:KDD 99:94.58%(DOS)、93.25%(R2L)、92.02%(U2R)、91.12%(Probe);NSL-KDD:95.77%(DOS)、95.60%(R2L)、94.85%(U2R)、94.21%(Probe);
Kyoto2006+:94.97%(DOS)、94.81%(R2L)、93.93%(U2R)、93.87%(Probe) |

[17] SVM 零-均值规范化 压缩采样 KDD 99 多分类 DR: 99.01%(R2L)、98.39%(Dos)、FPR:1.13%(U2R)、0.94%(R2L)
[21] k-means、SVM 对数缩放 |KDD 99 多分类 ACC:95.75% DR:99.53%(Dos)、31.39%(R2L)
[22] GMM ||NSL-KDD 二分类 ACC:94.28% 、DR:97.21%、 FAR:8.59%
[25] PCA、IG、k-means |k-means、信息增益率 NSL-KDD 二分类 ACC:90.48%、DR:89.01%、FAR:2.45%

(其中的“\”代表该方法无法参与该项的比较)

新窗口打开**|下载CSV**

通过对大量文献的研究发现,在解决当前入侵检测系统面临的问题时,大多数研究工作都会综合运用多种机器学习算法来提高检测效果。具体而言,在构建检测模型的过程中通常会经历两个主要阶段:首先通过特征提取与筛选作用对原始数据进行预处理;然后采用分类器构建机制完成模型搭建。在选择分类器的过程中既可以对基础模型进行优化改进;也可以结合集成策略将多个分类器融合使用以提升整体性能。然而随着攻击手段的不断进化以及A/C流量数据规模持续扩大且维度日益提升的现象日益明显;加之正常样本与攻击样本之间的严重不平衡状态更加突出;使得单纯依靠传统机器学习方法开展入侵检测工作仍然存在诸多不足:主要表现在过于依赖人工特征提取导致难以深入挖掘数据内在规律;未能有效考虑网络流量的时间特性、空间分布等关键属性;以及缺乏对多维空间中数据相关性关系的有效分析;这些缺陷使得基于传统技术手段实现有效的网络威胁预测仍面临诸多难题

4****基于深度学习的入侵检测技术

传统的机器学习方法属于较为浅层的学习机制,在面对日益增长的数据量和数据维度的持续提升时,这类方法往往难以达到预期的效果。在这一背景下,深度 learning 技术应运而生[27]。这些理论和技术已在机器 learning 应用领域取得了显著进展。近年来,depth learning 技术推动了人工智能及其相关产业的大发展大繁荣。depth learning 方法可划分为生成式无监督 learning、判别式有监督 learning 及混合型深度 learning 三大类型[28]。基于所述理论框架的设计架构如图 2 所示,在这种架构下,depth 神经网络模型主要承担特征提取与分类识别两大核心任务。

图2

2基于深度学习的NIDS结构

Fig.2 The NIDS structure based on deep learning

4.1 生成式无监督方法

基于无标签数据的生成模型不仅具备强大的特征学习能力,还能用于模式识别和数据重建,同时能够统计和描述多变量间的联合概率分布情况[28]。

(1)循环神经网络(Recurrent Neural Network,RNN)

循环神经网络[29]建立在传统前馈神经网络的基础上,RNN之所以被称为递归结构,是因为其设计特点使其能够对序列数据进行处理,其输出结果取决于前面所有输入单元的计算结果,RNN能够有效提取时间序列特征,这使其特别适合用于处理与序列相关的入侵检测问题。Suda等人[30]针对车载网络安全系统中的入侵检测问题提出了基于时间序列特征提取的方法,该方法利用RNN模型实现了对数据包时间序列特征的有效提取。燕昺昊等人[31]则开发了一种结合深度循环神经网络(DRNN)与区域自适应合成过采样算法(RA-SMOTE)的入侵检测模型,该模型不仅显著提升了低频攻击样本的检测能力,而且通过RNN的时间序列循环机制深入挖掘并充分利用了样本间的时序依赖关系,从而显著提高了模型对数据特性的刻画能力和整体检测性能水平。

然而,在一些长时依赖问题中,传统的RNN因其自身结构特点在训练过程中存在问题例如梯度消失与爆炸等问题为此人们发展出了长短期记忆(Long Short-Term Memory networks LSTM)网络以及门控循环单元(Gated Recurrent Unit GRU)[29]

(2)自动编码器(Auto-Encoder, AE)

该方法基于自动编码器[36]对高维数据进行特征提取,在训练过程中, 通过尽量使输出结果与输入数据保持高度相似来确定最优的网络结构, 其展现出强大的非线性泛化能力。这种技术的主要应用是实现高维空间数据向低维空间的有效映射。

随着入侵检测系统处理的数据量急剧增加,处理大规模数据已成为入侵检测系统面临的一个关键挑战,为此,自动编码器已被广泛应用于降维任务中以降低数据复杂性。研究者Shone等[36]在此基础上提出了一种堆叠非对称深度自动编码器(NDAE)模型,通过该模型进行特征提取分析后发现,NDAE较传统方法显著提升了检测性能。随后,Li等人[37]又提出了一种基于随机森林算法的自适应入侵检测系统,采用了一种基于浅层自动编码器的神经网络架构,相较于未采用特征提取的传统方法,该体系不仅降低了计算复杂度,还显著减少了检测所需的时间,并且实现了更高的预测精度。为了进一步提高Web攻击探测的准确性,Vartouni等[38]开发了一种基于稀疏自动编码器的异常探测方法,重点采用了稀疏自动编码器来进行特征提取过程,与传统不进行特征提取的方法相比,该方法能够实现更高的预测精度

该研究中的深度自动编码器(DAE)具有多层隐藏结构,在每一层次之间均实现了有效的特征提取与信息融合。Farahnakian等[39]研究者将DAE应用于入侵检测系统的设计。为了防止过拟合及陷入局部最优解的问题,他们采用了逐层贪婪的优化策略,在KDD-99数据集上进行了评估实验。实验结果表明该方法具有较高的准确率和检测率指标。针对网络环境下的复杂威胁环境,在提高模型泛化能力的基础上进一步增强了对未知攻击模式的识别能力。为此,Yang等人[40]提出了一种基于正则化对抗式变分自动编码器的新模型架构,在基准数据集上的评估结果显示该模型在异常流量识别方面表现出了显著的优势

(3)深度玻尔兹曼机(Deep Boltzmann Machine, DBM)

深度玻尔兹曼机是一种基于受限玻尔兹曼机(Restricted Boltzmann Machine, RBM)构建而成的深度学习模型,并由多层RBM依次叠加构成。受限玻尔茨曼机能够从原始数据中提取出具有深层特征的信息,在入侵检测等应用场景中得到了广泛应用。然而随着攻击手段和技术的进步,之前积累的区分正常流量与异常流量的经验可能逐渐失效。对此提出一种自适应学习系统显得尤为重要,以便能够动态更新与完善对异常行为的认知体系。Fiore等人[41]提出了一种基于判别式的受限玻尔兹曼机模型,在捕捉正常流量固有特性的同时表现出较高的分类精度,并通过将训练数据与测试场景严格分离的方法实现了神经网络在未知环境下的泛化能力评估。研究表明这种情况下分类器性能会受到测试环境与训练数据来源差异的影响较为明显。Aldwairi等人[42]则尝试将受限玻尔茨坦机应用于网络流量中的异常检测任务并基于ISCX数据集进行了实验结果表明该方法能够有效地区分正常与异常NetFlow流量但在两层RBM架构上存在研究局限性Elsaeidy等人[43]则深入探讨了多层RBM的特性并采用训练好的深度玻尔茨坦机模型对网络流量进行了高层次特征提取随后结合前馈神经网络、随机森林等方法实现了对不同类型DDoS攻击的有效识别

(4)深度信念网络(Deep Belief Network, DBN)

深度信念网络[44]是一种多层次的复杂结构型神经网络,在无监督学习方法指导下对各层受限玻尔茨曼机单元进行系统性训练以实现特征学习目标。该类技术特别适用于处理高维数据问题,在实际应用中已被广泛应用于入侵检测领域。研究表明,在KDD 99数据集上通过实验验证发现基于DBN模型构建的入侵检测系统在性能指标方面显著优于支持向量机(SVM)及人工神经网络(ANN)。为了进一步提升系统的灵活性与实用性,在适应多种攻击类型的同时减少计算复杂度问题上采取创新策略——将改进型遗传算法与深度信念网络架构相结合以实现最优配置目标。该优化过程通过多次迭代运算生成理想的神经网络拓扑结构并以此为基础建立专门化的DBN模型用于精确识别各类攻击模式。该创新方案不仅解决了传统深度学习方法在应用过程中面临的最佳架构选择难题还显著提升了系统分类精度与泛化能力同时有效降低了系统的计算复杂度进而实现了在特定攻击类型下的高精度分类效果能够稳定达到99%以上的工作水平

4.2 判别式有监督方法

基于有监督学习的方法及其相关判别技术旨在通过表示以可见数据为条件的类别后验概率分布来实现对模式分类任务中判别能力的有效提取,并能够有效地区分部分带标记数据所对应的模式分类实例[28]。

卷积神经网络(Convolutional Neural Networks, CNN)是基于判别式的监督学习模型[28]。该模型主要由输入层、卷积层、池化层、全连接层及输出 layer构成,在具备高效的特征提取能力的同时能够准确识别目标。其结构差异导致不同的卷积与汇聚层数量发生变化。在入侵检测领域中使用CNN时,则主要采用图像化的技术手段将流量分类问题转换为图片分类问题;首先将流量数据图像化处理后得到灰度图,并利用该技术提取空间特征

Xiao等人[46]通过数据预处理方法去除网络流量数据中的冗余与无关特征,并将其转化为二维矩阵形式;随后利用卷积神经网络(CNN)提取关键特征;这种方法成功解决了传统机器学习模型无法有效识别数据之间的关联性问题。Naseer等人[47]构建了基于卷积神经网络(CNN)、自编码器(Autoencoder,AE)以及循环神经网络(Recurrent Neural Network,RNN)的入侵检测系统,在NSL-KDD数据库上进行了训练与测试;其中卷积神经网络(CNN)与长短期记忆网络(LSTM)模型均展现出卓越的性能。Wu等人[48]通过卷积神经网络从原始数据集中自动提取流量特征,并根据其数量设定各类的成本函数权重系数以解决数据不平衡问题。Blanco等人[49]运用遗传算法(Genetic Algorithm,GA)优化卷积神经网络(CNN)分类器以确定更优的输入特征排列方式,并由此提升了多分类器的效果

4.3 混合式方法

混合式深度网络方法结合了生成式无监督方法和判别式有监督方法[28, 50],主要有深度神经网络(Deep Neural Network,DNN)和生成对抗网络(Generative Adversarial Networks,GAN)[51]。DNN是一种具有多个隐含层的多层感知器,是一种混合结构,其权值是完全连通的。GAN是一种混合深层架构,包含两个神经网络,即生成器和判别器。根据提供的输入样本,生成器尝试根据理想的数据分布生成伪造的数据,这些数据会和原始数据一起输入到判别器中,判别器会学习区别原始数据和由生成器构造的样本,并反馈到生成器,这个学习过程被称为生成器和判别器之间的博弈。通常情况下,网络中的异常流量远少于正常流量,GAN能生成新数据,因此能用来解决入侵检测中数据类别不平衡的问题。Salem等人[52]首先将数据转换成图像,然后利用Cycle-GAN生成新的数据,最后将生成的数据融入原始数据集中,之后将这些数据用于训练模型,并检测异常,实验结果表明,分类结果得到了改善,AUC从0.55上升到0.71,异常检测率从17.07%上升到80.49%。与SMOTE方法相比,分类结果得到显著改善,展现了GAN强大的异常数据生成能力。

基于机器学习技术构建的入侵检测系统(IDS)在应对对抗性攻击时往往面临鲁棒性问题。为此,Lin团队[53]首次提出了一种基于生成对抗网络(GAN)的入侵检测模型(IDSGAN)。该模型通过生成器将正常合法流量转化为具有欺骗性的异常流量,随后判别器会对所有网络流量进行分类处理,并模拟黑匣子检测系统的工作模式。实验研究发现,仅修改了攻击样本中部分非关键属性即可实现有效的进攻策略。与此同时,Usama团队[54]开发了一种基于生成对抗网络的主动防御机制,这种机制能够有效规避传统的机器学习 IDS 系统。实验证明,采用 GAN 技术构建的防御机制能够有效提升 IDS 系统在对抗环境下的鲁棒性能。

4.4 总结与讨论

随着深度学习技术的广泛应用,入侵检测系统已进入一个新的发展阶段。
在入侵检测领域中,深度学习主要应用于特征提取与分类识别阶段。
面对海量高维网络流量数据这一挑战性问题,与传统的机器学习方法相比,深度学习模型展现出更高的处理效率与识别精度。
如表2所示的部分研究成果基于深度学习框架构建了相应的 intrusion detection 系统模型,并未对不同算法进行对比分析。

1基于深度学习的入侵检测

Table 2 Intrusion detection based on deep learning

| 文献 | 深度学习
方法 | 数据预处理方法 | 特征选择方法 | 数据集 | 任务类别 | 性能评价 |

--- --- --- --- --- --- ---
[34] BLSTMRNN 手动提取攻击类型 |UNSW-NB15 二分类 ACC: 95.71%、Recall : 96%、f1-score: 98%
[36] NDAE 特征数值化和数值归一化 NDAE KDD99 多分类 整体ACC: 97.85%、Recall : 97.85%、f1-score: 98.15%
[41] DRBM One-hot编码 |KDD99 二分类 ACC:95%
[45] DBN、GA Min-Max正则化 GA NSL-KDD 多分类 ACC: 99.37%(Probe) 99.45%(DoS)、98.68%(U2R)、97.78%(R2L) Recall: 99.4%(Probe)、99.7%(DoS)、98.2%(U2R)、93.4%(R2L)
[46] CNN、AE One-hot编码Min-Max 正则化 PCA、AE、CNN KDD 99 多分类 ACC: 94%、DR: 93%、FAR: 0.5%
[48] CNN One-hot编码Min-Max正则化 |NSL-KDD 多分类 ACC: KDDTest+79.48% KDDTest-21 60.71%
[52] GAN ||ADFA-LD 二分类 F-meaure: 41.64%、AUC: 71.30%

(其中的“\”代表该方法无法参与该项的比较)

新窗口打开**|下载CSV**

尽管相较于传统机器学习方法而言,深度学习技术在性能上具有明显优势,但就商用环境下的入侵检测系统而言,其尚未得到广泛应用.目前在商用入侵检测系统领域具有显著影响力的主流产品包括腾讯云安全的T-Sec主机安全以及东软NetEye入侵检测系统(IDS).T-Sec主机安全(Cloud Workload Protection,CWP)基于腾讯云积累的海量威胁情报数据,通过机器学习与深度学习技术为用户提供全方位的安全防护服务,涵盖资产管理、木马文件查杀、网络入侵检测以及漏洞风险预警等功能.基于深度学习实现的入侵检测体系仍面临诸多挑战:(1)训练周期较长.由于深度神经网络通常包含多个隐藏层,为了保证模型性能需要逐层迭代训练,这导致整个训练过程耗时较长且计算量巨大,通常需要依赖GPU并行计算来完成大规模运算;(2)模型架构设计与优化.神经网络架构的选择直接影响分类效果,因此针对不同的应用场景需要设计相应的最优架构;(3)实时性要求.作为核心目标之一,系统的实时性要求使得面对不断增长的高维度网络流量时,基于深度学习的方法仍需应对诸多难题;(4)数据分布失衡问题.由于异常流量相对于正常流量而言极为稀少,这会导致训练出的模型出现明显的偏倚特性,在多数情况下倾向于识别正常流量而忽视异常流量特征的变化

一些研究者致力于将新兴的深度学习技术应用于网络入侵检测系统的研究与开发。其中,Cordero等人[56]采用了复制神经网络(Replicator Neural Networks)来检测大规模网络攻击行为。经过训练后,复制神经网络能够将输入精确地还原为输出形式。该方法的核心在于先对包数据进行聚合处理,随后对流进行时间窗口划分,最终从流中提取特定特征进行分类判断。值得注意的是,无监督特征学习通常涉及两个主要阶段:首先是从大量未标记的数据中提取有用的特征表示;然后将这些表示应用于标记数据以完成分类任务。此外,不同学者可能会采用不同的无监督特征学习算法以适应不同场景的需求

5****总结与展望

随着互联网的发展,网络攻击也会伴随不断地演变与持续增加。
入侵检测作为一种保障网络安全的重要手段,在深入研究相关文献的基础上,将会发挥着关键作用。
通过对所调研文献的分析总结,本文对入侵检测系统未来的研究方向进行如下讨论:

入侵检测系统中的数据。现有的标准测试集合主要包括KDD 99和NSL-KDD等,并非最新的研究成果产物。然而,这些标准测试集合的创建时间相对较早,在实际应用中可能无法充分反映当前网络安全环境的特点。因此,在未来的研究工作中,建议根据实时网络安全环境的变化动态更新测试用例库,并通过引入最新的网络攻击样本和应用场景来提升模型的有效性。

(2)未来入侵检测仍面临的问题类似于上一节中深度学习方法所遇到的挑战,主要涉及三个关键方面:一是高维数据的处理难度较高;二是实时检测效率需要进一步提升;三是各类数据分布失衡导致分类效果欠佳。这些问题将成为未来研究的主要难点。

(3)从检测技术角度来看,相较于传统机器学习方法,深度学习方法展现出显著的优势,因此未来在入侵检测领域,深度学习技术的应用前景将更加广阔。然而,深度学习方法通常依赖于各自领域的训练样本来构建分类模型,面对网络攻击环境的快速变化与复杂性,入侵检测系统也需要具备自主进化的能力,不断提升自身的适应能力。近年来,迁移学习已在多个领域取得广泛应用效果。具体而言,针对某个领域而言,迁移学习是基于对其他领域训练样本的研究与分析的基础上提取相关知识来应用于该领域的学习过程。相比之下,深度迁移学习机制更接近人类的学习方式特征[57]。它通过引入自动化模块取代传统的参数系统与模型生成方法实现不同知识领域的高效共享[58]。此外,迁移学习能够实现跨域或多任务间的知识共享与应用,在入侵检测场景下,则可以根据知识迁移对象的不同需求选择合适的迁移算法类型:包括基于样本的迁移算法、基于特征表示的迁移算法、基于参数的迁移算法以及基于相关知识的迁移算法等[59]。在此过程中,强化学习通过对策略的学习以达到最大化回报的目标是实现智能系统的优化基础之一[60]。目前已有研究开始尝试将分布式强化学习技术应用于新的分布式攻击探测方案中研究显示该方案在精准率方面仍有提升空间[61]因此综合来看将深度迁移学习与强化学习结合运用到入侵检测系统的研究具有重要的理论价值与实践意义

6****结束语

近年来,在 intrusion detection 领域中,深度 learning 方法受到了广泛关注。本文旨在对当前领域的最新研究成果进行系统性综述,并阐述其基本概念、数据来源以及评估标准。接着简要探讨了基于传统 machine learning 算法的 intrusion detection 体系架构。最后重点分析了基于 deep learning 模型的 intrusion detection 技术方案。本研究旨在构建 intrusion detection 领域的知识框架,并对其最新发展进行深入探讨。通过对比分析 deep learning 与 traditional machine learning 在 performance metrics 上的优势与不足,并对未来研究方向提出若干问题与建议。本研究将为企业及研究人员提供理论支持与实践参考。

全部评论 (0)

还没有任何评论哟~