Advertisement

基于领域知识内嵌的深度学习网络流量预测研究

阅读量:

摘 要

首先针对流量数据可能存在的时域分布突变问题设计了一种基于Kullback-Leibler散度的异常检测方案,在数据特征提取过程中充分考虑网络流量的分形特性、长记忆特性以及周期性特征,并提出一种基于卷积生成网络和自适应注意力元网络组成的动态时域生成流量预测模型(GDTN)。该模型通过去除了噪声干扰、生成并预测了相应的流量数据序列,并根据输入条件动态调整各多时域之间的特征重要性分配权重。实验结果表明,在预测精度、存储资源占用和计算效率等方面显著优于现有方法。

前 言

现代计算机网络安全体系中,身份认证作为核心组成部分,其安全性和可靠性直接关系到整个系统的信息安全防护能力,因此必须确保身份认证机制的有效运行。
近年来,随着物联网技术的应用日益广泛以及相关技术体系逐渐完善,智能终端设备数量呈现快速增长态势,这对原有网络安全防护体系提出了更高的要求。
与此同时,针对物联网环境下存在的设备异构化问题,如何构建统一、高效的多设备身份认证框架成为了当前研究的重点方向。

传统的流量预测方法通常依赖于经典的统计模型与时间序列分析技术。随着以[深度学习]为代表的人工智能技术快速发展,相关研究逐渐聚焦于基于深度学习的流量预测算法,并取得了显著进展。然而,当前数据驱动型的深度学习范式在复杂动态的网络流量环境中面临着以下挑战:计算资源消耗过高,存储开销较大,难以实现高效的优化机制等。考虑到人类具备快速学习的能力是在建立在对任务本质有充分理解的基础上,并且借助了完善的理论支撑体系,本文创新性地提出了一个整合领域知识与深度学习技术的新框架,旨在实现快速精准的数据分析与预测目标,从而进一步优化网络资源分配方案,提升智能化决策水平。

0 1

流量预测研究背景

随着互联网技术的广泛应用, 网络流量呈现出显著增长态势。依据中国互联网络信息中心发布的第47份《中国互联网络发展状况统计报告》,我国网民规模持续扩大, 其中99.7%的网民通过移动终端接入互联网, 移动数据流量呈现出明显增长趋势。然而, 通信运营商若长期依赖固定资源(如基站与服务器)进行承载, 将会导致运营成本大幅上升。鉴于绝大多数网络在小时或每日运行周期内存在间歇性高负载特征及其规律性, 可以建立周级短期流量预测模型, 这有助于通信运营商及时优化射频资源分配策略。由此可见, 准确的流量预测已成为通信运营商降低运营成本、提升服务质量的关键技术手段之一

0 2

基于领域知识内嵌的流量预测框架

2.1 总体研究方案

如图1所示为本文所提出的基于领域知识内嵌的流量预测总体框架。
鉴于流量数据具有偶发性较强以及在时域分布上具有较高的不确定性,
本研究引入了基于JS散度的数据分布检测算法来识别并去除原始数据中出现于时域与频域的异常值,
从而防止异常值对模型学习过程产生的干扰

在模型设计过程中, 基于流量数据所具有的自相似性、长时相关性和周期性的特点, 本文提出了基于这些特点的动态时域生成流量预测模型(GDTN)。该模型不仅能够通过卷积生成网络对原始流量数据进行去噪-复原处理, 还能自动分配同期多时域流量特征的重要性, 从而有效捕捉输入流量中存在的规律变化模式, 最终显著提升了模型的学习效率与预测性能。总体而言, 本文所提出的基于领域知识内嵌的流量预测框架, 通过融合数据清洗技术、数据驱动特征提取方法以及领域个性化的模型设计等关键环节, 可实现对目标变量——即流量数据——的准确预测目标的有效达成

图片

图1 基于领域知识内嵌的流量预测总体框架

2.2 基于JS散度数据分布异常检测算法

JS散度数据分布异常检测算法的基本原理是以D_{JS}(P,Q)作为序列数据间距离的度量工具,在滑动窗口内计算相邻或相隔一定时间窗口内序列数据间的距离,并结合孤立森林算法识别分布发生显著变化的关键点位置。如图2所示为本文所提出的分布异常检测算法框架示意图,该方法主要包含序列相似性度量、孤立森林异常检测两个关键环节。具体而言,在孤立森林算法识别潜在异常的同时要求时域统计特性发生变化达到预设阈值以上才算判定存在明显分布偏差。通过这种方法不仅能够有效捕捉到数据分布模式的变化趋势还能够准确定位到发生偏差的具体时间区间从而判断该数据出现异常情况。

图片

图2 基于JS散度的数据分布异常检测算法

2.2.1 基于JS散度度量序列相似性度量

一般的序列相似性度量方法主要采用欧式度量、形状测度或模式测度等指标作为基础依据,并将时间序列简单地转化为高维向量进行计算分析。然而,在实际应用中会遇到大量随机偶然事件的影响,在网络流量数据中往往会出现频繁出现的偶然流量事件,这些异常的数据特征会导致大部分异常流量显著高于正常水平。针对这一问题特征,传统的基于距离相似性评估的方法难以有效处理这类数据。为此,在深入分析问题本质的基础上提出了新的解决方案:一种基于JS散度的空间分布变化模型。该模型通过将时间序列的变化视为特定模式在其概率分布空间中的迁移过程,并将其建模为多维概率密度函数的形式,在这种框架下能够更加科学地描述和分析网络流数据分析中的空间分布特征变化情况。具体而言,则是对上述模型的基本原理和实现过程进行了详细阐述。

为了方便描述,定义散度为:

图片

(1)

根据式(1)散度的定义,记满足f(·)=xlnx条件的散度为KL散度,记为KL(·||·)。满足f(·)=

图片

条件的散度为JS散度,记为JSD(·||·)。根据附录A证明可得:

图片

(2)

JSD(P||Q)≤ln2

(3)

当评估时间序列间的相似程度时,在推断其概率分布特性方面,我们采用了核密度估计(KDE)方法。通过这种方法可以得出该序列的概率密度函数表达式,并最终用于评估不同时间序列间的相似程度。

2.2.2 孤立森林异常检测算法

孤立森林是一种专门用于连续型数据进行无监督式异常检测的方法,在处理不同输入数据时能够动态调整计算出每个样本的具体异常评分值,并且具备高度自动化能力的异常识别系统。其核心技术在于通过随机分割数据集来识别那些易于被分离出来的点;这些离群点通常表现出较高的局部密度与整体密度之间的显著差异。

为便于描述,定义异常分数为:

给定一个包含n个样本的数据集,树的平均路径长度为:

图片

(4)

其中H(i)为调和数,该值可以被估计为ln(i)+0.5772156649。则样本x的异常得分定义为:

图片

(5)

其中我们定义h(x)为样本x的标准化路径长度指标同时E[h(x)]表示该指标在一批孤立树中的平均路径长度期望值

该算法的具体运算流程如下:首先设定一个包含n个样本的数据集X={x₁,…,xₙ},其中每个样本具有d维特征空间。为了构建一棵有效的孤立树模型,在每一步操作中都会随机选择一个属性q及其对应的阈值p来进行样本划分操作。具体而言,在每一步骤中会将所有满足q(x) < p的样本划分为左子树Tl部分,并将满足q(x) ≥ p的所有样本分配至右子树Tr部分;这一过程通过不断递归应用至整个数据集X中直至满足以下任意一项终止条件。

a)树达到了限制的高度。

b)节点上只有1个样本。

c)节点上的样本所有特征都相同。

从孤立树中提取后,在后续步骤中即可计算各数据样本的异常评分。具体而言,在观察到c(x)趋近于零的情况下(即当c(x)逐渐减小时),该样本点x对应的异常评分s(x)会逐渐接近1。通常认为具有高于0.9阈值的异常评分的数据样本被视为离群点。

2.2.3 基于JS散度的数据异常分布检测方案

本方案的基本思路在于对滑动窗口内的数据概率密度函数进行分析以计算两组数据之间的距离,并通过JS散度量化数据分布间的差异程度。随后采用孤立森林算法对距离数组进行异常点探测操作以实现数据分布异常情况下的检测功能。针对具体应用需求可以选择合适的阈值参数以便精准捕获具有显著差异性的异常样本

具体流程如下。

a)读取一段时间序列的数据。

b)配置两个连续的滑动窗口 window1 和 window2, 其大小均为 s. 当序列呈现明显的周期性时, 设定其周期长度为 T 个时间单位, 并在 window2 的基础上间隔 T−1 个时间间隔的位置上配置第三个滑动窗口 window3.

c)依次遍历时间序列中的各个点,并每隔s个时间单位移动一次窗口(即window1、window2和window3),同时确保各窗口之间的相对时间保持一致。

通过逐一分析窗口1、窗口2以及窗口3内的序列数据,并采用核密度估计技术为这三个窗口生成各自的概率密度分布。

e)以JS散度方式定义序列数据之间的距离。

f)不断重复步骤c)~e),直至序列数据末端,得到序列数据的距离数组。

通过孤立森林的异常点检测算法识别距离数组中的潜在异常数据,并获得一个包含所有可能预先识别出的异常值的集合。

h)设置阈值,以距离数组中大于阈值的点构成异常点集合。

2.3 动态生成时域网络

图3中展示的是本研究中设计的一种动态时域生成流量预测模型(GDTN)。该模型由两个独立的模块构成:一个是自适应注意力元网络,另一个是卷积生成网络。接下来将介绍该模型的设计思路及其关键技术。

图片

图3 GDTN网络模型示意图

2.3.1 自适应注意力元网络

自适应注意力元网络基于深度学习技术提取不同时间段的关键权重值,并通过这些权重值构建出相应的关注矩阵,在提高流量任务可解释性方面表现出显著优势。该系统主要包含两个关键模块:一是重要分数学习网络net(X),二是注意力矩阵推理网络;其中前者可以通过任意神经网络进行替换成以适应不同的需求。

a)重要分数学习元网络。

(a)定义任意函数net(·)满足条件:net:Rn,m→{x|0≤x≤1,x∈Rn,m}。

(b)计算重要程度IS(X)=net(X)。

(c)对重要分数score进行有界压缩:

IS'(X)=σ[IS(X)]

(6)

其中,σ为任意在实数域上具有上下界的函数,此处取常见的S型激活函数

图片

b)基于注意力机制的推理元网络模型。该模型通过基于重要性分数的学习机制,在一个周期内获取各天的重要度信息,并经过推理运算构建出对应的注意力权重矩阵。其运算过程如下:首先利用重要性分数对各时间点进行评估;随后通过序列化操作将评估结果映射到空间域;最后结合全局上下文信息完成权重分配并生成最终的输出结果。

(a)对net(X)得到的重要性分数IS'(X)广播到指定维数:

net(X)'=broadcast{unsqueeze[IS'(X)T,dim=2],dim=2,piece=n}⊆Rm,n,n

(7)

(b)根据net(X)'求解注意力矩阵Attn(X):

Attn(X)=IS'(X)−(1−E)⊗IS'(X)⊗ IS'(X)T

(8)

(c)根据Attn(X)对不同天之间的流量数据进行加权求和,得到预测结果:

yDAN=Attn(X)X'T

(9)

其中X'=unsqueeze(X,dim=3)。

2.3.2 卷积时域生成网络具体设计方案

卷积生成网络成功地应用于流量预测任务中,在图像生成领域的显著效果得以延续和应用。当流量数据通过编码器网络流向生成器网络时,在这一过程中,原始数据中的噪声逐步被消除,并引入了与输入输出分布相匹配的特征。值得注意的是,在卷积时域生成网络中包含两个压缩-解压循环:在压缩阶段,我们采用卷积神经网络进行处理;而在解压阶段,则利用反卷积操作完成重建工作。具体而言,在给定输入序列X及其经过k次压缩-解压循环后的输出Xk的情况下,请注意以下计算流程:首先,在压缩阶段对输入序列X进行处理得到中间结果Yk;接着,在解压阶段基于中间结果Yk重建最终预测值X̂k;最后,在整个循环结束后会根据训练目标函数更新模型参数以优化预测性能。

图片

(10)

Xkde=ReLU[Conv(X'k)]

(11)

其中X^{\prime}_k=\text{upsample}(X_k,\text{dim}=1)\subseteq\mathbb{R}^{1\times n\times m}, 其中convolutional layer和transposed convolutional layer分别代表标准卷积层与转置卷积层。rectified linear unit函数定义为\text{ReLU}(x)=\max(0,x)。假设基于时域压缩-重建机制的卷积生成网络经过K次迭代压缩与重建循环,则其输出结果可被记为:

yGTN=Xk

(12)

2.3.3 模型集成

GDTN流量预测方法由并行设计的卷积生成网络与自适应注意力元网络两个关键模块组成。通过将两者进行加权融合完成系统整合。

y=w1yGTN+w2yDAN

(13)

其中,w1与w2分别表示不同组块的融合权值。

0 3

实 验

3.1 实验设置

为验证所提出的算法具有可行性,在本研究中我们获取了来自智能城域网接入路由器(MAR)到汇聚路由器(MER)之间的1 000个网络端口流量数据样本。具体而言,在该数据集中时间长度超过90天的端口按照时间维度进行了系统性分划与管理:其中将最后一个月的数据作为验证集的输入数据来源,并将其余月份中的最后一个月作为测试集的输入依据;剩余未包含在上述两部分中的数据则被用来构建训练集合学习基础。值得注意的是,在这种情况下不足90天的时间跨度内的样本仅起到辅助验证与辅助测试的作用,并未参与系统的主训练过程。为了全面评估GDTN流量预测模型的表现指标并进行横向比较分析,在本研究中我们采用了多组具有相同特性的基准模型进行实验比对工作。具体而言这些对比分析涉及 VTQRNN LSTM VAR TCN ResTCN 等主流算法模型

3.2 智能城域网端口实验

根据表1的数据可以看出,在与传统模型以及近期同类时序预测模型相比,GDTN模型达到了10.081%的相对误差控制, 这一性能显著优于当前主流方案中的14.109%水平。值得注意的是,作为一种轻量化设计,GDTN模型仅需占用8.78 KB的系统存储空间,从而有效降低了存储开销。此外,该方法在实现上述优势的同时,其平均完成单端口模型训练所需的时间为1.92秒,相较于现有方案减少了大约2秒的训练时间差值。综合来看,GDTN方法展现出精确的相对误差和绝对误差控制能力,同时具备高效的资源占用以及显著的时间收益优势。

表1 智能城域网数据集对比实验

图片

0 4

结束语

该流量预测模型在移动通信网络的扩容建设和资源优化配置方面发挥着关键作用。本文采用重采样技术和滑窗法改进JS散度的数据分布检测算法,在处理原始数据时实现了更为精准的清洗流程。该方法显著提升了模型在正常数据分布下的学习能力,并结合多时域流量特征进行了创新性设计,在时间卷积模式构建中引入了GDTN架构,在大规模多端口场景下进行了性能评估,并取得了较为理想的效果。该研究结果不仅为未来无线网络的规划和优化提供了重要依据,在基站选址和容量规划等方面也具有实际指导意义。

全部评论 (0)

还没有任何评论哟~