Advertisement

Learning from Polar Representation: An Extreme-Adaptive Model for Long-Term Time Series Forecasting

阅读量:

本文提出了一种新型极端自适应模型DAN(距离加权自动正则化神经网络),用于对流进行远程预测。DAN通过引入距离加权多重损失机制和可堆叠块从外源数据中动态细化指标序列,结合高斯混合概率模型提高对严重事件的鲁棒性。同时,采用Kruskal-Wallis采样策略处理不平衡的极端数据,并通过门控制向量提升模型适应性。实验结果表明,DAN在四个水文径流数据集上显著优于现有方法,证明其在长期时间序列预测中的有效性。

Studying the Polar Representation: An Extremely Adaptive Model for Long-Term Time Series Forecasting

在这里插入图片描述

本文提出了一种新型模型,即距离加权自动正则化神经网络(DAN)。该模型通过极表示学习增强,是一种新型的极端自适应模型,用于对流进行远程预测。 DAN 采用了距离加权多重损失机制和可堆叠块,从外源数据中动态细化指标序列,并且能够通过高斯混合概率模型处理单变量时间序列,从而增强对极端事件的鲁棒性。我们还引入了Kruskal-Wallis采样和门控向量,以有效处理极端数据中的不平衡问题。实证结果表明,DAN在四个现实水文径流数据集上显著优于最先进的水文时间序列预测方法和为长期时间序列预测设计的通用方法。

贡献:

我们开发了一种新型的距离加权自动正则化神经网络(DAN),该方法采用模块化设计以实现长期预测能力的动态优化。

旨在增强模型对极端事件的抗干扰能力,DAN创新性地应用加权距离损失函数,同时采用极坐标表示方法提取特征。

采用 Kruskal-Wallis 抽样策略以解决极端数据不平衡问题及门控制向量,从而增强模型对不平衡数据的识别能力。

距离加权自动正则化神经网络:

GMM 指标。

在研究中,当没有预设的异常指标序列时,我们采用高斯混合模型,从输入的一维时间序列数据中学习一组概率分布。首先,我们利用GMM模型拟合过程中的权重参数,计算时间序列中每个数据点的综合指标特征,作为各组件概率分布的加权总和。

时间序列中的 Kruskal-Wallis 检验。

为了解决极端事件的稀疏分布问题,本研究采用 Kruskal-Wallis 检验 (39) 作为非参数统计方法,用于评估训练样本的正态性并指导过采样策略。该检验通过分析数据的中位数差异来比较两组或多组时间序列。具体而言,首先将数据进行排序并赋予秩值,然后计算各组的秩和。接着,根据这些秩和计算 H 值,并将其与临界值进行比较,以判断各组之间是否存在显著差异。

由于 Kruskal-Wallis 检验不假设特定分布,因此有时称为无分布检验 。 H 值计算如下
H=\frac{12}{n(n+1)} \sum_{j=1}^{k} \frac{R_{j}^{2}}{n_{j}}-3(n+1)
在我们的工作中,我们将采样的训练序列分成 k 个长度相等的子序列组。 H 是 KruskalWallis 检验统计量,n 是所有组中的样本总数,Rj 是第 j 组的秩和,nj 是第 j 组中的样本数。过采样策略将在 G 节中描述。

G.克鲁斯卡尔-沃利斯抽样。

考虑到在正常事件频发的情况下,我们的数据集中极端事件极为罕见。为此,我们采用了 Kruskal-Wallis 抽样方法,对训练集中出现极端事件的区域进行了过采样处理,以便模型能够从中学习到合理的模式。具体而言,对于输入序列中抽取的每个大小为 t+h 的随机样本 x,我们首先将序列划分为 k 个大小相等的连续子序列,并通过方程 1 计算这 k 个子序列之间的 Kruskal-Wallis 检验统计量 H。为了减少 H 统计量对子序列微小差异的敏感性,在计算 H 前,我们对 x 中的数值进行了四舍五入处理。如果计算得到的 H 值大于设定的阈值 ϵ,则将该样本包含在训练集中;若 H 值小于或等于 ϵ,则以概率 p < 1 的方式进行样本选择。

阈值 ϵ 使得我们能够设定样本中的相对变化,从而更容易包含极端事件;概率 p 则允许我们确定训练集中应包含的正常样本数量。

过采样策略的调整对性能提升具有显著影响。图6展示了应用Kruskal-Wallis采样算法前后的H值分布情况,这些观察结果凸显了调整p值和ϵ值对训练集H值分布的影响。通过保持p值并增加ϵ值,训练集将包含更多H值超过ϵ的样本,如图6第一行最右边的三个数据点所示。我们的过采样策略有助于转移关注点,我们的模型旨在提高"远"点预测性能。为了验证这一点,我们对每个模型进行了多次运行,计算了超出系列均值1.5个标准差以上点的RMSE值,并将其在表3中标记为RMSEfar。结果表明,RMSEfar可以稳步下降,通过减少p值。

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~