ANOMALY TRANSFORMER: TIME SERIES ANOMALY DETECTION WITH ASSOCIATION DISCREPANCY 论文解读
最近一段时间又专注于异常检测研究上,并因此决定分享一些经典的基于transformer的时序异常检测文章。
这篇论文是2022年发表的,相对来说比较新.目前关于时序检测的新论文数量较少.
这篇论文的创新点有两个:
基于transformer架构展开研究,在提出Prior-association与Series- association的基础上,并对关联不一致度进行计算分析,并将其作为衡量异常行为的重要指标。
通过Minimax策略实现关联不一致度的放大效应。

关于第一个创新点在上图
右边的框架就是仿transformer的,输入序列

,

表明框架的层数,N为序列长度,d表示输入维度,总体计算:


这一部分的主要区别在于采用了一种基于自注意力机制的架构(transformer采用了基于自注意力机制的架构),即基于该研究提出的核心创新点之一。如图所示, 其核心计算逻辑主要包括以下几点:
prior-association
采用了一种可学习的方法高斯核计算相对时间距离的prior。受益于高斯核的单峰性,这种设计可以更加注意相邻层构象。我们还为高斯核使用了一个可学习的尺度参数σ,使prior-associations可以适应不同的时间序列模式,如不同的异常长度

series-association
这一特性反映了学习序列间的关联性特征,在架构上与transformer模型中的自注意力机制具有相似性;各节点间相互依存的关系相比单一节点所具有的信息含量更高
1.

2.

association discrepancy
该研究将关联差异形式化为前向关联与序列关联之间的对称KL散度,并将其定义为两个分布之间的信息增益度量。随后我们计算了各层次关联差异的平均值以整合多层特征间的关联关系并提取出更具判别性的度量指标在此基础上我们计算了每个时间点的AssDis指标并基于其数值大小评估异常程度

关于 association discrepancy 这一概念较为复杂, KL散度衡量的是两个 association 之间的差异性. 在存在异常数据的情况下, 其周围的附近 point 也可能出现异常情况. prior-association 和 series- association 都注重于捕捉局部的异常信息, 因此它们之间的差异相对较小, 即 AssDis 值较小. 然而, 对于正常的数据 point (即 series- association), 它们主要通过 attention 等机制来关注全局的特征, 这种特征通常分布在非 nearby 的位置, 而 prior- association 则仍然聚焦于 nearby 的区域. 因此, 在这种情况下两者的 KL 散度差异较大, 即 AssDis 值较大
另一个创新点就是Minimax Strategy
常规重建损失即为前面所述的L2范数损失,在此基础之上附加AssDis项,则是在最小化总loss的同时最大化对AssDis的重视程度。这种设计思路旨在通过提升对AssDis的关注度来增强序列的正常性特征提取能力。然而,在实际操作中若直接实施这一策略,则会导致单峰高斯核尺度参数σ急剧减小(σ值越小意味着高斯函数呈现越尖锐、范围越狭窄的特点),这将使prior-association机制仅关注局部范围内的点对点关联关系而忽视整体序列特征提取的需求。这样一来不仅会削弱prior-association的作用效果反而会降低整体模型性能。


是

的重建,

表示范数,

表示k-norm

在优化过程中,在某些特定时刻时, optimizer就会增强其关联性差异. 然而, 直接最大化AssDis这一做法将极大地降低高斯核的尺度参数.
在该阶段中,λ取负值时的优化目标是使损失函数最小化等同于使AssDis损失最小化。差异减小将导致prior-associations趋于一致。通过优化prior-associations使其基于原始序列学习series-associations这一过程有助于prior-associations更好地适应不同的时间模式。

在基础阶段中对prior-association进行提升以实现关联性优化后的主要负责完成系列关联性任务的是S型关联性模型
在最高阶段, positive lambda值下, 通过最小化损失函数来实现对AssDis值的最大化。为了优化系列关联性(series-association)关系, 我们提升了该指标数值。这一过程促使系列关联性(series- association)更加注重非连续点之间的联系.

主要阶段是针对series-association进行优化工作;因此,在计算P(prior-association)时无需执行梯度反向传播。
在最小阶段P(prior-association)近似于

基于此,在重构损失框架下对series-association施加更为严格的限制,并促使时间点特别关注不连续的区域。此外,在这一框架中发现:异常的时间点难以达到上述效果,并且这使得关联差异在正常与异常情况下的可辨识度得到了进一步加强。
Inference:

基于关联差异标准化的重建误差作为评估标准进行分析表明:当AssDis值越低时(即数值更低),样本被判断为潜在的异常样本的可能性也越大;而当reconstruction error值越高(即数值越高)时,则该样本被判断为高度可疑的可能性同样增大。需要注意的是,在这种情况下(即两个变量的相关性较低),样本被视为潜在的异常;而在两个变量高度相关的情况下,则认为该样本属于正常范围之内。
