Advertisement

Deep Semi-Supervised Anomaly Detection论文阅读

阅读量:

开发深度SAD框架并设计全自动化训练方案

深度SAD的创新点:

1)深度SAD作为无监督深度SVDD的一种扩展形式,在实验方法上进行了优化与改进。它通过引入半监督学习策略来重新定义实验设置。
2)研究者构建了一个新的信息理论框架用于解析Deep SAD及其类似方法的工作原理。
3)为了全面评估模型性能,在现有半监督学习框架的基础上设计了一系列新的基准模型。

关于深度异常检测的信息理论:

  1. 该原则通过神经网络建立特征X与潜在表达Z之间的映射关系,并通过最大化潜在表达Z与标签Y之间的互信息来实现数据压缩与预测的平衡优化。
  2. 信息准则旨在通过最大化X与Z之间的互信息来替代上述方法,并在潜在表达Z满足某些附加约束或正则化条件下完成这一操作。
  3. 这种准则的应用场景主要涉及独立成分分析、聚类分析以及生成模型等领域,在无监督学习中具有广泛的应用价值。
  4. 自编码器是一种典型的应用实例,在其中潜在表达Z被设定为与输入数据高度相关的表示形式。
  5. 正则化的选择涵盖了稀疏性约束、潜在变量分布的距离度量以及基于KL散度的距离衡量等多种方法之外的其他选择还包括对抗损失函数以及简单的维度缩减策略等。
  6. 这种限制条件表明原始数据应当具备某种意义上的紧凑性特征以保证后续学习过程的有效性
    7论文采用无监督的方法对半监督学习问题进行了处理其核心假设即为训练数据中同类样本之间应当被视作具有相似性这一前提条件
    8由于异常样本往往不具备这种特性因此将这种方法拓展至无监督的学习框架中更为合理
    9论文引入了一种基于熵的新颖表示学习正则化目标R(Z)=R(Z;Y)

深度半监督异常检测

1.深度SVDD

1.DSVDD实验设置:这个是此论文的基础,看一下改了哪个方面

从损失函数的角度分析:网络通过优化实现超球体c上的均方误差最小化过程,并由此可得出数据集中最稳定的共同变化特征。对此式子的理解:由于正常样本数量较多,在这种情况下该损失函数能够实现对正常样本在c中心区域进行有效的投影映射,并将异常样本投影至远离c中心的位置从而使得整体损失达到最低值。网络初始化的具体方法如下:首先构建并训练一个自编码器用于预学习;随后初始化神经网络参数权重并将初始时刻的输出结果定义为c;其中c被设定为初始前馈计算时各层输出结果的平均值。
异常分数获取方法如下:
在概率角度分析深度SVDD模型时发现:潜在分布的信息熵应被最小化;
假设条件为:Z服从联合高斯分布即潜在空间的概率分布遵循联合高斯分布。

推导过程为:

当Z符合一个各向同性的高斯分布。

各项同性的高斯分布:指的是各向同性情况下各方向方差相等的多维高斯分布,并由标量正实数与单位矩阵相乘得到。由于其圆对称特性,在确保各个轴的长度相同的情况下即可实现各向同性特性,并且其概率密度仅与样本至均值向量的距离有关而与其方向无关。
为了最小化信息熵以达到降低系统不确定性的目的。
论文中通过概率分析将深度SVDD的目标转化为最小化经验方差。
深度SVDD模型基于信息最大化原则同时兼顾潜在分布的高度紧凑性要求。

2.深度SAD

实验设置包含n个未标注样本和m个有标签样本(其中+1表示正常样本,-1表示异常样本)。论文中将深度SAD目标命名为:

实验假设认为,在无标签数据集中,绝大多数样本属于正常类别

实验

在这里插入图片描述

基于浅层无监督的方法:采用高斯核的OC-SVM和支持向量数据描述(SVDD);以及Isolation Forest算法等;而基于深度无监督的方法则包括自编码器以及无监督深度SVDD模型等。如果说上述这些方法仅限于利用标记正常数据进行训练,则我们将其归类为半监督学习方法。对于那些主要依赖标注异常数据的半监督异常检测算法,在文献中通常采用带有高斯核的浅层稀疏自注意力模型(Sparse Subspace Attention Model, SSAD)作为基础框架;而通过将SSAD模型与编码器相结合,则形成了新的混合SSAD基线模型。研究则将混合变体策略应用于多种无监督浅层比较器中,并与传统的分类下游任务相比,在文献中提出了采用一种新型的完全-supervised深度生成模型等完全-supervised架构以提高性能

网络结构:

对于大多数图像都遵循LeNet架构这一事实仅在不同数据集上对卷积核的尺寸和数量进行微调以适应具体情况。附录D对此进行了详细说明。在基准数据集上采用了多层感知机作为网络架构但采用了不同的网络配置参数设置。自编码器型网络则采用了与前述相同架构来构建编码器部分而解码器则基于编码器进行构建

比较方法的细节处理:

OC-SVM/SVDD :致力于参数的选择,在测试集的部分(10%)上提升AUC值,并构建一个更具竞争力的基础模型。
Isolation Forest :研究设定生成树数量为100,并采用分块采样尺寸到256。
Kernel Density Estimator(KDE) :采用高斯内核并设定带宽参数h。
**SSAD:**论文设定半监督异常检测核方法具备先验优势条件,并通过优化超参数来最大化测试数据子集上的AUC值。
**AE:**MSE重构损失被选作异常检测分数依据。
Hybrid Variants :混合架构整合了OC-SVM、IF、KDE和SSAD四种方法与自编码器技术相结合的方式。
无监督深度SVDD :分别构建软边界深度SVDD模型与硬边界深度SVDD模型作为无监督学习基准体系,并选取最优结果作为评估指标。
深度SAD :即采用了论文所述的方法框架,并对关键参数进行了优化配置。
对于深度方法的SGD优化细节:应用Adam优化器并执行标准化批量规范化处理。

实验场景设置

数据集都有10个类,所以论文对每个数据集派生出10个AD设置。在设置中,论文设置10个类中的一个作为正常类其他的九个类代表异常。
1)将各个正常类的原始数据作为训练数据集的未标注部分。其他9个异常类构成了提取异常的数据库(池),正常数据标签为1,9个类的异常数据标签为-1,数据的预处理步骤为:将像素值缩放到0,1之间。
2)实验场景:三个实验参数:训练数据的标注率;无标注训练数据的污染率(异常类进行污染);标注训练数据类中的异常类别数
3)实验场景:场景介绍:
增加异常标注的数量 ,提高第一个参数。这样,最后的实验数量为10 _9。其中训练集中只包括一个异常标记,测试时所有异常均使用,其中其余8个是新奇类。(这个标注是只标注异常还是也有正常数据被标注?)
对训练数据进行污染 :调查不同方法的鲁棒性。将标注率定为0.05,标注的异常类类别数为1,也是实验90次,每一次的污染率都相同。污染是指在未标注的正常数据中加入未标注的异常数据,这个异常数据从异常池中抽取。
已知异常类的数量 :论文希望通过这种方式让有监督分类器可以捕捉到一些点。固定训练数据集中的标记率为0.05,污染率为0.1,这个实验设置为10个选择种子,所以对于每一个标注异常数会进行10_10次实验,最后结果为平均结果。
结果 :场景一到三的结果,图二表示了场景一的结果,证明了半监督方法的有利性,还证明了监督方法的脆弱性,对于新颖的异常,此方法的效果比较差。通过比较深度SAD可以推广到新颖的异常同时也可以利用标注的例子。论文中提出的混合SSAD基线总是表现的很好。
图三 表示了场景三的结果,结果显示随着数据污染率的升高,模型的性能都在降低。深度SAD再次被证明是最鲁棒的模型。
图四 显示在训练集中有更多种类的标记异常。深度SAD仍然表现最好的检测表现。对于监督学习来说,对于标记的种类还是非常敏感的。
总体来说,深度SAD在更复杂的数据上更加有利。

实验敏感性分析

1)标注数据与未标注数据在损失函数中的占比参数的敏感性分析。设置实验中其他参数为默认参数。训练集中的标记率为0.05,污染率为0.1,标记中包括的异常种类只有1类。结果就是模型结果没有很大的变化,表现的很稳定。
2)输出(特征)维度对深度SAD的敏感性影响:固定参数为1,其他不变,维度参选了几个值。与混合SSAD基线(这个需要看代码来分析与论文中的深度SAD的差距)进行比较。发现:维度越大效果越好,也就是说在压缩紧凑特征之前保存最大的互信息有利于模型的性能。

实验异常检测基准数据集

这种基于非图像数据集在异常检测领域的应用较为罕见。通过实验研究发现,在低维 shallow 网络架构下处理小规模数据表现出色。
深度 SAD 体系展现出具有竞争性的性能优势,并且其设计理念能够合理解释实验中观察到的小幅度性能差异。
基于双层网络架构的设计理念,在现有研究基础上实现了对其他数据类型的有效扩展,并且预期该方法具有良好的扩展性。

结论和未来工作

此方法旨在将深度学习技术应用于一般性的半监督异常检测领域;这种方法可视为将无监督深度SVDD模型拓展至半监督学习框架的一个延伸方案;论文研究基于最大信息原则构建了信息理论框架:将异常数据特征描述为通过最小化正常数据潜在分布的熵实现;同时通过最大化异常数据潜在分布的熵来表征其特性

全部评论 (0)

还没有任何评论哟~