Generative Cooperative Learning for Unsupervised Video Anomaly Detection
文章目录
- 1 摘要
- 2 对该论文算法的详细阐述(GCL)
- 3 实现方案
-
3.1 训练数据构成
-
3.2 生成器网络的具体设计
-
3.3 判别器网络的技术实现
-
3.4 基于生成器网络的负样本学习方法
-
3.5 基于自监督预训练的改进策略
-
4 总结
-
一种真正意义上的无监督视频异常检测方法
1 摘要
在弱监督环境与one-class-classifier(OCC)框架下,视频异常检测已取得不错的进展。然而,在无监督视频异常检测领域相关研究相对较少。为了降低获取费力注释的成本,并使系统部署更加便捷(无需人工标注),本论文提出了一种新的**生成式合作学习(GCL)**方法用于视频异常检测任务。
该方法通过引入低频异常样本构建生成器与鉴别器之间的交叉监督机制(cross-supervision mechanism)。具体而言,在合作训练过程中(cooperative training framework),生成器与鉴别器以相互促进的方式共同进化(evolve),从而实现无监督学习目标。
从本质上讲,在这种设计下(under this design),生成器与鉴别器并非孤立存在而是紧密协同(collaborate closely),最终能够有效提升模型对异常样本的学习能力。
该研究不仅在理论层面提供了新视角(new theoretical perspective)对无监督学习进行了深入探讨,并且在实验结果中展现出显著的性能提升(promising performance improvement)。
作者试图以结构化的方式利用两个领域知识:
- 视频呈现更丰富的信息内容,在静态图像的基础上更具动态性
- 如图所示,在(d)无监督训练方式下没有任何数据标注,并且包含异常样本。考虑到异常样本的发生频率相对较低 ,这一现象在实际应用中也得到了验证。

基于此, 该研究者提出了一种名为生成式合作学习的GCL方法, 在这种方法中, 输入为无标签视频序列, 并通过该模型对每个帧进行异常评分预测。
2 论文算法概述(GCL)
两个关键部位是生成器与鉴别器组合体,在结构上非常类似于传统的GAN架构(对抗生成网络),其本质上采用了与GAN类似的训练策略。论文提出了一种以交叉监督方式进行协同训练的方法,并将这种体系中的生成器与鉴别器分别命名为G(generator)与D(discriminator)。该方法通过两者的相互协作实现了优化目标的统一提升。在此框架下,在计算过程中每个网络输出都会经过阈值处理以获取伪标签,在此过程中生成端所产出的伪标签被用于判别端损失函数的计算反过来说来判别端所产出的结果也被用于补充生成端损失函数的相关计算过程
如图所示,在论文GCL方法中整体架构主要包含四个关键组件:每个特征提取模块、一个生成器网络、一个鉴别器网络以及两个独立的伪标签生成模块。

系统交替训练的大致流程:
- 生成器G是一个AE(能捕捉数据整体的主导情况)。 生成器可以重构输入的批特征 ,然后利用重建误差,当该误差高于某个我们设置的阈值 ,则标记为异常,否则正常,相当于创建了伪标签 ,然后该伪标签可以用于训练鉴别器 。
另外,生成器还可以对高置信度异常进行扭曲,进行负学习(KL) ,如下图示,也就是把误差拉大,同时对正常样本仍然采用最小化误差重构。

判别器采用全连接层结构,在抗噪声方面表现优异。
判别器能够为每个实例生成异常概率估计值,并据此创建伪标签。
例如,在一批样本中发现有两个特征的概率值显著高于预设阈值(可用特定阈值工具选择该阈),则将这些特征标记为异常。
并将其用于改进生成器。
值得注意的是,
传统的OCC方法仅基于正常样本训练自编码模型,
它在捕捉正常分布特性的同时,
是否能有效识别并排除异常样本仍存在疑问。
而研究者采用GCL_OCC策略,
通过协作训练的方式不断优化模型,
最终实验结果表明这种改进策略更具优势。

3 实现细节
3.1 训练数据组成
在所提出的GCL方法中,在论文中将输入特征的顺序进行了随机化处理后,在批内和批间的相关性得到了消除
我对此的理解是该论文采用了ReaNext3d作为默认模式的特征提取器。对于每个视频i(范围为1至n),以及其中的每个片段j(从1到m)进行特征提取操作。从而获得相应的特征向量f(i,j)。接着会对所有这些特征向量执行随机采样过程,并按照批次进行随机划分处理,并将这些划分后的数据块作为后续网络架构的输入数据来源。这种方法成功地消除了批内样本与批间样本之间的相关性问题。关于作者为何采取这一策略的问题,则是一个值得探讨的方向:我认为这可能是因为这样的方法有助于提升模型在泛化方面的性能表现。
3.2 Generator Network
生成器就是通过最小化输入输出之间的特征误差来进行训练的。

由指导鉴别器训练的伪标签取决于重构误差大小的具体数学表达式如下:

论文中是这样计算合适阈值的过程:为了确定合适的阈值,在每个batch中首先计算所有样本的重构误差,并基于最大重构误差的某个预设比例的经验化设定一个阈值。
3.3 Discriminator Network
鉴别器D的二进制分类网络通过训练其参数以生成辅助标记,并在批次数据集上优化该损失函数;具体来说,在每个批次数据集上计算并最小化二进制交叉熵损失。

生成器训练过程中的伪标签基于判别器输出的结果进行设定,在此过程中我们根据输入特征异常程度的概率评估结果来确定伪标签的具体数值

3.4 Negative Learning of Generator Network
第2章阐述了生成器G采用了负学习机制:即对G进行训练时使用D提供的伪标签,并遵循NL(Negative Learning)策略。其目的在于增强正常输入与异常输入重构间的差异性,在同一批次处理中可能同时出现正常样本与异常样本。论文通过引入伪重构目标来迫使异常样本无法实现有效的重建效果。如图所示,在第2章图3中展示了这一改进方法的具体实现过程:最终作者采用了All one targets策略——即将每一个被D判定为异常的目标替换为全1维度向量。实验结果表明以'1'为目标实现了更为显著的区分能力——这种策略相较于仅依赖于重构误差的传统方法而言具有更好的区分度与鲁棒性。根据上述分析与改进方案,在原有式(1)的基础上作者增补了针对负学习机制的新项

换句话说,在这种情况下,D将被分类为异常的特征向量,并赋予辅助标记值1.因此,重构的目标特征将被替换成一个与输入维度大小相当的全1单位向量.如果辅助标记值设定为0,则表明D判定该样本属于正常类别,此时重构的目标特征将保持与原始输入特征完全一致.
3.5 Self-Supervised Pre-training
由于异常检测问题具有模糊性,在缺乏约束时可能导致系统陷入局部极小值。为了提高收敛效果,我们探索通过预训练G与D启动训练过程。根据经验观察发现,在实际应用中基于式(1)的预训练G有助于提高系统的整体稳定性,并能有效提升收敛速度及性能水平。然而实验结果表明单纯利用全部训练数据进行G的预训练效果并不理想。考虑到视频事件发生存在时间顺序性且异常帧通常伴随事件出现的特点,在进行初始清洗时我们采用特征向量间的时间差作为评估指标来优化数据集准备。
4 总结
论文创新点:
- 开发了一种非监督式未标注训练视频异常检测算法(GCL) ,该算法可在无需人工标注数据的情况下实现部署应用,并完全契合实际应用场景需求。
- 采用基于G和D交替更新的生成式协作学习框架,在G与D交替更新策略下引入负样本学习方法的基础上构建模型架构。该方法可使模型更加精准地区分正常输入与异常输入。
