Advertisement

Convolutional Transformer based Dual Discriminator Generative Adversarial Networks for Video Anomaly

阅读量:

第 29 届 ACM 国际多媒体会议论文:Convolutional Transformer based Dual Discriminator Generative Adversarial Networks for Video Anomaly Detection
arxiv.org/pdf/2107.13720icon-default.png?t=N7T8https://arxiv.org/pdf/2107.13720

一、介绍

1.本文观点

假设模型只能泛化到与训练集相同分布的数据,测试集中的异常活动将表现为偏离规则模式。常见方法是在训练阶段学习一个能够在正常视频片段中捕获规则模式的模型,并检查测试视频片段中是否存在偏离规则模式的不规则模式。该模型不仅要表现规律的外观,还要捕捉正常的时空动态,以区分视频序列中的异常活动和正常活动。

2.提出问题

基于U-Net作为生成器的生成对抗预测方法没有充分考虑到视频序列中以帧级一致性和时间动态全局一致性形式存在的潜在判别信息。

3.本文创新点

提出了一个convolutional transformer来预测未来帧。convolutional transformer本质上是一个编码器-解码器框架,由三个关键部分组成:一个用于捕获输入视频片段空间模式的卷积编码器;一个用于视频时间建模的新时间注意力机制模块,可以显式编码时间动态;以及一个用于整合时空特征并预测未来帧的卷积解码器。由于时序自注意模块的存在,convolutional transformer可以高效地捕捉潜在的时序动态,将时间信息编码为一系列特征映射的优点,其中注意值的计算可以通过矩阵乘法完全并行化。

为了保持预测帧的局部一致性和以前一帧为条件的全局一致性,在卷积变换的基础上提出了一种双鉴别生成对抗网络(dual discriminator generative adversarial networks, D2GAN)方法,通过增强预测帧的局部一致性和以前一帧为条件的全局一致性来进一步增强对未来帧的预测。最后利用预测误差对异常视频帧进行识别。

二、CT-D2GAN方法

1.输入

由于外观和运动是视频数据的两个特征,通常将光流与静止图像明确地结合在一起来描述视频序列。而光流被用来表示视频序列,用作运动约束。本文将图像与通道维度上预先计算的光流图叠加作为输入,用于视频动作识别。光流图由水平分量、垂直分量和幅度分量组成。需要注意的是,所述光流图是根据前一图像和当前图像计算的,因此不包含未来帧信息。因此,输入可设为In Rimes wimes 4imes T,我们使用5个连续帧作为输入。

2.生成器

使用卷积编码器从视频的每一帧提取空间特征。视频的每一帧首先被调整为256 × 256,然后被送入卷积编码器。卷积编码器由5个卷积块组成。卷积块遵循CNN的常见结构。所有的卷积核被设置为3 × 3像素。为简洁起见,Conv_{s,n}表示一个步幅为𝑠,滤波器个数为𝑛的卷积层,一个批归一化层为BN,一个缩放指数线性单元为SELU,一个dropout操作,其dropout比率为𝑟,为dropout𝑟。卷积编码器的结构为:[Conv1,64-SELUBN]-[Conv2,64-SELU- bn -Conv1,64-SELU]-[Conv2,128-SELU-BNConv1,128-SELU]-[Conv2,256-SELU-BN-dropout0.25-Conv1,256SELU]-[Conv2,256-SELU-BN-dropout0.25-Conv1,256-SELU],其中每个[·]代表一个卷积块。

为了明确编码视频序列中的时间信息,本文扩展了transformer模型中的自注意机制,并开发了一种新的时间自注意模块,以捕获由卷积编码器生成的多尺度空间特征映射的时间动态。本节适用于所有层,因此为了清晰起见,省略了这一层。图1显示了多头时间自注意模块的示例。

空间特征向量: 首先使用全局平均池化(GAP),从卷积编码器提取的特征映射数据F_{t}中提取特征向量f_{t}。当前时间步f_{t}中的特征向量将被用作查询的一部分,每个历史特征向量f_{t-i},in eft 将被用作索引空间特征图的关键部分。

位置编码: 生成一个位置编码,式中d_{p}=8表示PE的维度,𝑝为时间位置,in eft 表示维度的索引。

时间自注意力机制: 将每个时间步长的位置编码向量与空间特征向量连接起来,使用连接的向量作为查询和键,将特征映射作为值。对于时间𝑡的每个查询帧,当前连接的特征向量作为查询,将输入视频片段的每一帧的特征向量,即

基于q_{t}m_{t-i}之间的相似性,可以使用softmax函数在时间维度上生成标准化的注意力权重。

在softmax函数中引入一个正的温度变量来锐化焦点水平,并且在模型中通过一个以查询作为输入的隐藏密连接层自动学习。 最终的参与特征图H_{t}是所有特征图的加权和,使用(3)中的关注权。

多头时间自注意力机制: 多头自注意力机制使模型能够在不同位置共同注意来自不同表征子空间的信息。首先将空间特征映射到n_{t}= 8组,每组使用32个1 × 1卷积核,从而使其适应时空建模。对于每一组维度为c_{h}= 32的特征图,执行上一节中描述的单个头部自注意,并生成头部的参与特征图H_{t}^{eft }

空间选择门: 上述模块将自关注机制扩展到二维图像特征图的时间建模中,但由于GAP操作,其带来了细粒度空间分辨率的损失。为了弥补这一点,本文引入了空间选择门(SSG),这是一种整合当前和历史信息的空间注意机制。将时态自关注模块的参与特征映射与当前查询的特征映射连接起来,在此基础上使用结构为:conv1256 - bn - selu - conv1256 - bn - seluconv1256 - bn - selu - conv1256 - conv1256 - sigmoid的子网络NSSG学习空间选择门。

卷积解码器: 时间自注意模块s_{t}的输出被送入卷积解码器。卷积解码器使用4个转置卷积层来预测视频帧,其步幅为2,与卷积编码器的顺序相反。然后,全比例特征映射经过一个包含32个过滤器的卷积层和一个包含𝑐过滤器的卷积层,其大小为1×1,映射到输入中相同大小的通道𝑐。为了预测更精细的细节,利用跳跃连接将卷积编码器每一层的时空集成地图连接到卷积解码器的相应层,这使得模型能够进一步微调预测的帧。

3.双鉴别器

提出了一种使用图像鉴别器和视频鉴别器的双鉴别GAN,通过对抗性训练进一步增强生成器的未来帧预测能力。图像鉴别器D_{I}仅根据单个帧来判断当前帧是生成的还是真实的,以评估局部一致性。视频鉴别器D_{V}对以过去帧为条件的预测进行批判以评估全局相干性。具体来说,我们将过去的帧与当前生成的帧或真实帧叠加在时间维度上,视频鉴别器本质上是一个视频分类器。除了在图像鉴别器中使用二维操作,在视频鉴别器中使用相应的三维操作外,这两个鉴别器的网络结构保持不变。使用PatchGAN架构,并在每个卷积层中使用谱归一化。在三维版本中,时间维度的步幅和核大小分别设置为1和2。

4.损失函数


5.验证

三、总结

本文开发了基于Convolutional Transformer的双鉴别生成对抗网络(CT-D2GAN)来执行半监督视频异常检测。Convolutional Transformer由三个部分组成,即捕获输入视频片段的空间模式的卷积编码器、编码时间动态的时间自注意模块和集成时空特征的卷积解码器,进行未来帧预测。采用基于双鉴别器的对抗训练方法来保持预测帧的局部一致性和以前一帧为条件的全局一致性。在三个广泛使用的视频异常检测数据集上进行的实验表明,提出的CT-D2GAN能够以优异的性能检测异常帧。

全部评论 (0)

还没有任何评论哟~