Advertisement

【论文精读】2017_MM_Spatio-Temporal AutoEncoder for Video Anomaly Detection

阅读量:

Spatio-Temporal AutoEncoder for Video Anomaly Detection

论文地址链接

Abstract

在本文中, 作者提出了一种新的时空AutoEncoder 模型, 简称为 ST AutoEncoder 或 STAE. 该模型基于深度神经网络自动生成视频表示, 并通过三维卷积模块从空间和时间维度提取关键特征. 除了传统自动编码器采用的重建损失外, 研究者采用了加权减少的预测损失模型来预测后续帧序列, 以增强视频中的运动信息捕捉能力. 作者还提出了一个新的数据集.

Conclusion

作者开发了一种名为时空自动编码器的新模型,并将其应用于视频异常检测领域。该模型通过三维卷积网络从空间和时间维度提取特征,并采用多任务学习策略实现重建与未来预测目标的结合。实验结果表明该模型在性能上优于当前国际上最先进的方法(SOTA)。未来研究方向包括探索其他网络架构、整合多模态输入(如RGB和光流信息)以及在实例级别评估异常评分而非像素级别的表现指标,并将该技术扩展至更为复杂的场景中。

Introduction

基于无监督深度学习技术与自动编码器网络相结合的方法也被提出来,并旨在解决视频异常检测问题。然而,在现有的研究中仅依赖于全连接型或二维卷积型自动编码器来进行特征提取,在时间维度上的特性并未被充分利用。因此,在识别含有时间线索的关键帧时效果并不理想。鉴于此,在传统的自监督自编码框架中缺少对时序信息的关注显得尤为重要。
基于3D卷积网络在视频分析方面表现出色的事实,在该研究工作中开发了一种结合空间和时间信息(ST)自监督自编码器用于视频异常检测任务。为了提升模型对运动模式识别的能力,在其设计过程中不仅采用了传统的重构损失作为训练指标,并且在此基础上引入了一个加权减少的预测损失来预判后续帧内容;此外,在解码过程中还设计了一种新的机制来引导模型捕获运动物体的具体轨迹信息并促使其能够更好地提取出具有时序特性的关键帧。

Hasan团队开发了一种全卷积自编码器以提取时空规律性特征。尽管该模型采用多帧输入方式但在空间卷积操作下时间信息未能有效提取导致模型局限性。本文中作者设计了一个新型模型通过三维卷积运算同时从空间与时间维度提取特征从而克服现有深度学习方法的不足

Method

输入

通过长度为T的滑动窗口收集连续T帧输入,在时间维度上叠加这些连续获取到的帧后形成一个超长方体并对其进行三维卷积处理。其中该超长方体中的通道数量等于原始单个帧的数量,并根据数据类型的不同而有所变化(例如灰度图仅包含1个通道而RGB图像则包含3个通道)。所有输入数据经过归一化处理后被限制在0到1之间。

数据增强

作者通过多种变换手段生成更多的输入超长方体(包括随机裁剪、亮度变化和高斯模糊等技术),这些处理用于从视频序列中提取的片段。为了避免使用Hasan等人提出的步进式数据增强方法(因该方法可能会影响运动速度),在他们的方法中采用了恒定的帧速率采样策略。然而,在许多异常检测场景中,运动速度是一个关键的时间特征。因此,在作者的方法中采用了恒定的帧速率采样策略以保持物体运动的速度不变。

网络架构

设输入视频片段的时间长度T=

在这里插入图片描述

X_i是batchsize为N的batch中的第i个立方体,f_{rec}(X_i)是重构分支的输出

权重递减的预测损失

之前工作证明预测网络有利于学习视频表示,作者在解码部分设计了一个预测分支来预测未来T帧,具体的如上图所示,重构分支和预测分支有相同的隐藏特征层但执行不同的任务,预测分支可以使模型去捕获运动物体的轨迹来迫使编码器更好提取时序特征。之前的工作中对于预测损失也是使用均方误差,但是作者认为为预测的T帧使用相同的权重不合适,因为未来可能会出现一些不可预测的物体影响模型收敛。应用预测损失来强制模型提取现有物体的运动特征并预测它们在不久的将来的运动,而不是预测新物体在相对遥远的将来的出现。随着时间的推移,出现新物体的概率逐渐增加,因此作者对预测的视频片段的每一帧施加一个较小的权重。预测损失公式为:

在这里插入图片描述

对于给定的任务序列\{x_t\}_{t=1}^N来说,
其目标是在t=1,2,...,N-T+1
的情况下预测后续序列\{y_t\}_{t=1}^M
中的元素。
其中,在第t=1,2,...,N-T+1
个时间步中,
模型通过自回归的方式对当前时刻
x_t^{(train)}=x_t
进行预测;
而在t=N-T+2,...,N
的时间步中,
则仅使用已知的历史信息x_t^{(train)}=x_t
来进行预测。

目标函数

在这里插入图片描述

将重构损失和预测损失结合起来

异常分数

经过模型的训练后,在评估阶段将测试视频序列x带入系统中进行处理,并通过公式e(x) = L_{rec}(x)计算其重构误差值。随后将这些重构误差值进行归一化处理,以计算出该视频序列的正则性评分。

在这里插入图片描述

在实时异常检测系统中估算min_x e(x)max_x e(x)并非易事,因为未来的时间序列数据无法直接观测.这些关键指标应当基于历史数据分析设定

实验

数据集UCSD Pedestrian、Avenue、Traffic

在这里插入图片描述

STAE-grayscale将原始灰度像素作为输入,其性能优于大多数SOTA方法, STAE-optflow使用计算出的光流作为输入,其提供了区分性的时序特征提高了模型在Avenue数据上的性能。光流没有在ped数据上提高性能因为该数据集中的异常值是外观异常,而外观特征不包含在光流中
此外作者使用在Traffic与hasan等人的convAE进行了对比因为该方法有一定的提取时间特征能力,输入使用灰度图,因为静止的物体不能提供光流信息。作者将一个叫做ConvAE-1frame的模型作为基础模型,它是一个二维卷积自动编码器,只以一帧作为输入,实现了一个没有时间特征的基线结果。其他4个模型以T = 16帧的视频片段作为输入,作者以stride-5对帧进行采样,以确保输入片段覆盖足够的时间段,结果如下图,当输入多帧是convAE增加了AUC减小了EER,然而其不能有效提取时序特征,为了展示作者提出模型效果,作者使用了三个不同损失训练,一个只使用重构损失,一个使用重构损失和预测损失但是使用等权重的预测损失,另一个则使用作者提出的递减的权重损失,可以看出3D卷积优于2D卷积加入预测分支可以提高对运动特征的提取,使用递减权重损失会进一步提高效果。。

在这里插入图片描述

最终帧级别 AUC:
ped1(92.3%)
ped2(91.2%)
Avenue(80.9%)

Discussion

通过3D卷积网络获取时空序列数据的特征表示,并在这一过程中引入预测模块来增强运动特征捕捉能力。该模型架构具有良好的逻辑结构,在实验结果表明该方法在性能指标上超越了基于LSTM的方案。

全部评论 (0)

还没有任何评论哟~