Advertisement

【论文精读】2016-CVPR-Learning temporal regularity in video sequences

阅读量:

Learning temporal regularity in video sequences

该论文的链接为:论文地址链接

该论文的链接为:论文地址链接

Abstract

由于视频中存在意义行为(指异常事件)具有不明确性,并且视频中的场景存在混乱状态,则作者基于此问题背景提出了一种解决方案:即通过学习规则运动模式(称为regularity)的生成模型来解决这一技术难题。

Conlusion

与abstract内容类似

Introduction

学习有意义或显著时刻的时间视觉特征(异常)是非常具有挑战性的,因为这些时刻的定义是不明确的,即视觉上没有边界。学习普通时刻的时间视觉特征相对容易,因为它们经常表现出时间规律的动态,如周期性的人群运动。所以仅使用只包含普通时刻即正常帧的数据集进行训练以学习规则时间模式。作者使用多个不同数据集训练一个模型然后用于多个视频数据集的测试。
之前通过利用仅包含正常样本视频进行训练的方法涉及到稀疏编码和词袋的组合,但是单词袋不保留单词的时空结构,需要关于单词数量的先验信息,而且用于训练和测试的稀疏编码优化计算成本很高,特别是对于视频等大数据。
作者提出了一种基于自动编码器的方法。它的目标函数比稀疏编码具有更高的计算效率,并且在动态编码的同时保留了时空信息,通过只包含正常样本的训练集以获取小的重构误差为目的训练自编码器,在测试阶段自编码器对正常样本会产生较小的重构误差而对于异常样本会产生较大的重构误差。
作者基于两种类型特征学习两个自编码器,一个是之前SOTA方法使用的手工特征,但是这种特征不是为该任务专门设定的所以可能是次优的,所以作者设定了端到端的模型。作者在Avenue、Subway、ped1和ped2数据集上进行了训练。作者通过从视频中合成最规则的帧,描绘涉及不规则运动的对象,从单个帧中预测过去和未来的规则运动展示了他们的方法在各种应用中发现视频的时间规则的外观变化模式。
作者的贡献概述如下:①展示了自编码器能有效学习长持续视频中的动态规律并用于鉴别视频中的异常。②使用全卷积自编码器学习低层次的运动特征③将该模型应用于各种应用,包括学习时间规律性,检测与不规则运动相关的对象,过去和未来帧预测,以及异常事件检测。
PS:主要亮点在于使用卷积自编码器端到端训练模型,在此之前应该无人尝试过,自编码器最初是用来提取特征的,15年BMVC那篇就是仅使用它提取特征,但这个朴素的想法16年才有人尝试或许是因为视频异常检测当时过于小众。此外本文的实验很丰富。

Method

在这里插入图片描述

基于手工特征

随后从视频帧中提取人工设计的人工形态与运动模式作为研究对象.接着将提取出的各项特征作为输入参数传递至一个全连接型神经网络构成的自编码器结构.该自编码器旨在通过深度学习算法捕获视频序列中的时空动态规律.其中人工特征主要采用HOG和HOF两种方法来描述物体形态与运动模式并结合时间和空间维度进行分析.由于当前人工特 征的应用已较为成熟且被广泛取代 具体实现细节可参考相关学术文献.此外该模型最终输出的空间维度大小设定为204维 以此构建完整的自编码器架构如图所示

在这里插入图片描述

较小规模的中间层被用来学习紧致语义并去除冗余信息;其中输入与重构的数据均采用HOG与HOF特征表示,其取值范围限定在0至1之间。因此推荐使用tanh或sigmoid激活函数;然而,在全连接层中使用ReLU激活可能导致各神经元输出之和迅速增大。由于该网络采用了全连接结构,在初始化阶段,每个神经元仅与前一层随机选取k个单元相连;其权重参数由零均值高斯分布初始化,并保证每个神经元在整个迭代过程中接收到恒定数量的信息量;从而避免了数值过大的问题。
训练目标函数如下:

\mathcal{L} = \sum_{i=1}^{N}\sum_{j=1}^{M}\left(y_{ij} - \hat{y}_{ij}\right)^2

在这里插入图片描述

X_i被定义为输入数据的特征,在使用自编码器f_W的过程中生成重构计算均方误差;其中N代表批次大小。

端到端学习

模型结构

作者采用了基于全卷积的自编码器进行学习。输入基于视频片段作为数据输入。该网络未包含FC层(全连接层),因其会导致空间信息丢失而被排除。

架构参考上图所示的编码器部分包含三个连续的卷积层和两个池化层;解码器部分则对称地包含三个反卷积层和两个上池化层。研究者采用滑动窗口的方法构建输入数据;将连续T帧进行叠加处理,并将其作为自编码器的输入。其中T代表滑动窗口的时间长度;实验结果表明,在较长的时间跨度下(如图所示),模型表现出更强的结果识别能力。

在这里插入图片描述

当T值增大时,在训练过程中可能会遇到更大的挑战。具体而言,在使用较高数量通道的情况下,输入数据中出现更多复杂或不规律特征的可能性会显著增加。这主要由于这些复杂特征会干扰学习过程中的规律性发展。另一方面,在模型被充分训练后,在分析不同区域时(如规则区域与不规则区域),它们之间的潜在规律性差异将更加容易地区分出来。

数据增强

由于模型参数数量众多,在训练过程中需要大量的数据支持。因此,在现有条件下难以直接完成大规模的数据获取任务。为了弥补这一不足之处,在论文开发阶段采用了数据增强技术作为解决方案。具体而言,在构建输入立体结构时采用了一种新的构造方法:通过不同步长间隔选取连续帧并结合跳变策略形成T帧大小的空间立体结构。在这一过程中包含三类不同的采样策略:stride-1、stride-2及stride-3采样模式分别对应于均匀间隔和非均匀间隔的不同取样频率选择方案。其中对stride-1模式而言,在第1至第5个时间点上分别进行了等间距取样(即第1、2、3、4、5号帧);而对于stride-2模式则选取了第1、3、5号帧作为样本点;同时为了进一步提高采样的效率还引入了一种基于光流信息预处理的方法以减少后续计算量并提高整体性能指标的表现水平。此外,在实验阶段还引入了预先计算得到的光流信息作为辅助特征参与后续的数据构建过程。具体而言,在特征提取阶段利用两帧之间的光流梯度及其模值信息通过加权平均的方式生成了一个新的灰度视频特征层(即通道编号范围为1至T的部分)。而对于光流相关的深度信息则利用两帧之间的运动向量方向及其变化幅度等特征生成了一个独立于原始视频信息的新特征层(即通道编号范围为T+1至2T的部分)。经过上述技术处理后发现该方法对模型性能提升效果较为显著但并未达到预期的最佳优化目标

卷积反卷积
池化和上池化

池化采用最大池化,上池化采用最大上池化

目标函数
在这里插入图片描述

与上述利用手工特征方法类似,只是输入与输出变为了图片

异常分数

训练好模型后,计算视频帧中每个空间位置(x,y)的像素的重构误差:

在这里插入图片描述

然后将该帧内所有位置的重构误差相加,得到该帧的重构误差e(t)=\sum_{(x,y)}e(x,y,t);进而利用下面所述公式来评估规律分数

在这里插入图片描述

上式中的max和min用于计算一个视频片段中各帧的最大值与最小值。在改进后的自编码器中,则将输入I(x,y)替换为经过优化的空间区域p(x,y);这里p(·)代表的是覆盖(x,y)位置并包含对其邻域进行增强处理后的空间特征描述符。

实验

通过实验研究AdaGrad优化器,在多个数据集上进行模型训练。图形显示了不同数据集训练过程中的损失曲线变化。其中基于轨迹特征的学习率起始值为  (此处可能需要符号),Batch大小设定为1 (此处可能需要数值) ,权重衰减系数设为  (此处可能需要数值)。其中采用全卷积自编码器进行研究,其Batch大小进一步设定为32;初始学习率为  (此处可能需要数值)。当模型损失不再下降时会适当降低学习率;采用Xavier初始化方法对模型参数进行处理;本研究涉及的数据集包括 Avenue、UCSD pedestrian 和 Subway 数据

使用不同数据集训练

该研究者采用了特定目标数据集、全部数据集以及排除测试目标的数据集进行训练(如图所示)。通过对前两项结果的对比表明,效果并未因引入其他数据集而下降。通过对最后一个结果与前两项的对比发现:该模型对现有数据集并未出现过度拟合现象,并且能够良好地推广到未曾见过的新视频样本。该研究者认为其提出的网络架构在过拟合与欠拟合之间达到了良好的平衡状态。

在这里插入图片描述

可视化时间规律性

该模型基于像素级别的精确度评估外观规律性。我们利用卷积自动编码器以及改进后的跟踪自动编码器收集规律性评分最高的像素点,在测试视频中生成了最具规则性的帧序列。第一列展示了包含不规则运动轨迹的样本图像集;第二列呈现了生成出来的理想化、高度规则化的帧序列;最后一列则标注了对应的规律性得分值。合成图像中的每个像素对应于在重建过程中成本最低的位置坐标点

在这里插入图片描述

该图表展示了采用提升轨迹自动编码器所得的效果。左边部分展示了视频序列中的不规则帧样本,在此过程中系统能够将这些数据转换为块级精度。右边部分则展示了像素级别的规律性分数。该系统能够将不规则数据转换为块级精度,并且其原因在于其特征提取依赖于patch(即块)的概念。因此,在这种情况下空间位置的定位不如卷积自编码器那样精确。

在这里插入图片描述

预测正常的过去帧和未来帧

基于除去中心帧外其余部分为空白的 clip(即 blank-removed clip),该算法能够有效预测给定中心帧附近的具有规律性的 video clip 的过去与未来帧。从一副图像出发构建一个时间立方体(time cube)作为网络输入时域结构,在这一过程中我们采用零填充的方式填补未被覆盖的部分以完成整个时间立方体的构建工作。最终输出即为对所关注区域未来帧行为模式的行为预测。

异常事件检测

实验结果:

在这里插入图片描述

为了识别异常事件,在遵循特定时间间隔的规律性分数时间序列中确定局部极小值。

可视化卷积核结果

作者通过下图展示了模型在Avenue数据集上学习的一些滤波器响应情况。第一行呈现了输入数据的一个通道及其与conv1层两个滤波器之间的对比反应效果:一个滤波器对不规则物体(此处特指框架顶部的一个袋子)呈现出显著而不协调的效果变化——其输出结果呈现明显较低水平(以蓝色标记),而另一个滤波器则表现出极强的结果强度(以红色标记)。具体而言,第一个滤波器被定义为主导因素之一,在识别规律性特征方面表现出色;相比之下,则专注于识别复杂性特征。

在这里插入图片描述

最终帧级别 AUC:
ped1(81%)
ped2(90%)
Avenue(70.2%)

Discussion:
1.能否通过输入一组连续的多帧并结合二维卷积提取空间-时间特征来实现对时间特性的捕捉?时序特性与空间-时间关系之间存在怎样的联系?
2.本文中对异常分数计算过程中的细节并未在文中进行详细说明,并且在源代码中也未提供相关信息。

以上个人理解,希望与大家一起交流~

全部评论 (0)

还没有任何评论哟~