Advertisement

Large-scale Video Classification with Convolution Neural Networks

阅读量:

Large-scale Video Classification with Convolution Neural Networks

摘要:

1.引言:

从实践角度来看,在现有条件下尚未有一个与当前图片基准库相当全面且多样化的视频分类基准库可用。由于视频内容相较于图像具有更为复杂的特征,在获取、标注以及存储管理方面面临着更大的挑战。基于此需求,在开发并构建了一个新的 Sports-1M 数据集中包含千万级级别的 YouTube 视频样本,并涵盖 487 个不同的类别标签。该数据集已进行了开放共享,并将作为研究人员开展后续研究工作的基础资源提供给该领域内的学者使用

从模型角度来看, 我们对解答以下问题有浓厚兴趣: 在何种时间域连通性下能够更好地利用视频中呈现出来的局部运动信息? 新增加的运动信息会对CNN预测产生怎样的影响? 这种影响带来了多大程度上的提升? 为此, 我们通过评估不同类型的CNN架构并采用多样化的融合方法将时间域的信息进行整合, 来深入探究这些问题。

从计算角度来看,CNNs需要很快的训练时间才能有效优化这百万级别的参数.当扩展到时间域的连通性时,这一过程变得更加困难,因为该网络不再仅仅处理单帧图像,而是要处理视频的一系列帧.为了缓解这一挑战,我们采用了有效的方法来加速运行速度,通过重新设计CNN结构实现了显著性能提升.具体而言,我们引入了两个分离的功能流:低分辨率的context stream用于学习特征,而高分辨率的fovea stream则专注于中间区域的操作.这种方法使得输入的空间维度得到了降低,从而实现了2到4倍的速度提升.

基于Sport-1M数据集提取的学习特征是否能在其他数据集上实现良好的泛化能力?我们深入探讨了迁移学习问题,在该研究中取得了显著提升(从41.3%准确率提高至65.4%),具体方法是在UCF101数据集上继承Sport-1M训练所得的底层特征而非进行整体网络重 training。值得注意的是,在UCF101中仅包含有限数量的运动类别这一限制因素下,在不同场景下评估了迁移学习带来的性能改进程度。

我们的贡献可以总结如下:

我们进行了大量实验分析,在多个方法下将CNNs扩展至大规模视频分类数据集(已公开该数据集),并报告了显著成果,在基于特征的强大基础之上取得进步。

我们着重采用了某种结构来对输入按照两种不同的分辨率进行处理--一个是低分辨率的context stream、一个是高分辨率的fovea stream,并且这种结构能够提升运行速度且保持精度不受影响。

3、我们应用我们的网络在UCF101数据集,得到了最好的效果。

2.相关工作

卷积神经网络是一个生物启发的深度学习模型类别,在其架构中采用了一个经过训练好的端到端神经网络替代了传统图像处理流程中的三个步骤:原始像素值到分类输出的映射关系被建立起来,并通过局部滤波器连接、参数共享(卷积操作)以及局部不变性(max pooling)机制实现了稀疏特征提取与参数共享的目的。这些设计使得网络能够高效满足需求工程下的系统开发目标,并从特征设计到网络连接结构再到超参数优化等多方面实现了需求转化策略的有效实现。然而受限于计算资源规模的问题,CNNs 直至目前主要应用于小规模图像识别任务(如 MNIST 数据集,CIFAR-10/100,CORBAS 等),随着 GPU 硬件性能的进步,CNNs 已经能够应用于大规模图像分类任务,这一技术进步反过来推动了计算机视觉领域中图像分类、目标检测、场景解析以及 semantic 划分等技术的发展显著提升.值得注意的是,基于 ImageNet 数据集学习而来的高级特征在实际应用中展现出很强的迁移能力,通过简单的 SVM 分类器即可实现优异性能,并且无需进行额外微调优化以达到更好的分类效果

此外,基于 ImageNet 数据集构建的学习模型在实际应用中的表现已经证明了其强大的泛化能力

相较于基于图像的数据领域,在视频分类任务中将其成功应用于实际场景仍然较为有限。这一现象可能源于缺乏足够规模的标准测试集合这一事实:通常情况下,在图像领域的所有成功应用均基于规模庞大的训练数据集合这一前提条件而展开研究与开发工作。值得注意的是,在现有的常用测试集合中(包括KTH、Weizmann、UCF Sports、IXMAS、Hollywood 2以及UCF-50等),这些收集自不同场景下的视频片段所构成的小型集合仅覆盖了有限的时间片段以及少量固定的运动类别实例。即便是在当前最丰富的公开测试集合中(如CCV拥有9317个样本视频以及20个运动类别;而目前介绍中的UCF-10则包含约1.3万段视频片段以及101种不同的运动类别),其规模也远小于其他领域的大型基准数据库所具有的容量与多样性水平之和这一显著差距的存在使得相关研究者必须面对诸多挑战性问题:例如如何有效扩展现有技术以适应这种差异性需求?

3.模型: 不将视频像固定尺寸图像那样复制和重采样, 而是考虑到其时间维度具有多样性, 我们无法简单地采用固定尺度处理这些片段. 在这个研究中, 我们将每个工作中的视频视为一个小而固定的片段, 由于每个片段包含连续几帧数据, 我们可在时间维度上增强网络信息传递的能力, 并详细阐述了三种连通模式: 早期融合、中期融合与慢融合; 同时提出了一种多分辨率架构以优化计算效率

3.1在CNN中融合时间信息:

我们研究了几种不同的基于时间域信息的融合方法:在该阶段(即网络早期),可以采用第一层卷积滤波器进行调整以实现时间维上的融合;或者在分别对两个独立的网络进行单独处理后,在后续步骤中将它们整合起来完成最终效果)。为了构建一个基准模型(即单帧场景下的ViT架构基础模块),我们需要探讨如何根据不同的融合策略将其扩展至多帧情况下的应用框架。

Single-frame. 我们采用了一个基于单帧的基本架构来探讨静止表现对分类精度的影响。该网络架构与ImageNet挑战赛获胜者采用的架构具有相似性,在设计目标上均追求高精度表现;但与后者不同的是,在其输入端仅接收大小为170 \times 170 \times 3像素的空间特征图,在卷积操作中使用9611 \times 11大小的小核滤波器进行提取;随后通过池化操作将特征图的空间维度缩减至更小规模;并在全连接层中应用Dropout正则化技术以防止过拟合;整个网络的最后一层通过Softmax函数进行分类器的设计。

Early Fusion: 初始阶段的信息融合通过在像素级别上扩展并持续传播所有时间段的信息。该方法是通过调整单帧模型第一层滤波器的空间尺寸,在原有基础上增加了11×11×3×T(T为时间持续)的数量级。随后将这些扩大后的滤波器与原始图像数据进行直接连接,在此过程中网络能够更加精准地识别出局部运动的方向及其速度信息。

Late Fusion: 晚期融合模型由两个独立的小型网络(如前述)构成,并一直延伸至卷基层C(256,3,1)。这些相邻15帧共享相同的参数设置。随后,在第一个全连接层上整合了这两条路径的信息。因此,在这种结构下设计出的方法无法单独捕捉到每个单独分支中的运动特征。然而,在整合这两个分支之后能够综合出完整的运动信息

时序整合模型作为一种折衷方案,在混合两种方法的同时实现了对时间信息的有效整合。该模型通过在时间维度上缓慢整合信息,在空间维度上附加时间维卷积层来计算激活值。具体而言,在所设计的网络架构中,在每10帧输入序列中应用滤波器时,默认设置其时间为4个响应特征,并设定步长为2;而对于后续两层网络,则采用时间延展因子T=2的设计策略,并维持相同的步长值为2。通过这种方式,在第三个卷积模块中能够持续积累丰富的时空信息特征

3.2多分辨率CNNs:

由于在大规模数据集上训练CNNs通常需要耗费数周时间,并且即使是在配备快速GPU的计算平台上运行也需要较长的时间,在这项研究中涉及不同结构及超参数配置的实验中运行时间性能成为一个关键考量。这促使我们在不牺牲性能的前提下追求更快捷的模型。此前已有一系列的研究工作包括提升硬件性能优化权值量化机制改进优化算法以及优化初始化策略等都取得了不错的效果但在此项研究中我们着重于通过调整网络架构设计来实现这一目标即通过改变结构设计以达到缩短运行时间的目的同时又能保持原有的高性能水平

通过减少网络层数以及每一层神经元的数量来加快网络速度是一种有效的方法。然而我们发现这种做法会降低网络性能。我们进一步使用低分辨率图像进行试验而非缩减网络规模。然而这种做法反而使网络运行时间有所加快而图像中的高频细节被认为是实现高精度的关键因素。

Fovea 和 context 约束流:该多分辨率架构旨在应对两个分辨率空间中独立处理需求。178×178帧视频切片作为网络输入提供给系统。其中(context)约束流采用原始分辨率一半大小(89×89像素)的采样数据;(fovea)约束流获取了原始分辨率下中间区域(89×89像素)的数据。这样总共减少了输入的空间维度为原来的一半。值得注意的是这种设计充分考虑了在线视频采集设备通常具有的偏置特性,在实际应用中人们往往关注于画面中心区域所包含的目标物体

Architecture changes: 这两个处理流程共享相同的网络架构,并从视频的89×89区域开始操作。由于输入空间尺寸为全帧模型的一半,在提取最后一步池化操作后得以保证两者的特征提取范围均为7×7×256这一尺寸限制。通过密集连接将两个过程输出特征进行串联整合后接入第一个全连接层。

3.3Learning:

优化: 采用随机梯度下降算法对我们的模型进行优化。每个复制体的数量设定在10至50之间,并将每个复制体划分为4至32个子部分。采用批量大小为32的小批量处理,并设置动量为\mu= \beta= \alpha= ,其中\beta表示动量系数,默认取值β= \alpha表示学习率,默认取值\alpha= 。所有模型均初始化学习率为千分之一,并在验证误差不再减少时手动降低了该参数数值。

Data enhancement and processing: We employ data augmentation techniques to reduce overfitting. Before feeding images into the network, we conduct preprocessing on all images. Specifically, we first duplicate the central region of each image and resize it to 200×200 pixels. We then randomly extract a 170×170 pixel region from this duplicated area. Additionally, with a 50% probability, we perform horizontal jittering by a small margin. These preprocessing steps are applied to every frame in the dataset. Finally, in the last step, we subtract a constant value of 117 from each pixel, which approximates the average pixel value across all images in our dataset.

全部评论 (0)

还没有任何评论哟~