Advertisement

C3D Learning Spatiotemporal Features with 3D Convolutional Networks

阅读量:

Learning Spatiotemporal Features with 3D Convolutional Networks

摘要

1)相比较于二维,三维卷积神经网络更适合于时空特征

2)在三维卷积神经网络中,3 3 3卷积内核是效果最好的

基于线性分类器学习到的特征(其中一种称为C3D),在多个基准测试中表现优异,并且与现有的其他两种技术并驾齐驱

此外, 特征具有高度压缩性: 仅需10维即可在UCF101数据集上实现52.8%的精度, 同时得益于卷积神经网络(ConvNets)具备高效的推理速度, 在计算资源有限的情况下也能保持较高的计算效率。最后一点是该方案极为简洁, 并且易于进行训练与部署。

1.Introduction

本文的主要贡献包括三个方面:
a. 基于实验结果表明,在无论是外观特征还是运动信息方面,C3D算法表现优异
b. 实验结果证实,采用三层卷积层设计(即3×3×3)能够构建最优架构
c. 所提出的基于简单线性模型的方法在多个任务上表现出色,其性能与现有基准方案相当;同时该方法具有简洁高效的特点(如表1所示)

在这里插入图片描述

2.Related Work

该部分综述了其他研究者在视频处理领域的相关成果,并探讨了卷积网络及其三维版本(3D卷积)在图像与视频分析中的广泛应用。与现有方法相比, 本研究重点阐述了我们方法的优势所在: C3D卷积网络将整段视频作为一个整体输入, 并无需额外预处理步骤, 其天然的三维结构使其能够高效提取空间-时间特征, 因此特别适合大规模数据集的学习任务。

3.Learning Feartures with 3D ConvNets

3.1 3D convolution and pooling

复制代码
    3D ConvNets 更适合学习时空特征,通过3D卷积和3D池化,可以对时间信息建模,而2D卷积只能在空间上学习特征。3D和2D的区别如下:
在这里插入图片描述

2D卷积网络在接收图像时会产生出相应的图像;当处理的对象是视频时也会生成出对应的图片;而3D卷积网络则在接收包含时间维度的视频序列作为输入的同时能够产出另一个独立且完整的视频序列,并有效保持原始的时间信息。

该研究在UCF101数据集上展开实验,并探索最优网络结构。该工作在大规模数据库中进行验证工作,并基于二维卷积层设定空间维度为3×3的结构,在后续实验中将通过调整时间深度参数以优化卷积核效果。

Notations:

video clips size: c l h*w 其中,c是通道数量,l是帧长度,h是帧高,w是帧宽

3D kernel size: d k k d是核时域深度,k是核空间尺寸

Common network settings:

UCF101数据集中的视频片段经过处理后得到一组新的视频样本集。在获取这些样本时,首先对每个视频帧按尺寸进行调整以适应后续模型需求;随后将所有样本按照原始分辨率的一半划分成非重叠的连续帧序列;这些处理后的样本被指定为网络输入使用;其中每个样本的三维空间维度设定为3×(56)^2(即高度与宽度均为56像素);经过随机抖动技术进行处理后得到最终的训练数据集

该网络由五个卷积模块与五个池化模块构成(每个卷积模块后接一个池化模块)。其后跟两个全连接神经网络以及一个softmax分类器用于识别行为标签。各卷积模块具有的滤波器数量依次是:64, 128, 256, 256, 256。所有卷积核的空间深度统一设定为d值,并通过调节d值来探索最优三维架构配置。各池化块的空间尺寸均为[公式] ,其中第一块空间尺寸特设为了[公式] 。两组全连接神经网络均输出至维度空间,并采用包含30条训练样本的小批量数据进行学习初始化时设定学习率为0.003,在每隔4 epochs自动降低学习率一次,并持续约达17 epochs完成整个模型训练。

Varying network architectures:

我们主要研究如何通过深层次的网络模型来聚合时间信息。在实验中,我们仅调整卷积层的时间深度参数d,并保持其他常规配置不变。

我们进行了两种结构的设计:第一种是均质时间深度方案;第二种则是动态时间深度调整的设计。在均匀时间深度方案下(d=1,3,5,7),我们采用了四种不同的网络架构进行实验比较;而动态时间深度方案则包括两组设计:一种是递增型(3-3-5-5-7);另一种是递减型(7-5-5-3-3)。值得注意的是,在这两种设计中;尽管各组网络在最终池化层输出信号大小上保持一致;但由于不同设计下的参数分配差异;导致它们在整个网络架构中的计算复杂度存在显著差别。与全连接层相比;这些卷积神经网络模型仅多了几百到几千个可学习参数;相比之下;全连接层所拥有的数百万级参数显得相对微不足道。此外;对比各个d值对应的模型性能发现:d值越大;模型整体计算复杂度越高(例如:当d相差2时;两模型之间的总参数数差异仅为1.7万至约5.1万)。

3.2 Exploring kernel temporal depth

在这里插入图片描述

通过实验得出depth-3是最好的,卷积核最好的尺寸是3 3 3

3.3 Spatiotemporal feature learning

在这里插入图片描述

该网络架构包含8个卷积模块(其内核规模为3 \times 3 \times 3);
其中包含了5个下采样过程(第一个采样块的内核大小是1 \times 2 \times 2),后续采样块均采用大小为2 \times 2 \times 2
此外还包括两个全连接模块,在每一模块中将产生4096个神经元;
最后输出结果经softmax函数处理后得到类别概率分布。

Dataset:

Sports-1M 数据集,共有1.1million视频,包括487个种类

Training:

从每个视频中提取五个时长为两秒的片段,并对这些片段实施时间轴和空间域上的扰动。在训练过程中对这些片段实施随机裁剪至指定尺寸,并以50%的概率水平进行水平翻转。最低设置为30个样本组成的批量,在开始训练时的学习率为固定值 0.003。每完成约一百五千次迭代后将学习率减半,在总迭代次数达到约一百 ninety万次时停止优化过程。

Sports-1M classification results:

在这里插入图片描述

基于零基础训练得到的C3D网络实现了84.4%精确度;通过基于I380K预训练优化后的C3D网络达到了85.5%准确率;两者在性能方面均超越了DeepVideo;但相较于文献[29]所提出的方法,在精确度上略逊一筹。值得注意的是,在处理120帧长片段时采用深度图像特征进行卷积池化后的效果仍然无法直接对比现有短片段优化下的C3D及DeepVideo

4.Action recognition

Dataset:
UCF101:13, 320 videos of 101 human action categories.
Classification model:
我们提取C3D特征,并将其输入到一个多类别线性支持向量机中,用于训练模型。实验中采取三种不同的网络:C3D trained on I380K,C3D trained on Sports-1M, and C3D trained on I380K and fine-tuned on Sports-1M.
Baselines:
目前最好的hand-crafted features, namely improved dense trajectories (iDT)等等…
Results:

在这里插入图片描述

Basic overview indicates moderate performance across individual tests. The author posits that certain networks employ long clip strategies, rendering them non-comparable. When combined with ImageNet, minimal gains were observed. Notably, the iDT approach achieved the best results, while C3D demonstrates advantages over other networks through its straightforward implementation.
To evaluate the compactness of C3D features, PCA was applied to map features into a reduced dimensional space. Classification accuracy on the UCF101 dataset was recorded for these projected features. Experimental results indicate optimal performance, thereby confirming that C3D features are compact and discriminative.

在这里插入图片描述

通过t-SNE算法将特征映射至二维空间后进行分析发现,C3D模型展现出良好的泛化性能,其独特的语义结构使得不同动作类别之间能够清晰区分,在数据表示上,每个视频片段被视作一个独立的点,同一动作类别中的片段具有相同的颜色标记

在这里插入图片描述

5.Action Similarity Labeling

Dataset:
ASLAN:3, 631 videos,432 action classes.任务是验证给定的视频对是否相同
Features:
将一个视频划分为16帧剪辑且其中8帧是重叠的,提取每个片段C3D特征(pro3,fc7,fc6,pool5),平均每种类型特征得到视频特征,L2标准化
Classification model:
给定一个视频对,我们计算[21]中的12个不同距离。加上4个特征类别,获取48维特征向量
由于48个方向并非一一比较,我们分别将其标准化,得到零均值和单位方差
最终,训练一个线性SVM在48维特征向量上分出视频对相同与否

在这里插入图片描述

6.Scene and Object Recognition

Datasets:
YUPENN:420 videos of 14 scene categories

Maryland presents 130 videos distributed across 13 distinct scene categories. The classification model is introduced. The classification process employs identical feature extraction techniques and a linear support vector machine. By sliding a 16-frame window across each video clip, we extract C3D features. The clip's ground truth label is assigned as the label with the highest occurrence frequency within the clip. If the most frequent label appears fewer than 8 frames, it is classified as negative and excluded from both training and testing. Linear SVM is employed to train and test C3D features, with object recognition rates recorded accordingly. The experimental results demonstrate exceptional performance, indicating that C3D exhibits strong generalization capabilities.

在这里插入图片描述

7.Runtime Analysis

在这里插入图片描述

8.Conclusion

在本研究中,我们致力于通过c3d网络训练的大规模视频数据集来探索学习视频时空特性的这一问题. 我们系统地进行了研究,旨在确定c3d网络最佳的时间核长度. 我们发现,c3d能够同时融合模型外观和运动信息并优于2d事先特性的各种视频分析任务. 通过实验分析,我们证明了c3d特性与线性分类器结合能够超越或接近现有最佳方法在多个视频分析基准上的表现. 尽管不重要,但我们提出,c3d特性是有效的、简洁且易于使用的.

实验部分

4.行为识别

数据集:基于UCF101数据集38进行C3D特征检测。其中包含了共计1.3万多个视频样本的数据集被用于本研究,并基于该数据集提供的三种分割方案进行实验

该分类模型通过提取 C₃ D 特征,并将这些特征作为多类线性支持向量机的输入进行训练。为了验证该方法的有效性,在三种不同的网络架构下进行了实验:首先,在 I₃ 80K 架构下进行 C₃ D 描述符预训练;其次,在 Sports-1M 架构下进行预训练;最后,在经过微调优化后的 Sports-1M 架构下继续预训练。将这些经过 L2 归一化的 C₃ D 描述符串联起来,并构建最终特征空间。

我们采用C3D特征与现有最优人工提取特征进行对比分析:具体包括改进后的深度轨迹表示(iDT)[44]和广泛应用于深度图像分析的ImageNet特征。这些实验均基于Caffe S Imagenet预训练模型进行。对于iDT方案,在其每个通道中应用5000维的直方图表示法,并对各通道直方图进行L1-norm归一化处理;而对于ImageNet方案,则在每帧上提取fc6层特征后取平均值以生成视频描述符。通过多类线性支持向量机对这两个基准方案进行公平评估。

实验结果表明,在表3中展示了C3D模型在动作识别任务中的性能表现,并将其与现有的两种基准方法及当前最优方法进行了对比分析。其中,在上半部分展示了两个基准方法的表现。在中间区域,则仅采用了基于RGB帧的传统视频编码技术。下半部分则综合运用了包括光流特性、iDT等多组特征的混合方案,并完整地呈现了现有最优算法的结果。

在这里插入图片描述

C3D微调网在前面描述的三种C3D网中表现最好。然而,这三种蚊帐之间的性能差距很小(1%)。从现在起,除非另有说明,我们将微调后的网络称为C3D。使用一个只有4,096个维度的网络C3D的准确率为82.3%。3网C3D将精度提高到85.2%,尺寸增加到12288。C3D与iDT联合时,准确率进一步提高到90.4%,与Imagenet联合时,仅提高了0.6%。
这说明C3D可以很好地捕捉到外观和运动信息,因此与基于外观特征的深度特征Imagenet结合是没有好处的。另一方面,C3D与iDT的结合是有益的,因为它们之间具有很强的互补性。事实上,iDT是基于光流跟踪和低水平梯度直方图的手工制作的特征,而C3D捕捉高层次的抽象/语义信息

相较于基于iDT和Imagenet的基准方法,在本研究中我们采用了三层网络结构(即C3D)实现了85.2%的分类精度指标,并较基准方法提升了9.0%及16.4%,其中前者主要针对体育视频数据集 Sports-1M 进行优化;当仅采用RGB输入时(即仅考虑视觉信息而不含音频信息),我们发现相较于基于CNN的方法,在文献 [36] 中所采用的深度神经元结构(AlexNet架构)下进行优化后,在测试集上的识别精度分别提升了约 77.7%,并且相较于文献 [18] 中所提出的空间流网络架构,则进一步将识别精度提升至 77.7%. 研究者们均采用了相同的结构基础:即在 Sports-1M 数据集上进行预训练以获得良好的初始权重参数;对于 AlexNet 架构而言,则是直接利用其原始设计的基础上对卷积层进行了微调处理;而对于空间流网络则是在 ImageNet 数据集上进行了额外的参数优化以提升其泛化能力

在这里插入图片描述
在这里插入图片描述

5.动作相似标记

数据集:ASLAN数据集由来自432个动作类的视频库中总共包含3631个视频样本构成。
该目标是判断任意一对视频是否属于同一类别或不同类别。
为了评估模型性能, 我们采用了10倍交叉验证的方法, 并按照数据集提供的划分策略进行实验。
与传统的动作识别问题不同, 该任务关注的是动作间的相似性度量, 而不是具体的动作分类。
由于测试集包含了许多之前从未见过的动作样本, 这一任务呈现出很高的难度和挑战性。

将视频划分为16个部分,在其中每隔一个部分形成8个重叠的部分。从每个部分中提取C3D特征:概率值、fc7层、fc6层以及pool5层作为该片段的关键描述符。计算该视频的整体特征时,则是通过取各类型片段对应的平均值来完成对该视频整体特性的表征

分类模型: 我们采用与[21]中相同的设置方案来进行研究。给定一对视频样本, 我们计算基于[21]方法得出的12种不同距离指标, 并将每个视频对提取为一个包含48维(即12种距离指标乘以四个关键特征维度)的数据向量. 由于这些不同类型的度量指标之间缺乏可比性, 我们分别对其进行标准化处理, 使每一种度量指标在均值和单位方差上达到一致. 最后, 通过训练线性支持向量机模型来区分这些来自不同配准关系的数据样本是否一致或存在差异. 此外, The comparative analysis also includes a detailed evaluation of our approach by comparing it with the C3D framework using a different set of features derived from the ImageNet database. 这些实验结果表明

结果:我们报告了C3D的结果,并与表4中最先进的方法进行了比较。尽管现有的许多方法依赖于多种手工提取特征,并且结合了VLAD、Fisher向量等强大的编码技术以及复杂的机器学习模型(如SVM),然而我们的系统采用了简单的平均C3D视频特征和线性支持向量机,在准确率上超越了最新研究(引用编号:[45])约9.6%,在AUC方面领先约11.1%。Imagenet基准测试表现良好,在最新研究中仅落后约1.2%,但因缺乏对运动建模的关注而落后于我们的系统约10.8%(图7展示了不同系统在ROC曲线上的对比情况)。当前的研究已经取得了显著的进步,在现有技术中达到了接近人类水平(约98.9%)。

在这里插入图片描述
在这里插入图片描述

全部评论 (0)

还没有任何评论哟~