Advertisement

论文阅读笔记《leaning spatiotemporal features with 3D convolutional network》

阅读量:

学习笔记《提取空间-时序特征:基于三维卷积网络的方法》

学习笔记《提取空间-时序特征:基于三维卷积网络的方法》

论文链接 Learning Spatiotemporal Features with 3D Convolutional Networks项目主页 C3D: Generic Features for Video Analysis

Empirical analysis demonstrates that three-dimensional convolutional deep networks represent highly effective tools for modeling both appearance and motion concurrently. Through extensive experimentation, it has been identified that the 3×3×3 convolution kernel consistently outperforms alternative configurations across various network architectures. The proposed features, when coupled with a straightforward linear model, demonstrate superior performance or at least match the current state-of-the-art across four distinct tasks and six diverse benchmarks. These features are notable for their compact design and computational efficiency.

第三部分主要涵盖两个主要部分:第一部分是通过实验研究不同架构的三维卷积神经网络;第二部分则是探讨如何在大量数据集上进行训练。

2D卷积和3D卷积的比较

2D卷积仅用于提取空间信息,在面对多帧图像序列时,则会将每一幅单独视为独立通道进行处理,并最终生成一张二维特征图;相比之下,在同样处理多幅连续的二维数据时(如视频),3D卷积不仅能够提取空间信息还具备时间感知能力,并有效保留了各帧之间的时空连续性,在这种情况下会形成一个三维张量或立体结构作为输出结果

这里写图片描述

a)和b)分别对应于二维卷积在灰度图和平彩色图中的应用情况(此处平彩色图既可以指同一幅图片的不同颜色通道(R、G、B),也可以指多幅堆叠在一起的彩色图像)。每个滤波器都会生成一个二维的特征图,在这种情况下所有相关信息都被有效提取并被完全压缩。而c)中的三维卷积层依然能够生成三维形式的特征图。

3D卷积核参数的选择

通过调整不同尺寸的卷积核(仅在时序维度调整),并在UCF101数据集上进行优化以确定卷积核的最佳尺寸。实验结果表明,3×3×3尺寸的卷积核表现最佳。

这里写图片描述

C3D的网络结构

C3D网络由八种不同的卷积单元构成:其中五个单元用于池化操作、两个单元负责全连接计算,并且包含一个softmax分类器用于目标检测任务。每个卷积单元的空间维度均为3 × 3 × 3,并采用单位stride进行滑动;池化单元中第一个池化操作的空间尺寸为1 × 4 × 4,并且使用stride为单位 strides执行;其余所有池化操作均采用空间尺寸为4 × 4 × 4并结合 stride = [unit stride]的方式处理;而全连接层则共有4096个神经元以确保分类器能够充分捕捉目标特征空间的信息量;此外该网络每秒处理能力达到每秒约一千万次乘法运算水平(FLOPS),并且其输入空间维度设定为3 × 16 × 112 × 112

这里写图片描述

训练

C3D网络在 sports-1M 数据集中进行了训练,并从其中的训练视频中随机选取了 2 秒长的片段作为样本用于模型训练。该模型采用了 SGD 方法进行优化计算,在批量大小设定为 30 的情况下运行,并采用指数衰减策略调节学习速率:初始学习速率为 0.003,在每隔 15 万次迭代时将其减半一次直至降到最低水平。整个模型的最大迭代次数设定为 1,900,000 次以确保充分的学习过程完成。

全部评论 (0)

还没有任何评论哟~