【论文阅读笔记】Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks
发布时间
阅读量:
阅读量
代码地址:https://github.com/ZhaofanQiu/pseudo-3d-residual-networks
主要贡献:以经济且有效的方式构建了仿3D卷积神经网络模型:P3D ResNet
出发点:3D 卷积神经网络能够同时学习到视频的时间和空间特征,但是存在所需内存大和计算成本高的问题,导致难以构建更深层的3D CNN,因此提出了用二维空间卷积和一维时间卷积来模拟3D卷积的想法,这种想法更经济,而且还将这种设计整合到一个深度残差学习框架中,能够很好地用于视频特征表达。
P3D Blocks

主要思想为将3D卷积核3X3X解耦为1X3X3和3X1X1的卷积核。这样不仅能够减少参数数量还能够利用预训练好的2D CNN,利用从图像中学习的场景和对象的知识使伪3D CNN性能更好。
P3D Blocks的灵感来源于ResNet,P3D Blocks用于代替ResNet的Residual Units。为了研究空间维度(S)上的2D卷积核和时域(T)上的1D卷积核并联还是串联效果好,设计了三种结构如上图所示。
P3D-A:
P3D-B:
P3D-C:
具体结构如下图所示:

为了评估三个模块,将三个模块都设计到ResNet-50中,对其分类性能和时间分别进行测试,测试结果如下:

其中P3D ResNet是结合了三种P3D Block的ResNet-50,即三种Block交替出现。

之后,又将这些Block扩展到了ResNet-152。
模型评估上,选择了三个不同的任务,行为识别,动作相似判断和场景识别,都取得了不错的效果,说明这个模型对视频特征提取具有较好的效果,能适应不同的识别任务。
全部评论 (0)
还没有任何评论哟~
