Advertisement

论文笔记:Gate-Shift Networks for Video Action Recognition(GSM)

阅读量:

论文笔记:Gate-Shift Networks for Video Action Recognition(GSM)

代码链接

该GitHub存储位置位于https://github.com/swathikirans/GSM中

文章链接

该论文已通过官方渠道发布于ArXiv平台,并提供其PDF版本

文章提出动机:目前视频行为识别种类繁多,但尚未达到与图像识别,AlexNet等方法相当的效果. 3D卷积网络具有较多的参数和较大的计算量,在训练数据不足的情况下表现尚有提升空间. 基此,我们参考了TSM的时间错动机制(shift_forward, shift_backward)以及GST的分组卷积设计,提出了一个新的模块GSM(Gate-Shift Module)作为解决这一问题的关键方案.

文章思想:将输入的特征分割为两个部分,并各自采用2D卷积和3D卷积分别进行空间建模与时序建模。本文提出了一种自适应划分的方法,并根据输入特征自动选择对哪一部分进行空间建模以及哪一部分进行时序建模。

方法:

在代码设计中采用均分策略将输入的特征X沿着channel维度分割为两部分X₁和X₂。其中前32个通道被划分为第一部分X₁后32个通道则构成第二部分X₂。随后分别对这两部分施加三维卷积操作并在输出结果的基础上并乘以tanh函数从而生成门控特征g₁和g₂。
为了实现系统的并行计算我们将特征向量系统性地分割为两组:

y1 = g1*X1; R1 = *X1
  1. 对 y₁ 进行时间序列偏移处理后建立时间序列模型,并将其与仅包含空间信息的误差项 R₁ 进行融合。
  2. 最终输出至 GSM 模块中

问题及看法

1.为什么划分为两个特征?

参考GST分组卷积的思路 ,在保证效果的同时,减少参数计算

2.为什么进行前向shift和反向shift,有什么依据吗?

基于TSM模块,在二维卷积层的基础上施加时间偏移操作,并整合时空特征信息以构建时空关系模型

疑惑

为何认为文章能够根据情况决定将输入特征中的哪些方面分别用于空间建模和时序建模?这里的'哪些方面'指的是时序上的不同部分还是channel上的不同部分?

门控依据不同的训练数据进行调整,从而影响模型参数.具体指的是什么?能否举个例子?

全部评论 (0)

还没有任何评论哟~