SlowFast Networks for Video Recognition
SlowFast Networks for Video Recognition [ICCV-2019]
一、背景介绍:
首先作者提出的想法:我们习惯性地对二维图像沿x轴与y轴两个维度进行对称处理,在引入了时间维度的视频序列中,则运动作为时空的一种类比物具有特殊的意义。然而,在所有可能的方向上存在的时空方向并不具有同等可能性——较慢的动作更容易发生这种情况有生物学术语支撑:作者在其论文中提到的方法受到灵长类动物细胞生物研究的启发,在这种研究中存在两类关键细胞——P细胞与M细胞。其中M型细胞在感知高频率的时间变化方面具有显著的优势,在快速的时间变化面前表现出更强的反应能力;而P型细胞则在较低的时间频率下发挥重要作用,能够捕捉到更细致的空间信息与色彩细节。
举例说明,在动作过程中
如果时间与空间方向上的差异性存在,则无法采用统一的方式处理空间与时间维度。基于这一认识,在视频识别领域中研究者开发了一种双路径SlowFast架构(如图1所示)。其中一种分支专门用于提取图像或仅有少数、稀疏帧所传达的语义信息,并且其运行效率较低、刷新速度较慢。相比之下,另一种分支则专注于追踪动态变化中的运动细节,在动态捕捉方面表现更为出色。
这种方法和双流算法的区别在哪里?
1、 双流算法的两个流采用相同的主干结构
2、双流算法基于光流信息进行计算;论文中提出的网络模型是以原始数据为基础进行端到端学习
二、理论方法:

整体网络框架包含了一个低帧率的Slow路径和一个高帧率的Fast路径
\tau : slow路径采样频率
T : slow路径采样的总帧数
\alpha :fast路径采样频率为\tau/\alpha
Slow路径:
输入的是低帧率的采样数据,使用一个较大的时序跨度,由参数\tau设置
Fast路径:
采样速率为慢路径的\alpha = 8倍,每隔2帧采样一次
致力于获取高质量的特征表示而不采用时空池化及时空卷积模块进行采样操作,在时序信息处理过程中形成的特征空间具有αt个时空粒度。
低信道容量,使它很轻,轻量级的设计由
类似于slow路径的卷积网络,但是通道数是它的\beta = 1/8
Fast path does not perform any special processing on the spatial dimension, owing to the limited number of channels, which results in a relatively weak spatial modeling capability. The experimental results demonstrate that Fast path is simultaneously improving its temporal modeling capabilities while diminishing its spatial modeling capabilities.
Lateral Connection:
连接点:
ResNet: pool1, res2, res3, and res4
连接的几种方式:
slow pathway: \{T,S^2,C\}
fast pathway: \{\alpha T,S^2,\beta C\}
- Time-to-channel
对fast路径的特征张量进行转换,由\{\alpha T,S^2,\beta C\} 转换为\{T,S^2,\alpha\beta C\}
- Time-strided sampling
从fast路径的特征张量中随机抽取一个样本\{T,S^2,\beta C\}
- Time-strided convolution
直接进行3D卷积操作:5*1*1 kernal size、2\beta C output channels、stride = \alpha
网络实例化参数:以resnet为例

三、实验分析:
实验数据集:
Kinetics-400 : 400 个人类动作类别中的 240k 训练视频和 20k 验证视频组成
Kinetics-600 :600 个类中有 392k 训练视频和 30k 验证视频
Charades :157 个类中有 9.8k 训练视频和 1.8k 验证视频
AVA基于437部电影的数据构建时空标签系统。该系统每秒生成一帧视频片段,并由参与者通过边界框标注若干个(可能是一个或多个)动作进行标记
首先看作者在几个数据集上测试的网络性能结果:
Kinetics-400:
效果已经非常出色了,并且均达到了当前最佳水平SOTA。作者进一步在不同超参数设置下进行了网络性能评估,并指出其中NL表示采用非局部网络结构。

Kinetics-600:
Kinetics-600数据集也是一样,可以看到超参数\tau = 16 \beta = 8效果是最好的

Charades :

AVA:

消融实验:
作者比较了仅采用slow网络与采用slowfast网络的表现,并发现加入fast网络后计算量提升幅度较小但准确率明显提高。

2、关于超参数\beta的实验

3、采用不同的输入 测试效果
可以看到采用灰度图的准确率和RGB相差不大,减少了运算量

