深度学习论文: SlowFast Networks for Video Recognition及其PyTorch实现
深度学习论文:SlowFast网络在视频识别中的应用及其PyTorch实现
1 概述
SlowFast网络专为视频识别而设计,在其架构中包含两大关键分支:慢速分支以较低帧率运行并专注于提取空间语义特征;快速分支则采用较高帧率运行策略以便精准捕获动态变化的时间细节。值得注意的是,在优化通道配置的同时(即精简通道容量),该模型成功实现了轻量化设计并有效提取了关键时空特征。经过这种方法论创新后所构建起来的研究方案,在视频行为分类与检测任务中展现出了显著的技术优势
2 SlowFast Networks

其主要的工作流程大致如下所示:
- step1:采用快采样与慢采样的结合方法对输入视频进行采样;
 - step2:随后将采集到的视频帧分别输入至Slow分支和Fast分支;
 - Slow分支利用ResNet 2D卷积层与3D卷积层提取视频的空间语义特征,并输出具有尺寸为[T, S², C]的特征图;
 - Fast分支通过ResNet 3D卷积层提取出时域运动特征,并输出尺寸为[αT, S², βC]的特征图(其中α值大于1而β值小于1);
 - 最后将Slow分支与Fast分支生成的特征进行水平连接;
 - 最后通过Softmax层完成目标分类任务。
 
2-1 Slow pathway
慢速路径可能由任何类型的卷积模型实现,并被用作时空体积处理的基础。其核心在于输入帧的时间间隔τ,在这种间隔内每隔一定数量选取一个进行后续操作。在研究中常取τ值为16,在30帧/秒的视频中这意味着每秒将大约有2个样本被采样出来。设慢速路径采样的总样本数量为T,则原始视频片段的有效长度可表示为T乘以时间间隔τ得到的结果。
2-2 Fast pathway
快速路径(Fast pathway)在SlowFast神经网络架构中扮演着重要角色,并且包含以下核心特征:
- 较高帧率:基于较小的时间步长τ/α(其中α > 1)实现。具体而言,在实验设置中常将α设定为8。
 - 高时间分辨率:在架构设计上避免采用时间降采样机制。从而实现了持续稳定的时序信息传递直至全局聚合阶段。
 - 较低通道容量:相比慢速分支路宽且拥有更多计算资源。其中参数β常取值于1/8。该设置不仅显著降低了整体计算负担,并且使模型架构更加紧凑。
 - 在空间域的表现相对逊色:然而这种权衡策略有助于提升其对时序特性的建模能力。
 
2-3 Lateral connections
在SlowFast模型中,高速路径与低速路径的信息通过侧向连接实现整合,并以此为基础使得两个路径能够共同继承所学习到的知识表示。
- 跨层连接:通过跨层连接整合两个路径的数据,在双流网络和图像目标检测领域是一种常用技术。
 - 融合时机:ResNets架构中,在pool1、res2、res3和res4位置设置了侧向连接。
 - 特征转换:因为两个分支在网络深度方向上有不同的发展节奏, 为了使两者的特征能够在空间或时空中对齐。
 - 单向设计:实验采用了一种单方向的设计策略, 将快速分支提取出的空间特征逐步融入到慢速分支的发展过程中, 其双向结合的效果表现得相当接近。
 - 池化与分类:各分支经过全局平均池化后得到特征表示, 然后将这些AvgPool后的特征表示拼接成一个统一的空间表征 AvgPool后的特征表示拼接成一个统一的空间表征 fed into a fully connected layer for classification.
 
通过以下方式:基于以下机制:基于多模态深度学习框架中采用以下策略:该模型能够实现快速路径与慢速路径之间的有效结合
2-4 Instantiations
慢速路径(Slow pathway) :
- 该方法基于改进型3D ResNet架构设计,在处理视频数据时采用稀疏采样策略。
 - 在本实例中,默认情况下未执行时空下采样操作以维持较高的精度水平。
 - 相较于传统C3D/I3D模型,在res4和res5层段引入了非退化的时间卷积操作(即时间核尺寸大于1),而前几层(conv1至res3)依然采用标准的空间卷积结构。
 - 这一设计源于实验发现,在初始层段应用时间卷积可能导致准确率下降的现象。具体而言,在物体快速运动且较大时间步长的情况下,默认的空间感受野无法充分覆盖足够的时空信息区域。
 
快速路径(Fast pathway) :
- 快速路径具备较高的时分辨率(绿色)和较低的通道容量(橙色)。将其参数设定为α=8和β=1/8。
 - 所有块均包含非退化的时卷积;这是因为该路径维持了时卷积捕捉细节运动所需精确时分辨率的能力。
 - 在设计过程中未采用任何时下采样层。
 
侧向连接 :
横向连接通过整合信息实现快速路径与慢速路径的有效结合,在此过程中需要对齐特征维度。慢速路径的空间特征配置定义为T\times S^2\times C结构形式,而快速路径则具有\alpha T\times S^2\times \beta C的技术架构设计。我们采用了以下三种转换策略:
(i) 时间维度转译:将\alpha T\times S^2\times \beta C经过重塑并转置处理后得到T\times S^2\times \alpha\beta C的结果,在此过程中将所有\alpha帧统一打包至单个通道中。
(ii) 时间步长采样:采用每隔\alpha帧取样的方式简化特征维度,在这种情况下\alpha T\times S^2\times \beta C会被缩减至T\times S^2\times \beta C的形式。
(iii) 时间步长卷积:施加3D卷积操作时使用5×12核型设计并配置成使用双倍输出通道数量(即2βC),其时间步长设置为α值。
经过横向连接处理后的输出结果需通过求和或整合方式成功融入慢速路径中完成最终信息整合。
简单来说,SlowFast网络借助侧向连接将快速分支中的高时间分辨率特征整合到慢速分支中,并且保留了慢速分支的空间分辨率优势。这种设计使得网络能够有效提升在视频数据处理方面的性能。

3 Experiments

