Advertisement

SlowFast Networks for Video Recognition论文精读

阅读量:

论文地址:https://arxiv.org/pdf/1812.03982v1.pdf

1.Abstract

作者提出了一种用于视频识别的高效网络架构。该网络由两个主要组件构成:首先,在低帧率运行时,该组件能够有效提取空间语义特征;其次,在高帧率运行时,该组件则专注于捕捉精细的时间分辨率运动信息。值得注意的是,快速运行路径通过缩减其通道容量实现了极简化的设计,同时也可以通过学习时间信息来提升视频识别性能。

**2.**Introduction

在识别图像I(x, y)时,通常会对称地处理两个空间维度x和y。近似图像的各向同性,即所有方向均等可能,配合移位-不变特性[38,23]。然而,对于视频信号I(x, y, t),运动表现为时空对等物,即方向[1],但所有时空方向的可能性并不均等。慢动作比快动作更常见(事实上,我们观察到的大部分物体在给定时刻处于静止状态),这一现象在人类感知运动刺激[51]的贝叶斯模型中得到了体现。例如,当观察到一个孤立的运动边缘时,我们倾向于认为其运动方向垂直于自身的移动方向,尽管理论上该边缘可能具有与其相切的任意运动分量(类似于光流中的孔径问题)。若先前信息倾向于慢动作,则这种感知是合理的。

若无时空维度在各向异性上的差异,则对称处理空间与时间将缺乏依据,正如基于时空卷积[44,3]的视频识别方法所暗示的那样。更有可能“架构”会专门处理空间结构与时间事件的差异。为了使研究更具具体性,让我们在可接受的背景下进行探讨。视觉内容的分类空间语义发展相对缓慢。例如,在挥手动作中,挥手不会改变其作为“手”的身份,一个人始终属于“人”类别,即使他/她可以从步行运动转换为跑步运动。因此,对分类语义的识别(以及它们的颜色、纹理、灯光等特征)需要较长的时间。另一方面,正在执行的动作,如鼓掌、挥手、摇晃、行走或跳跃等,可以比其主题身份的时间分辨率更高,因为这些动作本身可以发生快速变化。因此,可以利用高刷新率(高时间分辨率)来有效地建模这些潜在的快速变化的运动。

基于这种直觉,作者提出了一个视频识别的双路径快速模型(图1)。其中一条路径被设计用于捕获图像或稀疏帧中的语义信息,该路径在低帧率和慢刷新速度下运行。相比之下,另一条路径负责通过快速刷新速度和高时间分辨率捕捉快速变化的运动。第一条路径的计算量占比约为总计算量的20%,这是因为该路径被设计为具有更少的通道和更弱的处理空间信息的能力,而这些信息可以通过第一条路径以更高效的方式获取。作者将第一条路径命名为慢路径,第二条路径命名为快速路径,这两条路径通过横向连接进行信息融合。

该作者的核心理念直接催生了兼具灵活性和高效性的视频模型设计。**快速路径,作为轻量级设计的产物,无需进行时间池化操作——能够在所有中间层实现高帧率处理,同时保持时间保真度。**与此同时,由于较低的时间尺度,慢路径更倾向于聚焦于空间域和语义信息。通过分别以不同时间尺度处理原始视频序列,这种方法使两种途径在视频建模中各自具备专业视角。

该作者的方法体系受到生物学术研究中对灵长类动物视网膜神经节细胞的深入分析的启发,尽管这一类比具有明显的局限性和不成熟性。通过系统研究发现,这些细胞主要分为两种类型:约80%为微细胞(p细胞),约15-20%为巨细胞(m细胞)。其中,m细胞在高时间频率下具有显著的运动感知能力,对细节变化更为敏感,但对空间和颜色信息的处理能力相对有限。相比之下,p细胞则在空间细节和颜色信息处理方面表现出更强的能力,但其时间分辨率较低。可以观察到,作者的理论框架具有以下三个显著特征:首先,该框架包含两条独立的路径,均基于低时间分辨率的处理机制;其次,快速路径系统旨在捕捉快速运动变化,其空间细节处理能力与m细胞相似,但整体性能相对较低;最后,该快速路径系统采用了轻量化设计,其结构和功能与m细胞的亚比例形态具有高度相似性。

3. SlowFast Networks

3.1. Slow pathway

慢路径可以是任何卷积模型,包括但不限于[9,44,3,50]这一结构。在视频剪辑任务中,慢路径作为一个时空体积进行操作。其核心思想在于通过较大的时间跨度在输入帧之间建立联系。

au

,也就是说,它只处理

au

帧中的一个。模型的

au

其典型值为16——其刷新频率约为每秒2帧,适用于视频采样。定义为T,原始剪辑时长为T×。

au

帧。 **

3.2. Fast pathway****

与慢路径平行,快速路径是另一个具有以下特性的卷积模型。

高帧率。 目标是沿着时间维度有一个很好的表示。**快速路径使用

au

α分之一的小时间步幅,其中α值大于1,表示快速路径与慢路径之间的帧率比。两条路径均基于同一个原始剪辑运行。实验表明,快速路径采样αT帧,而慢路径则采样α倍的帧数。在实验中,通常取α值为8作为典型设置。

该网络在时间维度上实现了高分辨率特征的捕捉。该网络在设计架构时,不仅注重输入层的高分辨率捕捉,还致力于在整体网络结构中保持高分辨率特性。在实例化过程中,为确保特征的完整性和一致性,网络架构在全局池化层之前避免使用任何时间降采样操作,包括时间池化和时间链卷积。因此,特征张量在时间维度上保持了αT帧的完整性,有效维持了时间保真度。

通道容量较低。快速路径与现有模型的主要区别在于,它可以显著降低通道容量,从而实现快速模型的良好精度,这使得模型变得较为轻盈。

快速路径与慢路径相似,但快速路径中使用β比例的通道,其中β < 1。实验中通常选取β = 1/8作为典型值。

低信道容量也可以被视为一种较弱的空间语义表达能力。从技术角度来看,快速路径在空间维度上未进行特殊处理,因此由于其空间建模能力相对较少,其空间建模能力应该少于慢路径。实验结果表明这一权衡具有良好的效果,在增强时间建模能力的同时,削弱了空间建模能力这一权衡是一个理想的选择。

基于上述解释,作者进一步研究了在快速路径中降低空间容量的多种方法,包括减少输入的空间采样率和去除颜色信息。 通过实验结果可以看出,这些优化方案均能保持较高的准确性,这表明容量缩减的轻量级快速路径方案具有较好的实用性。

3.3. Lateral connections

在每个阶段模块中,通过横向连接模块(图1)将两条路径进行特征对齐。特别地,针对ResNets [21],这些横向连接主要设置在第一池特征、res2、res3和res4之后。由于两条路径具有不同时间分辨率,横向连接模块完成特征对齐以实现两路径信息的有效融合(详见Section 3.4)。同时,通过单向连接模块将快速分支的特征信息传递至慢分支连接中(图1)。作者进行了双向融合的实验验证,实验结果表明该方法具有显著的性能提升效果。

最后,对每个路径的输出结果进行全局平均池化操作。然后将两个特征向量进行连接,作为全连接分类器层的输入。

3.4. Instantiations

在表1中,我们给出了一个SlowFast模型的示例。其中,时空大小被表示为T×S^2。T代表时间长度,而S则表示经过正方形空间裁剪后的高度和宽度。接下来,我们将详细阐述这些细节。

Slow pathway is a modified version of a 3D ResNet architecture, incorporating a temporary branch structure. This pathway processes video content with a time step of **, derived from a 64-frame video clip, selecting only 4 frames as network input with a time step of **. The sparse sampling ensures efficient feature extraction while maintaining temporal coherence.

au

避免在该实例化中执行时间降采样,鉴于当输入步幅较大时,避免这样做将带来负面影响。

与典型的C3D/I3D模型不同,仅在res4和res5层使用非退化的时间卷积(时间核大小大于1,具体数值在表1中用下划线标注);从conv1到res3的所有滤波器本质上都是该路径上的二维卷积核。**这是因为基于实验观察,即在早期的层中使用时间卷积会降低准确性。**作者认为,这是因为当物体移动速度较快且时间步幅较大时,除非在后续层中具备足够大的空间感受域(即在后面一层),否则在时间感受域内几乎无法获得足够的相关性。

Fast通路。表1以图示形式展示了α取值为8,β取值为1/8的Fast通路示例。该通路在时间分辨率方面表现出色(以绿色线条表示),而在信道容量方面则相对较低(以橙色线条表示)。

快速通路在各个模块中均配置了无退化性质的时间卷积。这种设计基于对快速通路具有高时间分辨率的观察,能够捕捉到复杂的运动细节。此外,该通路在设计中省略了时间降采样层。

Lateral connections are a crucial mechanism for information integration. Through the lateral connections, information is transferred from the fast pathway to the slow pathway, ensuring that features from both pathways are appropriately aligned before integration. Specifically, the feature shapes of the slow pathway are represented as {T, S², C}, while those of the fast pathway are expressed as {αT, S², βC}. Experiments were conducted to investigate the transformations within the lateral connections.

(i) Time-to-channel : 通过重新排列和转置,将{αT,S2,βC}转变为{T,S2,αβC},这使得所有的α帧被整合到同一个通道中。

(ii) Time-strided sampling : 按照α帧间隔取样一次,因此参数集{αT,S2,βC}经过该采样策略后,被缩减为{T,S2,βC}。

(iii) Time-based convolution : 我们在5×12的三维卷积核上采用2βC输出通道和步长设为α进行处理。

横向连接的输出通过累加或连接融合到慢路径中。

4. Experiments: Kinetics Action Classifification

Datasets. Kinetics-400

Inference.

4.1. Results and Analysis

使用预训练:

只使用单个路径:

融合模块:

Channel capacity of Fast pathway.


Weaker spatial inputs to Fast pathway.

** vs****. Slow+Slow**


Various SlowFast instantiations.


Advanced backbones.

Comparison with state-of-the-art results.

Kinetics-600.

5. Experiments: AVA Action Detection

Dataset. AVA dataset

我们的探测器基于调整后的Faster R-CNN架构[37],采用了最小的空间步幅。为了提高检测精度,我们采用了基于调整后的主干网络结构。与常规设置不同,我们将空间步幅从res5调整为1,而非原来的2设置。这种调整使res5的空间分辨率提升了2倍。在res5的特征图上,我们提取了感兴趣区域(RoI)特征[14]。通过沿时间轴复制每个2D RoI特征,我们将每个帧的2D RoI特征扩展为3D RoI特征。随后,我们利用RoIAlign算法[19]对RoI特征进行提取,并结合全局平均池化操作提取特征。最后,我们将所有RoI特征进行融合,并通过基于sigmoid的多标签分类器进行预测。

5.1. Results and Analysis

Comparison with state-of-the-art results.


全部评论 (0)

还没有任何评论哟~