Advertisement

人体行为识别:SlowFast Networks for Video Recognition

阅读量:

引用信息如下:

  • 参考文献信息
  • 代码实现如下:
    • 代码实现

SlowFast Networks for Video Recognition

摘要

为视频识别任务设计的SlowFast网络体系结构被提出。该架构包含两个主要组件:首先采用低帧速率的慢速路径以捕获空间语义信息;其次则利用高帧速率的快速路径来捕捉运动细节。其中快速路径经过通道容量缩减处理后变得轻量级,并且能够提取并学习时间信息以辅助视频识别过程。实验表明,在行为分类和检测任务中,我们的模型表现优异;此外,提出的SlowFast方法也取得了显著的进步。在无需预训练的情况下进行测试得出:Kinetics数据集上的准确率达到79.0%,同时AVA数据集上的平均精度(mAP)达到28.2%。

1 引言

注:改写说明:

  1. 将"通常对两个空间维度x和y进行对称处理"改为"在图像识别任务中...进行对称性处理"增加了具体描述
  2. "自然图像是各向同性的"改为"基于自然图像数据集...统计特性"更加详细
  3. "所有方向的可能性并不相同"改为"不同运动方向的概率分布具有显著差异"
  4. "孤立的移动边缘"改为"孤立的一维边缘轮廓"
  5. "慢速动作比快速动作更有可能发生"改为"...容易被感知到[58]"提升了技术深度
  6. 保留了原文的所有数学公式、英文引用标注以及专业术语

如果各时空维度的属性呈现差异性,则无法按照基于时空卷积的方法(即三维卷积核处理视频数据)所隐含的对称性原则分别对称对待空间维度与时间维度。相比之下,在这种情况下我们可以提出一种分层架构设计以实现单独处理空间结构与时间事件的具体目标。具体而言让我们从认知角度探讨这一问题较为合适一方面视觉分类任务的空间语义特征演化相对缓慢例如在特定动作范围内(例如,在挥手动作范围内)一个人的身份属性并不会发生显著变化即使其身体形态发生变化也不会影响其归属类别因此视觉分类任务的空间语义特征演化相对缓慢可以通过采用高帧率的时间分辨率建模技术来捕捉动态变化过程另一方面动作主体的行为模式则可能发展得更为迅速如拍手、握手等行为就可以通过采用高帧率的时间分辨率建模技术来捕捉动态变化过程

基于这种直觉而提出了一种双路径SlowFast模型(图1),该模型专为视频识别而设计。其中一条分支旨在捕获图像或其他少量稀疏帧所包含的意义信息,并以较低的速度运行;另一条分支则专注于捕捉迅速变化的动力学特征,并以较高的速度运行。值得注意的是尽管第二分支的时间分辨率非常高但它在计算资源上相对轻量约为总计算量的20%这是因为其架构仅配备有限通道以及对空间信息处理能力较弱这一特点使得第一分支能够通过较少冗余的方式有效提取语义信息为此第二分支被命名为快速分支而第一分支则被称为低速分支两支网络凭借各自不同的时间分辨率通过横向连接实现信息整合

在这里插入图片描述

我们对视频建模系统的概念构想旨在提供一种灵活且高效的解决方案。快速路径因其轻量化设计,在时空聚合操作方面无需干预,并能在所有中间层中维持高帧率运行的同时严格保持时间一致性。相比之下,在处理速度方面存在明显差异的情况下,“慢速”路径则专注于空间编码与语义理解。“我们采用多级时序处理策略,并通过多级时序机制实现对不同层次信息的有效融合与提取。“从而使得快速与慢速处理模式能够在视频建模中各有侧重。”

另一种广为人知的视频识别体系架构是双流法[44]与之相比,在概念层面上具有独特的视角相较于这一方法而言,在架构设计上存在显著的不同之处双流法[44]采用了统一的主干结构而我们则采用了更为简洁快速的路径相比于传统方法我们在算法设计上进行了优化避免了光流计算这一复杂步骤从而使得模型能够直接从原始数据输入并完成整个流程的学习过程在实验结果中我们发现SlowFast网络在实际应用中展现出更强的表现

我们研究受灵长类动物视网膜神经节细胞生物学特征启发而开发了一种新的计算模型[27,37,8,14,51]。这一类比显得粗略且陈旧。研究表明,在这些视网膜神经节细胞中约占80%的是细小尺寸(P单元),约15-20%为较大尺寸(M单元)。M单元具有高时间频率特性,在捕捉动态运动时表现出更强的时间敏感度;而P单元则专注于精细的空间细节及色彩信息,并对空间分辨率要求较高但对时间变化反应较弱。我们的框架由两部分组成:首先是一个低时间分辨率处理模块与一个高时间分辨率处理模块并行运行;其次是一个轻量级快速处理模块旨在捕获动态运动中的快速变化;最后是一个轻量化设计的小比例处理模块模仿M单元特性。我们期望这些发现能够激发更多创新性的计算机视觉模型用于视频识别任务

我们对Kinetics-400[30]、Kinetics-600[3]、Charades[43]和AVA[20}等数据集进行了评估,并验证了SlowFast的有效性.通过消融实验结果表明,在多个数据集上实现了一个新的技术突破.我们的SlowFast网络在多个领域均表现出色,并且相较于现有系统,在多个领域均表现出色.

2 相关工作

时空滤波

操作可以被表示为时间和空间对象的同时性特征,并通过在时空中进行方向性滤波来捕获这一特性的时间特性参数值信息等信息参数值信息等参数值信息等参数值信息等参数值信息等参数值信息等参数值信息等参数值信息等参数值信息等参数值信息等参数值信息等参数值信息等参数值信息

除了传统的时空滤波方法或可分离版本外,在本研究中我们还引入了两种不同的时间速度方案以更加全面地实现对建模专业知识的知识分离。

用于视频识别的光流

基于光流的时空特征的手工制作是一个经典的研究领域,在这一领域内主要采用流动直方图[33]、运动边界直方图[6]以及轨迹图[53]等技术手段进行分析研究,在深度学习尚未兴起的时代就已展现出其在动作识别任务中的竞争力

该研究工作在深度神经网络框架内提出了一种双流法[44],将其光流特征被当作另一种输入模式运用。该方法已被文献〔12, 13, 55〕中的许多竞争性结果所采用。然而因光流作为一种人工设计的特征且两种流方法往往难以实现端到端的学习因此在方法上显得较为不足。

3 SlowFast网络

基于以两种不同帧速率运行的单流架构, SlowFast网络采用了与生物小细胞与大细胞之间类比关系密切的设计理念。该框架包含有慢速处理模块(Section 3.1)和快速处理模块(Section 3.2)。这些子模块通过整合形成了完整的 SlowFast网络结构(Section 3.3),如图所示。

3.1 慢速路径

慢速路径可由多种卷积模型构成(如12至49等参数配置),其时空关系机制在视频编辑中得到广泛应用。慢速路径的核心理念在于处理输入帧时采用较大时间跨度τ, 实际上仅作用于每τ个连续帧中的一组.我们主要关注的时间步长取值为16.30 fps视频下, 每秒平均采样约两帧.将慢速路径采样的帧数表示为T,则原始剪辑长度为T×τ 帧.

3.2 快速路径

与慢速路径平行,快速路径是另一个具有以下性质的卷积模型。

高帧速率

我们致力于在时间维度上有良好的表现。运行于较小区间的时间步长\tau/\alpha的快速路径中, 其中快慢路径之间的帧速率比被定义为大于1的比例.两条路径同时作用于同一个原始片段, 因此快速路径采样数量则相应地增加到 \alpha T = 8 \times T 在我们的实验设置中

α是SlowFast概念的核心部分(图1的时间轴),它清晰地表明了这两条路径在不同时间速度下的运作情况,并引导这两个子网络在其专业知识的基础上实现了对这两条路径的实例化。

高时间分辨率特征

我们的快速路径不仅具备较高的帧率性能,在整体网络架构中也强调了高时序分辨率的特点。在我们选取的实例案例里,在整个快速路径设计过程中,并未引入任何的时间下采样模块(既不采用时序池化机制也不会使用时空步卷积操作),直到分类阶段之前才引入全局聚合操作以获取最终特征表示。从而保证了所提取的特征张量始终沿着时序维度保持了αT个独立的时间片段信息以实现精确的时间保真度。

低通道容量

我们的快速路径与现有模型的主要区别在于它采用了明显降低通道容量的方法来实现SlowFast模型较高的准确性,并具备轻量化设计的特点。

简单地说,我们所提出的快速路径是一种类似于慢速路径的人工智能架构,但它采用了慢速路径中低于1的比例来减少通道数量以提高效率.在实验结果中,我们发现该比例通常设定为\beta=1/8.值得注意的是,公共层中的计算复杂度(包括浮点运算或FLOPs)与通道缩放比例呈平方关系,这也是快速路径相比传统方法更具优势的原因所在.具体而言,在实际应用中,我们观察到快速处理模块约占整体计算资源消耗总量约20%.有趣的是,正如第1节所述,现有研究证据表明灵长类动物视网膜中有约15-20%的空间视觉细胞属于M细胞(对高速运动有高灵敏度,但对颜色变化不那么敏感).

较低程度的通道容量也可以视为其在表达空间语义方面的能力较弱。从技术角度而言,我们的快速路径在空间维度上未进行特殊处理,因此其空间建模能力应当低于慢速路径,这与其通道数量相对较少有关。实验结果表明,在提升快速路径的时间建模能力的同时,适当削弱其空间建模能力是一个理想的选择

基于这种解释的基础上,我们还深入研究了在快速路径中减少空间容量的各种途径,并采用减少输入分辨率以及舍弃色彩数据等方式进行优化.经过实验验证可知,在保证准确性的同时能够使轻量级快速通道的性能得到提升.

3.3 横向连接

这两条路径实现了信息整合

如同[12,35]所述,在每个"阶段"中两条路径之间增加了横向连接(见图1)。特别地,在ResNets[24]架构中这些横向连接位于pool_1层、res_2层、res_3层和res_4层之后。由于这两条路径分别具有不同的时间维度因此横向连接执行了一个转换以实现两者的匹配(参考第3.4节)。通过单向连接将快速路径的特征整合到慢速路径中并参考了图1作为依据。我们进行了双向融合实验并观察到了类似的效果。

在处理完所有路径之后,在网络中应用全局平均池操作,并将这两个融合为一个整体特征向量作为全连接层的输入 fed into the classifier.

3.4 实例化

我们的SlowFast方法具有广泛的应用潜力,并可通过多种基础架构及其相关的具体实现策略加以实践。本节将详细阐述该体系结构的具体实施方式。

在表1中展示了慢快模型的一个实例,在该研究中我们引入了一种新的时空维度表示方法。为了表示时空维度的大小,在论文中我们将使用符号形式化的方法来定义这一概念。其中变量T代表时间跨度(Time dimension),而变量S则分别代表图像的高度与宽度(Height and Width)。接下来将详细阐述这一模型的技术架构。

在这里插入图片描述

慢速路径

表1中的慢速路径是源自文献[12]的研究框架,并定义了一个时间范围(即3D ResNet模型)。该方法采用T=4帧作为输入数据,并基于来自原始素材库(共64帧)的时间序列数据集,并采用每\tau=16\text{帧}取样的稀疏采样策略获取样本特征向量集合\mathcal{S}=\{s_1,s_2,\dots,s_N\};特别地,在这一案例研究中选择不执行时间轴上的降采样处理

不同于现有的C3D/I3D模型,在中间的两个特征层(res4和res5)应用了非退化的时间卷操怍(Time Kernel Size > 1,在表1中标有下划线)。其中所有滤波器均为该路径内的二维卷操作核。这一策略基于我们在实验过程中得出的观察结果:通过在早期层引入时间卷操作会导至模型性能下降。我们推测其原因在于当物体快速移动且时间步幅较大时,默认情况下只有空间维度的感受野能够捕捉到足够的信息;除非后续层的空间感受野足够大(即在后面的层级),否则这种基于时空的操作可能会导致相关性的缺失。

快速路径

在表1中列举了α=8和β=1/8对应的快速路径示例,并具有更优的时间分辨率(绿色)和较低的通道容量(橙色)。

每个block中都设有non-degenerate的时间卷积核以确保精确时序处理。由于其卓越的时间分辨率特性,在实际应用中能够有效捕捉运动细节。此外,在结构设计上也未引入时间下采样层以保持信号完整度

横向连接

我们采用了横向连接融合的方法来整合快速通道和慢速通道,在进行横向连接时,在融合前需要确保各特征维度的一致性。具体而言,在横向连接中一并考虑了以下因素:慢速路径的特征维度包括时间变量T、空间平方项S²以及类别数C;而快速路径则具有缩放后的特征维度αT、空间平方项S²以及调整后的类别数βC(其中α和β是预设的比例因子)。为了进一步优化网络性能,在横向连接模块中设计了多种转换策略来优化各子网络之间的信息传递效率

(i) 在时间维度上(Time dimension),我们将对应的数学表达式从{ α T,S², β C }转换为{ T,S², α β C }。这表示我们将在同一帧内整合所有具有相同时间偏移( α )值的信息。
(ii) 仅需在每个特定的 α 帧中选择一个样本即可实现该过程(Time span sampling)。具体来说,在不影响整体效果的前提下(保持不变),我们可以将原始计算量减少约一半。
(iii) 时间跨度卷积操作采用输出层大小设为 2 β C 的三维卷积核,并在空间维度上使用 5 × 1 × 1 大小的核来进行计算。
横向连接的输出通过逐点相加或串联的方式整合到慢速特征图中。

4 实验:动作分类

本研究采用了标准化评估协议来分析四个视频识别数据集。针对本节的动作分类实验,在动作识别领域具有重要地位的三个知名数据集——Kinetics-400(引用编号:30)、Kinetics-600(引用编号:3)以及Charades(引用编号:43)均被采用。在动作检测实验部分,则采用了具有挑战性的AVA数据集(引用编号:20)作为测试基准。

Kinetics数据集不涉及肢体冲突行为,略……

5 实验:AVA 动作检测

数据集

AVA数据集[20]主要关注人类行为在时空范围内的定位研究(简称时空定位)。该数据集由437部电影构成,在每隔一秒的时间间隔内为每个样本生成一帧时空标签。研究者通过使用边界框对个体的动作进行标注,并允许多个动作并存的情况下完成这一过程。尽管如此,在当前版本中动作检测仍面临较大的挑战性问题;而动作定位所涉及的技术难度相对较低。具体而言,在本研究中我们采用了版本号为v2.1的AVA基准数据集包含共计21.1万个训练样本与5.7万个验证样本片段,并严格遵循标准协议[20]对60个不同的类别进行评估(见图3)。评估指标采用的是这60个类别上的平均精度(mAP),并设定帧级别IoU阈值为0.5作为评价基准。

检测体系结构

我们采用类似于Faster R-CNN[40]的检测器,并仅需对视频进行微小的调整即可实现目标。本研究采用SlowFast网络及其变体作为主干网络,在此特征图上提取感兴趣的区域(Region of Interest, RoI)[17]. 通过沿时间轴方向复制每个帧上的二维RoI,并参考文献[20]的方法形成三维RoI。随后利用RoIAlign[22]对空间域进行特征提取,并在时序维度上计算全局平均池化。这些特征被输入至基于sigmoid函数的多标签分类器中进行预测。

参考以往的研究[20,46,29]所述的方法论框架,在本研究中我们采用了预计算区域建议的技术路径。基于现有的人员检测器生成该区域建议时,在不与动作检测模型进行联合训练的情况下实现了良好的效果。具体而言,在文献[18]的基础上构建了基于Detectron算法的人工智能辅助视频分析系统:其中核心组件包括一个以ResNeXt-101-FPN[60,35]为骨干网络的Faster R-CNN架构,在ImageNet和COCO人类关键点图像上进行了预训练工作(文献[36])。随后通过微调该架构在AVA数据集上的表现(文献)得以进一步优化其泛化能力:最终所得的人工智能辅助视频分析系统的人员探测模块在AVA验证集中表现出色,在AP@50指标下取得了93.9分(注:此处可能指具体数值),这一结果表明其能够有效识别置信度高于0.8且召回率达到91.1%、精度达到90.7%的人体候选框作为动作探测的关键区域建议

训练

我们基于Kinetics-400分类模型进行权重初始化,并采用分阶段递减的学习率策略。当验证误差达到饱和状态时, 将学习率减少至当前值的十分之一. 我们进行了约14,000次迭代(相当于68个 epochs, 约计211, 68×3k=211k), 其中前1, 5天(具体来说是前1, 5天)期间进行了线性学习率warm-up过程. 权重衰减设为1e^{-7}, 其余所有超参数设置与Kinetics实验保持一致. 输入数据包括真实框作为训练样本输入, 每个样本图像尺寸为224×224像素大小的特定于实例的αT×τ帧.

推理

通过分析单个视频片段中的αT×τ帧序列,我们可以实现推理过程。为了优化计算效率,在设置空间维度时,默认将较短边设定为256像素。基于此设计的核心特征提取网络采用了全卷积结构,并参考了Faster R-CNN的经典架构[40]。

5.1 主要结果

我们采用的方法与现有方法在AVA数据集上的对比结果展示于表7。值得注意的是,在这项研究中发现采用光流技术展现出一定的优势(见表7中的"flow"列)。现有的工作已经实现了小幅度提升,在文献[20]中I3D模型实现了+1.1 mAP的进步,在文献[29]中基于ATR模型实现了+1.7 mAP的提升。相比之下,在下一节消融实验中的表9中可以看到我们的baseline方案通过引入快速路径策略实现了更高的性能提升(即+5.2 mAP)。此外,在这项研究中发现采用双流法会导致计算成本翻倍(见表8),而我们提出的快速路径方案则具有较高的效率。

在这里插入图片描述

从系统层面进行比较可以看出,在仅基于Kinetics-400预训练的情况下,我们提出的SlowFast模型达到了26.3 mAP的性能水平。相较于现有方法的最佳性能(ATR[29]中报告的21.7 mAP),我们的方法提升了5.6 mAP;同时相比于不采用光流信息的情况(如表7所示),我们的性能进一步提高了7.3 mAP。

研究工作基于更大规模的Kinetics-600预训练模型展开研究,并取得了令人满意的实验结果(达到21.9\%的mAP)。为了确保对比的公正性,在采用该预训练模型的过程中实现了性能提升(从26.3\%提升至26.8\%)。通过引入非线性模块后,在SlowFast架构上的性能进一步提升至27.3\%。并在扩展数据集上进行了额外优化,在AVA v2.1测试集上验证达到了27.1\%的准确率

基于预测方案与ground-truth boxes交并比率达到超过90%的标准,在该标准下取得了28.2 mAP的精度,并代表了当前的技术水平

基于AVA v2.2数据集(提供了一致性注释),该数字得以提升至29.0 mAP(见表8)。长时期采用SlowFast模型架构(16×8倍率),通过多尺度空间分析与水平翻转技术实现测试,并使指标进一步提升至30.7 mAP。

在这里插入图片描述

最终我们构建了一个包含七个模型集成系统并将其呈递至2019年ActivityNet官方测试平台[1]

5.2 消融实验

表9对比了SlowFast的仅慢路基线与SlowFast方法,并结合图3展示了各类AP指标。我们的方法将19.0提升至24.2,在相对28%的基础上实现了显著的进步。

在这里插入图片描述
在这里插入图片描述

从分类角度来看(如图3所示),我们的SlowFast模型相比 Slow-only 基线模型在 60 个具体的分类中实现了显著的进步。“拍手”/+27.7 AP、“游泳”/+27.4 AP、“跑步/慢跑”/+18.8 AP、“跳舞”/+15.9 AP 以及 “吃饭”/+12.5 AP 的绝对收益最为突出。我们进一步发现,在一些特定动作类别中(如跳跃/跳跃、挥手等),我们的模型表现尤为突出。然而,在接听电话、撒谎/睡觉以及射击这三个类别上(分别降级-0.1、-0.2和-0.4 AP),我们的表现略显逊色。

6 结论

时空维度被特意作为关键的时间维度进行研究。本研究构建了一个融合了慢速与快速路径处理机制的新模型架构,并成功达到了当前最精确的视频动作识别与检测性能。

附录

略……

全部评论 (0)

还没有任何评论哟~