【PaddlePaddle论文复现营】Temporal Pyramid Network for Action Recognition
PaddlePaddle论文复现营
Paper Reproduction Camp of PaddlePaddle
Paper Reproduction Camp of PaddlePaddle
-
- 写在前面的话
- 论文简介
- 从视频分类领域中的一个痛点谈起
-
- 相关工作
-
系统架构设计
- 主要来源
- 层次化特征集合
- 空间语义调节
- 主要来源
-
时间速率调节
* Information Flow of TPN-
实现与实验
-
- 对比实验
- 消融实验
-
Conclusion
-
写在前面的话
本文记录了作者参加百度顶会论文复现营的经历。此次活动中,百度飞桨组织了众多顶尖学术会议(顶会)的作者以及行业内的资深专家分享他们的研究成果与实践经验,并通过实地教学帮助学员掌握复现顶会论文的技术与方法。
论文简介

今天介绍的这篇论文《Temporal Pyramid Network for Action Recognition》是来自港中文和商汤的一篇论文,发表在CVPR2020上。论文作者中出现了周博磊 和石建萍 等大佬的名字,膜就完事儿了。
看到论文题目,我们首先想到的是在检测和分割任务中广泛使用的特征金字塔 ,它在不同尺度的特征图上提取信息,融合高层语义特征和底层纹理特征,是CV任务的涨点神器。但是特征金字塔是在空域(Spatial)做的,时域(Temporal)金字塔是怎么回事呢?作者是为了解决什么问题,又是怎么实现的呢?让我们一起进入论文吧~
从视频分类领域中的一个痛点谈起
视频分类任务是计算机视觉领域的核心分支之一,并广泛应用于动作识别等多个研究方向。随着深度学习技术在该领域的深入发展,在线性代数框架下 emerged一系列创新性研究工作包括 C3D I3D P3D TSN TMN 和 TRN 等模型设计者们提出了系列具有创新性的研究工作。动作识别过程需要从图像空间获取单帧特征同时还需要从时空关系中提取多帧之间的动态信息这两方面均需要实现这一双重目标现有网络架构均能实现这一目标但普遍存在忽视动作运动速度与节奏特征的问题例如慢走 步行和跑步等动作在单帧形态上较为相似且其多帧时空关系也较为相近这在一定程度上给视频分类带来了新的挑战

根据图中所展示的情况
相关工作
之前的icularly研究曾提及并致力于解决视觉节奏问题。
例如 SlowFast 1 如图所示,
上部路径为 Slow 路径,
其保持了较高的图像分辨率,
但其帧间隔较宽;
下部路径为 Fast 路径,
其刷新频率较高,
但其图像分辨率相对较低。
The Slow pathway is primarily used to extract spatial semantic information,
while the Fast pathway is primarily employed to capture temporal relationships between frames.
The two pathways are connected via horizontal fusion branches.
In the SlowFast model,
the differences in visual rhythm are captured by incorporating frames with varying intervals into both pathways.

DTPN2通过不同帧率(FPS)对视频进行采样,并生成自然的时域金字塔结构(如图所示)。该网络架构采用了双分支层次结构来提取并分析多尺度时间特征,并融合了局部与全局的时间语境信息。这一特点令人觉得非常有趣且具有挑战性;不过暂不做进一步阐述

SlowFast与DTPN均通过不同时间尺度的采样机制在输入层构建时域金字塔结构。这种做法虽然有效但带来了诸多问题:首先需要对大量帧进行采样与处理;其中大部分可能涉及重复特征提取过程;这导致了计算量显著增加。本文的主要改进之一在于,在特征层次上处理时域信息间的差异性;这种设计使得单一网络能够整合所有相关信息;同时简化了输入层复杂的多速率采样流程。
网络结构
接下来映入眼帘的就是这么一张大图:

看上去这个结构形式相当复杂呢?别担心哦!我们可以借助图示文字先自己拆解分析一波内容,之后再回论文中结合具体细节进一步验证我们的分析是否正确。
- 首先网络的输入是一个H*W*T 的视频切片,H,W,T 分别代表视频的高度、宽度和时间维的长度也就是帧数;
- 接下来是Backbone,也就是骨干网络。Backbone负责提取特征,并且将不同尺度的特征图输入到一面一个环节。
- Spatial Modulation,在空间域进行调制,我们看到图中不同颜色的方框变成了同样的大小,也就是把不同尺度的特征图进行降采样到同一尺度,方便后续处理。
- Temporal Modulation,在时间域进行调制。在通道维度进行下采样,这样就获得了不同速率的视频节奏信息,有了时域金字塔的雏形。
- Information Flow,和特征金字塔类似,进行特征聚合,以增强和丰富层次的表示。
- Final Prediction,最后把所有通道的信息拼接到一起,进行预测。
好了,本次的论文解析就到这里了(大雾)网络结构通过作者的一张图示能够很清楚的看到,但是有很多细节我们并不清楚,需要去论文甚至代码中去寻找。譬如Temporal Modulation是怎么做的,Information Flow又是怎么聚合的?作者设计网络结构的时候踩过那些坑?
Feature Source of TPN
Collection of Hierarchical Features
作者是如何获得时域的层次特征呢?
第一种思路显得过于简单。通过从网络中固定提取特定尺度的特征表示,并将其直接作用于帧采样过程进行处理,在这种情况下较高的采样频率能够捕捉到动作变化更为迅速的部分;较低的采样频率则更适合表现动作进行缓慢变换的过程。
在公式(1)中:
\{ r_1,\dots,r_M;r_1
我们采用了M个不同的采样帧率(r , rate)来采集样本;将这些不同帧率下的特征分别输入到后续构建的基础特征提取网络中。
需要注意的是,在该方法下由于我们始终从网络中固定输出特征表示(即其高度和宽度维度H,W保持一致),因此将不同帧率下的时域特征进行融合相对较为容易;然而这种做法可能导致空域(spatial domain)的信息提取不够充分。
具体而言:
\{ C \times \frac{T}{r_1} \times W \times H , \dots, C \times \frac{T}{r_M} \times W \times H \}
其中C代表通道数量,T代表时间长度,W和H分别代表图像的高度和宽度。
另外一种方法是在不同层级生成不同尺度的特征表示,并与经典的特征金字塔结构相似地组织起来。这些语义表征能够反映从精细到抽象的不同层次信息。其中每一层的空间维度为C_i \times T_i \times W_i \times H_i(i=1,2,…,M),其中i=1对应于底层细节信息而i=M对应于高层次的抽象信息。需要注意的是,在处理这些结构时需要特别注意维度的变化情况。
Spatial Semantic Modulation
在文中作者指出,在Spatial Modulation部分需要注意引入监督机制,并且这种措施能够帮助提升其语义表达能力

由于网络较深且架构较为复杂的原因,其收敛效果较为欠佳;因此引入了中间层的监督。
Temporal Rate Modulation
在时域空间中进行调整的主要方式是通过调节r即采样率来模拟不同帧率的输入信号。在此处我们直接设置了若干超参数用于时间维度上的下采样操作后续将会进行相关对比实验以验证该方法的有效性
Information Flow of TPN

作者介绍了四种不同的数据聚合方法,在综合运用自顶向下与自底向上两种输出模式的基础上提出了并行策略,并指出该方法具有显著的效果(效果最好)。在实际应用中这一技术可能会面临诸多挑战(实现起来非常麻烦),因此在后续的研究或复现工作中建议深入研读作者提供的代码实现

实现与实验
对比实验

这是一个利用3D骨干网络实现的方法,并且其提升效果较为显著。值得注意的是,在时间维方向上stride设置为1,并在后续网络结构中进行下采样处理以模拟不同帧率下的采样情况。

基于TSN的技术创新显著提升了性能(TPN作为一个模块化设计,在2D与3D模型上均兼容,并且能够无缝整合到现有架构中):


消融实验
从不同的层输出特征:

不同的聚合方式:

在不同的部位加入TPN:

(包饺子ing) 今天的分享先到这里啦,后续再补充。
Conclusion
回想起来,在众多创新成果中 standout 的是基于时间与特征构建的一个双重金字塔架构体系。这一发现都源自前人研究的基础上, 基于前人的研究成果构建而成, 但这种创新性设计十分巧妙: 一个是构建了时域金字塔结构, 另一个则是设计了信息流网络架构, 这两部分完美地融合了空间与时间维度的信息, 实验结果也验证了该方法的有效性
Feichtenhofer C, Fan H, Malik J, et al. SlowFast Networks for video-based recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2019: 6202-6211.https://arxiv.org/abs/1812.03982v1 ↩︎
该文提出了一种动态时锥网络模型,并深入探究了多尺度建模在活动检测中的应用价值
