论文阅读理解 - Multi-Context Attention for Human Pose Estimation
Multi-Context Attention for Human Pose Estimation
通过融合多种信息的注意力机制(multi-context attention mechanism)到CNN网络中,在该框架下实现了人体姿态估计 end-to-end 框架
基于堆积沙漏网络(stacked hourglass networks)提取不同分辨率的注意力图(attention maps),这些不同分辨率的注意力图反映了不同的语义.
基于条件随机场模型对注意力图中各关注区域间的相互关联关系进行建模分析
该系统结合了整体注意力机制与肢体部位关注机制,在整合上实现了对人体全局一致性的聚焦以及对各身体部位细节特征的关注能力. 通过这种双重关注模式, 从而能够实现从局部显著区域到全局语义空间之间多层次信息的有效融合与提取.
此外开发了创新性的Hourglass Residual Units(HRUs)模块,并通过引入HRU模块能够有效提取多尺度特征
1. Introduction
人体姿态估计所面临的主要挑战包括以下几个方面:首先,在处理人体各部位之间的相互关联时会遇到复杂性;其次,在存在身体自我遮挡的情况下重建三维姿势会变得困难;此外,在着装对姿态感知产生显著影响的情况下如何准确识别仍是一个难题;再者,在透视变形(foreshortening)的影响下对象的姿态恢复难度增加;此外,在处理与身体相似的复杂物体背景下识别出准确的人体姿势同样面临挑战;最后,在存在严重的身体遮挡情况下重建姿势会更加困难。

Figure1. 第一行分别是,输入图片、整体注意力图、部分注意力图.
第二行是关节点位置的heatmaps,不同颜色对应不同的关节点.
第三行是预测的姿态可视化结果.
(a)由于背景复杂和自遮挡问题,ConvNets可能得到错误的估计结果.
(b)视觉注意力图对人体关节点的空间关系进行建模,鲁棒性好.
(c)该方法通过解决重复计算问题(double counting problem),从而进一步提高关节点的估计结果。
视觉注意力是一种人脑的重要机制, 用于帮助理解场景. 而不同于采用一系列矩形边界框集合来定义ROI.
通过利用注意力机制生成注意力图,并且该方法仅基于图像特征,在关注不同形状的目标区域方面提供了一种更为高效的方法
基于堆积沙漏网络结构(即堆叠型小时glass网络)构建multi-context 注意力模型。每个沙漏单元中,特征经过处理后被还原至较低分辨率,并随后进行上采样处理,并与高分辨率特征进行融合。反复堆叠该沙漏网络单元以逐步捕获更加全局化的特征表示。
通过使用多个 hourglass stacks 生成注意力图,具有能力表示不同语义级别的特征.
2. 方法

该文介绍的8层小时glass网络的基本架构。各个小时stack均生成多分辨率注意力图,并通过这一过程实现跨尺度特征提取。随后将多语义注意力映射应用于各个小时stack, 具体涉及stack1至stack8。值得注意的是,分层注意力机制对局部关键点的比例进行了调整,其作用范围限定于stack5至stack8区域。
2.1 基础网络
基于8层hourglass结构的设计方案中,默认使用了跨尺度特征提取机制。具体而言,在各个hourglass模块末端设置中间监督信号,并通过反复的自底向上与自顶向下推断实现多尺度特征提取。实验中设定输入图像尺寸固定为256×256像素,并对生成的热图具有大小为K×64×64的结构进行评估(其中K代表关键点数量)。其中损失函数定义采用了均方误差(MSE)准则。

2.2 Nested Hourglass 网络
采用HRUs代替残差单元,得到 nested hourglass network,如图.

图3. HRU示意图。由三个主要部分构成:(A)恒等映射(identity mapping)部分;(B)残差部分;(C)小时glass残差部分。其中卷积残差网络及其小时glass残差网络的空间接受域大小分别为3\times 3和10\times 10。
三种不同的部分分别具有独特的接收范围和细节捕捉能力,并将这些特征相加作为HRU单元的输出结果. HRU单元进一步扩大了网络覆盖范围的同时保留了高细节的信息.
2.3 多分辨率注意力(Multi-Resolution Attention)
每个 hourglass 基于不同尺度的特征生成多分辨率注意力图 \Phi _r ,其中 r 表示该关注机制所涉及特征的空间尺度范围。参考 Figure5 可看出融合计算所得出的关注力机制不仅能够显著提升目标识别精度,并且能够与原有的关注机制协同工作,在此基础上构建更加完善的关注机制体系(参考 Figure4)。

Figure5. hourglass 的多分辨率注意力机制.

Figure4. 注意力机制例示.

2.4 多语义注意力(Multi-Semantics Attention )
每个 stack 都承载着独特的意义——低层级 stacks 负责提取局部特征,而高层级 stacks 则关注整体结构.这些注意力图实际上反映了各自 stack 承载的意义.

2.5 分层注意力机制(Hierarchical Attention Mechanism)
在stack1至stack4的基础层中,通过两个整体注意力机制\mathbf{h}_{1}^{att}和\mathbf{h}_{2}^{att}来进行整个身体的编码
在 upper-level stacks (stack5 - stack8) 的基础上,采用层次化的方法构建 coarse-to-fine 注意力机制,并对关键节点进行尺度调整。

\mathbf{f} 是由Figure5中的 hourglass stack 的最终一层输出特征所构成, \Phi 通过上采样技术生成对应的注意力图.
是 hourglass stack 输出特征和注意力模型得到的注意力图;
是注意力图 结合各关节点注意力模型得到的refined后注意力图特征.

2.6 模型训练
Hourglass stack 网络估计人体关节点的heatmaps.
均方差误差(MSE)损失函数:
L = \sum_{p=1}^{P} \sum_{l \in \mathbf{L}} ||\breve{y}_p(l) - y_p(l)||_2^2
p 为第 个关节点,l 为第 个位置.
\breve{y}_p 为关节点 的预测heatmap;
y_p 为对应的GT heatmap,是以关节点位置为中心的 2-D Gaussian.
注意:此输出仅为示例,请按照实际需求进行调整
2.6.1 Data Augmentation
- align the target human in each image approximately at a similar scale.
- Set the input image size.
- randomly rotate (±30◦) and augment the images.
- apply random scaling (0.75–1.25倍) and adjust color intensity.
- Torch7, initial learning rate 2.5 × 10^{-4}, RMSprop optimization.
3. Results



