Paper Reading:Distribution-Aware Coordinate Representation for Human Pose Estimation
CVPR2020 Distribution-Aware Coordinate Representation for Human Pose Estimation
-
Abstract
-
方法
-
-
Coordinate Decoding
-
- 一、The Standard coordinate decoding method
- 二 、The Proposed coordinate decoding method
-
Coordinate Encoding
-
- 一、The standard coordinate encoding process
- 二、The Proposed coordinate encoding process
-
-
实验
-
- 证明coordinate decoding的有效性
- 证明coordinate encoding的有效性
- 与当前先进方法的对比,DARK取得很好的效果
- 直观的效果 关节点定位更准确
Abstract
这篇文章聚焦于heatmap
在人体姿态估计任务中对heatmap的处理有两种,文中称为encoding和decoding过程。
encoding ——针对Heatmap Regression的方法,即训练前,标签的关节点坐标ground-truth coordinates(x,y) 用高斯分布 转化成 heatmap标签
decoding ——网络预测出的heatmap ➡ 原始(输入)图像空间的关节点坐标
在encoding过程中,从坐标到heatmap会存在量化误差,本文解决此问题的办法是:通过生成准确的heatmap分布进行模型的无偏训练 (这里没太懂,如果用量化前坐标的值(非整数),是否存在什么问题 为什么之前所有方法都需要量化?)
在decoding过程中,同样会存在量化误差,作者通过实验证明,decoding对姿态估计的准确度有惊人的重要性。针对此问题,本文提出了基于预测的heatmap的分布 输出坐标的方法 ,即distribution-aware decoding method
针对以上两个对heatmap的处理过程,把上述两个办法结合起来,文章提出了Distribution-Aware coordinate Representation of Keypoint (DARK) method
DARK与网络结构无关,可以和当前先进的人体姿态估计网络(文中主要与Simple Baseline 和 HRNet比较)相结合,作者通过实验证明DARK可以显著改善目前先进方法的表现。
大量的实验表明,DARK在两个常见的benchmark(MPII和COCO)上获得了最好的结果,不断地验证了我们的所提出方法的有效性和实用性。
方法
提出Distribution-Aware coordinate Representation of Keypoint (DARK) method
DARK由两部分组成:
1、decoding:基于预测的heatmap的分布特征,推测出潜在的最大激活位置
目前主要有两种decoding方法:
①取predicted heatmap中响应最大的位置作为关节点位置
②经验方面,网络输出的heatmap往往不是单峰的,从predicted heatmap响应最大的位置 向 次响应方向偏移,后面会介绍,文中称为The Standard coordinate decoding method,这种方法比①准确度往往要高,但只是经验的做法
2、encoding:无偏的亚像素坐标编码,即不需要进行量化操作,直接在非整数坐标位置(即Sub-pixel) 用高斯分布 形成groundtruth heatmap (我的理解是这样的)
Coordinate Decoding
一、The Standard coordinate decoding method
heatmap中响应最大的位置并不是关节点在原始坐标空间中的准确位置

P —— 预测的关节点位置
m —— heatmap中响应最大处的坐标
s —— heatmap中响应第二大处的坐标
即取峰值到次峰值的1/4偏移处的位置 ,这样做补偿了原图像输入网络时下采样时的量化误差
二 、The Proposed coordinate decoding method
1、首先,这一节基于一个假设——predicted heatmap服从高斯分布
则 网络输出的heatmap可以表示为:

其中,
x——predicted heatmap中的一个像素位置
μ——与待估计关节点位置对应的高斯均值(中心)
σ——标准差,这是一个超参
根据对数似然优化原理,对上式取对数,

2、刚刚我们的推导都是基于predicted heatmap服从高斯分布这一假设,但是,实际情况,如下图(a)所示,predicted heatmap是多峰值的,并不服从高斯分布
所以,为了满足条件,需要对predicted heatmap进行调整(Modulate)
即从predicted heatmap --> Modulated Heatmap
具体的做法就是:用高斯核对predicted heatmap做平滑

其中,
h’ ——Modulated Heatmap
h——Predicted heatmap
K——高斯核,参数和训练参数中的相同
综上,本文提出的decoding的方法如下图所示,由3个步骤组成(高亮的3处)

Step1:Distribution Modulation 用高斯核平滑
Step2:Distribution-aware Maximum Re-localization 基于predicted heatmap分布 推测出潜在的最大激活位置
Step3: Resolution Recovery 输入网络时,通常将图像下采样1/4,此处恢复图像分辨率,做上采样
Coordinate Encoding
通过生成准确的热图分布进行无偏模型训练
一、The standard coordinate encoding process

其中,在第二式中,量化操作会引入量化误差,如下图所示,g’是蓝色的点,g’’是紫色的点,红色箭头表示引入的量化误差

二、The Proposed coordinate encoding process
解决此问题的办法是:
直接用g‘ 利用高斯核生成heatmap
把上述decoding 和 encoding的方法结合结合起来就是本文提出的DARK
实验
证明coordinate decoding的有效性

证明coordinate encoding的有效性

与当前先进方法的对比,DARK取得很好的效果

直观的效果 关节点定位更准确

