Advertisement

Paper Reading:Distribution-Aware Coordinate Representation for Human Pose Estimation

阅读量:

CVPR2020 Distribution-Aware Coordinate Representation for Human Pose Estimation

  • Abstract

  • 方法

    • Coordinate Decoding

      • 一、The Standard coordinate decoding method
      • 二 、The Proposed coordinate decoding method
    • Coordinate Encoding

      • 一、The standard coordinate encoding process
      • 二、The Proposed coordinate encoding process
  • 实验

    • 证明coordinate decoding的有效性
    • 证明coordinate encoding的有效性
    • 与当前先进方法的对比,DARK取得很好的效果
    • 直观的效果 关节点定位更准确

论文链接

Abstract

这篇文章聚焦于heatmap
在人体姿态估计任务中对heatmap的处理有两种,文中称为encoding和decoding过程。

encoding ——针对Heatmap Regression的方法,即训练前,标签的关节点坐标ground-truth coordinates(x,y) 用高斯分布 转化成 heatmap标签
decoding ——网络预测出的heatmap ➡ 原始(输入)图像空间的关节点坐标

在encoding过程中,从坐标到heatmap会存在量化误差,本文解决此问题的办法是:通过生成准确的heatmap分布进行模型的无偏训练 (这里没太懂,如果用量化前坐标的值(非整数),是否存在什么问题 为什么之前所有方法都需要量化?)

在decoding过程中,同样会存在量化误差,作者通过实验证明,decoding对姿态估计的准确度有惊人的重要性。针对此问题,本文提出了基于预测的heatmap的分布 输出坐标的方法 ,即distribution-aware decoding method

针对以上两个对heatmap的处理过程,把上述两个办法结合起来,文章提出了Distribution-Aware coordinate Representation of Keypoint (DARK) method

DARK与网络结构无关,可以和当前先进的人体姿态估计网络(文中主要与Simple Baseline 和 HRNet比较)相结合,作者通过实验证明DARK可以显著改善目前先进方法的表现。

大量的实验表明,DARK在两个常见的benchmark(MPII和COCO)上获得了最好的结果,不断地验证了我们的所提出方法的有效性和实用性。

方法

提出Distribution-Aware coordinate Representation of Keypoint (DARK) method
DARK由两部分组成:
1、decoding:基于预测的heatmap的分布特征,推测出潜在的最大激活位置
目前主要有两种decoding方法:
①取predicted heatmap中响应最大的位置作为关节点位置
②经验方面,网络输出的heatmap往往不是单峰的,从predicted heatmap响应最大的位置 向 次响应方向偏移,后面会介绍,文中称为The Standard coordinate decoding method,这种方法比①准确度往往要高,但只是经验的做法

2、encoding:无偏的亚像素坐标编码,即不需要进行量化操作,直接在非整数坐标位置(即Sub-pixel) 用高斯分布 形成groundtruth heatmap (我的理解是这样的)

Coordinate Decoding

一、The Standard coordinate decoding method

heatmap中响应最大的位置并不是关节点在原始坐标空间中的准确位置
在这里插入图片描述
P —— 预测的关节点位置
m —— heatmap中响应最大处的坐标
s —— heatmap中响应第二大处的坐标
即取峰值到次峰值的1/4偏移处的位置 ,这样做补偿了原图像输入网络时下采样时的量化误差

二 、The Proposed coordinate decoding method

1、首先,这一节基于一个假设——predicted heatmap服从高斯分布
则 网络输出的heatmap可以表示为:
predicted heatmap
其中,在这里插入图片描述
x——predicted heatmap中的一个像素位置
μ——与待估计关节点位置对应的高斯均值(中心)
σ——标准差,这是一个超参

根据对数似然优化原理,对上式取对数,
在这里插入图片描述
2、刚刚我们的推导都是基于predicted heatmap服从高斯分布这一假设,但是,实际情况,如下图(a)所示,predicted heatmap是多峰值的,并不服从高斯分布Modulated Heatmap
所以,为了满足条件,需要对predicted heatmap进行调整(Modulate)
即从predicted heatmap --> Modulated Heatmap
具体的做法就是:用高斯核对predicted heatmap做平滑
在这里插入图片描述
其中,
h’ ——Modulated Heatmap
h——Predicted heatmap
K——高斯核,参数和训练参数中的相同

综上,本文提出的decoding的方法如下图所示,由3个步骤组成(高亮的3处)
在这里插入图片描述
Step1:Distribution Modulation 用高斯核平滑
Step2:Distribution-aware Maximum Re-localization 基于predicted heatmap分布 推测出潜在的最大激活位置
Step3: Resolution Recovery 输入网络时,通常将图像下采样1/4,此处恢复图像分辨率,做上采样

Coordinate Encoding

通过生成准确的热图分布进行无偏模型训练

一、The standard coordinate encoding process

在这里插入图片描述
其中,在第二式中,量化操作会引入量化误差,如下图所示,g’是蓝色的点,g’’是紫色的点,红色箭头表示引入的量化误差
quantisation error

二、The Proposed coordinate encoding process

解决此问题的办法是:
直接用g‘ 利用高斯核生成heatmap

把上述decoding 和 encoding的方法结合结合起来就是本文提出的DARK

实验

证明coordinate decoding的有效性

effect of coordinate decoding

证明coordinate encoding的有效性

在这里插入图片描述

与当前先进方法的对比,DARK取得很好的效果

在这里插入图片描述

直观的效果 关节点定位更准确

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~