Advertisement

(12) Multi-person Pose Estimation : heatmap +Offsets :G-RMI

阅读量:

Towards Accurate Multi-person Pose Estimation in the Wild


CVPR 2017

reading time: 2019/09/18

paper address:https://arxiv.org/pdf/1701.01779.pdf


本文基于top-down架构设计了两步流程:
第一步基于Faster R-CNN实现目标检测,在图像中标记出多个目标并裁剪出各自的bounding boxes;
第二步则利用全卷积残差网络(ResNet)分别在每个bounding box内预测热图以及偏移量;
最终将各热图与偏移量融合计算得到关键点的位置。

0/1 heatmap 是由作者所提出的二值热图概念,在其理论模型中被定义为:即其概率值在围绕目标关键节点一定范围内的所有点均为1,在此之外的所有点则为0。

offsets 用于表示所有概率为1的点与目标关节点之间的指向关系。相对于基于高斯分布的热图模型,在检测0/1热图时无需计算每个像素的置信概率值,只需确定关节点的大致置信区域即可。由于置信区域相当于提供了关节点位置的先验信息,在此区域内可以直接执行offsets 的局部偏移回归而无需进行较为复杂的global coordinate回归。

一种名为 heatmap+offsets 的方法被提出,旨在降低回归任务和检测任务的难度,并显著提升了效率。这种方法的核心思路与早期 heatmap + 微调方案相似。

————————————————
具体细节参考:<>

具体细节

Person Box Detection

基于人物目标检测任务设计而来的Faster R-CNN模型采用Inception-ResNet作为其主干网络。随后,在仅针对人体边界框的数据中进行微调。

Person Pose Estimation

采用分类和回归的方法,得到关节点的heatmap和坐标offset。

对于每个空间点,在关节点周围检测后生成具有K通道的热图(其中K代表关节点的数量),然后利用回归方法预测每个空间点对应的二维坐标以确定关节点的位置,并将生成的热图与预测结果进行融合处理以获得精确定位

Image cropping

在对每一个bounding box进行裁剪时遵循人体纵比的原则以确保结果图像为矩形且其像素尺寸为353×257像素并维持长宽比例为1.37:1;当处理后的宽度或高度不符合这一比例时将较短的一边进行扩展以恢复正确的纵比

Heatmap & offset fusion

输入包括 heatmap(每个关键点对应一个 channel)以及 offset(包含 2×K 个 channel,在每个关键点上有两个通道分别表示 x 和 y 坐标),输出则共有 3×K 个通道

对于每个关键节点和空间位置而言,在该位置成为关节点的概率基础上进行计算之后就可以确定K个关键点了;接着将其转化为一个二分类任务;同时在估计每个空间位置与标准位置之间的距离的基础上又将其转化为一个二维回归问题;这样就将融合分成了二分类和二维回归两个子任务进行处理了

全部评论 (0)

还没有任何评论哟~