Whole-Body Human Pose Estimation in the World
论文题目:Whole-Body Human Pose Estimation in the World
项目地址: https://github.com/jin-s13/COCO-WholeBody
摘要(Abstract)
这篇文章对人体全身的二维姿态进行研究,目标是定位出人脸,人手,身体以及人脚对应的稠密关键点。目前来说存在的公开数据集并没有全身的标注信息,以前的工作不得不集成在不同数据集上独立训练的不同模型(人脸特征点模型,人体特征点模型,手部特征点模型等),并且要面对不同的数据集偏置和较大的模型复杂度。为了填补这个空白,我们引入COCO-WholeBody数据集,这是一个在全身关键点方面标注上对现有COCO数据集的延伸。据我们了解到,这是第一个人工全身标注的关键点benchmark,包含133个稠密关键点,其中68个人脸特征点,42个手部特征点,23个人体特征点(包含脚部点)。设计了一个叫做ZoomNet的单网络模型,考虑到人体的层级结构来解决人体不同部位具有不同变化尺度的问题。设计的网络结构可以在提出的COCO-WholeBody数据集上表现出超出已经存在方法的性能。大量的实验结果表明我们提出的数据集不仅可以被用来从头训练整个人体关键点模型,也可以作为有力的预训练数据服务于其他不同的任务,比如人脸特征点检测,手部特征点检测等。

通过查看上图中的信息可以看出以下几点:
- COCO-WholeBody数据集提供了一个具体的样本实例
- 经过实验对比分析可知ZoomNet的表现优于现有的SOTA方法
3 & 4. 利用COCO-WholeBody数据集对子任务(如人脸特征点定位)进行预训练能够显著提高其精度
本文主要贡献
- 构建一个COCO-WholeBody数据集作为扩展版本的COCO数据集,在该数据集中不仅增加了全身人体关键点注释数据(包括人脸、躯干、足部以及手部等部位),而且在多样性和准确性的基础上还实现了丰富的标注信息,并且相比现有的开源数据集具有更高的性能表现。
- 提出一种名为ZoomNet的新算法,在该算法中设计了一个基于top-down范式(top-down paradigm)的整体网络架构来完成全身特征点的回归任务。该算法不仅能够进行端到端训练(end-to-end training),而且针对人体不同部位可能出现的不同尺度问题(scale variations in different body parts)进行了专门的设计与优化,在经过大量实验验证后发现其性能明显优于当前最先进的人体关键点检测算法(state-of-the-art, SOTA)。

从上面表格可以看出本数据集相比较于已经存在的开源数据集的优势

上图展示了 人脸 、人手区域的特征点标注示例
COCO-WholeBody Dataset
COCO-WholeBody 数据集是首个全身特征点全面标注的大规模数据集,并本文将详细阐述具体的标注细节
3.1 数据标注(Data Annotation)

本研究构建的数据集中每个主体都包含4种类型的框。其中包括人体关键部位检测框、面部关键点检测框、左手关键部位检测框以及右手关键部位检测框的具体信息。这些细节均在参考图中所示。具体标注流程如下:首先,在数据预处理阶段完成图像归一化处理;然后,在姿态校准过程中对姿态进行校准;接着,在关键部位检测阶段识别人体的关键部位;最后,在特征提取过程中提取各部位的特征描述信息。
- 手动标记人体关键部位及其对应的手部关键区域,并同时记录各关键区域的有效性信息。
- 对各组标记结果的质量进行检验。
- 从各标记得出相关区域后应用预训练模型提取关键部位特征。
- 人工校正预标记结果数据后发现约有28%的手势关键点和6%的脸部关键点需人工校正,在这种半自动化流程下可大幅缩短注记时耗。

3.2 评估准则( Evaluation Protocol and Evaluation Metrics)
- 主要采用均值平均精度(mAP)和平均召回率(mAR)作为评价指标
- 在姿态评估过程中采用了基于物体关键点相似度(OKS)的方法
- 在实际应用中仅计算有效数据量
3.3 数据统计(Dataset Statistics)

数据集大小(Dataset Size)
- 包含大概130K个标注框
- 包含800K个手部特征点
- 包含4M个人脸特征点
尺度分布(Scale Difference)
人脸和人手的特征点相比人体特征点来说,在尺度上变化较小(其实也就是位置的变化幅度比较大)
人脸模糊度(Facial Image “Blurriness”)
由于不同的人脸图像清晰程度会影响其特征点定位的效果, 因此我们需要通过拉普拉斯算子对数据集中的所有图像进行清晰程度分布的统计分析。具体步骤如下: 首先会对人脸区域进行灰度化处理, 并将其缩放到统一大小(即1\times 112x112像素), 然后利用拉普拉斯算子计算出每个位置上的清晰系数值。例如, 在上述过程中, 我们可以通过参考图谱来判断每个样本的具体清晰程度参数值。实验结果表明, 当计算得到的人脸清晰程度处于0\sim 3之间时, 其特征点定位结果能够达到较高的准确性水平。
手部姿态变化(Gesture Variances for Hands)
该系统的数据集包含了更多种不同开放场景下的手姿数据,并具有大量抓取动作
4 ZoomNet: Whole-Body Pose Estimation

本文提出了一种名为ZoomNet的网络架构,在截取人体边界后的图像作为输入的前提下,并将其归类于top-down范式之下的一种基于单一整体身体特征点的一体化回归计算方法,并具体包含若干功能模块
特征抽取网络(FeatureNet)
基于图中所示,经由特征提取网络处理后生成了F_₁和F_₂两个特征映射层。其中输入图像的尺寸设定为384×288像素,在此基础之上设置有F₁大小参数值设在了192×133像素范围内,并且对应的F₂参数值则设置在较小的空间维度即96×72像素范围之内。
人体回归网络(BodyNet)
基于F1和F2作为输入,并用于预测人体关键点、脚部关键点、人脸框以及双手关键点等多类目标位置信息。这些输出通道总计包含以下内容:其中人体关键点包含23个通道(对应身体各个重要解算器),而单个人脸区域则由一个通道表示其中心位置;同样地,在双手区域分别由两个通道分别表示左右手中心位置;最后是双手各手指端部位置信息共8个通道。实验中采用HRNet-W32架构作为BodyNet的基础模块结构
人手和人脸特征点回归网络(HandHead and FaceHead)
通过BodyNet获取了人脸及手部的关键点,并通过ROIAlign技术提取目标区域的响应特征。将F1中的目标区域缩小至64x64像素的同时,在F2中则缩小为32x32像素。最终生成的热图具有64x64的分辨率。研究采用了HRNetV2p-W18模型作为HandHead and FaceHead对应的Backbone
- 参考CornerNet方法的思想框架, 将人体关键点检测问题等价于进行点定位任务
- 结合RoIAlign技术和现有的F1与F2分辨率下的特征图, 实现对人体关键点区域的精准提取并生成相应的特征点坐标。
实验(Experiments)

从表格中可以看出,在准确度方面,我们提出的ZoomNet展现出显著的优势,并且相比OpenPose和SN而言,在计算效率上也更为高效。



总结:
- 预测框的准确度将由特征点回归的准确度来决定。
- 在忽略人体各部分尺度变化的一致性情况下直接进行全身特征点回归会导致人体特定部位或整体的人脸关键点检测出现较大程度上的准确性下降。
- 模糊图像将极大地影响人脸关键点检测过程中的准确性。
- 在双手部关键点检测过程中, palm 或 others 状态相较于 fist 状态而言更具挑战性。
