Advertisement

论文阅读-《HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation》

阅读量:

目录

一、总述

1. 要解决的问题

2. 使用的方法

3. 取得的成果

二、摘要

三、介绍

四、相关工作

五、高分辨率网络

1. HigherHRNet

i. HRNet

ii. HigherHRNet

2. 分组

3. 反卷积模块

4. 多分辨率监督

5. 热图聚合策略

六、实验

1. COCO数据集关键点预测

2. 消融实验

3. CrowdPose

七、结论


一、总述

1. 要解决的问题

该篇论文系统性地研究了自下而上的人体姿态估计问题。具体而言,该研究致力于解决基于多个人体姿态估计中的尺寸变化带来的挑战,并特别针对小尺寸人体的姿态估计所面临的具体困难进行了深入探讨。

核心挑战在于,在多人姿态估计任务中,由于人体尺寸不一,在同一场景中的人体尺寸有所差异。基于自顶向下的策略难以精确预测体型较小的人体的姿态。这一挑战主要源于早期研究大多局限于单一分辨率的空间感知能力。为了克服这一限制,在后续研究中逐渐发展出多尺度处理的方法框架。

HigherHRNet方法

举例

2. 使用的方法

针对该问题,论文提出了一种名为HigherHRNet的方法。该方法在现有研究的基础上,在HRNet原有特征图上增加了反卷积操作以达到提升输出尺寸的目的,并成功实现了 pose estimation 效能的显著提升。此外,该方法还具备多尺度监督训练和多尺度推理整合的功能。其中,在监督训练阶段采用了多尺度信息;而在推理过程中则实现了不同尺度信息的有效融合与整合以实现关键点精确定位的目的。

3. 取得的成果

HigherHRNet方法相较于传统的人体姿态估计技术,在小尺寸场景中展现出显著的进步。具体而言,在该评估指标下较前代算法提升了约2.5个百分点。值得注意的是,在CrowdPose评估集中的实验结果表明,HigherHRNet不仅超越了所有自上而下的基准模型(top-down methods),并且其性能表现尤为出色,在拥挤场景中表现出极强的鲁棒性。通过以上实验结果可以看出,该模型不仅能够有效应对复杂的姿态估计任务,并且在不同尺度下的适应能力也得到了充分验证。

二、摘要

基于自底向上的HPE难以准确预测小体型物体的姿态。为此提出HigherHRNet方法:通过结合高分辨率特征金字塔技术和多分辨率监督与聚合策略来解决不同尺度下的姿态估计问题。该方法通过结合高分辨率特征金字塔技术和多分辨率监督与聚合策略来解决不同尺度下的姿态估计问题。实现了关键点检测的更高精度,并且特别适用于对小型物体的姿态估计

特征金字塔的核心概念是通过构建多尺度特征表示来使模型能够在不同尺度下对目标进行预测。

三、介绍

二维人体姿态估计的目标在于确定人体的关键点或部位,并被视为解析人类行为的重要工具。目前的研究主要将方法分为两类:基于体姿检测的体系(即自顶向下型)和从无身份标记的关键点入手逐步解析(即自底向上型)。基于体姿检测的体系依赖于体姿检测器将复杂问题简化为单一姿势的评估,并表现出色;然而其计算开销较大,并未形成端到端的系统架构。相比之下从无身份标记的关键点入手逐步解析的方法不仅能够快速完成初步解析而且有望实现实时性;但其在应对尺寸变化方面的能力与前者有所欠缺,并且在小尺寸的人体姿态估计中表现不如前者

在预测人体的小尺寸部位时,主要面临着两个核心问题:一是应对尺寸比例的变化,即能够在保证整体表现的前提下提升小体型部位的表现;二是开发出既能保证计算效率又具备良好尺度适应性的热图方案,从而帮助精确识别人体的小尺寸部位

本文引入了一种名为HigherHRNet的新架构设计。该网络旨在解决预测小个体关键点时因尺度变化带来的挑战,并生成具有较高细节度的目标定位结果。HigherHRNet采用了基于深度学习的方法,在图像识别领域展现出显著性能提升效果。具体而言,在该网络架构中采用了一个高度可扩展的设计框架,在不同层次之间实现了信息的有效传递与融合。为了进一步提高模型性能,在训练阶段引入了多层次监督机制,在推理阶段则采用了多层次解码策略以实现对目标细节信息的高度还原与捕捉能力提升。

在COCO关键点检测数据集上的实验结果表明

总结贡献:
1. 在之前的研究中对尺度变化问题的关注度较低。
2. 该方法通过构建多分辨率特征金字塔,并结合多分辨率热图聚合技术,在预测具有尺度敏感特性的高分辨率热图方面表现出色。
3. 相对于其他同类方法而言,在处理中等体型的目标时取得了显著性能提升。
4. 该模型在CrowdPose数据集上实现了领先水平的结果,并验证了自下而上方法在复杂场景下的鲁棒性优势。

四、相关工作

**1.**从上至下: 该方法首先通过目标检测器生成人体边界框,并在此基础上定位单个人体关键点位置。其中Mask R-CNN直接将关键点检测作为目标检测器的辅助模块加入系统中;而G-RMI则采取分步策略:先进行人体再进行姿态估计。这些技术手段在姿态估计领域具有重要应用价值。

**2.**自下而上: 自下而上的方法首先识别图像中的全部人体关键点,并随后通过不同的分组策略将这些关键点分配至独立的人体。其中,OpenPose采用了部分亲和域来进行聚类分析;相比之下,Newell及其团队则采用的是关联嵌入的方法。PersonLab与PifPaf则通过直接学习关键点间的偏移场或关联域来进行分类工作,在多人姿态估计任务中均展现了较高的性能水平。

**3.**特征金字塔: 特征 Pyramid 是一种有效的方法来处理尺度变化问题,并广泛应用于物体检测与分割任务中。然而,在自下而上的多个人体姿态估计领域中这一 Pyramid 表示方法的应用较为有限。本研究提出了一个高分辨率的 Pyramid 架构,并通过扩展到各个方向并生成更高分辨率的多尺度 Pyramid 特征以更好地应对不同尺寸的问题。(如文献[26]所述,在骨干模型的基础上添加自顶向下的连接路径可提升 Pyramid 表示能力。该路径采用双线性上采样技术逐步重构从1/32到1/4倍率的Pyramid特徵图谱,并使各层次 Pyramid 特徵能够预测不同尺寸的目标实例。)

  1. 高分辨率特征图:

5.HRNet 高分辨网络(HRNet)是一种在全网范围内保持高分辨传递的关键技术。其架构包含多支具有不同空间分辨率的分支模块,在低分辨层面上提取全局语义特征,在高分辨层面上捕捉局部细节特征。各支模块间的多尺度融合机制能够有效整合丰富语义信息,并生成高质量的空间定位特征图以支持后续应用任务。

该研究以HRNet为基础架构,并融合反卷积模块来开发一个新的模型命名为HigherHRNet。该模型旨在实现高分辨率热图预测所需的关键特征提取。

五、高分辨率网络

1. HigherHRNet

i. HRNet

HRNet项目于第一阶段初期便设立了高分辨率分线。每个后续阶段中,在现有分线基础上平行地追加一个新的分线。这些新增分线的分辨率为当前分线最低分辨率为一半。随着网络阶次的增长,该网络将逐渐发展出多个不同层次的分线群,并且前期所确定的各种分辨率为后期各分线的基础。

HigherHRNet 采用了与 HRNet 相似的实例化方式来构建骨干网络。该网络从一个包含两个步长为2的3×3卷积核开始,在此基础之上将分辨率降到四分之一。第一阶段包含4个残差单元,在每个单元中均采用64通道数的瓶颈结构后跟一个3×3卷积层以进一步缩减特征图宽度至C值。接下来第二、第三和第四阶段分别包含1个、4个和3个多分辨率块,在这些多分辨率块中所使用的卷积宽度依次为C、2C、4C及8C。在多分辨率组卷积结构中每个分支均包含4个残差单元,并在各个分辨率层级上分别应用两个连续的3×3卷积操作以实现特征提取

HRNet主要针对由上至下的人体姿态估计进行了设计。在本研究中,我们引入了一个1×1尺寸的卷积神经网络模块,以生成热图和对应部位标签矩阵,从而使其能够适用于由下至上分析的人体姿态估计方法。

ii. HigherHRNet

在人体姿势估计中,
热图的关键点预测精度受到其分辨率的影响极大。
传统方法通过高斯平滑热图来进行关键点预测,
但针对小人物这一特定场景,
这种方法可能会造成关键点定位上的混淆。
为了缓解这一问题,
一种微不足道的方法是减小高斯核的标准差。
然而,
这种做法会增加优化过程的难度,
并可能导致预测效果变差。
本文提出了一种解决方案:
即在不同分辨率下维持标准差恒定地预测高分辨率热图。
HigherHRNet模型通过在其最高分辨率特征图上添加一个反卷积模块,
成功生成了高质量且高分辨率的特征图,
同时保持了热图的高度准确性。
此外,
该模型还引入了热图聚合策略以进一步提升预测精度。

若希望提升图像分辨率,则可增益于增添更多反卷积层。研究发现,在不同尺寸的人像数据库中,所需设置的空间分辨率存在显著差异。通常而言,在处理不同尺寸的人像时需相应调整特征图的空间分辨率。实验结果表明,在COCO数据库上使用单个反卷积层即可达到最佳性能。

2. 分组

最近的研究工作显示, 采用关联嵌入策略可实现高精度的人体部位分组. 实验结果表明, 在COCO关键点检测数据集中, 使用预测标签的地面真实检测结果使AP值从59.2提升至94.0, 这一改进基于[30]的方法, 即利用关联嵌入来进行关键点分组. 具体而言, 该算法将无身份信息的关键点通过计算标签间L2距离较小的关键点进行分组, 进而识别个体.

3. 反卷积模块

我们设计了一个反卷积模块用于输出高质量的特征图其分辨率是输入特征图的两倍高通过使用4×4尺寸的转置卷积层后接批量归一化层和ReLU激活函数以对输入特征图进行上采样处理此外在反卷积操作后可附加几个基础残差块以进一步细化上采样后的特征图细节我们在HigherHRNet架构中增加了四个残差块该模块接收两个来源:一是当前层级的空间金字塔池化编码得到的精简特征向量二是基于HRNet提取的关键点响应预测信号不同于文献[42]的研究方案

4. 多分辨率监督

与其他自下而上的方法不同的是,在他们的研究中仅针对最高分辨率的热图数据进行了监督学习;而在本研究中我们提出了一种多尺度监督机制以适应不同尺寸的目标检测需求

(1)鉴于特征金字塔具有不同分辨率的特点,在当前处理中,默认设置标准差为2的情况下不调整高斯核的标准偏差。在较高分辨率的特征图上,相对于其所在特征图的分辨率而言稍小的标准偏差能够更精确地定位小人物的关键点。

(2)对于HigherHRNet中的每一个预测尺度,在其基础上计算该尺度预测热图与其实现对应的真实热图之间的均方误差,并由此获得该特定尺度下的损失值。这些单尺度上的损失值被整合起来形成整体损失函数。

(3)本文没有将不同尺度的人员分配给特征金字塔中的不同级别。原因如下:

基于训练目标分配的启发式策略受数据特性和网络结构的影响。由于其基于不同尺度特性的数据统计模式以及层次结构上的差异,在直接迁移FPN中的启发式策略至HigherHRNet时会面临诸多挑战。

b. 基于本文采用了高斯核算法,在实际场景中,地面真实的关键点目标之间表现出显著的相互作用。鉴于此,在仅通过设定忽略区域来解除关键点之间的关联方面面临着极大的挑战性问题。研究表明,在特征金字塔的不同层级上实现对不同尺度目标的关注是该模型的核心能力之一。(这一设计避免了将不同尺寸的人体实例直接分配到不同的金字塔层级中)。

TagMaps:在HigherHRNet体系中,其训练方式与热图存在显著差异。我们专注于仅在最低分辨率层面上生成TagMaps,并非采用所有可能的分辨率层次信息。这是因为生成TagMaps的过程需要全局信息整合,并因其特点使其最适合于在较低分辨率数据中进行精确推断。基于此,在输入图像特征图经过1/4缩放后的1/4分辨率层进行模型训练

5. 热图聚合策略

本文采用双线性插值技术将多分辨率预测热图逐一放大至输入图像分辨率,并对各尺度热图进行综合融合以生成最终预测结果。此方法相较于传统方案具有显著提升,在整合多级特征方面展现出更强的能力。

热图聚合旨在达成对姿势感知中的规模意识。由于自底向上的方法必须考虑各个层次以确保从每个层次检测出关键点,在HigherHRNet架构中采用多分辨率热图能够更有效地捕捉到不同层次的关键特征。例如,在较低层次下可能被遗漏的小人物关键点可以在更高层次下得到恢复。因此,在对各层次预测结果取均值后,则可使HigherHRNet具备完成姿势估计时所需的空间信息感知能力。

六、实验

1. COCO数据集关键点预测

(1)DataSet**:** COCO数据集。CrowdPose

(2)评估指标: 标准化评估指标以OKS(Object Keypoint Similarity—关键点相似度)为基础计算得出,其中包含均值精度和召回率分数作为主要评价标准。

**人体关键点评估指标的相关信息,请参考以下两篇博客文章:

**人体关键点评估指标的相关信息,请参考以下两篇博客文章:

ground truth: 指的就是为这个测试收集一组真实代表目标的数据的过程。“ground truth”这一术语专门用来衡量监督学习技术中分类任务的准确程度。总体来说就是将这一概念作为评估模型性能的标准——即用来评估模型预测与实际结果之间差异的关键指标。简单来说就是一组真实反映实际场景的数据样本集合。

(3)训练:

**(4)**测试: 将输入图像的短边缩放到512像素并维持其原始比例。热图融合的过程包括将所有预测生成的热图重塑为与原输入图像尺寸一致后再计算其平均值。参考文献[30]中的方法论建议,在本研究中我们采用了镜像测试技术进行验证。为了确保结果的一致性,在本研究的所有评估指标计算过程中我们都采用了单一模型的方法而非混合模型的方式。

表1系统性地汇总了COCO2017测试开发集中的实验结果。通过分析这些结果可以看出,将HRNet作为底层方法的基础模型具有显著优势(AP值达到64.1)。与采用多尺度测试的Hourglass[30]相比,在参数规模和计算开销上均更优。然而,仅仅依赖单尺度测试可能无法充分发挥模型潜力,因此我们提出了HigherHRNet这一改进方案,其在保留较低参数量的前提下(较之HRNet增加约0.4%),实现了显著性能提升(AP值达到66.4)。进一步优化该模型后,我们发现通过多维度融合策略能够实现更高的准确率水平(具体数值见下文)。值得注意的是,尽管Higher HR Net 的参数量仅为PersonLab的一半左右,但其计算复杂度却仅为后者不到十分之一

表2详细列举了COCO2017测试开发集中基于bottom-up和top-down方法的实现。通过采用HigherHRNet框架,研究者们显著缩小了基于bottom-up与top-down方法之间的性能差异。

2. 消融实验

基于COCO2017[27]val数据集的基准测试结果表明,在对尺度感知高分辨率网络(HigherHRNet)进行系统性地评估过程中

(1)HRNet vs. HigherHRNet

作者对HRNet与HigherHRNet进行了对比实验分析。基于此方案构建的模型框架中,默认设置下基线模型以特征步幅为4的分辨率下实现了64.4的AP值表现。在此基础上,在特征步幅为2的分辨率下加入反卷积层后,在保持原有性能优势的基础上进一步提升了约2.5%的精度水平。具体而言,在迁移学习过程中发现:其中对中等尺度目标的关注度得到了显著提升,并且这种改进方式相较于传统方法具有更高的计算效率优势。

研究结果表明,在高分辨率条件下对姿态进行预测能显著提升基础姿势估计效果;此外,在不同尺度下的姿态感知能力对于整体系统性能至关重要。

在研究过程中,在HRNet模型后添加了两个反卷积模块序列以生成与输入图像相同分辨率的特征图。然而他们发现仅添加一个反卷积模块时性能达到66.9 AP而当添加第二个模块时性能下降至66.5 AP尽管在中等体型目标上改进微乎其微(仅提升0.1 AP)但对大型物体的检测能力却显著下降(AP减少了0.8)。作者推测这种现象可能与特征图尺度与物体尺度之间的错位有关较高分辨率的特征图更适合于检测较小物体的关键点但在COCO数据集中这些关键点并不适用于姿势估计因此建议默认情况下只使用一个反卷积模块同时反卷积级数的数量应根据所使用的数据集进行调整

(2)HigherHRNet gain breakdown.

为了更深入地了解所提出的各个组件各自的贡献,研究者逐一进行了细致的研究。

图3展示了实验的所有架构,实验结果如表4所示。

反卷积模块的影响(b): 作者通过消融研究评估了添加反卷积模块以生成更高分辨率热图的效果。他们仅使用最高分辨率的特征图生成用于预测的热图,发现HRNet在基线上达到了64.4的AP。然而,通过添加一个反卷积模块,模型的性能提高到了66.0的AP,比基线提高了1.6个百分点。这一改进主要归因于在更大、更高质量的特征图上进行预测。结果验证了预测在更高分辨率的特征图上对底层姿势估计的重要性。

研究者采用HRNet生成预测热图,并将其与原始特征图串联作为反卷积模块的关键输入源。实验结果表明,在AP指标上取得了显著提升。进一步发现,在小尺寸目标上效果明显增强,在大尺寸目标上则出现了性能下降。对比方法(a)和(c),我们发现使用更高分辨率热图带来了显著提升(+3.7 AP),而对比之下使用低分辨率却导致了性能损失(-1.6 AP),这验证了之前的论断

热图聚合的效果(d): 在推理过程中应用了多层级次的热点表示方法,在实验中与单一高分辨率热点表示方案相比展现出显著的优势。具体而言,在不同层次次特征提取的基础上构建热点表示模型可较之前方案显著提升检测精度至66.9%。其中主要增益来源于大尺寸人物特征(提升幅度达1.7个AP),这一发现验证了该策略的有效性

额外残差块的影响(e): 该模型在反卷积模块中增加了4个额外的残差块,在实验测试中表现出色。这些残留结构不仅提升了整体性能(实验结果表明该模型在AP指标上的表现显著提升至67.1%),而且通过引入额外的残差结构,模型在特征图的质量上得到了显著改善。其积分特性使得该方法特别适合用于不同尺寸的目标检测任务,在具体应用中能够有效提高检测精度和可靠性。通过引入额外的残留结构(residual blocks)和反卷积模块(deconvolutional modules)组合优化,在不同尺度的目标检测任务上取得了更好的效果(Average Precision指标从原来的58.9提升到了67.1)。

(3)使用更大的图像尺寸进行训练

为了探究更大输入尺寸对性能提升的影响?作者分别采用640×640和768×768的分辨率进行HigherHRNet模型训练,并将实验结果表明:采用较小分辨率(即高龄人群)进行模型训练后,在检测精度方面取得了显著提升(约1.4个AP值)。然而,在中年和老年群体上的表现有所下降。当进一步增大分辨率至768×768时,在整体检测精度上并未见进一步优化效果(即老年体型人群),但对中年体型个体的表现有所改善(约2%),而老年体型个体的表现则出现了轻微倒退现象。

(4)更大的骨干网络

在前次实验研究中, 作者采用了具有...特征图的一分四分辨率...W-32架构作为基础骨架. 随后, 为了进一步探索采用了更大尺寸的骨架架构, 分别测试了W-40和W-48版本. 研究显示, 这些较大尺寸的骨架架构在处理不同年龄段个体时均展现出更强的能力. 具体数据则可参考表格六

3. CrowdPose

该数据集包含了2万幅图像,并涵盖了约8万个体的人像。将该数据集划分为训练集、验证集和测试集的比例分别为5比1比4。相比于COCO关键点数据集,在CrowdPOSE中场景更为密集地呈现人体姿态信息。评估指标方面与COCO保持一致。

主要假设之一是每个检测框内只包含一个处于中心位置的人体,在拥挤情况下这一前提条件无法满足。参考表7的数据,在COCO评估基准下表现优异的自上而下方法[16, 15]却在CrowdPose评估基准上表现欠佳。相比之下,在拥挤环境下自底向上的方法展现出更强的优势。

旨在评估HigherHRNet在 crowd 模拟环境下的稳定性,并为自顶向下的策略提供坚实的基础。研究人员在 CrowdPose 的 训练 集 和 验证 集 上 训练 了 最佳 的 HigherHRNet-W48 模型,并 在 测试 集 上 报告 了 性能。所有训练参数设置与 COCO 一致,并采用了 640×640 的裁剪 大小。

实验结果表明,在CrowdPose数据集上的表现相比传统的自上而下方法更为突出,并取得了6.6个AP的提升成绩。相比之下,在性能指标上较优算法有所超越。其中最主要的提升源自于对最拥挤图像(+1.8AP)以及人群密度变化敏感性较高的模块(+1.5AP)的支持。即便未进行多尺度验证,在APH指标上仍较SPPE实现了0.5个AP的优势提升。

七、结论

该研究开发了一种基于HRNet的高效高分辨率特征提取系统(HigherHRNet),旨在解决自下而上的多人姿势估计问题中的尺度变化难题。该系统特别关注于对小人物的关键点定位精度。尽管多尺度图像金字塔和较大尺寸输入在一定程度上有助于缓解这一挑战,但现有方法面临计算开销过大的问题。为此,本研究提出了一种创新性的高效特征金字塔架构,并采用多分辨率监督学习策略进行优化。在推理阶段,通过多分辨率热图聚合技术提升性能,在保证计算效率的同时实现了对复杂场景下人体姿势估计的高度准确率。实验结果表明,在具有挑战性的COCO数据集上,HigherHRNet显著超越现有底层数值方法的表现,并在小尺寸人物姿态估计方面展现出明显优势

全部评论 (0)

还没有任何评论哟~