Advertisement

论文阅读-《HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation》

阅读量:

目录

一、总述

1. 要解决的问题

2. 使用的方法

3. 取得的成果

二、摘要

三、介绍

四、相关工作

五、高分辨率网络

1. HigherHRNet

i. HRNet

ii. HigherHRNet

2. 分组

3. 反卷积模块

4. 多分辨率监督

5. 热图聚合策略

六、实验

1. COCO数据集关键点预测

2. 消融实验

3. CrowdPose

七、结论


一、总述

1. 要解决的问题

该篇论文进行了深入研究自下而上的人体姿态估计问题。具体而言, 论文专注于应对多人姿态估计中的尺度变化挑战, 尤其是在微小尺寸人体姿态估计方面面临的问题。

核心挑战在于,在多人姿态估计问题中,因为人体尺寸不一导致的图像中的体型尺寸存在差异使得基于自顶向下的方法通常难以精确预测小体型个体的姿态。主要原因在于传统的系统多以单一分辨率特征图为基础进行关键点热图预测,并未能有效应对体型尺寸变化带来的挑战。

特征图(Feature map) :特征图可以被视为卷积层对输入数据进行特定类型特征提取后的结果。每个卷积核在输入图像上执行卷积操作,其输出即为一张特征图。这些特征图实质上是二维数组,每个元素代表一个特征值,反映了输入图像中某个局部区域的特定特征。

单一分辨率的特征图 :仅使用一种尺寸或分辨率的特征图来进行关键点的预测。这种特征图往往无法有效地捕捉到图像中不同尺度的人体姿态信息。多分辨率特征图允许模型在不同尺度上提取和整合信息,从而更准确地定位不同大小的人体姿态关键点。这种方法能够增强模型对不同尺度人体的适应能力,提高姿态估计的准确性和鲁棒性。在HigherHRNet方法中,通过引入反卷积操作和多分辨率监督训练,模型能够生成并利用多分辨率的特征图进行姿态估计。这种设计使得模型能够更有效地学习并处理尺度变化,从而提高了人体姿态估计的性能。

举例 :假设我们有一张包含多个人的图像,其中有的人距离相机较近,显得较大,而有的人则距离较远,显得较小。我们的任务是准确地估计出每个人的姿态,即关键点的位置。如果我们使用单一分辨率的特征图来进行姿态估计,那么模型会基于这个固定尺寸的特征图来预测所有人的关键点。然而,由于不同人体在图像中的大小不同,这个固定尺寸的特征图可能无法同时捕捉到大型人体和小型人体的细节信息。对于大型人体,特征图可能过于粗糙,无法精确定位关键点的具体位置;而对于小型人体,特征图可能又包含了过多的无关信息,导致关键点的预测不准确。相比之下,HigherHRNet通过构建多分辨率的特征图来解决这个问题。它使用不同尺寸的特征图来提取不同尺度的信息。对于大型人体,模型可以利用较低分辨率的特征图来捕捉整体结构;而对于小型人体,模型则可以利用高分辨率的特征图来捕捉更精细的细节。这样,模型就能够更好地适应不同尺度的人体,并更准确地估计出每个人的姿态。

2. 使用的方法

为了求解这一问题,在研究中提出了名为HigherHRNet的方法。该论文在此基础之上增加了反卷积操作以提升输出尺寸,并且该方法还具备多尺度监督训练与融合推理功能。通过多尺度监督进行训练有助于模型捕捉不同尺度的信息特征;而通过多尺度融合进行推理能够更加高效整合各层次信息从而实现关键点定位精度更高

3. 取得的成果

相较于传统的人体姿态估计方法而言,在小尺寸场景下的表现得到了显著提升的是HigherHRNet方法。具体来说,在小尺度的人体姿态估计任务中,该方法较之以往的技术实现了更高的准确度(AP),其差距达到了2.5个百分点以上。值得注意的是,在CrowdPose测试集上,在自上而下(top-down)方法中表现最佳的HigherHRNet实现了67.6%AP的好成绩,并且这一成绩超越了所有其他同类自上而下(top-down)算法的表现;同时,在同一测试基准CrowdPose数据集上,在自上而下(top-down)方法中表现最佳的HigherHRNet实现了67.6%AP的结果;这些实验结果充分验证了HigherHRNet方法在应对尺度变化方面的有效性

二、摘要

基于自底向上的架构设计的人体姿态估计模型(HPE)在对小型人体进行姿态预测时存在一定局限性。为此我们提出了HigherHRNet该方法采用了一种创新性的设计框架整合了先进的深度学习算法其核心组件包含一个基于高分辨率特征金字塔网络(High-resolution feature pyramid network)以及一个多层次的监督与融合机制(Multi-scale supervision module with aggregation mechanism)。这种设计使得模型不仅能够有效捕捉不同尺度人体的关键部位还能够更好地应对复杂的姿态变化问题从而实现了比现有方法更高水平的人体关键点检测精度特别是在处理小型人体时展现出显著优势。

特征金字塔的核心概念在于基于构建多层次的特征表征,从而实现模型在不同尺度下对目标进行预测

三、介绍

二维人体姿态估计旨在识别人体的关键部位或关键点,并被视为理解人类行为的重要核心技术。目前的方法主要可分为自上而下与自下而上两类。自上而下方法依赖于人体检测技术,在将问题简化为单人姿态估计时表现出较强的鲁棒性与较高的性能水平;然而其计算量较大且不具备端到端系统特性。相比之下,在速度上有显著优势的自下而上方法则通过先识别所有无身份的关键点位置,并将这些关键点归类为人体实例来实现对动作的理解与分析;尽管这种方法有望实现对动作的实时估计能力的突破,在处理小尺寸人体姿态时仍显不足。

在预测小体型物体的关键点时面临两大主要挑战。第一个问题是需要解决尺度变化问题即能够在保证大体型物体性能不受影响的前提下显著提升小体型物体的检测精度。第二个难题在于生成高质量且高分辨率的关键点定位图以便实现精准的小体型物体关键点预测。过去基于自顶向下方法的主要研究重点集中在关键点分组问题上却忽视了如何应对尺度变化的需求。适当提升输入图像分辨率有助于提升小体型物体关键点检测的效果然而在这种情况下可能会导致大体型物体检测能力下降因此开发出一种能够在保证计算资源消耗不变的前提下开发出一种能够有效捕捉不同尺度特征的新方法变得尤为重要

本研究提出了一种以HigherHRNet命名的尺度感知高分辨率网络,旨在解决小尺寸物体关键点预测中的尺度变化问题及高分辨率热图生成挑战。该网络采用了基于高分辨率特征金字塔模块的设计方案,在HRNet 1/4分辨率路径上构建了相应的特征金字塔结构以提高效率的基础上进一步优化了体系架构以适应复杂场景需求为此设计了一系列创新性的技术方案包括多层次特征提取机制以及多级别目标检测算法以此实现对不同尺寸物体关键点的有效识别与定位

本文通过COCO关键点检测基准数据集对HigherHRNet进行了验证,并展示了其优异的性能表现。该方法能够无需后期处理流程即可达到高平均精度(AP)水平,并明显优于现有的自顶向下检测方法。特别地,在处理中等体型的人像时,HigherHRNet不仅获得了更高的AP值,在处理体型较大的个体时也能维持良好的检测效果。此外,在拥挤场景下的CrowdPose数据集上进行实验表明HigherHRNet表现突出,在自顶向下框架方面展现了卓越的效果。这些实验结果充分证明了HigherHRNet在应对尺度变化方面的有效性。

总结贡献:

  1. 在以往基于自下而上的多个人体姿态估计方法中,尺度变化问题的研究相对较少。
  2. 该方法在训练阶段通过多分辨率监督生成高分辨率特征金字塔,在推理阶段则采用多分辨率热图聚合策略来预测对尺度敏感的高分辨率热图。这一设计特别有助于提升小人物检测的效果。
  3. 与现有基于自下而上的其他方法相比,该模型表现更为优异。特别地,在中等体型人体姿态估计方面取得了显著的性能提升。
  4. 该模型在CrowdPose数据集上实现了最新的基准水平表现,并表明在拥挤场景中基于自下而上的方法相较于自上而下的方法具有更高的鲁棒性。

四、相关工作

**1.**自上而下: 从上到下的方法则首先通过识别人体边界框开始操作。接着,在这些边界框内部部识别单个人的关键点位置。其中有两个具有代表性的技术手段:一种是直接在其基础架构中集成一个关键点检测模块(如Mask R-CNN),另一种则是将人体姿态估计与人体检测过程分开处理(如G-RMI算法)。这两种技术手段在姿态估计领域发挥着重要作用。

**2.**自下而上: 该方法主要通过图像识别所有人的身体关键点。随后, 采用不同的分组策略将这些关键点分配到不同的人身上。基于亲合字段的方法用于实现分组, 而关联嵌入方法的则是Newell等人。PersonLab和PifPaf则通过直接学习关键点之间的偏移场或关联字段来实现分组, 在多人姿态估计任务中表现出色。

  1. 特征金字塔:

**4.**高分辨率特征图: 主要的方法包括:
① 通过编码器-解码器结构,在编码路径中捕捉上下文信息,并在解码路径中恢复高分辨率特征。
② 通过空洞卷积避免了步长卷积带来的空间信息丢失。
③ 通过反转置卷机(转置卷机)在网络末尾按序列排列时能够有效提升特徵圖的空间分辨率达到一定水平。
SimpleBaseline表明反转置機可用于熱圖預測生成高質量且細節豐富的特徵圖

5.HRNet 高效传递系统(HRNet)是一种在整个网络中实现高分辨率特征高效传递的有效方法。该网络架构由多个不同分辨率的分支模块组成,并通过多尺度特征融合生成具有丰富语义信息的高分辨率特征图。较低分辨率分支负责提取全局语义信息,在此过程中能够捕捉到图像的整体布局和主要物体位置;而较高分辨率分支则专注于细节刻画与空间关系保留。

本研究以HRNet为基底网络,并融合反向卷积模块,在此基础上提出 novel HigherHRNet架构。该模型旨在通过多尺度特征融合与精细定位机制,在保持计算效率的同时实现热图预测任务的高度准确性。

五、高分辨率网络

1. HigherHRNet

i. HRNet

HRNet启动第一个阶段时就已经具备了一个高分辨率分支。每个后续阶段都会在其父分支的基础上并行新增一个分支,并且新添加的这个分支具有比当前父分支最低细节级别更低的一半分辨率值。随着网络发育出更多的层级,在每一个新级联模块中都新增了具有更高细节层次的新分支,并且前一模块的所有细节信息都会被继承到后续各个层级中去。

HigherHRNet采用了与HRNet相似的骨干网络架构设计。该网络从一个包含两个步长为2的3×3卷积层开始,在此基础之上将分辨率降低到1/4。第一阶段由四个残差模块组成,每个模块均采用64通道的瓶颈结构,并随后接一个3×3卷积层来进一步压缩特征图宽度至C值。第二至第四阶段分别设置了1个、4个和3个多分辨率模块,在这些多尺度特征中分别对应着不同的计算路径设计。这四种不同尺度下的卷积通道数依次设置为C2C4C8C的数量级。通过设定不同的参数值(分别为C=32C=48),我们构建并测试了两种不同容量的模型架构。

HRNet最初是为了自顶向下的人体姿态估计而被设计出来的。在当前研究中,在这项工作中我们被使用了一个1×1卷积操作来生成热图与标签图,并因此将该技术成功地应用于自底向上的分析方法中。

ii. HigherHRNet

在人体姿势估计领域中,热图的分辨率对于准确预测小人物的关键点至关重要。传统的关键点预测方法多采用高斯平滑热图来进行关键点定位,在面对小人物等特定场景时可能会导致预测结果出现混淆或误差。为了缓解这一问题,在现有技术中通常的做法是略微降低高斯核的标准差以减少这种模糊现象的发生。然而这种做法不仅增加了计算复杂度,并且会导致预测精度的显著下降。为此本研究提出了一种新的关键点预测模型,在不同分辨率层面上保持高斯核参数不变的前提下实现了对高分辨率热图的精确预测

为了获得更高的图像分辨率, 可以考虑增加更多的反卷接上积层单元. 研究发现, 反卷接上积层单元的数量受数据集中人物体型分布的影响. 通常情况下, 包含不同体型的人的数据集会根据其体型大小决定是否需要高分辨率特征图来提升预测效果. 通过实验研究, 在COCO基准数据集上使用单个反卷接上积层单元即可达到最佳性能水平.

2. 分组

近期研究工作的成果表明, 采用一种称为"关联嵌入技术"的新方法, 可以使人体部位分组达到较高精度水平. 实验结果显示, 在COCO关键点数据集上, 通过预测标签与真实标签的对比分析, 将来自该数据集中500张训练图像的AP指标从59.2提升至94.0, 显著提升了模型性能. 参考文献[30]所提出的方法, 我们采用"关联嵌入技术"来完成关键部位的分组任务. 具体而言, 该方法通过基于标签间L2距离较小的无身份信息关键点进行组合, 实现了个体识别功能.

3. 反卷积模块

本文引入了一种反卷积模块用于生成高质量特征图其分辨率较输入特征图提升了一倍。该方法采用4×4尺寸的反卷积操作也被称为转置卷积随后接批量归一化层并应用ReLU激活函数以实现对输入特征图像素上的上采样过程。此外在进行反卷积操作后可附加若干基础残差块以进一步细化上采样所得的特征图从而提升整体性能效果。在HigherHRNet模型中我们增加了四个这样的残差块与现有结构相结合以增强模型表现力值得注意的是与现有文献[42]不同本文所提出的反卷积模块的独特之处在于其输入不仅包含当前层级提取出的关键信息还包括自HigherHRNet自身提取的高度关注热图或由前一级别反卷积模块所预测出来的热图进行拼接融合形成更加丰富的上下文信息这一特性为后续多尺度热图预测奠定了坚实基础每个输出端所获得的高分辨率特征图也被用来以多尺度模式预测热图分布情况

4. 多分辨率监督

不同于其他基于自上而下的方法, 这些方法仅依赖于对高分辨率热图数据进行监督学习. 在这一过程中, 我们引入了多尺度监督机制以适应图像中的不同尺寸变化

由于不同分辨率的特征金字塔能够有效预测各个尺度的关键点,在此处我们选择固定高斯核的标准差为2值作为默认设置;在更高分辨率的特征图中,在考虑其分辨率基础上采用较小的标准差能够更精确地定位小人物的关键点

(2)在HigherHRNet的每一个预测尺度上,在该预测热图与其对应的真实热图之间进行像素级均方误差计算以获得单尺度损失值;随后将各分辨率下的单尺度损失值相加得到最终损失值

(3)本文没有将不同尺度的人员分配给特征金字塔中的不同级别。原因如下:

基于数据集与网络架构的信息确定训练目标的启发式方法

b. 基于本文采用了高斯核函数,在真实世界中的关键点相互关联是一个不可避免的现象。然而仅靠设置忽略区域来实现关键点间的解耦显然是非常有挑战性的任务。我们相信该模型能够通过多级特征金字塔自动聚焦于不同尺度的对象。(不将不同尺寸的人体分配到不同的金字塔层级中而是让模型自主识别各个尺度的特点)

本节讨论的是在HigherHRNet框架中提出的 novel tagmap learning方法及其具体实现过程。其训练方式与热图生成不同,在这里我们仅在最低分辨率层进行tagmap预测而非采用多尺度策略的原因在于该方法需要全局信息辅助解码这一特性更适合于在较低分辨率层面上提取关键点位置信息进而提升模型整体性能效率因此本文将tagmap模块限定于输入图像特征图降噪至四分之一分辨率后进行该模块的具体设计与实现

5. 热图聚合策略

本文通过双线性插值技术将不同分辨率的预测热图 -upsampling-到输入图像的一致分辨率,并对各尺寸的热图取平均值以获得最终预测结果。相比于传统方法而言,这种新策略能够充分考虑所有尺度信息而非仅依赖单一尺度或阶段信息。

热图融合的主要目标是实现基于规模感知的姿态估计技术。这是因为自底向上的特征提取方法依赖于从各个层次提取关键点来获取完整的姿态信息。在HigherHRNet的设计架构中,默认情况下通过多层细粒度的空间关系网络能够更有效地捕捉到不同类型物体的关键点位置变化特征。例如,在较低分辨率下可能被遗漏的小人物关键点,在较高分辨率下则能被精确识别出来。因此,在对多分辨率预测结果进行融合后,则可使HigherHRNet具备良好的姿态估计能力,并且能够有效应对不同尺寸的对象。

六、实验

1. COCO数据集关键点预测

(1)DataSet**:** COCO数据集。CrowdPose

(2)评估指标:

涉及人体关键点的评价指标可供以下两个博客查阅:

涉及人体关键点的评价指标可供以下两个博客查阅:

Ground truth: 指的是通过系统性地收集高质量目标数据以支持测试过程的方法。“Ground truth”这一术语特指监督学习中基于训练集的数据分类准确性的标准。总体而言,则是将 Ground-truth 作为一个基准标准来评估模型性能与效果差异。简单来说,则是一组高质量且准确反映真实情况的数据。

(3)训练: 使用随机旋转的数据扩充([-30◦ , 30◦ ]), 随机缩放([0.75,1.5])、随机平移([-40,40])以裁剪大小为512×512的输入图像块以及随机翻转。如第3.4节所述,我们生成了两个分辨率分别为128×128和256×256的地面实况热图。本文使用Adam优化器。基本学习率设置为1e−3,在第200个和第260个时期分别降至1e−4和1e−5。我们总共训练了300个时期的模型。为了平衡热图损失和分组损失,我们将这两个损失的权重分别设置为1和1e−3。

**(4)**测试: 将输入图像的短边缩放到512像素,并维持其比例。热图融合的过程涉及将所有预测出的热图调整至与输入图像相同尺寸后进行平均。参考文献[30]中的方法,在本研究中我们采用了镜像测试作为验证手段。在本研究的所有评估结果中,我们仅依赖单个模型输出数据进行计算。

表1详细列出了COCO2017测试开发集上的实验结果。通过分析实验数据可以看出, HRNet作为一种基础方法,在参数与计算开销方面表现优异(64.1 AP)。本文提出的基准方法仅依赖单一尺度的HRNet实现,其性能在参数量与计算效率上均超越了采用多尺度测试的Hourglass[30]模型。相比之下,在参数规模和浮点运算量(FLOPs)方面, HRNet的表现更为出色。值得注意的是,配备轻量级反卷积模块的HigherHRNet相较于基础版本,在精度上提升了2.3 AP,但仅导致参数规模增加微乎其微(+0.4%)的同时FLOPs增加了约23%。进一步地,HigherHRNet通过引入多尺度测试策略,其精度提升至70.5 AP,这已显著超越现有基础方法的表现水平

本表总结了COCO2017测试开发集中两种主要方法:自下而上的架构与自上而下的模型设计,并详细比较了它们的性能特点

2. 消融实验

我们在COCO2017[27]的val数据集上进行了系统性消融实验, 为了深入分析该网络的结构特性及其在不同尺度下的性能表现.

(1)HRNet vs. HigherHRNet

作者对HRNet与HigherHRNet进行了消融实验分析。以HRNet为基础构建了初始模型,并采用了特征步幅为4的底层结构设计,在此架构下计算得到AP值达到64.4。随后,在HigherHRNet模型中增加了反卷积层,并采用特征步幅为2的方式优化网络结构,在测试集上取得了显著效果(AP值达到66.9)。进一步分析表明,在不同尺度目标检测任务中(如人物检测任务),本方法相较于传统方法具有明显优势(APM指标从57.1提升至61.0)。

实验结果显示,在小尺寸场景中HigherHRNet表现出更优的效果。

在研究中,研究者在HRNet之后引入了两组连续的反卷积模块,以生成与输入图像分辨率相同的特征图.然而他们发现仅添加一个反卷积模块时的AP值为66.9%,而增加至两组后降为66.5%.尽管中等体型的人体关键点检测性能仅提升0.1个百分点(AP增益),而大型体型的人体关键点检测性能却大幅下降了0.8个百分点(ΔAP=-0.8).作者推测这是因为特征图的空间分辨率与人体关键点检测对象的空间尺度存在差异,导致较大的关键点难以准确捕捉到目标区域的变化信息.COCO数据集中,由于较小体型的人体姿态估计依赖性较弱,因此建议在该数据集上默认仅使用单个反卷积模块,并根据具体数据集调整级联反卷积组件的数量

(2)HigherHRNet gain breakdown.

为了深入探究所开发的各种组件带来的增益贡献,作者系统地展开了各组件间的消融分析

图3展示了实验的所有架构,实验结果如表4所示。

本研究重点考察了反卷积模块(标记为b)的影响

特征串联的影响(c): 作者采用HRNet预测热图与特征图串联的方式作为反卷积模块的输入,并提升了至66.3 AP。观察结果显示,在测试中的中等规模人群表现有明显提升;然而大尺寸人群则出现了性能下降的情况。对比方法(a)和(c),预测更高分辨率热图带来的增益主要来自于中等规模人群,并带来了+3.7个APM的同时也验证了前面的观点:不同分辨率下的特征对不同体型的人群敏感度有所差异

热图聚合的效果(d): 通过热图聚合策略,在推理过程中的各个阶段均采用了不同分辨率的热图。相较于仅依赖全分辨率的方案,在该方法下模型的平均精度(AP)达到了66.9%。值得注意的是,在这种多尺度特征融合的过程中,最大的提升来自于对大尺寸目标(增加了约1.7个AP)的关注度较高,在一定程度上也超过了低分辨率预测的表现能力。这一现象进一步验证了该方法在尺度感知方面的有效性。

额外残差块的影响(e): 在反卷积模块中引入4个残差块后观察到显著性能提升效果。实验结果表明该模型在验证集上的平均精度(AP)达到67.1%。通过引入残差机制可以有效提升模型对不同尺度目标检测的效果。

(3)使用更大的图像尺寸进行训练

为了探究更大输入尺寸对性能提升的影响,作者采用了不同分辨率的数据进行实验:具体而言,在表5中展示了基于高分辨率数据集(包括192\times192256\times256以及384\times384)所构建的HigherHRNet模型的表现情况。研究发现:当仅采用192\times192分辨率数据时,在验证集上取得了令人满意的性能表现(AP值达到1.35),但在测试集上的准确率略低于最佳验证集表现(AP值为1.31)。这种差异主要源于测试集中样本分布与训练集存在一定的偏差性特征。进一步分析发现,在不同尺度分类任务中表现出明显的优势是该方法的核心优势之一:在中等尺度分类任务中取得了显著的优势(AP值提升了约1.5%),但在较大尺度分类任务中的优势则较为有限(AP值提升了约0.8%)。

(4)更大的骨干网络

在之前的实验研究中,作者采用了HRNet-W32(基于1/4分辨率的空间特征图拥有32个通道)作为其骨架网络的基础架构,并随后引入了更大规模的骨架网络配置HRNet-W40和HRNet-W48。结果显示这些更高容量的架构在不同体型的人群中均展现出显著优势。具体数据结果可在表6中查阅。

3. CrowdPose

CrowdPOSE数据集包括了2万张图像以及约8万张人物图像。训练集合、验证集合以及测试集合的比例分别为2万张、1千张及4万张。相较于COCO关键点数据集而言,CrowdPOSE的数据场景更为密集,并为姿势估计带来了更大的挑战。其评估标准与COCO一致。\n

自上而下的方法依赖于一个关键前提:即每个检测框都只包围着一个处于中心位置的人体。然而,在人员密集的环境中这一前提往往不再适用。根据表7的数据,在COCO评估基准下表现优异的自上而下检测算法[16, 15]在CrowdPose测试集中却表现不佳。相比之下,在人员密集环境中采用自底向上的解决方案展现出明显的优势。

为了考察HigherHRNet在复杂 crowd 情境下的稳定性,并为自顶向下的策略提供一个有力的基础。研究者基于 CrowdPose 数据集,在其训练集和验证集中均进行了优化,并将最优版本命名为 HigherHRNet-W48;该模型在测试集上的表现令人满意。所有实验条件与COCO标准一致;具体而言,在图像处理过程中采用了 640×640 的裁剪尺寸。

结果显示,在 CrowdPose 数据集上,HigerHRNet 的性能 明显 超于基于自顶向下的传统方案,较之提升 了 6.6 个 AP 。相较前优方案而言,HigerHRNet 的性能进一步提升了 1.6 个 AP,其中大部分增益源自于包含最密集 crowd 的 APM 和 APH 提升了 respective +1.8 和 +1.5 AP 。即便未进行多尺度检测,HigerHRNet 在 APH 上仍较 SPPE 提升了 0.5 个 AP 。

七、结论

该研究团队开发了一个新型的尺度感知高分辨率特征提取网络(HigherHRNet),旨在解决自下而上的多人姿势估计问题中所面临的尺度变化难题,尤其在对体型较小的目标进行关键部位精确定位方面表现出色。尽管多尺度图像金字塔架构能够在一定程度上缓解这一挑战,并可接受更大尺寸的输入数据以提高定位精度,但这种方法存在较高的计算开销问题。针对这一困境,本研究团队开发了一种高效的HRNet基线特征金字塔架构,并采用多分辨率监督策略进行模型训练。在推理环节中,通过应用多分辨率热图聚合技术所得HigherHRNet不仅具备生成能力良好的热图的能力,并且能够实现更高层次的空间定位精度,在实际应用中展现出显著优势。经过评估,在具有挑战性的COCO数据集上HigherHRNet表现明显优于现有所有基于HRNet的基础模型,并且在小尺寸人体姿态估计任务上展现出更强的竞争优势。

全部评论 (0)

还没有任何评论哟~