论文阅读:《Deep Learning-Based Human Pose Estimation: A Survey》——Part 1:2D HPE
目录
人体姿态识别概述
论文框架
HPE分类
人体建模模型
二维单人姿态估计
回归方法
目前发展
优化
基于热图的方法
基于CNN的几个网络
利用身体结构信息提供构建HPE网络
视频序列中的人体姿态估计
2D多人姿态识别
方法
自上而下
自下而上
2D HPE 总结
数据集和评估指标
2D HPE 数据集
2D HPE 评价指标
2D HPE 方法性能的比较
单人2D HPE
多人2D HPE
未来展望
人体姿态识别概述
应用模块:人机交互、运动分析、增强现实、虚拟现实
目的:精确的估计关节位置和姿势信息
存在问题:姿势变化、遮挡、尺度变化、训练数据不足、深度模糊
论文框架

HPE分类
2D HPE :通过在2D图像或视频中估计姿势 。
3D HPE :三维空间中完成更复杂的任务,尤其是真实环境中。
基于单人 :
1. 回归:基于深度学习回归直接将输入图像到人体关节坐标进行映射
2. 身体部位检测:
(1)生成关键点(关节)的热图用于身体部位定位;
(2)将检测到的关键点组装成整个身体的姿势或骨架
基于多人 :
自上而下:随后进行人体检测,并利用单人HPE预测每个人的各个关键部位来确定人体姿态。
自下而上:从下往上进行人体的关键部位识别;接着将这些关键部位分组形成独立的姿态;最后确定其中的人数。
人体建模模型
要点:从输入数据中提取关键点和特征
方法:N关节刚性运动学模型
补充:刚性物体——具有固定形状和尺寸的物体
常用模型:
(1)运动学模型(基于骨架模型 / 运动链模型)
优点:图形表示灵活直观
局限性:表示纹理和形状信息方面存在局限性
(2)平面模型:利用近似人体轮廓的矩形表示
(3)体积模型



二维单人姿态估计
**1.**应用背景
用于确定单个人体图像中的骨骼位置。当输入图片中有多个人存在时,则通常会首先将图片进行裁剪处理以确保每一部分仅包含一个完整的个体(由上半身或全身人体检测器自动处理)。
**2.**单人姿势估计方法
i. 回归模型:该方法旨在建立从输入图像到人体关节位置或模型参数的映射关系。该方法的核心目标在于直接预测并获得人体关键点坐标的精确值以及其他相关参数——这通常被称为关键点坐标映射
ii.以热图方法为基础:目的是估计人体各部位及关节的大致位置。在热图上标识这些区域的位置时,在每个像素点都能精确定位到人体的一个特定部位,并通过颜色或亮度则反映了该部位检测的置信水平。
回归方法
目前发展
1. DeepPose——基于AlexNet的级联深度神经网络回归
2. 全连接网络实现的目标是将输入数据与输出目标建立直接关联。基于软_argmax机制,该模型能够将输入的空间信息转换为空间关键点坐标. 软_argmax函数能够通过概率分布进行加权平均计算出具有最高置信度位置的功能.
3. Transformer-based cascade network——基于Transformer架构设计的级联网络结构, 用于人体关键点的精准定位与分析过程. 该模块通过自注意力机制(self-attention mechanism)捕获关节间的空间关联性及外观特征
4. Combination pose regression(组合姿态回归)
——由ResNet-50构建的组合姿态回归
——通过重构人体数据与骨骼关系的方法实现。
5. RLE(Log-likelihood Estimation, LL Est)——流型正则化模型...用于估计关节位置的概率分布...其目的在于通过残差对数似然评估优化效果
优化
关键点:特征质量
策略:multi-task learning shared representations——learning better feature representations. multi-task learning achieves this by sharing representations across related tasks, such as postures estimation and action recognition based on postures, enabling the model to generalize more effectively to the original task (posture estimation).
**1.**异构多任务框架
包含两个任务:
i. 第一个任务通过回归器从完整图像中预测关节坐标。
ii.第二个任务通过使用滑动窗口从图像块中检测身体部位。
基于两个不同的任务之间的协作共享表示方法,在姿势估计模型的性能方面取得了显著提升。
2.双源CNN****模型(DS-CNN)
包含两个任务:
i. 第一个任务是关节检测,用于确定图像块是否包含人体关节。
ii.第二个任务是关节定位,用于找到图像块中关节的确切位置。
损失函数:每个任务都有对应的损失函数,并将两个任务结合起来带来了性能上的提升。
基于热图的方法
由每个关节点位置上添加2D高斯核生成2D热图
设存在K个关键点,则对应生成K个热图{H1,H2,...,HK};其中,在热图中每个像素位置(x,y)处的像素值Hi(x,y),代表关键点位于位置(x,y)的概率。
训练过程:基于姿态估计网络,在预测热图与目标热图之间最小化差异程度(采用均方误差 MSE 作为损失函数)来进行训练。
与关节点坐标相比,则是能够更好地保持空间位置信息的同时,在提升训练效率方面也表现得更为出色
基于CNN的几个网络
1. ConvolutionalPoseMachine(CPM): 采用分步处理机制,在每一步中进行卷积操作时均基于上一步骤所生成的二维置信图进行计算,并从而逐步优化并精确定位身体各个部位的位置信息。
2.堆叠沙漏SHG**(stacked hourglass):** 由一个编码器和一个对应的解码器组成,其中编码器负责从输入图像中提取特征,解码器将这些特征映射回姿态估计的输出。网络采用自下而上和自上而下重复处理,先通过自下而上的阶段进行多尺度的特征提取,然后通过自上而下的阶段进行姿态的预测。为了捕捉每个尺度的信息,SHG网络由连续的池化和上采样层的步骤组成,使得网络可以捕捉不同尺度的信息。基于此,进行了一些升级:
沙漏残差单元 HRUs(Hourglass Residual Units)通过将残差单元发展成为具有更大感受野的滤波器的侧分支来实现对不同尺度特征的有效捕获
金字塔残差模块 PRM(Pyramid Residual Module):取代了现有架构中的残差块, 从而提升深度卷积神经网络在不同尺度下的不变性
3.高分辨率网络HRNet**(High-Resolution Network):** 采用高分辨率分支结构(各分支之间并行连接),每一分支专注于不同分辨率特征的提取,并有助于更好地捕捉图像细节。在此基础上进行了多方面的优化:改进了网络结构以增强特征表示能力,并通过增加计算能力提升了性能表现。具体包括:优化了分支设计以提高效率;增加了1.5倍的参数量以增强模型容量;同时提升了分类器的精确度和目标检测的鲁棒性等关键指标。
Light HR-Net:开发了一种条件通道加权模块以实现信息在通道与分辨率之间的交互,在保证性能的同时降低了网络的计算复杂性
**4.**生成对抗网络(GANs): 通过比较高置信度与低置信度的预测结果来推断被遮挡身体部位的姿态。Generative Adversarial Networks (GANs) 作为一种基于深度学习的技术,在姿态估计领域展现了显著的应用潜力。其主要应用包括:用于提升姿态估计的准确性;优化计算效率;减少对高质量标记数据的需求;以及增强模型在复杂场景下的鲁棒性分析。
姿态生成任务:GANs能够生成逼真且生动的人体姿势,并有助于提升人体姿态的生成精度。
(2)置信度估计:GANs可用于评估预测结果的置信度。通过采用生成器与判别器的对抗学习机制,则可以使生成器更准确地区分出真实与不合理的人体姿态。当GANs生成的人体姿势被判别器识别为真实时,则可能提升对该姿势置信度。
(3)遮挡部位的估计:GANs用于处理身体遮挡的情况,在身体某部分被遮挡时(即当身体某部分被遮挡时),模型通过生成对抗学习进行推测以判断未可见部位的姿态状态。基于生成器输出的姿态信息有助于填充该区域未可见的部分,并从而提升该区域姿态状态的估计精度
后续又针对这一网络进行了相关的改进:
由一种基于结构感知的条件对抗网络AdversarialPoseNet构成:该网络由一个基于沙漏网络的姿势生成器和两个鉴别器组成,并旨在识别出合理与不合理的人体姿态。
(2)基于对抗学习架构设计的网络:其中包含两个并列设置的沙漏式结构,在不同的功能模块中执行相应的任务。该网络由两部分共用一致的设计方案组成:一方面作为生成模块负责估算关键点位置;另一方面则用于鉴ellers,则对地面真实热图与预测热图进行区分
(3)抗干扰数据强化网络:将其视作鉴別器,并以强化网络为生成功能来进行抗干扰强化训练。其中生成功能则负责产出与原始数据相似但略具差异性的合成样本,以扩充训练样本的多样性;鉴別器则负责判别真实样本与由生成功能产生的假样本之间的差别。此抗争学习进程促使生成功能产出更为逼真的样本实例,从而优化了强化效果。抗干扰数据强化网络有助于模型更好地理解决变换、遮挡以及复杂环境中的各样本情况,在提升模型鲁棒性和性能方面具有显著作用
利用身体结构信息提供构建HPE网络
该系统基于全连接的CNN架构(End-to-end CNN framework)设计,在人体部位间的空间关系与外观特征上进行综合考量,以实现对负样本的有效识别。
2.****系统性的人体特征级学习架构(Structured feature-level learning framework):利用系统性的学习机制推导人体骨骼间的关系;结合身体骨骼数据以提高姿态估计精度
**3.**多尺度结构感知神经网络(Multi-scale structure-aware neural network): 该网络整合了多层次监督机制、多层次特征融合技术以及优化的结构感知损失信息方案,并采用了创新的关键点遮蔽训练策略。通过这一系列设计,在复杂场景下具备更加精准地识别人体姿态的能力。
**4.**基于 hourglass 模型的监督学习架构(Hourglass-based supervision network): 该架构旨在建模人类各部位之间的相互关联,并通过学习人类肢体组合的信息模式,在姿态估计任务中实现更高的精度表现。
**5.**基于部位的分支网络(Part-based Branches Network): 该网络以特定于每个部位组的表示为研究对象,并摒弃了所有部位共享表示的传统做法。相比于传统模型,在这种架构下能够实现更为灵活多样的特征表达,并且能更好地适应不同部位之间的差异性
视频序列中的人体姿态估计
双通道卷积神经网络架构:通过帧对的颜色信息与运动向量的结合关系,在空间与时间维度上构建一个具有强时空表征能力的深度学习模型,并将其应用于高精度估计任务中
基于光流方法用于对齐相邻帧生成的热图。结合多帧的时间序列信息。
Tips: 光流——指在连续帧之间观察到的像素点的运动模式,描述了图像中每个像素点在时间上的位移或运动方向,光流可以用来表示图像序列中的物体运动轨迹。在计算机视觉中,光流通常通过分析相邻帧之间的像素值的变化来估计得到。通过比较像素点在两个连续帧之间的亮度差异来确定他们的运动方向和轨迹。在HPE中,通过计算光流,可以推断出人体在连续帧之间的运动,从而提高姿势估计的准确性。
该循环网络模块通过分析不同帧之间的时空关系来捕获其几何一致性与动态依赖性,并使HPE网络能够更快地进行训练。
4. 关键帧提议网络(frame proposal network),用于从帧中提取空间和时间信息,并通过人体姿势插值模块来实现高效的基于视频的人体姿态估计(HPE)。
Tips: 人体姿势插值模块(Pose Interpolation Module)——基于视频的人体姿势估计(HPE)的技术,可以在两个连续帧之间预测人体姿势,从而实现对视频中人体运动的连续跟踪和姿势估计。
2D多人姿态识别
相较于单人HPE而言,在多人HPE中,则需同时确定参与人数及其位置信息,并还需考虑如何对不同参与者的关键点进行分组处理。
方法
自上而下: 通过现有的面部检测技术对视频中的多个人体进行识别,并将其划分为单个人体单元(每个小方块对应一个人体)。接着,在每个方块中应用人体姿态估计技术,从而推导出整体的人体姿态描述。
自上而下: 首先通过图像识别技术在全身范围内识别出所有骨骼关节的位置,并将其归类为独立的目标对象。该过程主要包括以下两个关键环节:① 基于图像分析的方法提取骨骼关节的局部特征并生成候选关节位置② 采用部分关联机制将各候选关节进行分组以完成姿态表示
通常来说,自下而上的方法计算速度更快捷,并且无需分别检测每个人的身体姿态。

自上而下
当前已有技术模块:
1. 在ResNet中添加几个反卷积层,用于生成高分辨率表示的热力图[259]
Graph-PCNN:以图为基础,并独立于模型设计的仅有两个主要阶段的框架。该方法通过一个定位子网络获取初步关键点位置,并结合一个图姿势细化模块实现对这些关键点进行精确优化后的位置表示[246]
多层次网络结构:包含一个残差模块(RSN),通过一种高效的特征融合机制学习精确的局部分量,并结合一个姿态细化分支(PRM),在特征空间中平衡局部分量与全局表征的关系。
在遮挡和阶段场景下估计姿势研究
在多人参与的情况下容易引发肢体重叠的问题。这样采用自上而下的方式实施第一步就显得难以实现。这个问题的根本原因在于:
基于卷积神经网络的姿势识别系统用于估计叠加的人(执行关节候选评估),并采用整数规划方法处理连接关系问题,在严重的遮挡条件下实现人体姿态感知[78]
基于多姿态的区域估计方法(RMPE)旨在提升复杂场景下人体姿态预测任务的表现。该框架由三部分组成:第一部分是对称空间变换网络(SymSpaceNet),主要负责识别边界框内部的单个人体区域;第二部分是一种参数化的人体姿态抑制机制(Paramoten_suppression),其作用是解决姿态检测中的冗余问题;第三部分则是一种基于姿态引导的提议生成器(PoseGuided_proposer),其功能是增强训练数据的质量和相关性[55]
基于两阶段架构设计的人体检测系统中集成Faster R-CNN作为人体检测组件(该组件用于生成候选人体的边界框),同时搭配关键点估计器(通过热图偏移聚合技术预测关键点位置)[180]
4. Cascade Pyramid Network (CPN):该架构主要包含两个组成部分:一是基于不可见关键点预测的特征金字塔网络(GlobalNet),二是整合了来自不同层级特征信息的关键点挖掘损失整合模块(RefineNet)。实验结果表明,在遮挡关键点检测任务中该架构表现出色[29]
构建了一个遮挡姿势校正系统以及一个遮挡姿势数据集,并旨在解决复杂场景下的姿态估计挑战[199]
开发了一个关键点对齐框架,并基于前一帧的时间信息,在遮挡场景中恢复缺失的动作姿态。该网络通过自监督学习进行优化,并在稀疏标注视频数据集上提升了姿势估计的准确率[237]
开发了两个关键组件:基于通道混洗机制构建了通道混洗模块;同时基于空间与通道注意力机制构建了空间与通道注意力残差瓶颈组件。这些创新性设计使得模型能够在复杂遮挡环境下对人物进行精准的人体姿态估计(HumanPoseEstimation, HPE),尤其是在多个人体姿态估计任务中展现出显著优势[219]
基于Transformer在HPE上的研究
在Transformer架构中所采用的注意力机制能够有效识别预测关键点之间的长程依赖关系以及全局特征间的相互作用。相较于卷积神经网络(CNN),这种机制展现出显著的优势;这些特性使其在处理复杂的特征关联问题上表现更为出色。
TokenPose:基于全Transformer架构的设计,其通过采用token表征有效提取约束信息与视觉特征关系[125]
2. HRFormer:一种高分辨率的Transformer架构,在整合HRNet的块结构与Transformer模块时,成功提升了存储器使用效率与运算效率[277]
3. 一种精简的人体姿态估计模型(PPT):通过识别人体各个组成部分来准确评估不同角度下的身体姿态[150]
4. 基于注意机制的完全端到端框架:能够直接估计感知实例的身体姿势[216]
视频中的多帧姿势估计
可以利用视频序列中的时间信息来促进姿势估计。
PoseWarper:该网络的目标是降低视频帧标记的成本,并通过优化帧间标签传播机制以及基于稀疏注释进行模型训练来实现这一目标。
DCPose:应用于多帧的人体姿态估计(HPE),其核心目标是减少视频帧间由于运动所导致的模糊问题及遮挡现象。该系统主要由三个组件构成(时间顺序整合模块、残差关系融合模块以及姿态矫正网络),通过整合各帧的时间序列信息来定位关键点。
上面两个方法并不能充分利用相邻帧的信息。为此:
3. 引入一个分层对齐框架,用于减轻两个帧之间不对齐上下文的聚合[140]
自下而上
两阶段自底向上方法的发展和改进
DeepCut:由Fast R-CNN构建的人体各部位识别模块构成的一种方法。该系统最早采用两阶段自底向上的架构设计。首先识别出所有候选点作为身体各部位的潜在位置信息。接着使用整数线性规划技术标记各候选点,并利用这些标记结果构建出完整的动作姿态。其主要缺点是计算资源消耗较高[192]
2.DeeperCut: 该方法通过利用更强的身体部位检测器、优化增量算法以及引入图像条件的匹配项来提升性能并加速处理速度[76]
3.OpenPose: 使用CNN(卷积神经网络)通过热图识别人体各个关键点的位置,并借助Part Affinity Fields(PAFs)将各关键点与其相关的人体部位进行连接。该方法显著提高了基于自顶向下的多个人体姿态估计效率[16]
Tips: PAFs(Part Affinity Fields)是一组二维矢量场,用于表示人体关节之间的亲和关系。每个关节对应的 PAF 是一个矢量图,每个矢量场对应一个关节到其他关节的连接。这些矢量表示了关节之间的方向和连接强度。PAFs 的作用是帮助将图像中的关键点(例如头、肩膀、手臂等)连接成完整的人体姿势。
在此基础上
4.PifPaf: 在高分辨率图像上的应用表现优异的OpenPose系统,在低分辨率图像和被遮挡场景中却存在明显的性能瓶颈[104]。针对上述问题提出了一种称为PifPaf的新方法:通过分析身体各部位的强度分布来识别人体关键点,并结合关节间的关系网络构建完整的骨骼模型[105]
**5.**单阶段深度网络: 基于OpenPose和堆叠沙漏结构的启发下开发出单阶段深度网络,并从而实现姿势检测与组别划分[170]
**6.**可微分的分层图组合方法: 学习人体部分的分组
Higher Resolution Network:结合单阶段深度网络与HRNet的技术基础,并对其进行了扩展应用。通过反卷积操作生成高分辨率热图的方法,在自底向上的多人姿势估计中实现了尺度变化的有效应对[31]。
多任务结构在自底向上多人HPE中的应用
1.PersonLab: 通过将姿势估计模块与人物分割模块集成来实现关键点识别与配对。PersonLab包含短程偏移(细化热图)、中程偏移(预测关键点)以及长程偏移(将关键点分组成实例)[179]
2.MultiPoseNet: 覆盖姿势残差网络这一技术基础后,在关键点预测、人体检测以及语义分割等方面实现了高度协同的性能整合。该系统通过整合这些核心模块的能力,在图像解析方面展现出显著的优势。[99]
上述两个方法在处理人体尺度变化方面存在挑战,为此:
3.SAHR: 通过自适应优化关节参数的标准偏差这一手段,在一定程度上增强了对人体不同体型下以及标注模糊性较强的适应能力[146]。
2D HPE****总结
2D HPE 依然面临的几个挑战 :
当遇到严重的遮挡现象(如 crowd-saturated environments)时,在个体可靠检测方面也会面临挑战
计算效率:尽管存在一些方法(如OpenPose)能够在特定硬件环境下达到接近实时的处理速度,但这些网络仍受制于当前主流商用芯片的计算能力限制。实际应用场景(如游戏、增强现实与虚拟现实)则要求在商用设备上部署高效的人工智能平台以提升用户体验。
针对稀有姿态的数据集容量有限:然而现有的二维人体姿态估计(HPE)数据集(例如COCO等基准数据集)在处理常规动作如站立、行走以及奔跑等方面已经积累了较为丰富的训练样本。尽管如此但针对不寻常的姿态(例如跌倒等特殊情况)的数据仍然相对匮乏。由于这类特定姿态的数据稀缺性问题会导致模型在学习过程中产生偏见并在实际应用中对这些特定姿态的表现能力也会受到严重影响因此为了有效提升模型在人体姿态估计任务中的性能建议开发更加先进的数据生成与增强技术能够补充现有数据库中的不足从而有助于提高模型的整体鲁棒性。
数据集和评估指标
2D HPE****数据集

**1.**Max Planck Institute for Informatics (MPII) Human Pose Dataset:这是一个由马普莱克计算机科学研究所开发的重要人体姿势数据集。该数据集总共包含了约25,000张经过详细标注的身体姿势图片,并覆盖了超过4万个关键点的位置标注(例如头部、肩膀、手肘等)。这些图片展示了多样化的场景,在室内与室外环境以及日常活动与体育运动中都能找到它们的存在。此外该数据集还特别关注到多个人的存在情况即每个样本图中通常包含一个人以上并且有时甚至更多的人物形象。值得注意的是该数据集不仅提供了多样的动作姿态与视角组合还充分考虑到了不同复杂度的人体结构特征这使得它成为研究多维度人体姿态估计的重要资源库并且可以被用来进行二维环境下的单人或多人体姿态估计分析
Microsoft Common Objects in Context (COCO) Dataset:** COCO作为一项旨在促进目标检测、图像分割以及人体姿态估计的研究平台,在各个领域都是应用最广泛的大型数据集之一。该平台包含超过33万张图片及约20万幅标注了关键点的主题图,并且每个样本均标注了17个关键部位。与众多同类数据集相比,在标注精确度方面具有显著优势,并覆盖了更为广泛的标注类别。不仅提供了目标识别与图像分割方面的标注信息,在记录每个身体部位的确切位置以及可见性状态方面也表现出了独特的优势。
COCO-WholeBody Dataset:专用于人体姿态估计(HPE)领域的一个配备了完整全身人体姿态标注的数据集合,在原有COCO数据集的基础上进行了扩展。除了该集合中提供的主体关键点标注外,在该数据集中还引入了更为丰富的身体姿态信息如头颈部、膝盖及踝关节等部位的姿态特征,并致力于为身体姿态估计算法研究提供更为丰富和详尽的数据支持以提升估算精度与鲁棒性需求
PoseTrack Dataset:PoseTrack Dataset是一个专门用于人体姿态估计(HPE)中的关节追踪的大型数据集。该数据集特别关注于在拥挤或被遮挡、截断的情况下的身体部位。PoseTrack 2017 包含514个视频序列及16219个姿势标注(其中250个用于训练序列、50个作为验证序列、214个用于测试),而PoseTrack 2018 则包含更多的样本:共有 593 个训练序列、 375 测试样本以及大量关键点标注信息以供研究者使用。此外,在 PoseTrack 数据集中每个样本还带有关键点可见性相关的辅助标记
2D HPE****评价指标
**1.**Percentage of Correct Parts (PCP) : 通过计算正确预测的关键部位数量与总关键点数量的比例来评估算法的准确性。PCP 指标评估了预测的关键点与真实关键点之间的位置是否在特定范围内。对于每一个关键点而言,在判断其正确性时我们假设如果预测的关键点与真实关键点的距离小于预设阈值则称该关键点定位正确之后我们就可以统计所有正确定位的关键部分类别所占的比例这就是 PCP 指标的计算依据。这一指标的结果范围通常在0到1之间表示的是算法在关键部分类别的定位准确率的具体数值越大表明算法的整体性能越优秀。
PCP = (正确预测的部位数 / 总部位数) * 100%
由于人体姿态在不同体型下表现不同,基于姿态捕捉的PCP无法真实地反映运动性能。为了优化评估标准,PDJ引入了改进后的躯干直径作为评估指标。
作为归一化因子。
采用了PDJ作为改进方案。具体而言,在以下方面进行了优化:首先, 仅针对图像中可见的关键点进行评估, 这种做法能够有效避免因不可见的关键点而导致的结果偏差;其次, 在计算过程中根据各关键点的重要性动态分配权重;再次, 在评估时综合考虑各关键点间的相对位置关系;此外, 不仅注重各关键点的检测精度, 更考虑到它们之间的连接质量, 从而全面提升了算法性能;最后, 该方法在一定程度上降低了阈值设置对结果的影响
2. PDJ**:** 代表检测关节点比例。当预测关节与实际关节之间的距离不超过躯干直径的一个分数时,则认为预测关节点被成功检测到。通过计算成功检测出的关节点数量与实际存在的关节点总数之比来确定PDJ值。
PCP 和 PDJ 的主要区别体现在它们所关注的不同准确性指标上——PCP 侧重于关键点位置的准确性评估体系构建过程中的精确性表现研究方向与应用领域研究方向之间的差异性比较研究方法与理论基础之间的差异性比较研究结果与应用效果之间的差异性比较研究路径与技术路线之间的差异性比较研究框架与理论创新之间的差异性比较研究基础与理论支撑体系之间的差异性比较研究路径与技术路线之间的差异性比较研究基础与理论支撑体系之间的差异性比较研究基础与理论支撑体系之间的差异性比较
**3.**Percentage of Correct Keypoints (PCK): 定义为一种改进型的关键点检测指标。相较于原始设计中的PDJ算法,在躯干直径方面存在不足的基础上,PCK采用了头部分割长度这一因素进行归一化处理,从而使得其表现更为稳定可靠。研究结果表明,当PCK值越高时,则认为该模型的整体性能越优
**4.**Average Precision (AP) and Average Recall (AR): 平均精度(AP)与平均召回率(AR)常被用来评估关键点检测的准确性。其中AP表示真实正例数量与总正例数量的比例,而AR则代表正样本中的预测正确数目与真实正样本总数的比例。此外还有mAP(平均精确率)和mAR(平均召回率)。其中OKS与IoU两种指标均可应用于计算AP或AR。例如,在COCO评估标准中通常采用10个不同的OKS阈值来计算并汇总得到mAP作为主要评估指标
2D HPE****方法性能的比较
单人****2D HPE

该图展示了在MPII数据集上基于PCKh@0.5指标对多种二维单人姿态估计方法进行系统性对比分析的结果
(1)回归方法: 通过端到端框架学习的方式实现了从输入图像到关键点坐标的非线性映射关系,并具备了快速学习的能力以及亚像素级别的预测精度。然而,在高度非线性的问题上,这些方法通常只能得到次优解的结果。
(2)基于热图的方法: 相较于回归方法而言,在2D姿态估计问题中得到了更为广泛的运用。这是因为通过热图中每个像素的概率预测能够显著提升关键点定位精度,并且同时能够提供更为丰富的监督信号。然而,在关键点预测精度上存在一定的局限性——当采用高分辨率热图时会相应增加计算开销与内存消耗。
多人****2D HPE

该图表概述了不同2D姿态估计方法在COCO测试开发集中实验结果的表现情况。
此外还概述了实验设置(涉及额外数据集、主干网络的选择以及输入图像尺寸配置)以及各评估指标的具体表现情况。
比较实验突显了多人姿态估计中自顶向下和自底向上方法的显著结果。
基于层次的分析流程通过特征识别技术从图像中提取个体特征并完成姿态预测任务展现出更高的准确性表现其优势在于能够有效降低复杂场景下的计算开销
(2)从下往上方法通常较之自顶向下方法更为高效,其主要得益于能够全面识别所有关键点,并主要依靠基于关键点关联策略(如亲和链接、关联嵌入以及像素级关键点回归)来将这些特征组合成单一动作.
该表格概述了PoseTrack2017和PoseTrack2018数据集中最新关于视频处理的研究成果,并汇总了测试集的具体数据。

未来展望
人体姿态估计在某些特定应用场景中面临数据短缺问题:针对一些特定应用场景(例如儿童照片集合或艺术作品系列),现有标准化的数据集未能充分覆盖这些应用场景,并其分布与这些具体应用场景存在显著差异。这使得现有的深度人体姿态估计技术(HPE)难以实现良好的泛化性能,在不同场景间表现不够理想。近年来的研究趋势是采用生成对抗网络(GAN)等技术来缩小各领域的知识鸿沟, 但如何有效地将人体姿态信息进行跨域迁移仍是一个待解决的关键问题。
在跨领域学习中(Tips:),领域差异问题是由于各领域的数据分布特性存在差异,在这种情况下使用某一个领域的训练数据进行模型训练后,在应用到另一领域时可能会导致模型性能出现下降。具体而言,在不同领域的研究中发现:人体的姿态以及身体各部位形态等存在显著差异;这使得基于现有方法构建的模型难以实现良好地跨域泛化效果(现有方法在跨领域的适应性不足)。针对这一挑战性问题可以从以下几个方面寻求解决方案:第一,在收集更多样化的训练样本的基础上优化现有算法;第二,在研究并引入迁移学习方法;第三,在结合特定领域的知识基础后采用领域特定化技术以提升模型泛化能力
- 人体模型的参数规模较大 ,需在减少参数数量的同时确保其表现能力:当采用基于SMPL 、SMPL-X 、GHUM 与 GHUML 等相关技术进行人体网格表示时 ,由于其涉及大量复杂计算 ,因此处理难度较高 。为了实现高效计算 ,需要探索能够在保证重建网格质量的前提下如何实现参数数量的缩减 。同时考虑到不同人体形状的变化多样性 ,在设计有效的身体建模方案时可能需要综合运用其他辅助信息 (例如通过BMI值或轮廓特征)来进行更加精确的建模
探究人体在空间环境中的相互制约关系,并以此增强其在实际应用中的可靠性。现有多数方法忽视了人体在三维空间中与其他物体互动的可能性。研究者深入分析了人体在不同场景中的相互制约关系,并提出了一些关键假设和理论框架作为指导依据。例如,在同一场景中人物不能同时占据其他物体的空间位置。此外,在这一过程中还需要结合物理规律与语义信息来构建完整的模型框架以确保结果具有较高的可信度
4. 为了提升视频中的3D HPE算法 的流畅度,请对其进行优化调整:在视觉跟踪与分析领域中,3D HPE 算法扮演着关键角色。目前基于视频的3D HPE 方法在流畅性方面存在不足。建议研发适合帧级评估的新指标,并重点考察时间一致性与动作流畅度
现有的许多网络未能充分考虑分辨率不匹配的问题,并因此需要设计能够感知并适应不同分辨率的高精度估计(HPE)网络。尽管许多经过良好训练的深度学习模型在实际应用中表现优异,在面对低质量图像或资源受限环境时仍可能存在性能瓶颈;这种现象可能导致在低分辨率输入下对人体姿态的预测存在偏差;为了应对这一挑战,在研究领域中提出了采用对抗性学习方案的可能性以开发一种能够有效应对不同分辨率挑战的高精度估计方法
探究抗干扰防护措施以增强HPE网络的安全性:在视觉任务中部署深度神经网络时容易遭受抗干扰影响。当系统处于微小噪声环境中其性能会显著下降因此开发抗干扰防护措施有助于提升HPE系统的鲁棒性
深入研究人体各部位的专用神经网络架构设计,以期显著提升人体姿态估计(HPE)的精确度和效率水平。考虑到人体各个部位具有独特的运动模式和形态特征,单一共享架构可能无法适应所有身体部位的不同自由度需求。通过神经网络架构搜索(NAS)技术,能够优化每种身体部位的最佳架构设计,并通过多目标优化在HPE领域的探索同样具有重要意义,在需要平衡多个关键性能指标时尤其值得关注。此外,多目标优化在HPE中的应用不仅有助于提高模型泛化能力,还能有效降低计算成本和资源消耗。
