Advertisement

论文阅读 - RePOSE: 3D Human Pose Estimation via Spatio-Temporal Depth Relational Consistency

阅读量:

1.引言

2D 到 3D 提升方法的最新进展通常采用 Transformer 架构 ,该架构在捕获全局信息和建模顺序数据方面表现出了卓越的能力。这些方法通常涉及使用定制算法将检测到的 2D 姿势转换为 3D 空间 。然而,这个过程本质上面临着多对一的映射挑战,其中多个不同的 3D 姿势可以对应于单个 2D 投影,特别是在遮挡场景下,如图 c 和 d 所示。在这种情况下,关键身体关节的遮挡会导致 2D 姿态估计的准确性降低,从而在 3D 重建过程中产生模糊性。此外,在模型训练过程中依赖这些不可靠的遮挡信号会导致学习路径模糊且不确定。这种限制主要源于该方法对绝对深度信号的依赖,在遮挡条件下会失去可靠性,从而损害 3D 位姿估计的整体精度。

为了应对这一挑战,我们提出了 RePOSE,这是一种专门为提高遮挡场景中 3D HPE 的准确性而设计的新颖方法。 RePOSE 通过引入时空关系深度一致性来规避绝对深度依赖的局限性。我们的方法强调使用空间和时间域中的相对深度一致性损失来正确排序被遮挡的关键点,而不是仅仅依赖于绝对深度值。这种方法的转变使我们的方法能够稳健地处理遮挡,提供更准确、更可靠的姿态估计,如图 e 所示。此外,时空关系深度一致性的简单性,只需几行代码即可实现,使其成为现实应用程序实用且有效的解决方案。

2.方法

最近研究中的流行方法主要利用平均每关节位置误差(MPJPE)作为损失函数,定义为:

这里T表示帧数,J表示关节数。虽然 MPJPE 是 3D HPE 中广泛接受的度量标准,但它也有局限性,特别是它只关注关节位置,而没有明确考虑空间关系或姿态拓扑。这在有遮挡的场景中成为一个重要问题,在这种情况下,了解身体部位的相对位置对于准确的姿势估计至关重要。为了解决这个问题,我们引入了空间深度排序损失(spatial depth ranking loss),专门用于增强姿势拓扑相关性。此外,传统技术通常无法有效利用时间信息,因为它们通常独立地计算每个帧的损失,忽略视频序列内的连续性和相互依赖性。这种疏忽会严重限制模型随着时间的推移捕捉真实人体运动的能力,这是动态姿态估计任务的一个关键方面。为了缩小这一差距,我们提出了时间深度排名损失,这是一种新颖的组件,旨在结合时间动态以实现更准确和逼真的姿态估计。

在任何给定的框架中,估计深度 ˆd 和真实深度 d 之间的理想关系应遵循条件如果 dt,i < dt,j则 ˆdt,i < ˆdt,j 其中 t 表示特定时间步长, dt,i和dt,j分别表示此时不同关节i和j的深度。这同样适用于 ˆdt,i 和 ˆdt,j。然而,我们观察到这种相对深度关系在现有方法中经常被忽视,导致结果不准确,特别是在存在自遮挡等噪声的场景中。为了解决这个问题,我们在训练过程中引入了一种新颖的损失函数,旨在将网络优化引导到更准确的方向。公式如下:

在身体部位被遮挡的情况下,标准模型通常难以准确确定关节的深度定位,从而导致空间不一致。通过整合我们的空间深度排序损失,我们引导估计与实际空间配置更紧密地结合,从而向模型提供反馈,以改进训练并增强模糊身体部位或关节的区分。特别是在自遮挡场景中,传统方法可能会错误地关联身体关节,例如由于位置重叠而将手误认为肘部。当仅使用 MPJPE 作为损失函数时,这种类型的错误可能会被忽视,但当人体骨骼可视化时,这种错误就会变得明显。我们提出的空间深度排序损失函数通过加强框架内的关节间关系,有效地防止这些错误并确保更准确地表示人体结构。

在考虑空间方面的同时,我们还解决时间维度上的深度一致性问题。在时间上,特定关节的深度排序应在不同时间步长内保持一致,以确保 3D 姿势序列的连续性。然而,挑战出现了,特别是在自遮挡期间,估计的姿势可能会破坏这种连续性。为了抵消这个,我们引入以下损失函数:

其中j表示特定关节,dm,j和dn,j表示关节j在不同时间m和n的深度,类似地ˆdm,j和ˆdn,j。下图的右侧部分展示了这种损失的想法。时间深度排名损失鼓励估计姿势中的每个关节保持时间一致性,防止任何关节突然偏离其在序列中的原始轨迹。这种损失对于确保视频序列中连续帧之间的时间关系得到充分维护尤其重要,这有助于平滑运动并使模型不易受到异常值的影响。

3.实验

Human3.6M使用GT值作为输入MPI-INF-3DHP

4.结论

在本文中,我们介绍了 RePOSE,这是一种旨在提高视频序列中 3D 姿态估计准确性的方法,特别是在身体部位被遮挡或遮挡的情况下。与主要依赖于深度信息的传统方法不同,当身体部位不可见时,深度信息可能会失效,RePOSE 采用了一种以身体部位的相对定位为中心的创新策略。这种方法不仅在管理遮挡方面表现出卓越的功效,而且还具有简单的实现方式,需要最少的代码调整。我们的综合实验验证了 RePOSE 的性能优于现有的最先进技术,特别是在有障碍物的场景中。这些结果强调了 RePOSE 的功效及其在推进 3D 姿态估计方面的巨大潜力,特别是在遮挡和部分可见性常见的实际环境中。此外,其集成的简单性使 RePOSE 成为旨在提高姿态估计精度的研究人员可行且有效的解决方案。

局限性。尽管 RePOSE 在 3D 人体姿态估计中的遮挡场景中具有显着优势,但它也遇到了局限性,主要是它依赖于初步 2D 姿态数据的准确性。此基础数据中的差异可能会对后续 3D 估计产生不利影响,这是 2D 到 3D 转换技术固有的挑战。此外,尽管是针对遮挡而设计的,但 RePOSE 的性能在复杂条件下可能会下降,例如非典型的身体姿势或与物体的交互,以及在深度线索受到损害的极低光照环境中。

全部评论 (0)

还没有任何评论哟~