论文阅读-《Global-to-Local Modeling for Video-Based 3D Human Pose and Shape Estimation》
目录
1 摘要
1.1 挑战
1.2 改进
1.3 创新点
2 介绍
2.1 挑战
2.2 解决
2.3 贡献
3 相关工作
3.1 基于图像的人体姿态估计
3.2 基于视频的人体姿态估计
4 方法
4.1 GMM(Global Motion Modeling)
4.1.1 全局Transformer
4.1.2 Masked Pose and Shape Estimation (MPSE)
4.1.3 Human Prior Padding 人体先验填充策略
4.1.4 迭代回归器
4.2 LPC(Local Parameter Correction)
4.2.1 局部变压器
4.2.2 分层空间相关回归器 HSCR
4.2.3 损失函数
5 实现细节
6 实验
6.1 评估指标 (Evaluation Metrics)
6.2 数据集 (Datasets)
6.3 与最先进方法的比较 (Comparison with State-of-the-art Methods)
6.4 消融实验 (Ablation Studies)
6.5 定性评估 (Qualitative Evaluation)
7 结论
1 摘要
1.1 挑战
视频中的3D人体姿态和形状估计主要依赖于两个关键指标:
帧内精度 (Intra-frame accuracy) :确保每一帧的人体姿态和形状估计准确。
Frame-to-Frame Smoothness (Inter-frame smoothness): 通过技术手段实现过渡过程中的形态与外观变化均呈现自然流畅的特点
现有的最先进方法通常将这两个指标视为一个整体的问题进行处理,并采用单一建模架构(例如基于循环神经网络或注意力机制的模块)来构建网络结构。然而这种方法在平衡短期与长期的时间相关性方面存在挑战,并容易产生以下问题:全局位置偏移(例如,在视频中人体的位置识别不够精确)、时间一致性不足以及局部细节不够精细等问题。
1.2 改进
该模型通过一种名为GLoT的架构实现对长短期时间依赖关系的结构化解耦。针对上述问题,该模型首先引入了全局Transformer架构,在建模长时间跨度内的特征关联方面具有显著优势。其核心创新在于采用了一种名为Masked Pose and Shape Estimation 的策略,在随机遮蔽部分帧特征的同时实现了对帧间相关性的学习训练机制设计。这种设计不仅能够有效避免信息泄露的问题还能够帮助模型在长时间跨度内更好地捕捉人体运动的一致性特性。其次该模型还引入了局部Transformer架构以提取人体网格区域内的局部细节特征并在此基础上与全局Transformer进行信息交互整合从而实现了对局部与全局信息的有效融合过程构建出更加完善的特征表示体系。最后通过层次空间关联回归器(HSCR)这一创新模块进一步优化了对帧内估计结果的空间关联关系同时结合了解耦化的全局-局部表示方法以及隐式运动学约束条件实现了对细节估计结果的有效提升。
1.3 创新点
全局到局部Transformer (GLoT) 模型架构:GLoT模型巧妙地将长短期时间相关性分离,在全局层面上构建了强大的运动建模能力,在局部层面上则精准捕获细节信息。通过交叉注意力机制的协同作用,在保持帧间平滑性的前提下实现对帧内细节精度的有效平衡。
MaskedPoseAndShapeEstimation(MPSE)策略:该方法在全局Transformer架构中进行了创新性设计,在其核心模块中融入了改进型MaskedPoseAndShapeEstimation策略。具体而言,在时间序列数据处理过程中, 通过随机遮蔽部分帧特征的操作迫使模型能够更有效地学习帧之间的内在关联性, 并在此基础上实现了对人类姿态与形态信息的一致性提取能力的有效提升. 该方法促使全局Transformer能够从更长的时间跨度内提取出一致且连贯的人体运动信息, 并显著提升了全局位置估计的准确性和运动连续性的表现.
hierarchical space regression model (HSCR) : The GLoT framework incorporates a hierarchical space regression model to model human motion constraints, thereby significantly improving the precision of local details. This model not only leverages the results from the global Transformer but also integrates detail information generated by local Transformers to systematically adjust the joints and poses of the human body, ensuring that each frame's human mesh is rendered with high precision.
降低模型规模**:相较于现有的方法而言,在维持或提升性能水平的前提下,本研究提出的方法显著降低了模型参数量。特别是在3DPW等数据集上,在多个关键指标方面超越了当前最先进的技术。
2 介绍
从单目视频中自动恢复人体网格序列的技术已逐步延伸至多个领域,在增强现实、虚拟现实、机器人技术以及计算机图形学等领域均有广泛应用。同时减少了对运动捕捉设备和人工3D标注的需求,并为后续的应用如3D面部动画提供了丰富的参考数据。
2.1 挑战
1. 提升人体模型精确性
现有的技术主要依赖于基于SMPL等参数化的人体表示模型。尽管现有的方法能够通过深度神经网络来进行相关参数的估计。然而,在整合深度神经网络与基于多知识表示的方法方面仍面临诸多挑战。
- 深度神经网络 能够有效地从人体姿态与形状中提取大量视觉特征。
- 基于人工定义的模型结构 的参数化模型(如SMPL)通过可调节的参数来控制人体形态与姿态的变化。这些模型不仅能够清晰地定义关节与形态学特征,并且需要经过精确配置才能生成逼真的3D人体网格。
2. 时间序列依赖性
在视频中进行3D人体网格恢复时所面临的主要技术难点在于如何高效地管理时间相关性。这种技术难点具体表现为模型必须同时捕捉到短时间与长时间的时间关联信息(Temporal correlations),而这也就意味着该技术不仅要保证帧内预测的准确性还要能够实现帧间预测结果的有效过渡与衔接。目前广泛采用的主流解决方案主要包括VIBE、TCMR以及MPS-Net等深度学习方法它们主要致力于通过统一建模框架来处理长短时信息关联但这种基于深度网络的方法仍存在一定的局限与改进空间
VIBE (2020) :VIBE基于递归神经网络架构进行了开发,并且该模型利用隐藏状态单元有效地捕获了人体动作的局部动态特征。同时能够持续关注动作的时间依赖关系。
- 局限性:尽管RNN在短期时间依赖处理上表现出较好的能力,在长期全局依赖方面则存在明显的不足。基于RNN的方法往往会导致全局位置偏移的问题,在视频中人的位置可能会出现偏差或不稳定性。
TCMR (2021) :基于RNN架构设计了一个时序编码器来识别时间序列中的时间依赖性,并运用了注意力机制来融合不同时间段的帧特征。
- 局限性 :尽管这一方法能够提升帧间的平滑性效果,但RNN模型本身依仗局部时间信息而未考虑视频中的全局位置信息,因而导致整体一致性不足。
MPS-Net (2022):基于注意力机制的时序编码器和多步注意力聚合机制被用来捕捉或描述视频中的长期时间依赖关系。该方法在处理长时间序列数据时表现出色,并成功地从人体网格中提取出完整的运动信息。
- 局限性 :MPS-Net在长时间依赖处理方面表现出色。然而,在细节捕捉能力上存在缺陷。具体而言,在每帧内部对人体的姿态与形态估计不够精准的情况下(即每一次图像处理中),生成的人体网格与视频中的实际人体存在差异
该类模型通过整合长短时序列关系来构建网络结构,在处理序列数据时往往面临两难的选择:若过分关注长期依存,则可能忽视关键细节信息;反之若过分强调局部特性,则可能导致对整体序列位置信息准确性未能充分考虑而导致性能受限
2.2 解决
为了解决在视频3D人体网格恢复任务中需要同时维持帧内精度和帧间平滑性的挑战,GLoT提出了一种分离短期和长期时间建模的方法。GLoT主要由两个部分构成:首先通过局部优化算法实现对局部区域的精确重建;其次通过全局优化算法完成整体的人体形态重建过程。
全局运动建模(Global Motion Modeling GMM)
局部参数校正(Local Parameter Correction LPC) :该方法主要依靠两种关键网络结构协同工作:一种是基于位置的本地修正网络(Local Transformer),另一种是基于层次空间关联回归器(Hierarchical Spatial Correlation Regressor, HSCR)。具体而言,在本地Transformer部分中,系统负责处理中间帧及其邻近帧的信息,并将中间帧作为查询对象,在全局Transformer编码器所存储的记忆库中寻找匹配项以生成解耦后的全局-本地表示;而HSCR则通过人体运动学结构模型对本地网格进行精细的几何矫正操作,在此过程中能够有效保证本地网格体素的形状特性和姿态准确性。
基于全局与局部协同建模的机制下,在这一策略的支持下

通过全局与局部的协同建模,GLoT模型的优势可以汇总如下:
帧内精度与帧间平滑性 :GLoT通过提升人体网格结构的精确度(frame-wise precision)以及明显增强了(significantly enhanced)运动连续性(spatiotemporal smoothness)。该方法已在包括3DPW、MPI-INF-3DHP和Human3.6M等典型数据集的研究中得到了证实。
模型效能
模型参数规模缩减 :GLoT相对于其他模型显著地减少了其参数数量的同时,在性能上依然保持高效水平;因此,在资源受限的情况下运用该模型更为适宜。如图2所示:

2.3 贡献
解耦建模的首次探索 :GLoT率先在视频场景中完成了3D人体姿态与形状估计任务中的短期与长期时间相关性解耦建模,在处理这类复杂任务时实现了显著的技术突破。
全局与局部之间的协同作用 :基于全局运动建模 与局部参数校正 的融合框架,在模型中分别关注帧间的时间依赖关系以及帧内空间细节特征提取过程,在实验结果表明该方法能够实现预测精度的有效提升。
性能提升与参数优化研究:基于一系列广泛使用的数据集进行测试分析后发现,在保证模型准确性的前提下,GLoT显著提升了计算效率。该系统通过精简模型架构减少了计算开销,并实现了在保持较高准确率的同时显著降低了计算资源消耗。
3 相关工作
3.1 基于图像的人体姿态估计
1. 基于SMPL回归的方法 :
Kanazawa et al. (2018) 开发了一个命名为Human Mesh Recovery (HMR) 的端到端学习框架,并将其主要目标定位于利用SMPL模型预测人体的形状参数和三维关节姿态。该框架采用对抗训练策略,并显著提升了模型在预测精度上的表现。
其他方法通常采用先验知识与卷积神经网络(CNN)融合的方式来实现对SMPL参数的估计。这些先验知识主要包括:2D关节热图用于描绘骨骼的位置;人体轮廓用于识别身体边界;语义分割帮助识别身体各部位的具体分割结果;多尺度上下文提供不同粒度的空间信息;以及人体运动学知识用于理解动作轨迹和姿态变化特征。
Li et al. (2021) 通过引入3D姿态估计分支来使用逆运动学。
Kolotouros et al. (2019) proposed a unified framework to integrate optimization-based approaches and regression-based techniques into a common platform.
2. 直接回归人体网格的方法 :
另一种方法无需使用参数化的SMPL模型而直接进行人体网格的回归。这类方法通常能够在图像中获得良好的效果,在处理视频序列时可能会影响人体运动的稳定性
3.2 基于视频的人体姿态估计
基于视频的人体姿态和形状估计主要采用基于SMPL的回归方法。
SMPL模型 :SMPL(Skinned Multi-Person Linear model) 作为一种广泛应用于人体姿态与形态估计的重要方法...该方法通过线性变换被用于描述人体的姿态与形态...然而...需要注意的是...例如,在处理复杂动作或非标准姿势时可能会遇到一定的局限性
HMMR 是一种基于视频数据提取人体动态表示的方法。该方法旨在通过分析视频数据来揭示人类运动的基本规律,并能够预测未来帧序列。然而,在准确性与实时性之间可能存在权衡。
运动先验 通过引入大规模动作捕捉数据集建立的运动先验体系能够有效促进模型对人体复杂动作的理解与模拟。然而这种方法虽然能够有效支持基于现有数据构建的动作捕捉系统但其表现可能会受到训练数据覆盖范围的限制无法充分应对新出现的动作类型。
时间一致性问题:在视频序列中维持一致的时间刻度是一项难题,因为人体的运动呈现出复杂性,并可能伴随剧烈或非周期性的变化。研究者们提出了MEVA、TCMR和MPS-Net等多种方法来改善这一问题的效果,在这些方案中均存在一定程度上的局限性:例如整体位置偏差以及不同程度的运动不一致现象。
MEVA :基于变分自编码器(VAE)的运动编码器(MEVA)通过一种创新的方法实现了人体网格序列的高效生成与优化。具体而言,在该框架中,系统首先基于预定义的时间步长捕获并存储了人体动作的关键特征信息,并在此基础上构建了初步的人体网格模型;随后利用残差连接对初步模型进行精细优化以提升其细节刻画能力;最后通过对优化后的模型施加时空约束条件实现了对原始动作信号的最佳重构。该方法能够在保证重建精度的前提下显著降低计算开销,并且在实际应用中展现出良好的泛化能力
TCMR:TCMR(Temporal Convolutional Mesh Regression)通过GRU单元对长短不一的视频输入进行编码,并同时融合中帧及其前后帧信息。该方法有助于提升时间编码效率的同时,在处理长视频序列时可能面临一定的挑战。
MPS-Net : MPS-Net(Multi-Person Shape and Pose Estimation Network)基于非局部运动连续性注意力机制以及多级注意力特征整合模块来提升时间一致性与估计精度。该方法在适用于处理多个人体场景及复杂动作的情境下可能表现出色;然而,在应用中可能会伴随更为复杂的网络架构以及较大的训练数据量需求。
4 方法
本文提出了一项全新的名称为Global-to-Local Transformer (GLoT) 的创新性研究。该创新研究主要包含两个核心模块:即全局运动建模 (GMM) 和局部参数校正 (LPC) 分析系统。该研究旨在通过整合上述两部分技术来解决视频数据中的复杂3D人体姿态与形态识别问题。
总体过程如下:
1. 输入:一个包含T帧的RGB视频 ,表示为

。
模型主要依靠经过预先训练的ResNet-50 来获取静态特征。该网络模块利用每一帧来生成多维度表征。

,其中

表示每一帧的2048维特征向量被用来提取图像信息。(在该过程中, ResNet-50已经被预先训练好了,模型不会对这一网络进行额外的训练,提取出的静态特征会被保存到磁盘上)
静态特征随后会被传递至GMM模块中进行处理。该系统负责管理视频中的整体的时间关联性,并识别或分析人体运动的长期模式。
4. 其他部分特征被传输至LPC模块中。该系统专注于人体网格的局部细节调整,使得每帧人体姿态及形态均能精确吻合。

4.1 GMM(Global Motion Modeling)

4.1.1 全局Transformer
全局Transformer由自注意力机制构成(self-attention),具备捕捉长时间全局依赖性的能力。该模型特别适合应用于建模人体运动过程中的长时间依赖关系,并能有效维持时间一致性(temporal consistency)。
4.1.2 Masked Pose and Shape Estimation (MPSE)
该策略故意随机遮蔽部分静态特征(static tokens),随后仅用于估计这些遮蔽帧段的人体SMPL参数。这一策略有助于提升全局Transformer识别人身体动相关性的能力。非遮蔽特征求估遮蔽帧段的人体SMPL参数,在此过程中模型通过学习各关键帧之间的关联关系从而增强了对整体一致性以及人体动作理解的能力。
4.1.3 Human Prior Padding 人体先验填充策略
目标是在全局Transformer中减少计算成本。
因为部分特征被屏蔽了,在解码阶段需要用特定的方法来填充这些未编码的token.
2. 填充策略: 作者建议采用**SMPL均值模板(SMPL mean template)**作为填充token的手段。该均值模板代表着SMPL参数分布的平均状态,在与随机采样的人体姿态进行对比时展现出了最小的差距。
3. 原因: 基于残差连接堆叠结构设计的Transformers架构使得模型在处理复杂序列数据时表现出色。那么当输入初始化状态与输出预测结果之间的差异较小时,在这种情况下模型的学习过程将更加顺利且稳定。通过采用SMPL均值作为初始输入能够有效降低训练过程中累积的误差量。
4. 实现过程: 为了将SMPL均值模板转换为适合输入的形式,模型采用了多层感知机(MLP)来进行维度变换操作。变换后生成的模板被命名为 SMPL token,并用于填补被屏蔽区域中的数据点。考虑到预处理阶段已经提取出每一帧人体的关键特征信息并将其编码为2048维向量,在后续处理中我们采用了MLP作为维度转换工具,并通过其将低维的SMPL平均模板映射至更高维的空间区域。这种设计不仅有助于提升后续模型与全局Transformer模块之间的交互效率,并且能够让SMPL token能够直接作为初始化输入供Transformer模块使用,在一定程度上促进了模型从接近最终目标状态向精确解靠拢的能力。
然后将SMPL的平均模板作为MLP的输入。该模板由人体模型参数构成,例如关节位置和骨骼长度等基本参数。
隐含层:多隐含层构成MLP架构,在每一层次中都部署非线性激活函数(例如ReLU),以此提升模型的整体表现能力。各隐含层能够建模SMPL参数与复杂体征之间的映射关系。
MLP生成的结果是一个经过重新组织的形式,在此形式中包含了从SMPL模板中提取的关键特征,并通过优化使其维度适合于Transformr模型进行处理。
此向量则作为Transformr模型所需的输入数据,
其维度经过优化以适应Transformr处理需求。
集成到模型 :其输出被视为SMPL标记并整合进全局Transformer架构中。在解码环节中,这一标记用于填充受掩蔽位置,并从而协助模型推断人体姿态与外貌特征。
全局角度: 在全局运动建模过程中,通过MLP生成的SMPL令牌作为初始输入使用。这种方式使模型能够从一个与最终目标较为接近的状态出发进行学习,在一定程度上减少了初始状态与目标之间的差距,并提升了整体的学习效率。在解码阶段中,则利用MLP生成的SMPL令牌来填充掩码对应的位置,在这一过程中帮助Transformer模型更好地理解和预测人体的姿态与形状信息。
SMPL平均模板 是指在SMPL模型中,所有可能的人体姿态和形状的平均状态。这个模板是通过分析大量的人体扫描数据,计算出各种参数的平均值而得到的。
在进行人体姿态和形状估计时,SMPL平均模板可以作为初始估计,帮助算法从一个合理的起点开始搜索最优解,从而减少模型在搜索最优姿态和形状时的计算量,因为平均模板已经接近于许多常见姿态。
4.1.4 迭代回归器
迭代回归器遵循HMR所提出的模型,在优化人体姿态和形状方面采用了逐次逼近残差的方法。每次迭代均从SMPL均值参数出发,并且随后逐步调整相关参数,从而实现了预测结果的高度准确。尽管该方法通常会忽视人体运动学结构等细节信息,在全局-局部框架中作为初始全局估计使用时非常合适。通过这样的初始估计可以为后续的局部参数校正奠定坚实的基础
原理
迭代回归器是一种旨在逐步优化预测结果的方法,在实际应用中通常会基于一些预设条件展开运算。它从一组初始参数出发(如SMPL的平均参数),通过逐次修正模型的相关参数来不断降低每一步预测与真实值之间的误差水平,并最终完成这一多步骤系统的整体构建与完善
迭代回归器基于SMPL均值参数 进行初始化。其中,SMPL均值则代表一个人体姿态与形态的平均水平。该种均值可作为初始状态使用,并有助于模型在预测初期阶段避免预测结果出现偏差过大的问题。
stepwise regression是指一种逐步优化模型训练的方法,在每次迭代阶段中根据上一步骤的结果计算出新的残差R_i = y_i - \hat{y}_i并通过这些残差来更新SMPL参数以实现更为精确的模型拟合。这一过程持续进行直至参数达到更为精确的估计。
4.1.5 GMM完整流程
特征屏蔽采用的方式包括:在具体实施时,在模型训练过程中通过随机机制移除部分帧的特征表示(即(简称为‘静态token’)),以防止过拟合和提升模型泛化能力。例如,在实际应用中通常会设定具体的屏蔽比例参数进行调节和优化

,剩下未屏蔽的特征构成

。
**

**:指代输入序列的静态特征(static features)的一个子集,在这一情境中它代表未被遮蔽的部分特征序列。
**

**:这个表达式描述了矩阵的形状:
**

**:指未被屏蔽的帧数。其中,

是屏蔽比例(mask ratio),

是总帧数。

代表了屏蔽的比例,比如说,如果屏蔽比例是0.2(即 20% 的帧被屏蔽),那么

表示剩下的 80% 的帧。
如果

是视频的总帧数,那么

表示剩下的未屏蔽帧数。
2048 被定义为每一张图像帧对应的静态特征向量维度,在本研究工作中基于预训练深度神经网络模型提取这些静态特征,在该模型架构中ResNet-50网络输出的空间维度大小为2048
全局编码器 :将未屏蔽的特征输入到全局Transformer的编码器部分。
解码阶段 :在编码过程中,在解码阶段中,在编码过程中,在编码过程中,在编码过程中,在编码过程中,在编码过程中的某个步骤中,在某个关键步骤中,在某个核心步骤中,在某个主要步骤中,在某个主要环节中,在某个主要环节中,在某个关键环节中,在某个关键环节中,在某个核心环节中
递归回归 :当长时间依赖的表示被生成后,在该过程中该模型将引入递归回归模块以实现对SMPL参数的系统性优化。具体来说,在SMPL参数建模阶段

,其中:

(姿态控制参数)决定了关节的位置变化:这些参数详细描述了人体24个关节的位置变化,并通常采用6维或9维的形式来表示;

这些参数用于调节人体的形态变化;这些参数通常由10至20个主成分分析(PCA)维度组成。

(模拟摄像头参数)是模拟摄像头参数的一种属性,在计算机视觉中用于将三维空间中的坐标映射到二维平面上。该属性有助于利用大量二维数据进行弱监督学习,在模型训练过程中, 可以通过二维标注数据提供监督信号来优化模型。
其中,

,

,

4.2 LPC(Local Parameter Correction)
此步骤主要包含两个组件:局部转换器(Local Transformer)和分层空间相关性回归器(Hierarchical Spatial Correlation Regressor, 简称 HSCR)。

4.2.1 局部变压器
局部变换器旨在捕获视频各帧间的短期细节特征,在人体动作序列中体现显著性差异。
Local Transformer主要由以下几个步骤构成:
初始化权重矩阵用于建立模型的基础参数;
构建位置编码层则用于表示序列中的位置信息;
最后通过多头自注意力机制对输入进行深度处理以生成最终特征。
邻近帧选择 (Nearby Frame Selection) :模型通过从整个视频序列中提取中间帧周围的若干帧来形成一个局部时域窗口,并将其命名为 **

**。这些邻近帧包含了与中间帧相关的短期运动信息。
局部编码器 (Local Encoder) :选定的邻近帧 **

作为一个重要的输入模块,在接收这些与时间相关的简短依赖关系后(或:在经过处理后),该系统会生成能够精确描述人体姿态和形状细节的局部特征表示(或:通过分析这些信息))。这些生成出来的特征不仅包含了关于局部运动的信息(或:涵盖了关于动态变化的内容),同时还会保留住人体网格中的详细细节特征(或:确保了形态学上的丰富性),从而为后续解码过程提供了关键的数据支撑(或:构成了不可或缺的基础材料)。

,

为附近帧的长度
局部解码器 (Local Decoder) :
解码器的核心功能在于整合来自本地编码器的信息以及整体架构输出的数据。为了完成这一目标,解码器采用了交叉注意力模块,在此过程中实现了本地信息与整体数据间的相互作用。
交叉注意力机制可以形式化地表示为:

其中,**

属于局部解码器的查询向量,在编码过程中通过机制与全局编码器相互作用于键和值矩阵组中进行数据传输

和

**进行对齐。
基于交叉注意力机制的设计下,在捕捉局部细节方面表现优异的同时(即),系统还能充分利用全局信息以显著提高姿态与形状估计的整体精度。
生成全局-局部解耦表示 (Decoupled Global-Local Representation) :
解码器输出的结果是一个整合了全局和局部信息的表示 **

**。该表示能够同时保留长时间跨度的运动一致性和细致的局部几何特征。
4.2.2 分层空间相关回归器 HSCR
在过去的文献中普遍采用了HMR模型作为回归工具来推导SMPL参数,在这种情况下这一方法忽视了人体特有的骨骼关节内在联系即其运动学拓扑关系尽管在采用迭代优化策略时仍能获得较为精确的SMPL参数估计结果相比之下但这并不足以保证最终构建出符合人体运动合理性且视觉表现真实的三维人体模型因此需要额外引入局部细节信息以弥补这一不足
在论文中,基于文献[39]的研究基础之上,作者成功构建了一个分层空间相关回归器(Hierarchical Spatial Correlation Regressor, HSCR)。该方法的核心理念在于通过分析人体运动学结构来提升三维人体姿态估计的精度。然而,在人体姿态估计领域中发现,在分析关节的位置与姿态时不仅要考虑局部信息的影响还必须深入探究整体身体运动学结构之间的高度关联性。基于此,在实际操作中我们不可能仅依赖单一局部视角来进行关节的姿态参数预测而是需要从全局视角出发进行深入研究以实现对关节姿态的有效捕捉。

模型可能会陷入局部最优解的情况,并且这是由于它未能从整体上理解身体构造
通过优化策略将起始阶段的全局预测与解耦后的全局-局部表征相结合输入回归器, 该方法保证了模型在精细调整局部特征时不会遗忘整体结构信息, 从而实现了从全局视角到局部细节的系统性姿态估计优化
除此之外
Hierarchical Spatial Correlation Regressor (HSCR) 在局部参数修正模块中扮演着另一个重要角色,并通过借鉴人体运动学知识来进一步优化由全局和局部模型所生成的初步估计值。
其具体设计如下:

人体运动学结构 (Human Kinematic Structure) :
HSCR可被视为一种基于骨骼层次的空间限制机制。每个骨骼单元的姿态和位置不仅由自身的运动参数决定,并且还受到其祖先骨骼单元的空间限制的影响。例如,在估算手部某部位(如腕骨末端)的位置时,则需依次考虑上层骨骼单元(如肩骨和肘骨)的作用。
如上图所示,在该图表中清晰地描绘出了人体骨骼结构的过程及其各个部位间的层级关系。每一个具体的部位(例如脚踝部分对应编号为10),不仅会受到自身参数的影响,在建模过程中也会考虑到其上游祖先节点的作用(ancestral joints)。具体而言,在本图表中编号为10的部分所涉及的所有祖节点包括骨盆区域(ID 0)、腰椎区域(ID 1)、膝部区域(ID 4)以及小腿区域(ID 7)。
分层回归 (Hierarchical Regression) :
对于每一个关节,HSCR 会逐步回归关节的旋转参数 **

,并将这些参数与全局估计

和局部修正

**相结合。
每个关节的位置和旋转初始来自于全局估计 ,记作 **

**。这部分通过先前的Global Motion Modeling(全局运动建模)部分生成。
HSCR从人体运动学的层次结构出发,认为当前关节的姿态不仅依赖于它自己的信息,还受到其祖先关节 的约束。在回归第10号关节的位置时,首先需要计算和汇总它的祖先关节(0, 1, 4, 7)的信息。具体来说,HSCR将这些祖先关节的姿态参数(**

,

,

和

)进行拼接(Concat),生成一个综合的祖先关节特征表示

:** *

其中:

该向量用于表示当前关节及其祖先关节信息的组合方式,并由连接所有祖先关节的旋转参数(包括关节编号为0、1、4和7的部分)构建而成。

表示这些祖先关节的数量
**

**是最终修正后的关节旋转参数。
之后利用全局-局部解耦表示 **

(包含全局和局部信息),以及祖先关节的表示

**,

表示GMM全局阶段得到的第

个关节的全局估计结果,HSCR生成当前关节的局部修正值 **

**。这一过程通过一个多层感知器(MLP)来完成:

该神经网络模型中的多层感知机(MLP)架构主要承担处理全身与局部区域的信息动态关系,并通过整合分析上下级关节点之间的层级结构数据关系来计算并确定针对当前关节点的具体修正量 **

该修正值融合了对整体评估的细化与优化过程,在确保关节姿态时充分考虑了具体情况。
全局-局部联合修正 (Global-Local Joint Correction) :
最后,HSCR 将全局初始估计 **

和局部修正结果

进行联合,生成最终的姿态和形状参数

,并进一步修正人体网格的形状参数

和相机参数

**:
HSCR将全局估计 **

和局部修正值** **

进行相加,得到修正后的姿态参数** **

**:

除了姿态参数 θ ,HSCR 还对形状参数 β 和相机参数 ϕ 进行修正:
形状参数 β 控制着人体网格的整体形状,比如高矮胖瘦等;
相机参数设置 ϕ 用以实现3D坐标向2D空间的映射过程,在成像过程中能够呈现出现实世界物体的真实视觉效果。

基于这些调整,HSCR 能够实现更高精度和更自然的效果,特别是在考虑到人体各关节的运动学特性时。
4.2.3 损失函数
1. L2损失函数(L2 Loss)
定义:
L2损失函数旨在最小化预测值与真实值之间的差异程度,在处理3D或2D关节定位问题时表现突出。它常被用作回归问题中的损失函数,并以其简单的计算方式而闻名。它的形式如下:

其中,**

是模型的预测值,

** 是真实值,

是样本的数量。
作用:
L2损失可以度量预测关节的位置与真实关节位置之间的距离,并通过优化在3D/2D关节预测任务中尽可能准确地还原出真实的姿态数据。
它的平方误差形式会赋予较大误差以更高的惩罚权重,在优化过程中引导模型更加重视显著的预测偏差。
模型应用场景:
GMM(Global Motion Modeling)阶段 :在全局建模中,L2损失用于优化SMPL参数 **

对应3D与2D关节的位置,在模型中利用L2损失能够推导出较长时间依赖下的全局姿态与形状估计。
在该阶段中,L2损失同样也被用来进行局部参数校正;然而,在此过程中,它仅用于中间帧预测的优化工作,并最终使得姿态估计的整体精度得到了显著提升。
2. 速度损失(Velocity Loss)
定义:
速度损失函数基于对帧间关节位置变化(亦即关节的运动速度)进行限制的方式,旨在确保动作的一致性和连贯性。其定义如下:


其中,**

** 和 **

是预测的关节位置,

** 和 **

** 是真实关节位置。
作用:
运动预测中的速度损失被约束模型所处理,在确保预测出的帧间运动变化与实际发生的运动变化保持同步的基础上,从而保证人体姿态在时间轴上呈现出流畅且一致的变化趋势。
该种损失有助于提升模型对身体长时间依赖性的捕捉能力,并防止其出现不自然的身体姿态转换。
模型应用场景:
基于高斯混合模型(GMM)的阶段:通过引入速度损失项来辅助模型优化全局时间序列的一致性,在视频流中实现人体姿态的平滑切换。
遮蔽位置:这种损失仅在可被覆盖的位置进行计算,并有助于模型更有效地处理数据缺失的问题。
3. 掩蔽位置损失(Masked Location Loss)
定义:
遮蔽位置上的位置损失被视为一种独特的损失机制。该模型仅在其被遮蔽的位置处进行误差计算。用于标识这些被遮挡位置的向量

**控制,

向量中的元素在被掩蔽的帧上为1,否则为0。其形式为:

作用:
**

是第 t 帧的预测关节位置(2D或3D),

**是第 t 帧的真实关节位置(2D或3D)
**

**是掩蔽向量

中的一个元素,**

表示该帧被掩蔽,

表示该帧未被掩蔽。只有当

**时,该帧会参与损失的计算
**

**表示该帧的L2损失(预测值与真实值的平方误差)
位置缺失损失的主要目的是使模型经过训练后能够掌握在数据缺失情况下生成准确预测的主要能力。
这种技术有助于提高其抗干扰能力和鲁棒性。
通过系统性地对随机遮蔽位置进行训练,模型被逼迫去学习全局与局部的时间依赖关系,并最终使得模型能够更好地弥补部分帧的数据缺失问题。
应用场景:
Masked Pose and Shape Estimation策略 :在全局建模框架中,引入位置损失函数旨在促进模型实现姿态估计与形态重建间的关联关系建立。采用随机遮盖技术,在不显著影响整体性能的前提下,提升模型对长时依存关系的捕捉能力。
5 实现细节
总述:
输入规模 T 设定为 16 时间片段,批量大小 N 设置为 64,并将学习率设置为 10^{-4}。采用 Adam 优化器 配合 Cosine Annealing 调度器 和 Linear Warm-up 技术 协同工作以实现模型训练。
模型在 Nvidia Tesla V100 GPU 上进行训练,以确保高效的计算性能。
采用最近邻填充技术解决序列边界处的帧预测难题,以保证输入数据的一致性和连贯性。
1. 输入序列长度 T = 16
该系统设定其输入序列长度为 16 帧数, 表明其每次处理时所涵盖的是一个包含 16 个连续帧的视频片段.
这一选择借鉴了前人的方法(如TCMR [4]),为了在模型计算复杂度和时序依赖性之间取得平衡,采用固定长度的输入序列实现了两者的协调。
2. Mini-batch 大小 N = 64
Minibatch training technique in deep learning that processes data in batches to reduce memory usage.
在此模型中,mini-batch 大小设置为64,即每次训练模型时处理64个样本。
3. 学习率(Learning Rate)设置为 1e-4
学习率 被视为深度学习中的核心参数,在每次更新过程中决定了模型移动步幅的大小。适当降低学习率有助于模型逐步优化并避免剧烈震荡。
学习率被设置为 1 \times 1e^{-4}(即 1 \times 1e^{-4}),通常建议采用该值以确保模型训练的稳定性。
4. 优化器:Adam with Cosine Annealing Scheduler and Linear Warm-up
模型采用了 Adam 优化器。这是一个被广泛应用的优化算法,并且能够基于一阶和二阶梯度信息动态调节学习率以实现高效的训练过程。
余弦退火(Cosine Annealing) 是一种优化算法中的关键参数调节机制,在深度神经网络的学习过程中发挥着重要作用。具体而言,在训练初期阶段设置较高的初始学习速率(learning rate),随后通过动态规划的方式逐步降低优化器的学习速率,并遵循余弦曲线衰减的趋势模式进行调整。这种动态策略不仅能够有效缓解梯度消失问题,在模型优化后期阶段表现出较强的整体收敛性
Linear Warm-up 则是在初始阶段渐增学习率以防止模型在初期出现不稳定现象
5. 硬件环境
该模型基于一块Nvidia Tesla V100 GPU进行训练。这是一块高性能GPUs,在深度学习领域表现出卓越性能,并具备强大的并行计算能力以及充足的显存资源。
6. 边界问题与最近邻填充(Nearest Padding)
考虑到该模型对输入序列进行分析和识别的过程,在其输出结果中主要关注的是一系列连续的画面中的关键帧位置。在特定条件下(如输入序列较短),模型对这些关键帧位置的识别可能会出现偏差或超出预期范围。
为了解决这一问题,在边界区域出现数据不足的情况下
6 实验
6.1 评估指标 (Evaluation Metrics)
GLoT 模型采用以下评估指标:
MPJPE (Mean Per Joint Position Error) 是一种用于衡量3D人体姿态估计系统中各个关节位置坐标的均值误差的方法,并据此评估该系统在该领域中的准确性和可靠性。
PA-MPJPE (Procrustes-aligned MPJPE) :通过 Procrustes 分析将姿态对齐后,在各关节点位均方根误差(RMS)基础上消除因姿态变换带来的旋转、缩放和平移偏差。
MPVPE (Mean Per Vertex Position Error) :每一个顶点位置的平均误差用于准确地评估人体网格重建的质量。
Accel (加速度误差) :用于评估帧间过渡的平滑程度,并衡量模型在时间序列中保持运动连贯性的能力。
6.2 数据集 (Datasets)
模型训练使用的主要数据集包括:
3DPW :真实场景中的 3D 人体姿态估计数据集。
Human3.6M :大规模 3D 人体动作捕捉数据集。
MPI-INF-3DHP :基于图像的 3D 人体姿态估计数据集。
InstaVariety :用于扩展模型的训练多样性。
6.3 与最先进方法的比较 (Comparison with State-of-the-art Methods)
GLot 模型在多个数据集上不仅超越了现有最先进的方法(如 MPS-Net、VIBE 和 TCMR),而且在各项评估指标中均表现优异。
在 3DPW 数据集 中进行实验对比分析后发现,在 PA-MPJPE、MPJPE、MPVPE 和 Accel 四个评估指标上 GLoT 模型均展现出显著的性能优势。具体而言,在 PA-MPJPE 指标上优于 MPS-Net 1.5 mm,在 MPJPE 指标上提升明显达到 3.6 mm,在 MPVPE 指标上则实现了 3.4 mm 的性能优化,并且在加速度指标 Accel 上超越基准模型达到了 0.8 mm/s² 的水平。这些实验结果充分验证了 GLoT 模型在捕捉长时依赖关系和精细局部细节方面的卓越性能优势。
这部分还深入剖析了现有方法存在的问题。具体而言,在采用了单一建模架构的情况下,VIBE、TCMR 和 MPS-Net 三个模型均难以实现长期依赖与短期细节之间的平衡处理。这种局限性主要归因于全局定位偏差以及细节丢失的问题。
6.4 消融实验 (Ablation Studies)
GMM 和 LPC :通过消融实验分析,在 GLoT 中将 Global Motion Modeling (GMM) 分支单独运行时表现出与 MPS-Net 相当的性能水平;而引入 Local Parameter Correction (LPC) 分支后,则在帧内连续性和帧间准确性方面均实现了明显改善。
MaskedPoseandShapeEstimation策略:本研究中采用某种方法从数据集中随机屏蔽静态特征进行建模训练,并通过系统实验验证了该方法的有效性。实验结果表明不同程度的遮蔽比例会对模型的性能产生明显影响,在实验中我们发现50%的比例在实验中取得了最优效果。
不同掩蔽标记类型 :采用SMPL标记的掩蔽策略达到最优效果(...), 由于SMPL标记包含了人体网格的先验信息, 有助于模型理解人体固有的结构.
Hierarchical Spatial Correlation Regressor (HSCR) :相较于残差连接而言,该方法显著降低了PA-MPJPE、MPJPE和MPVPE指标值,并验证了其在人体运动学约束方面的有效性。
不同附近的帧长度对模型性能的效果受显著影响。实验研究表明,在设定附近帧长度参数值为4时能够获得最优效果,并由此可推断局部 Transformer模块的输入序列数量大致相当于全局序列数量的一半。
6.5 定性评估 (Qualitative Evaluation)
基于视觉化的HSCR验证:通过可视化研究的结果表明,在整体估算中能够有效修正运动学偏差,并且证明了该方法的有效性。
基于可视化的研究:掩蔽姿态与形状估计策略:全局 Transformer 在应用掩蔽策略时会显著聚焦于邻近帧序列,并表明该策略有效地捕获了长时依赖关系。
与现有方法的对比分析:基于对比实验的结果表明
网络视频中的定性和定量分析结果:实验证明了 GLoT 模型在应对具有挑战性的网络视频时能够有效地捕获人类运动特征。
7 结论
GLoT模型采用了一种全局至局部的建模架构,在有效克服了长时依赖关系与细节刻画难点的基础上,在多项基准测试中实现了对现有最先进的技术方案的超越
1. 核心贡献
本研究提出了一种名为 Global-to-Local Modeling(简称 GLoT)的方法。该方法旨在解决基于视频的人体姿态与形状估计问题,并采用全局到局部建模策略进行求解。具体而言,在模型架构设计中我们采用了深度学习技术并结合了人类身体结构信息来实现以下目标:第一,在数据层面实现对长时依赖关系(long-range global dependency)的有效捕捉;第二,在表征层面实现对局部细节特征(local details)的高度提取与描述
全局位置(global location):保证长视频序列中人体姿态与位置的一致性和稳定性
运动一致性(motion consistency) :保证帧与帧之间的运动平滑和连续。
帧内人体网格(intra-frame human meshes):通过详细刻画局部人体姿态及其网格细节,在各帧中实现姿态与形状重建的精确提升。
全局与局部的协同建模 :GLoT方法基于一种全局-局部合作机制(global-local cooperative mechanism),通过巧妙整合长时依赖关系和精细结构特征(long-term dependencies and fine structural details),显著提升了3D人体姿态和形状估计的精度。
2. 数据集表现
GLoT在一系列经过广泛验证的数据集中表现得非常出色地实现了世界领先水平的性能(state-of-the-art performance):
3DPW :真实场景下的 3D 人体姿态数据集。
Human3.6M :大规模 3D 人体动作捕捉数据集。
MPI-INF-3DHP :基于图像的 3D 人体姿态估计数据集。
3. 潜在应用
在真实世界互联网视频处理领域的潜在价值:该模型在处理自然场景下的互联网视频时展现出显著的能力,在提升数据标注效率的同时为后续研究提供可靠的基础支持。其对3D人体网格标注以及后续动作序列模板生成任务的重要性体现在多个方面:姿态估计、行为分析、动作捕捉等技术均能从中获益,并通过构建高质量的数据集推动相关算法的发展。以下是一些具体的应用方向:姿态估计、行为分析、动作捕捉等技术均能从中获益,并通过构建高质量的数据集推动相关算法的发展。
3D 网格标注 :GLoT 可以帮助自动化标注 3D 人体网格,减少手工标注的工作量。
动作序列模板生成器:GLoT 为多个应用场景(包括虚拟现实技术的应用场景、动作分析领域的实际应用以及动画制作相关的案例)提供了多样化的三维人体动作序列库。
