Advertisement

【VIBE: Video Inference for Human Body Pose and Shape Estimation】论文阅读

阅读量:

论文连接:https://arxiv.org/pdf/1912.05656.pdf

Video Inference for Human Body Pose and Shape Estimation

  • 摘要
  • 前言
  • 相关工作
  • 方法
在这里插入图片描述

图1展示了具有高度复杂性的野外视频片段。目前最先进的视频姿态估计技术31仍无法在这一领域取得令人满意的成果。针对这一挑战性问题,在本研究中我们采用了大规模运动捕捉数据集作为训练样本,并开发了一种基于对抗学习的方法来提升运动识别精度。通过这一创新性研究工作(命名为VIBE),我们成功实现了真实且精确的姿态与形态重建,在基准测试中显著超越了现有技术。

摘要

运动行为的理解基础在于人体的运动研究。尽管在单图像3D姿态与形状估计领域已取得一定进展[1](MAKE),但在生成精确且自然的人体动作序列方面仍显不足[2](MASTER)。为此我们提出了一种名为VIBE的人体姿态与形状估计视频推理系统[3](MAKE)。该系统的核心创新在于引入了一种创新性的人体动作捕捉机制[4](MAKE),能够有效区分真实的人体动作与由时间姿势与形状回归网络生成的动作模拟[5](MAKE)。具体而言我们构建了一个基于自注意力机制的时间序列网络架构[6](MAKE),并通过对抗训练的方式实现了在序列层面生成看似真实但实际为合成的动作序列这一目标[7](MAKE)。值得注意的是该方法完全避免了对野外真实三维标注数据依赖的问题[8](MAKE)。为了全面评估其性能我们进行了系统性的实验来评估不同条件下人体运动特性的表现并最终验证了该方法在复杂三维姿态估计数据集上的卓越性能达到了现有方法的最佳水平。

前言

在从单个图像估计3D人体姿态和形状方面已经取得了巨大的进步[11,22,26,30,36,37,39,47,50]。虽然这在许多应用中很有用,但正是身体在世界上的运动告诉我们人类的行为。2020年4月29日运动中的人体上的几个移动点光源告诉我们关于行为的信息。在这里,我们解决了如何利用时间信息从单目视频中更准确地估计身体的3D运动。虽然这个问题已经被研究了30多年,我们可能会问为什么可靠的方法仍然不容易获得。我们的观点是,由于训练数据不足,以前的人体运动时间模型没有捕捉到真实人体运动的复杂性和可变性。我们在这里用一种新的时间神经网络和训练方法来解决这个问题,并且表明它显著地改善了从单目视频中进行的3D人体姿态估计。现有的视频姿态和形状估计方法[31,56]通常不能产生精确的预测,如图1(上)所示。这背后的一个主要原因是缺乏野外地面真实的3D注释,即使对于单个图像来说,获得这些注释也不是小事。先前的工作[31,56]将室内3D数据集与具有2D地面真实或伪地面真实关键点注释的视频相结合。然而,这有几个限制:(1)室内3D数据集在对象数量、运动范围和图像复杂性方面受到限制;(2)标记有地面真实2D姿态的视频量仍然不足以训练深层网络;(3)伪地面真实2D标签对于三维人体运动建模是不可靠的。为了解决这个问题,我们从金泽等人[30]那里得到了启发,他们只使用2D关键点和不成对的静态3D人体形状和姿势数据集,使用对抗训练方法来训练单图像姿势估计器。对于视频序列,已经存在带有2D关键点注释的野外视频。接下来的问题是如何为对抗训练获得足够质量的逼真3D人体运动。为此,我们利用了大规模的3D运动捕捉数据集,称为MAGET[43],它足够丰富,可以学习人们如何运动的模型。我们的方法学会了从野外视频中估计3D身体形状姿势序列,这样鉴别器就不能区分估计的运动和MASTER数据集中的运动。如[30]中所述,我们还在可用时使用3D关键点。我们方法的输出是SMPL人体模型格式[42]的一系列姿态和形状参数,这与MAGRE和最近的文献一致。我们的方法了解人们如何在图像中出现的丰富性,并基于MASTER来产生有效的人类运动。具体来说,我们通过训练一个基于序列的生成对抗网络(GAN)来利用两个不成对的信息来源[19]。这里,给定一个人的视频,我们训练一个时间模型来预测每个帧的SMPL人体模型的参数,同时运动鉴别器试图区分真实序列和回归序列。通过这样做,鼓励回归者输出代表似是而非的动作的姿势,通过最小化对抗训练损失,而鉴别者充当弱监督。运动鉴别器隐含地学习使用真实运动捕捉(mocap)数据来解释运动中人体的静力学、物理学和运动学。我们称我们的方法为VIBE,它代表“人体姿态和形状估计的视频推理”在训练过程中,VIBE将野外图像作为输入,并使用卷积神经网络(CNN)预测SMPL人体模型参数,卷积神经网络用于单图像人体姿态和形状估计[37],然后使用时间编码器和人体参数回归器[30]。然后,运动鉴别器将预测的姿态与从聚敛数据集采样的姿态一起,并为每个序列输出一个真/假标签。我们使用门控循环单元实现时间编码器和运动鉴别器,以捕捉人类运动的顺序特性。运动鉴别器使用学习的注意力机制来放大独特帧的贡献。整个模型由对抗损失和回归损失监督,以最小化预测和地面真实关键点、姿态和形状参数之间的误差。在测试时,给定一个视频,我们使用预处理的CNN [37]和我们的时间模块来预测每个帧的姿态和形状参数。该方法适用于任意长度的视频序列。我们在多个数据集上进行了广泛的实验,并优于所有现有的方法;见图1(底部)的例子振动的输出。重要的是,我们表明,我们的视频为基础的方法总是优于单帧的方法在这一点上有很大的差距

相关工作

单个图像与视频中的3D人体姿态估计方法研究

在这里插入图片描述

此外,在微调过程中(微调训练中),Arnab等人[6]使用他们的SMPLify版本注释的互联网视频被证明有助于提升人体姿态估计的准确性(提高HMR性能)。金泽等人[31]通过预测过去和未来每一帧来学习人类运动学模型(运动建模框架),并表明这种基于2D关键点检测器的方法能够有效减少对野生3D姿势标签的需求(减少标注成本)。Sun等人[56]建议采用基于Transformer的时间模型[63]来进一步优化性能(提升系统性能)。他们提出了一种无监督的对抗性训练策略(自监督学习框架),其目标是学习如何对混洗帧进行排序(排序任务)。在序列建模方面引入生成对抗网络(GANs)已被证实是一种有效的方法(生成模型应用)。生成性对抗网络GANs [5, 19, 28, 40]对图像建模和合成领域产生了深远影响(重要技术进展)。最近的研究将GANs成功应用于递归架构中(递归网络应用),以模拟序列到序列的任务如机器翻译[57, 65, 66](机器翻译应用)。对于运动建模的研究表明:结合顺序结构与对抗性训练能够有效实现根据历史运动序列预测未来运动行为或生成完整的人体运动序列的目标(复杂任务目标);相比之下我们关注的是基于顺序输入数据条件下的精确姿势预测问题(具体研究方向)。为此我们开发了一种基于循环结构的设计:运动鉴别器利用敌对目标机制从3D mocap数据中提取潜在空间中的姿态与形状参数表示信息[43]。(详细的技术架构设计)

方法

VIBE的整体框架在图2中进行了详细阐述。对于一个输入视频序列(长度为1秒),我们从预训练的美国有线电视新闻网上提取每一帧的特征。接着我们训练了一个由双向门控循环单元(GRU)组成的时序编码器,并将其输出用于回归SMPL人体模型参数θ∈R72×β∈R10。其中θ由姿态参数θ(包含全局身体旋转和平移轴角格式的23个关节相对旋转)和形状参数β(前10个主成分分析形状空间系数)组成。SMPL是一个可微函数M(θ,β)∈R6890×3输出三维网格坐标信息。针对视频序列输入VIBE计算出估计姿态参数ˇθ=[(ˇθ1:T),ˇβ]以及单体型体形状ˇβ=Avg{ˇβ}(来自时间步长T的姿态参数矢量及该序列整体形状预测)。具体而言,在每帧中我们预测身体形状参数,并通过平均池层整合整个输入序列中的单一身体形状表示(β)。随后将来自时间生成器G的输出参数矢量ˇθ与真实样本矢量ˇθreal输入运动鉴别器DM进行比较以区分假数据与真实数据样本。

最后分享一个我复原的一图

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~