Advertisement

论文了解-3D human pose estimation in video with temporal-conv

阅读量:

前言

该研究发表于2019年的CVPR会议中,并专注于视频场景下的人体姿态估计问题。其主要思路在于将二维人体的姿态特征与视频序列中的时间信息相结合,在此基础上实现三维空间的姿态重建。通过该方法获得的结果显示,在同类任务中具有显著优势

技术理解

首先释放了该网络架构。基于Res-Net的设计进行了构建。特别指出的是其坐标信息由一组二维姿态表示来描述。

在这里插入图片描述

这里我主要说一下该文中用到的重要方法,网络结构不进行讲述。

模型思想

如何3d到2d

1.时序信息

由于二维空间中的一个点可能对应三维空间中的多个位置,在这种情况下为了准确识别这些三维坐标的位置关系,在此过程中需要结合时间序列数据进行分析。在此设计中采用了特殊的深度卷积操作——空洞卷积。通过查阅相关领域的研究综述发现,在深度学习模型中这种操作具有较高的应用价值,在本节中我们配以两张示意图进行说明以更直观地解释这一技术原理。

普通卷积:

在这里插入图片描述

空洞卷积:

在这里插入图片描述

通过空洞卷积网络能够有效提取所需的历史帧与未来帧的信息。从而使得预测后的视频运动模糊度得以降低并提升视频的整体流畅度。如图所示

在这里插入图片描述

但在实践中仅限于历史帧数据。(当应用于真实场景时是基于预先训练的模型吗?动态调整模型参数是否可行?)

在这里插入图片描述

半监督
模型中用了半监督方法来加强监督学习。

输入中的数据分为带标签和未带标签两类。
未带标签的数据经过处理获得3D点云后将其反射为2D坐标并与原始2D坐标对比并计算损失值并将此损失值累加至总损失中用于整体评估。
而带标的信息则利用这些信息进行后续处理以完成目标任务。

在这里插入图片描述

骨架长度(Bone length L2 loss)
即各关键点之间的距离。
为了更好地确定空间位置,计算目标到摄像头的距离,并防止预测出的骨架出现弯曲或折叠的情况。这个长度的变化越小越好。计算转化前后骨架长度的损失并加入总损失中。

轨迹网络(Trajectory model)

若仅预测目标的位置,则预测出的目标始终位于图像中央位置。该网络用于定位三维空间中物体的位置。由于轨迹计算与3d回归具有相互影响关系,故而分别设置了两个分支网络,并将轨迹损失纳入总损失计算。我们对距离摄像头较远的点不予以关注,因为这些区域通常与人体姿态无关。此外,我们的预测方式似乎是基于髋关节的一个关键特征来推断整体姿态。

在这里插入图片描述

END
论文中探讨了难点问题:即判断二维姿态是否正确(这里的标注数据是否能够准确反映三维姿态?)。研究发现利用标签推断三维姿态相对容易(因为二维信息无法充分表达三维结构)。因此采用了一种新的方法:即直接利用网络推断出二维坐标点的位置(而不是依赖于标注数据来推断三维位置),从而提升了模型在泛化方面的性能。

技术

全部评论 (0)

还没有任何评论哟~