Advertisement

《Learning to Estimate 3D Hand Pose from Single RGB Images》 论文笔记

阅读量:

《Learning to Estimate 3D Hand Pose from Single RGB Images》ICCV_2017.3

  • 摘要
    • 主要流程
      • 困难
      • 手势表示方法
      • 基于深度学习的手势分割网络(HandSegNet)
      • 基于卷积神经网络的姿态估计网络(PoseNet)
      • 先验知识驱动的姿态预测网络(PosePrior网络)
      • 数据集
      • 完整系统实例

摘要

本文阐述了基于2D彩色图像实现3D手姿态估计的一种技术方案,在整体上该技术方案具有明显的易用性。

论文摘要主要讲了以下几点:

低成本部署的深度相机结合深度学习技术后,在对深度图像进行合理三维手势估计方面表现突出;
本研究提出了一种基于常规RGB图像的三维手部姿态估计方法。由于缺乏深度信息而导致的任务存在较高的模糊性特征;
为此,在这项研究中我们提出了一种创新性的解决方案:通过学习隐式的3D关节先验知识来提升估计精度;
此外,在这项研究中我们构建了一个基于合成手模型的大规模3D手势数据集用于训练相关网络,并在多个测试集上进行了实验验证。

主要流程

Figure 2: 该方法由三个构建块构成。第一步使用分割网络HandSegNet来定位手。基于手部掩模的操作下进行裁剪,并将其作为PoseNet的输入。从而定位一组表示为score map

困难

为了实现网络的训练目标, 必须具备高质量的真实标注三维关键点的大规模数据集. 由于现有此类数据集在多样性方面存在局限, 为此, 我们构建了一个整合多种数据增强技术的人工合成数据集合.

在这里插入图片描述

手姿势表示

基于单色彩色图像的输入数据上进行研究与开发旨在估计其三维姿态。为此我们采用了基于一组坐标系的方法来描述手部的姿态其中这些关键点的位置信息位于三维空间中

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

HandSegNet

对于手部分割任务的实现过程中,我们开发了一个网络架构。该架构遵循了Wei等人[19]提出的Person detector的设计思路,并在其基础上进行了优化和初始化工作。
我们的HandSegNet模型基于Weiet al.[19]提出的理论,在我们的手姿势数据集上构建了小规模模型。
HandSegNet所生成的手部掩模结果能够支持我们在输入图像中进行裁剪操作,并完成标准化处理工作,在此基础上简化了PoseNet的学习过程。

HandSegNet网络结构:

在这里插入图片描述

PoseNet

通过将二维关键点的定位表示为二维分数图的估计(即c = \{c_1(u, v), \dots, c_J(u, v)\}),我们可以有效建模各关键点的空间位置信息。
为了实现手部关键点检测的过程,
我们设计了一个神经网络架构,
该架构能够预测J个得分图,
其中每个得分图都包含了对应关键点在空间位置处出现的可能性信息。
随后,
基于Wei等人[19]的研究成果,
我们对模型参数进行了初始化设置,
并应用这些预设权重参数对模型进行微调训练,
最终实现了手部关键点检测的过程。

PoseNet网络结构:

在这里插入图片描述

PosePrior network

• PosePrior网络在可能不完整或有噪声的分数图的条件下学习预测相对的、标准化的三维坐标。
• 为此,它必须学习多种可能的手部关节及其先验概率。根据分数图的条件,它将输出给定2D信息时的最有可能的3D配置。
• 首先,在x轴和z轴周围寻找旋转Rxz,使得某个关键点与规范框架的y轴对齐:
• 然后,计算围绕y轴的旋转Ry
• 为了适当地处理左手和右手之间的对称性,我们沿着z轴向右翻动

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

基于此规范坐标系的定义,在研究过程中我们通过训练网络来估算规范坐标系内物体的三维位置,并分别计算出各个旋转矩阵R(wrel),其中我们采用三参数轴角表示法来进行参数化描述。估算变换矩阵R相当于推断输入样本相对于规范坐标系中的观察视角。因此,在本研究中我们将这一问题统称为视点估计问题。另外两个子网络在结构上高度相似:它们在功能实现上仅相差一个全连接层。

在这里插入图片描述

输入尺寸为32\times 32\times 21时,在两个输出层中分别对应不同的功能模块。其中第一个输出层是标准化的手部坐标系统(Hand Coordinate System),其基准点位于手掌中心,并经过归一化处理后得到的手部姿态信息;第二个输出层则是基于实际图像空间的关系模型(Spatial Relationship Model)。

数据集

在这里插入图片描述

本研究中所构建的数据集包含了丰富的分割类别:每个手指、手掌及其对应的场景都划分为三类。在人体姿态建模方面,我们采用了基于手指骨骼的三维人体姿态估计方法:每只手被建模为包含总计21个关键点的手型信息——其中每根手指包含4个关键点,并在靠近腕关节的位置各设置一个关键点以捕捉更多关节细节。其中包含41,258张训练样本和2,728张验证样本(见图4),所有图像均为分辨率320×320像素采集

完整系统的例子

在这里插入图片描述

Figure7展示了完整系统的实例。将输入至网络的是彩色图像以及左手或右手的信息。该网络通过估计对手部分割掩模,在二维空间中定位关键点,并输出最可能的三维姿态。左边区域来自我们记录的一个用于定性评估的数据集;右上方区域来自手语数据集;右下方区域来自S-val。

全部评论 (0)

还没有任何评论哟~