Advertisement

Real-time Pose and Shape Reconstruction of Two Interacting Hands With a Single Depth Camera

阅读量:

采用单深度摄像机实现实时捕捉并解析两只人互动时的姿态与形态。

在这里插入图片描述

图10 基于深度相机的AR装置的实时重建手势与形状
Fig.10 Real-time reconstruction of gesture and shape of AR device based on depth camera
本节主要介绍的是论文中的利用单深度摄像机实时重建两只交互手的手势和形状系统的各部分功能概述。
4.1 Introduction
论文中提出的是一种无标记的手部姿态的估计,跟上一篇论文中的交互式数据手套的有标记不同。手部姿态识别在人机交互、增强和虚拟现实(AR/VR)、手语识别以及与心理学相关的身势语识别等应用领域都发挥着重要作用。但是现有的一些关于这种无标记的手部姿态估计大多都是只考虑单个手的处理问题。虽然也有很多方法考虑到了两只手的情况,但是大多局限于以下问题:
1)只工作于一些简单的交互场景比如说没有相互紧密接触的双手等场景。
2)由于计算成本高,实时性不好。
3)不能处理手与手之间的碰撞。
4)不能自动适应看不见的手的形状
5)严重依赖定制的专用硬件
而论文中的方法同时克服了以上五点限制,并提出了以下几点贡献:
1)提出了一种利用单深度摄像机实时跟踪两只相互作用的手的方法,同时能够估计手的形状并考虑到碰撞。
2)论文的方法是第一个利用物理模拟创建双手跟踪数据集的方法,该数据集包括姿态和密集的形状标注,同时避免双手间的穿透。
3)与现有的方法相比,鲁棒性更好,可靠性更高。
4.2 Overview
图示的是从单个深度摄像机获取数据并进行实时手部姿态和形状重建的流程。首先是深度图像和点云的输入,然后经过CoRN这个网络计算得到一个左手右手的分割图以及这个左右手对应映射关系的图,这个CoRN网络包含了两个Encoder-Decoder的结构。然后在姿态与形状拟合中通过能量最小化框架得到合适的手的形状模型与姿态并最后输出。

在这里插入图片描述

如图11所示的系统流程图中包含多个关键模块……论文中所提出的是一种创新性方法……该方法基于物理模拟技术首次实现了双足跟踪数据集的生成……其中包含关键点位坐标标注以及精确的手形重建信息……这些特征有助于提升后续分析精度……在数据生成环节主要分为两个独立阶段进行操作……首先通过LeapMotion设备捕捉参与者双手的动作信息……随后将这些动作信号转化为虚拟场景中的手形动画……整个过程均基于真实用户的实际动作进行建模……最终系统能够自动生成高质量的手势动画序列……实验数据显示该方法在关键点检测准确率上较现有技术提升约15% ……整个数据集共计包含8万张标准化图像样本用于后续训练与测试……此外为了确保数据的真实可靠性作者采用了体色着色技术对真实场景进行采集与标注……这种注释方式不仅保证了数据质量还能有效提升模型泛化能力 ……实验数据显示该真实数据集在跨场景测试中的性能表现优于合成数据集 ……综上所述本研究通过创新性方法成功构建了一个完整的双足交互数据集 为后续研究提供了可靠的数据支撑

在这里插入图片描述

合成数据集的场景图示意。
如图12所示,在本研究中所提出的CoRN架构由两个连续的编码-解码器模块构成。
其中各层块的高度、宽度以及通道数量被设定为h×w×c的形式。
其中各层块的颜色标注反映了执行的具体操作:蓝色代表采用步长为2的卷积实现下采样过程;绿色则表示常规卷积操作;而紫色则代表利用步长为2实现上采样的反卷积过程。
值得注意的是,在本研究中所提出的架构仅包含一个编码-解码器模块用于学习分割任务。
具体而言,在模型训练过程中采用Softmax交叉熵作为分类损失函数。
随后将生成的概率值输入到第二个编码-解码器模块中。
最终模型能够通过反向传播机制逐步优化参数并完成图像处理任务。

在这里插入图片描述

图形编号为CoRN。
第十三幅图展示了对一个深度图像作为输入进行处理后所得出的结果:精确的分割结果以及密集的一一对应关系。

在这里插入图片描述

图12显示经过CoRN处理后生成的精确分割图和密集对应图

在这里插入图片描述

表2 与最先进的水平相比
Tab.2 Comparison to the State of the Art

全部评论 (0)

还没有任何评论哟~