Advertisement

ECCV2020_InterHand2.6M: A Dataset and Baseline for 3D Interacting Hand Pose Estimation from RGB

阅读量:

论文代码可自行下载

特点

Hand-hand interactions很重要,但是别的3D hand pose estimation大多是单只手的情况,因此作者做了InterHand2.6M数据集和InterNet网络。

InterHand2.6M

第一个大规模的、真实非合成的、包含单多手的、带标注的、RGB-based 3D hand pose dataset

半自动标注,高效,且准确率和纯手工标注的差不多

和其他数据集的比较如下↓
在这里插入图片描述
在这里插入图片描述

InterNet

复制代码
* 用来预测handedness 
  * Handedness指的是2.5D right and left hand pose
  * 2.5D包含基本的2D图片x轴、y轴,以及以手腕为基准的z轴的深度

* 优越性在于左右手都存在时也可以预测z轴(之前的RootNet有时候不行)

核心原理

InterHand2.6M

技术参数:

  • Multi-camera studio consisting of 80-140 cameras capturing at 30-90 frames-per-second (fps)
  • 350-450 directional LED point lights directed at the hand to promote uniform illumination3
  • The cameras captured at image resolution 4096 × 2668
  • The multi-view system was calibrated with a 3D calibration target and achieved pixel root mean square error ranging from 0.42 to 0.48
  • There were two settings:
    • Setting 1: on average 34 RGB and 46 monochrome cameras (80 cameras total), 350 lights, and 90fps.
    • Setting 2: on average 139 color cameras, 450 lights, and 30fps.
    • Due to camera failures, not all cameras were operational; thus, each capture would have slightly different number of cameras.

数据集细节

  • 一共36 recordings 包含26 unique subjects,男19,女7
  • 双setting
    • 中立姿势:双手胸前无接触侧置;预设姿势:40种单手pose,13种双手pose
    • 第一种:peak pose (PP),一个短的转变(从中立pose到预设pose,再变为中立pose)
    • 第二种:range of motion (ROM),用最少的指令表示交流gesture,15种单手手势,17种双手手势
    • 这两种的选择都较容易被模仿,InterHand2.6M旨在强泛性,而不是专用于特定场合

标注

  • 单手21keypoints,所以InterHand2.6M有42个,一根手指标注一指尖、三关节(4*5=20),再标注一个手腕

  • 同时间不同角度拍摄六张图片, 在任意两角度标注相同点时,自动同步到其他所有视角

  • 采用两阶段标注:

    • 第一阶段,手工标注94914张2D图片(来自9036独立的时刻,其中1880个是双手),将这些2D图片的标注三角化,得到关节的3D位置,然后投影到大概80个视角来得到每个视角下的2D图片标注;该阶段最终有698922张图片被标注了2D关键点
    • 第二阶段,利用第一阶段得到的标注进行训练,得到一个 2D关键点检测模型,然后对所有未标注的图片跑得到的模型,在通过RANSAC三角化得到3D关键点;该方法得到的机器标注的误差只有2.78mm,不需要进行进一步的模型迭代
  • 捕捉到的手势序列有两个结构:downsized 512×334 image resolution at 5 fps和downsized 512×334 resolution at 30 fps;缩小尺寸是为了保护指纹隐私

  • 标注文件包括:相机类型、主题索引、摄影机索引、边界框、惯用手、摄影机参数和三维关节坐标

InterNet

  • 输入RGB图片I,提取图片特征F
  • 从一张图片剪切手的区域然后缩放到通用分辨率来准备I,InterNet通过F同时预测惯用手、2.5D左右手pose、左右手相对距离
    在这里插入图片描述

实验结果

实验验证了在左右手数据上训练出来的模型,比只在单手数据上训练的模型效果好
在这里插入图片描述

全部评论 (0)

还没有任何评论哟~