Advertisement

【paper】DenseFusion: 6D Object Pose Estimation by Iterative Dense Fusion 6D姿态估计

阅读量:

这篇论文提出了一种改进的6D姿态估计方法,主要针对重度遮挡和高耗时的 refine 问题。通过在像素级别融合颜色和几何特征,并引入置信度参数,有效解决了重度遮挡下的姿态估计问题。同时,提出了一种基于网络的迭代 refine 方法,显著提高了模型性能并保证了实时性。网络结构分为两阶段:第一阶段对彩色图像进行语义分割并提取特征,第二阶段通过全卷积网络和PointNet处理特征并估计姿态。损失函数通过置信度参数优化,区分对称和非对称物体,实现无监督学习。实验结果表明,该方法在抓取任务上的成功率高达73%,显著优于传统方法。

本组被分配到讲解这篇论文。由于之前从未接触过姿态估计相关的内容,最初还有些抵触情绪。但发现该团队的研究成果具有较高的可信度,于是决定认真阅读了这篇论文。通过阅读,发现这篇论文确实具有很多值得借鉴的见解,因此在此进行记录。

一、6D 姿态估计

6D涉及6个自由度,其中旋转部分有3个自由度,平移部分也有3个自由度,目标姿态需要相对于相机坐标系来定义。6D姿态估计在多个领域发挥着关键作用,包括机器人抓取与控制、自动导航以及增强现实等技术。

二、Contribution

这篇论文是基于之前研究工作的两个问题展开的两大贡献。

  1. 重度遮挡的case 效果不好
  2. 高耗时的refine,实时性不足

第一点问题,之前的方法一般使用图像块计算全局特征或者2D边界框,对于重度遮挡的case,原始图像块中的信息是有污染的——会参杂别的物体的信息——这样得到的全局特征就会不准确,从而造成估计姿态的不准确。而论文通过在像素级别构造特征——嵌入(embed)、融合(fuse) RGB颜色特征和点云几何特征(由深度值D构造)——并引入置信度参数来剔除污染信息,从而在重度遮挡的情况下也能得到准确的姿态估计。
第二点问题,之前使用的refine方法与姿态估计的主体网络是脱节的,因此无法和最终目标函数联合优化,并且计算也比较慢,导致无法满足运算的实时性要求。这篇论文提出了一种基于网络的迭代的refine方法,极大地提高了模型性能,保证了实时的处理速度。

三、网络结构

网络结构
refine网络结构

整个模型的架构主要包含两个阶段:

  1. 第一阶段将彩色图像作为输入,对每个已知 的物体进行语义分割。按分割后的结果裁剪原图片和点云(由深度像素转换而成),将两个裁剪结果导入第二阶段。这里segmentation的网络直接使用了别的论文的成果。
  2. 第二阶段处理分割的结果并估计目标的 6D 姿态,包含四个部分:
    ① 一个处理颜色信息的全卷积网络,图像块中的每个像素被映射成一个颜色特征(128维);
    ② 一个基于 PointNet 的网络,将带有裁剪后的 3D 点云中的每个点处理为一个几何特征(128维);
    ③ 一个像素级的 fusion 网络,利用颜色和几何特征计算一个全局特征并将三种特征合并后送入pose predictor进行6D姿态估计。每个pixel估计得到一组结果 (旋转参数、平移参数和置信度),也就是说如果分割得到的物体有500个像素点,那么这一步会得到500组姿态估计参数。选取置信度最高的pose作为最终的pose。置信度是通过无监督的方法学习,详见Loss部分的内容;
    ④ 一个迭代的refine方法,通过网络迭代地微调估计结果。将前三步计算得到姿态参数应用到点云上,计算得到新的点云位置,用PointNet重新计算几何特征,联合计算的颜色特征一起送入fusion网络,将得到的特征送入pose residual estimator,计算新的微调姿态参数,再更新点云,再算几何特征,循环迭代。refine网络部分的特征计算与前面的特征计算用的是不太一样的网络结构。

网络结构的部分细节:

pose predictor是由三个4层的1x1卷积网络构成,其中旋转参数、平移参数和置信度各自对应一个卷积网络;pse residual estimator则由两个3层的全连接网络组成,旋转参数和平移参数各自对应一个全连接网络。

四、Loss

Loss

计算每个像素点的loss。公式较为直观,其中下标i代表第i个点的特征预测所得的姿态参数P的损失函数。分别处理了对称物体和非对称物体,对于非对称物体,直接计算对应像素点之间的距离;而对于对称物体,由于存在歧义,计算最近距离点的位置偏差。

confidence

掌握第一部分的贡献点最为关键。若忽略置信度参数,最终的Loss函数将表现为上图所示的第一个公式,该公式旨在优化所有评估结果的总Loss。然而,针对重度遮挡问题,该论文提出了一种创新性解决方案,即引入置信度参数。具体而言,假设输入的物体信息总计500个像素点,其中200个像素点并非目标物体本身,而是遮挡在目标物体前方的其他物体的像素点。这些被误判的200个像素点计算出的估计姿态p会产生较高的Loss值L^p_{i},且由于这些输入数据本身就存在错误,无法通过优化使L^p_{i}降至很低的水平。因此,论文建议通过优化置信度参数c_{i}来解决问题。随着c_{i}值的减小,-w\log(c_{i})的值会相应增大,从而形成一个动态平衡过程,最终实现无监督学习出合适的置信度参数。

五、结果与实验

结果对比
时间对比

为了展示结果的全面性,定性分析部分仅作简要说明,定量对比数据将在后续章节中详细呈现。简单总结下结论:本研究的定量分析表明,PoseCNN+ICP的组合与本文方法表现接近,但该方法在计算效率方面存在明显劣势。另外,论文末尾还探讨了机器人抓取任务的表现,实验数据显示该算法在物品抓取任务上的成功率高达73%,其中最差性能出现在处理香蕉物品的任务中,可能的原因是所使用的香蕉物品与训练数据中的香蕉实例存在显著差异。

全部评论 (0)

还没有任何评论哟~