DPOD:6D Pose Object Detector and Refiner——自我总结
论文概观:
目标:3D对象的检测以及从RGB图像中恢复6D位姿
方法:DPOD(dense pose object detector)密集对象位姿检测器,在输入图片和已知3D模型中去估计密集的多类2D-3D对应图,基于对应图,利用PnP和RANSAC计算6D位姿
优势:可以同时基于合成数据和真实数据
介绍(说明):
最近估计位姿的一些手段:
| 名称 | 简介 |
|---|---|
| SSD6D | 合成数据+Manhardt(优化器)+ICP优化+depth,基于细化视点的6D位姿扩展2D对象检测器的想法,缺点:较慢且不精确 |
| AAE(Augmented autocoders) | 合成数据 |
| YoLo6D | 真实数据,等价于YoLo+BB8,没有优化 |
| poseCNN | 真实数据,DeepIM(优化器),估计对象mask,分别估计对象中心T和用四元数回归R进行位姿的估计 |
| PvNet | 真实数据,回归像素,基于关键点的假设,再利用PnP算法估计位姿,优势:处理occlusion |
| iPose | 分割,3D坐标回归,位姿估计 |
| BB8 | 三阶段:第一第二阶段执行由粗到细的分割,此结果作为第三阶段的输入 来训练网络输出对象包围框点的投影,缺点:多阶段进而比较耗时 |
| ours:DPOD | detector+refiner, 将分割和坐标回归结合为一阶段,并不进行坐标回归。首先进行多类对象ID mask的像素预测,然后对应地图(UVmaps)的回归,地图直接提供了图片像素和3D模型顶点的关系,基于2D-3D匹配,利用PnP和RANSAC进行6D位姿估计 |
在方式对比方面,在早期的方法中主要依赖于手工特征以及图片信息如梯度或像素密集度等;而现代方法则主要基于深度学习来学习特征。 在模板匹配技术中,则是从不同角度渲染合成图像块。
实验阶段
- 虚拟场景构建:基于带有纹理信息的6D姿态数据集,在多视角环境下生成高质量的虚拟场景实例作为训练样本;
- 现实图像采集与处理:采用实际采集设备获取目标物体的真实图像,并通过深度信息辅助实现精确的目标物_mask提取与分割过程。
二维与三维对应关系图——基于双通道图像的2D-3D匹配方法中,通过顶点和图像的颜色信息高效匹配,并通过渲染相应的三维模型获取颜色区域
在线数据制作(关键节点阶段),采用全尺寸RGB图像进行训练。
在MS COCO 数据集中位于图片上方区域合成目标块片段,
以确保检测器识别不同背景时不发生过拟合。
同时,在调整光照与饱和度的同时并加入高斯噪声处理。
同样遵循这一策略的对象包括IDmask与对应的目标块。
每个像素都被赋予了独特的ID号并归于相应的类别。
密集对象检测:

对应模块:
使用Resnet-like模块进行残差层特征提取;
通过下采样处理使图片恢复到初始尺寸,并借助卷积网络完成这一过程;
计算UV通道以及mask相关的损失
位姿模块:
基于估计的IDmask值,我们能够识别图像中被检测的目标及其二维姿态信息。结合二维到三维对应关系,我们采用PnP算法和RANSAC方法计算出目标的三维位置、姿态和尺度参数。
该方法通过模型实现了位置与姿态的优化:
基于ADD度量,在线学习过程中持续精炼预测结果以减少预测位置与实际位置之间的差距(Refiner)

训练细节:
基于PyTorch开发的深度学习框架,在配备有Intel core i7-6900k CPU(3.20GHz)和NVIDIA TITAN X(Pascal架构)GPU的高性能计算平台上运行,并采用ADAM优化器。
评估:
评估标准:ADD分数
单对象位姿估计:在合成数据上的表现同样出色,在真实场景中也取得了良好的效果(经过优化)
多对象位姿评估:采用mAP指标进行评估时显示出了最佳性能
数据对比:

