T-LESS: An RGB-D Dataset for 6D Pose Estimation of Texture-less Objects
T-LESS: An RGB-D Dataset for 6D Pose Estimation of Texture-less Objects
-
如有错误,欢迎指正
-
摘要
-
1 介绍
-
2. Related Datasets
-
- 2.1. RGB-D Datasets
- 2.2. Depth-only and RGB-only Datasets
- 2.3. Datasets for Similar Problems
-
3. The T-LESS Dataset
-
- 3.1.Acquisition Setup
- 3.2.Calibration of Sensors
- 3.3.Training and Test Images
- 3.4.Depth Correction
- 3.5.3D Object Models
- 3.6.GroundTruthPoses
-
4. Design Validation and Experiments
-
- 4.1. Accuracy of the Ground Truth Poses
- 4.2. 6D Localization
-
5 结论
-
感想
如有错误,欢迎指正
本文翻译为机翻,仅作初步了解学习使用,需要用到的时候再回来整理。
如有侵权,请私信本人。
原文链接: https://arxiv.org/pdf/1701.05498.pdf
摘要
我们引入了一个新的公共数据集T-LESS来估计无纹理刚性物体的6D姿态,即平移和旋转。该数据集包含30个与行业相关的对象,这些对象没有明显的纹理,也没有区分颜色或反射特性。这些物体在形状和/或大小上表现出对称性和相互的相似性。与其他数据集相比,一个独特的特性是某些对象是其他对象的一部分。该数据集包括由三个同步传感器 (特别是结构光和飞行时间1RGB-D传感器以及高分辨率RGB相机)捕获的训练和测试图像。每个传感器大约有39K个训练图像和10K个测试图像。此外,还为每个对象提供两种类型的三维模型,即手动创建的CAD模型和半自动重建的CAD模型 。训练图像在黑色背景下描绘单个对象。测试图像来源于20个复杂程度不同的测试场景,从简单的几个孤立的对象场景增加到具有多个对象实例、具有大量杂波和遮挡的非常具有挑战性的场景。这些图像是从对象/场景周围的一个系统采样的视球中捕获的,并用所有建模对象的精确地面真实6D姿势进行注释 。初步评估结果表明,6D目标姿态估计技术有很大的改进空间,特别是在有明显遮挡的困难情况下。T-LESS数据集在cmp.felk.cvut.cz/t-less
1 介绍
无纹理的刚性物体在人类环境中很常见,需要从图像中学习、检测和精确定位它们,这在各种应用中都会出现。刚性物体的姿态有六个自由度,即三个平移和三个旋转自由度,通常需要对其进行充分的了解。例如,在机器人学中,6D物体姿势有助于空间推理,并允许末端执行器作用于对象。在增强现实场景中,物体姿态可以用来增强人们对现实的感知,方法是通过增加物体的额外信息,比如装配指导的提示。
无纹理物体的视觉外观受其全局形状、颜色、反射特性和光源配置的控制。缺乏纹理意味着传统技术依赖于光度局部斑片检测器和描述符无法可靠地识别物体[9,31]。相反,最近处理无纹理物体的方法主要集中在局部三维特征描述[33,51,19],以及主要依赖强度边缘和深度线索的半全局或全局描述[20,24,54,5,14,21,27]。因此,由广泛使用的Kinect类传感器获得的由对齐的颜色和深度图像组成的RGBD数据已经发挥了重要作用。

本文介绍了一种新的用于无纹理刚性物体6D姿态估计的公共数据集。图2中提供了包括的对象和测试场景的概述。该数据集以30个商品电气零件为特征,这些零件没有明显的纹理、可辨别的颜色或独特的反射特性,并且通常在形状和/或尺寸上具有相似性。此外,这些物体的一个独特特征是它们中的一些是其他物体的一部分。例如,对象7和对象8由对象6构成,对象9由3个对象10相互堆叠而成,而对象17和18的中心部分与对象13几乎相同。具有相似特性的物体在工业环境中很常见。
数据集包括用三组传感器捕捉的训练和测试图像,即结构光RGB-D传感器Primesense Carmine 1.09、飞行时间RGB-D传感器Microsoft Kinect v2和RGB摄像头Canon IXUS 950 IS。这些传感器是时间同步的,有着相似的视角。所有的图像都是通过一个自动程序从一个视球系统地采样图像得到的 ,结果是每个传感器得到约39K的训练图像和约10K的测试图像。训练图像用黑色背景孤立地描述物体,而测试图像则来自20个任意排列物体的桌面场景 。测试场景的复杂程度各不相同,从具有多个孤立对象和干净背景的场景到具有多个对象实例且具有大量遮挡和杂波的非常具有挑战性的场景。此外,数据集包含每个对象的两种三维网格模型;一种是在CAD软件中手动创建的,另一种是从训练的RGB-D图像中半自动重建的 。训练和测试图像中所有模型对象的出现都用精确的地面真实6D姿态进行了注释;它们的定性评估见图1,4.1节进行了定量评估。

数据集用于评估6D对象姿势估计问题[23]和其他相关问题的各种类型,例如2D对象检测[50,22]和对象分割[49,17]。由于有三个传感器的图像可用,我们还可以研究不同输入模式对给定问题的重要性。另一个选择是使用训练图像来评估三维物体重建方法[44],其中提供的CAD模型可以作为地面真实情况 。
我们设计T-LESS的目标是提供一个实质性但可管理的数据集,具有精确到传感器分辨率水平的严格和完整的地面真实性注释,并具有显著的复杂性可变性,因此它将提供不同程度的难度和合理的未来证明,也就是.可解决性,但目前最先进的方法无法解决。Hodan等人提出的6D目标姿态估计方法的性能相对较低,说明了数据集在6D目标姿态估计中的困难。在Hinterstoisser等人建立的数据集上,该方法的性能接近最新水平。
论文的其余部分安排如下。第2节回顾相关数据集,第3节描述了T-LESS数据集的获取和后处理的技术细节。4评估真实姿态的准确性,并提供初步评估结果,以及5.总结全文。
2. Related Datasets
首先,我们回顾了用于估计特定刚性物体的6D姿态的数据集,按提供的图像类型分组,然后我们提到了为类似问题设计的一些数据集。如果没有另外说明,这些数据集以6D物体姿态的形式提供真实注释。
2.1. RGB-D Datasets
Firman在[15]中报告的一百多个RGB-D数据集中,只有少数几个公开的RGB-D数据集能够对6D目标姿态估计方法进行评估。本节中回顾的大多数数据集都是用Microsoft Kinect v1或Primesense Carmine 1.09 捕获的,它们代表了基于结构光原理工作的第一代消费者级RGB-D传感器 。[17]中介绍的数据集是用基于飞行时间原理的Microsoft Kinect v2捕获的。对于无纹理对象,Hinterstoisser等人的数据集已经成为大多数最近工作中使用的标准基准,例如[38,4,47,24,54]。它包含15个无纹理的对象,由彩色三维网格模型表示。每个对象都与一个由约1200个RGB-D图像组成的测试序列相关联,每个图像都只包含一个对象实例。测试序列具有明显的2D和3D杂波,但只有轻微的遮挡,并且由于对象具有可区分的颜色、形状和/或大小,因此它们的识别相对容易。在6D定位问题中(其中关于图像中存在的对象的数量和身份的信息是预先提供的[23]),最先进的方法对于大多数对象实现了超过95%的识别率。Brachmann等人为[20]中的一个测试序列中的所有建模对象提供了额外的真实姿势。这个扩展的注释引入了具有挑战性的测试用例,并且允许评估多个对象的定位,每个对象都出现在一个实例中。
Tejani等人给出了一个包含2个无纹理对象和4个纹理对象的数据集。对于每个对象,提供了一个彩色三维网格模型,以及700多个RGB-D图像的测试序列。这些图像显示了几个没有到中等遮挡的对象实例,以及二维和三维杂波。Doumanoglou等人提供一个数据集,其中包含来自[47]的2个纹理对象的183个测试图像,这些图像在具有挑战性的重遮挡的垃圾箱拾取场景中出现在多个实例中。此外,他们还提供了另外6个纹理对象的彩色三维网格模型和170个测试图像,这些图像描述了放置在厨房桌子上的对象。Challenge和Willow数据集[58]是为2011年ICRA Perception Challenge中的ICRA解决方案收集的,它们共享一组35个纹理家庭对象。每个目标的训练数据以37幅RGB-D训练图像的形式给出,这些训练图像从不同的角度显示对象,再加上通过合并训练图像得到的彩色点云。
Challenge和Willow数据集分别包含176和353个测试RGB-D图像,这些图像是放置在转台顶部的单个实例中的几个对象。Willow数据集还具有分散对象和对象遮挡的特性。类似的是TUW数据集[1],在224个测试RGB-D图像中显示了17个有纹理和无纹理的对象。而不是一个转台设置,图像是通过移动一个静态混乱的环境,一些物体出现在多个实例中获得的。罗格斯数据集[37]专注于机器人在拣选和放置任务中的操作感知,包括来自杂乱无章的仓库环境的图像。它包括来自2015年亚马逊采摘挑战赛[11]的24个主要有纹理的物体的彩色3D网格模型,这些物体是在超过10K的测试RGB-D图像中捕捉到的,具有不同的遮挡度。Aldoma等人提供没有颜色信息的35个家庭物体的三维网格模型,这些物体既有纹理又没有纹理,形状和尺寸通常是对称的和相互相似的。有50个桌面场景的测试RGB-D图像,在一个实例中有多个对象,没有杂波和不同级别的遮挡。
BigBIRD数据集[42]包括125个主要是纹理的物体的图像,这些物体是在带有多个校准的RGB-D和DSLR传感器的转台上单独拍摄的。对于每个对象,数据集提供600个RGB-D点云、600个高分辨率RGB图像和从点云重建的彩色3D网格模型。由于BigBIRD是在非常可控的条件下获得的,它与遮挡、杂波、光照变化或变化的目标传感器距离无关。Georgakis等人提供6735个来自厨房场景的测试RGB-D图像,包括BigBIRD对象的子集。测试图像中物体的真实感仅以二维边界框和三维点标记的形式提供。Lai等人创建了一个广泛的数据集,其中有300个常见的家庭对象在转盘上从三个立面捕捉到。它包含250K个分割的RGB-D图像和22个注释视频序列,每个序列中有几百个RGB-D帧。地面真实度仅以近似旋转角的形式提供给训练图像,以三维点标记的形式提供给测试图像。Schlette等人。[40]根据Cranfield assembly基准测试中涉及4个无纹理对象的模拟对象操作场景合成RGB-D图像[10]Salti等人提供了用于评估快照描述符的几个小数据集。[39]。这些数据集包括合成数据以及用时空立体方法和RGB-D传感器获得的数据 。
2.2. Depth-only and RGB-only Datasets
Mian等人的纯深度数据集包括5个物体的三维网格模型和用工业测距扫描仪采集的50个测试深度图像。测试场景只包含相互遮挡的建模对象。Taati等人也提供了类似的数据集。Desk3D数据集[3]由6个物体的3D网格模型组成,这些物体是在850多个测试深度图像中捕捉到的,这些图像具有遮挡、杂乱和类似的干扰对象。数据集是用RGB-D传感器获得的,但是只有深度图像是公开的。Lim等人的宜家数据集提供RGB图像,对象与其完全匹配的3D模型对齐。Crivellaro等人提供三维CAD模型和带注释的RGB序列3个高度闭塞和无纹理的对象。Munoz等人提供6个无纹理对象的RGB序列,每个对象在干净背景下单独成像,且无遮挡。除此之外,还有一些RGB数据集,如[13,50,38,25],对于这些数据集,真实姿态仅以2D边界框的形式提供。
2.3. Datasets for Similar Problems
Michel等人的RGB-D数据集的重点是关节式物体,目标是根据关节引入的约束,估计每个物体部分的6D姿势。也有用于分类姿势估计的数据集。例如,3DNet[55]和UoBHOOC[53]包含通用的3D模型和用6D物体姿态标注的RGB-D图像。UBC VRS[32]、RMRC(NYU Depth v2[41]的子集,注释来源于[18])、B3DO[26]和SUN RGBD[43]仅以边界框的形式提供3D模型和真实姿态情况。PASCAL3D+[57]和ObjectNet3D[56]提供通用3D模型和真实6D姿势,但仅提供RGB图像。
3. The T-LESS Dataset
与之前的数据集相比,T-LESS具有以下特点的独特性 。它包含1)大量与行业相关的对象,2)在受控条件下的训练图像,3)具有较大视点变化的测试图像,受杂波和遮挡影响的多个场景中的对象;包括即使在最新方法下仍具有挑战性的测试用例,4)用同步校准的三元组传感器拍摄的图像,5)所有建模对象的精确真实6D姿势,以及6)每个对象的两种3D模型。
剩余部分描述了数据集准备过程,其中包括图片获取,相机矫正,深度矫正,三维模型的生成和真实姿态注释。
3.1.Acquisition Setup

训练和测试图像是在图3所示的帮助下拍摄的。它包括一个固定的,放置成像物体的地方,和一个可调倾斜的夹具,传感器连接到夹具上。一个用于摄像机位置评估的标识物被放置在转台上。为了便于在高度较低时进行姿态估计,对旋转台的侧面进行了扩展。为了捕捉训练图像,这些物体被放置在转台的中间和黑屏的前面,这样可以确保在所有高度上都有一个统一的背景。为了在测试图像中引入一个不均匀的背景,在转台的顶部放置一张边缘带有标记的胶合板。在某些场景中,对象被放置在其他对象(例如书籍)的顶部,以给它们不同的高度,从而使可能由评估方法做出的地平面假设无效。训练和测试图像中物体表面的深度在0.53−0.92m范围内,这在所用RGB D传感器的感应范围内,Carmine为0.35−1.4m,Kinect为0.5−4.5m。
3.2.Calibration of Sensors
利用OpenCV[6]采用基于棋盘格的标准程序估计传感器的固有参数和失真参数。在校准棋盘格的角落处计算的均方根重投影误差为0.51 px(Carmine),0.35 px(Kinect),0.43 px(佳能)。对RGB-D图像进行了RGB-D校准。深度图像与RGB图像对齐,使用制造商SDK(OpenNI 2.2和Kinect for Windows SDK 2.0)提供的出厂深度到颜色注册。包含在数据集中的彩色和对齐深度图像已经过处理,以消除径向畸变。内在参数可以在数据集网站上找到。
所有的传感器都是同步的,并且相对于转台进行了外部校准,这样就可以记录任何一对图像。同步是必要的,因为图像是在转台旋转时拍摄的。外部校准是使用ARToolKitPlus[52]的基准BCH代码标记实现的。具体地说,图像中特定标记的检测结合其在转台上的物理位置的知识提供了一组2D-3D对应。在转台坐标系下,通过稳健地求解PnP问题来估计摄像机的姿态,然后利用文献[31]中的posest库,通过非线性最小化累积重投影误差来优化估计的6D位姿 。在所有测试图像的标记角处计算的均方根重投影误差,Carmine为1.27px,Kinect为1.37px,佳能为1.50px。该方法综合了传感器标定、标记场检测和传感器姿态估计的误差,因此比上述传感器固有标定误差大。
3.3.Training and Test Images
处理纹理不好的物体的一种常见策略是采用基于模板的方法,训练对象图像是通过密集的视点采样获得的,例如[13,20,38,24]。为了支持这种方法,T-LESS提供了与全视范围隔离的每个对象的训练图像 。这些图像是通过系统采集程序获得的,该程序以10°的步长从85°到−85°的高度均匀采样,用5°的步长对整个方位范围进行采样。从上半球和下半球拍摄的图像被分开拍摄,在中间把物体颠倒过来。每个传感器的每个对象总共有18×72=1296个训练图像。例外情况是19号和20号,它们只捕捉到上半球的景象,特别是从85℉到5℉的648幅图像。这些物体在放置在转台上的姿势是水平对称的,因此上半球的视野足以捕捉到它们的外观。测试场景是从步长为10°的半球体(从75°到15°不等)和方位角步长为5°的半球体拍摄的。每个场景由每个传感器共捕获7×72=504个测试图像。

为了去除图像外围场景中不相关的部分,提供的图像是捕获图像的裁剪版本。所提供图像的分辨率如下:用于训练来自Carmine和Kinect的RGB-D图像的400×400像素,用于训练来自Canon的RGB图像的1900×1900像素,用于来自Carmine和Kinect的测试RGB-D图像的720×540 px,来自Canon的测试RGB图像的分辨率为2560×1920 px。示例图像如图4所示。在一些训练图像中,特别是在低角度时,标记区域的部分区域是可见的。这些都被掩膜了,以确保物体周围到处都是黑色的背景。为了实现这一点,我们通过反投影CAD模型来识别图像中的对象遮罩,并逐渐使从遮罩周长向图像边界移动的图像变暗。
3.4.Depth Correction
同样地,我们观察到由RGB-D传感器测量的深度显示出系统误差。为了消除它,我们收集了在标记角的投影处的深度测量值d,并从已知的标记坐标计算出它们的预期深度值de 。这些测量是在0.53-0.92米的深度范围内收集的,在这个范围内物体出现在训练和测试图像中。通过最小二乘拟合,我们得到了以下线性校正模型:Carmine的dc=1.0247·d−5.19,Kinect的dc=1.0266·d−26.88(深度以mm计)。在[45]中,只有缩放用于深度校正。根据Foix等人的研究,一个3次多项式函数足以校正1-2 m范围内的深度。在我们的例子中,使用了一个较窄的范围,并且我们找到了一个简单的线性多项式来充分解释误差:校正后,从预期深度de的平均绝对差从12.4 mm减小到2.8 mm,对于Kinect,从7.0 mm减小到3.6 mm。估计的校正适用于所有深度图像,不需要数据集用户采取进一步的操作。
3.5.3D Object Models

对于每个对象,可以使用手动创建的CAD模型和半自动重建的模型 (图5)。两个模型都以三维网格的形式提供,模型顶点处有曲面法线。表面颜色仅包括重建模型。法线是使用MeshLab[7]作为入射到顶点的面法线的角度加权和来计算的。
重建的模型是使用fastfusion创建的,fastfusion是Steinbrucker等人的一个三维绘图系统。[44]。¨fastfusion的输入是来自Carmine的RGB-D训练图像以及使用基准标记估计的相关相机姿势(见第3.2节)。对于每个物体,首先重建两个部分模型,一个是上半球,另一个是下半球。然后使用迭代最近点(ICP)算法对部分模型的顶点进行对齐。随后进行了手动优化,以确保仅在颜色中可见的表面细节的正确注册。将得到的对齐结果应用于摄像机姿态,将其转换为一个共同的参考坐标系,并使用更新后的姿态从所有图像中重建完整的对象模型。这些模型包含一些小瑕疵,例如,手动移除的小尖峰。值得注意的是,有些物体含有发光的小金属部件,其深度不能被当前的深度传感器可靠地捕捉到;一般来说,任何光滑或半透明的表面都是有问题的。因此,其中一些部件,例如插头杆,没有被重建。
使用ICP算法将重建的模型与CAD模型进行对齐,并进一步手动优化对齐。因此,这两种类型的模型都是在同一个坐标系中定义的,所提供的真实姿态对这两种模型都有效。模型坐标系的原点与CAD模型边界框的中心重合。通过计算重建模型顶点到相应CAD模型最近曲面点的平均距离来评估两种模型类型的几何相似性。所有物体模型的平均距离为1.01毫米,与物体13的58.13毫米到物体8的217.16毫米之间的物体大小相比,这是非常低的。相反方向的距离(即从CAD模型到重建模型)不具有信息性,因为某些CAD模型包含重建模型中未表示的内部部件。Cignoni等人的Metro软件用于测量模型差异。
3.6.GroundTruthPoses
为了获得真实的6D物体姿态,首先利用Steinbrucker等人的系统重建了场景的密集三维模型。这是通过使用场景的504幅RGB-D图像以及使用转台标记估计的传感器姿态来完成的。然后将CAD对象模型手动与场景模型对齐。为了提高精度,物体模型被渲染成佳能精选的几幅高分辨率场景图像,对错位进行识别,并对姿态进行相应的手动优化 。重复此过程,直到渲染与场景图像达到令人满意的对齐 。借助于已知的摄像机到转台的坐标变换,最终的姿态被分配到所有的测试图像上。变换后的姿态作为真实姿态提供给每个测试图像 。
4. Design Validation and Experiments
本节介绍了对真实姿态的精度评估,并探讨了用最近的6D定位方法进行T-LESS的难度。
4.1. Accuracy of the Ground Truth Poses

为了评估真实姿态的精度,我们比较了在第3.4节中描述的校正后捕获的深度图像和通过图形化地绘制真实姿态下的三维物体模型获得的深度图像 。在两幅图像中每个像素的深度值都有效时,我们计算差值δ=dc−dr,其中dc是捕获的深度,dr是渲染深度。表1列出了这些差异的统计数据,汇总了所有训练和测试深度图像。超过5cm且约占测量值2.5%的差异被视为异常值,并在计算统计数据之前进行删减。在测试图像中,差异可能是由错误的深度测量引起的,或者是由干扰物体引起的遮挡引起的。
绘制的深度与Carmine捕捉到的深度很好地一致,如平均差µδ接近于零所示。在Kinect的例子中,我们观察到RGB和深度图像有轻微的错位,这是导致µδ正偏差的原因。Carmine的平均绝对差值µ|δ|小于5mm,Kinect小于9mm,接近传感器的精度,与物体尺寸相比相对较小。误差统计对于重建模型(与CAD模型相反)略为有利,因为它们是从捕获的深度图像中获得的,因此具有相似的特征和伪影。例如,RGB-D传感器看不到插头杆,在重建模型中缺失,但在CAD模型中存在。
4.2. 6D Localization
Hodan等人最近提出的基于模板的方法在6D定位问题上进行了评估。输入由测试图像和图像中存在的对象实例的标识组成,目标是估计这些实例的6D姿势。该方法在所有来自Carmine传感器的RGB-D图像上进行了评估。参数设置如[24]所述,模板由Carmine的训练图像生成,CAD模型用于姿势优化阶段,如[59]所述。姿势估计如[20]中所述,使用具有无法区分视图的对象的平均距离误差进行评估。该误差测量模型M表面在真实位姿(R‘,’t)和估计姿态(Rˆ,ˆt)处的偏差,定义为:

当e≤k·d时,位姿估计(Rˆ,ˆt)被认为是正确的,其中k=0.1,d是任何一对模型顶点之间的最大距离,即物体直径。评估时只考虑了至少10%的物体表面可见的真实姿态。可见度估计如[23]所示。

表现是通过召回率来衡量的,也就是说,正确姿势被估计占的百分比。图6给出了每个物体(顶部)和每个场景(中间)实现的召回。召回率最低的对象是那些与其他对象相似的对象。例如,对象1经常与对象2混淆,对象20、21和22也是如此。同样,包含相似对象的测试场景也比较困难,其中最难的场景是包含许多相似对象和严重遮挡的场景20。图6的底部描绘了在所有对象上累积的召回,作为其未遮挡的图像投影部分的函数。召回率与这个分数成比例地增加,说明遮挡是T-LESS的主要挑战之一。
所有对象的平均召回率为67.2%,这表明有很大的改进余地。我们注意到,同样的方法在Hinterstoisser等人的数据集上实现了95.4%的平均召回率,这接近最新水平。[20]报告了96.6%,而[5]报告了99.0%。后者不具有直接可比性,因为它只计算了数据集中15个对象中的13个。
5 结论
本文提出了一个新的T-LESS数据集,用于评价无纹理物体的6D位姿估计,便于相关方法的系统比较。该数据集以行业相关对象为特征,具有大量训练和测试图像、精确的6D真实姿势、多种感知方式、具有多个对象实例的测试场景以及由于遮挡和杂波而增加的难度。利用该数据集进行的初步评估结果表明,目前6D目标姿态估计技术还有很大的改进空间。
感想
这篇文章完整的描述了一个6D位姿估计数据集的制作方法,同时提供了一个具有挑战性的数据集。
- TOF技术,用于计算图像深度 ↩︎
