Advertisement

Deep Active Contours for Real-time 6-DoF Object Tracking

阅读量:

这篇论文针对从RGB视频实现实时6自由度(6-DoF)物体跟踪问题进行了深入研究。传统的基于优化的方法依赖于人工设计特征并通过对齐投影模型与图像进行优化以获得物体姿态信息,在这种情况下容易陷入局部最优解的状态。相比之下,在深度学习领域中使用神经网络预测物体姿态虽然取得了一些进展但现有方法在泛化能力和计算效率方面仍存在不足之处。为此我们开发了一种结合了学习算法与主动轮廓技术的新方法具体而言我们通过设定一个初始形状将物体模型投射至目标图像平面从而获得初始轮廓接着利用轻量级深度网络预测其如何随着真实边界的变化而发生形变从而实现了对物体姿态的有效更新为了进一步提升性能我们还设计了一套高效的端到端训练机制这一机制能够通过姿态监督的方式自动优化网络参数最终使得整体系统能够在移动设备上实现实时性表现的同时保持较高的精度水平实验结果表明我们的方法在半合成数据集以及真实场景数据集上均显著超越了现有最先进的方法并且在移动设备上的运行效率也得到了明显提升代码开源地址可参考Deep Active Contour for Real-time 6-DoF Object Tracking

引言

基于视频序列的6自由度(6-DoF)物体跟踪任务旨在从RGB图像序列中估计刚性物体的姿态,在已知先验物体CAD模型和第一帧初始姿态的前提条件下完成。该任务在多个应用场景中被广泛应用,包括增强现实、机器人操作以及人机交互等领域的技术实现。这些应用依赖于跟踪算法能够实现实时性能,并且避免了针对特定物体进行定制化训练的需求。

主流的6-DoF物体跟踪方法通常基于关键点、边缘或区域特征来优化物体姿态。关键点方法[34, 42, 18, 17, 43, 27]涉及在2D图像和3D真实模型之间匹配关键点。诸如SIFT[25]、ORB[30]或BRISK[19]等关键点特征被广泛应用于这些任务中。然而,这些方法依赖于丰富的纹理,这限制了它们的适用性。相比之下,基于边缘的跟踪方法[6, 33, 53, 32]依赖于边缘(显式或隐式)来计算两幅连续图像之间的相对姿态。不幸的是,这些方法在处理背景杂乱和运动模糊时面临挑战,从而限制了其有效性。为了解决这一问题,较新的基于边缘的方法[46, 44, 14, 13, 39]进一步结合了局部颜色信息以提高精度。最近的进展主要由基于区域的方法[28, 40, 41, 36]推动。其基本前提是物体区域的颜色统计信息可以与背景区分开来。随着近年来的不断发展,基于区域的方法现在具备了即使在嘈杂和杂乱的图像中,也能仅利用无纹理的3D模型高效且准确地跟踪物体的能力。然而,这些基于优化的方法的一个缺点是需要手工设计特征和精心调整的超参数,这在实际场景中可能不够稳健。

近年来提出了基于学习的端到端方案以增强6-DoF物体检测和跟踪系统的鲁棒性能。其中一部分方法通过估计相机的姿态信息以及物体的位置坐标来实现目标定位。除此之外还有一种基于渲染与对比的方法用于优化姿态估计过程。然而这些方案在实际应用中仍存在一些局限性例如姿态回归方案仅能提供有限精度而无法满足复杂场景需求相反地渲染对比方案虽然精确度较高但由于计算量过大难以满足实时处理要求

在本文中، 我们开发了一种基于深度学习的主动轮廓模型(DeepAC), 用于实现实时六自由度(6-DoF)物体追踪. 该模型结合了传统优化方法与深度学习的优势, 实现了良好的鲁棒性和实时性能. 受区域方法RBGT[35]启发, DeepAC将投影区域周围的局部特征作为输入, 并预测轮廓更新的方向. 与传统依赖人工设计特征和统计假设的方法不同, DeepAC采用了神经网络来估计更新方向(如图1所示). 具体而言, 所提出的方法包含三个主要阶段: 首先, DeepAC通过FPN-Lite网络结合MobileNetV2[31]提取当前图像的多层次特征, 并利用三维物体模型获取前帧的姿态信息; 其次, 设计了一个边界预测网络, 使用局部区域特征作为输入并输出真实边界位置的概率分布; 最后, 通过基于边界概率分布应用牛顿法优化六自由度物体姿态估计. 这种优化过程对于网络输出是可微分的, 因此可以通过真实姿态作为监督信号训练特征提取和边界预测网络, 从而消除了传统方法对人工设计中间监督的需求

通过在半合成数据集以及真实世界中的6-自由度物体跟踪数据集上的测试实验验证了本研究提出的方法具有良好的效果。实验结果表明,在姿态精度方面,DeepAC显著优于基于优化框架以及基于学习框架的现有基准方法。进一步分析显示,在移动设备平台上运行时表现优异,并且我们的算法在iPhone 11设备上达到了25帧每秒的帧率。如需进一步了解算法的具体实现及其性能表现,请参考附录中提供的视频演示。

我们的主要贡献总结如下:

  • 一种创新性设计用于精确追踪物体在空间中的六自由度位置与姿态的新型主动轮廓模型。

  • 基于动态特征提取轮廓构建了一个简洁高效的轻量级网络架构,在不同场景下均表现出色且运行效率高。

  • 采用高性能优化方案的一种高效算法体系,在姿态监督指导下实现了自顶向下的端到端训练流程。

相关工作

该方法主要围绕关键点展开优化工作。

依赖于边缘检测的技术。 为了减少对具有纹理细节模型的依赖需求,研究者倾向于采用基于边缘检测的方法。这些技术通过分析物体边界的变化来估计运动参数,并结合稳健算法以提高跟踪稳定性与准确性。

基于区域的优化策略近年来得到了广泛的研究与应用。

以学习为基础的技术

实验

4.1. 评估协议

数据集
我们对经过精心选择的三个目标跟踪基准数据集进行了系统性评估(RBOT [41]、BCOT [21] 和 OPT [52])。RBOT 数据集涵盖 18 个不同类别的物体实例,并为每个类别提供 4 个不同长度的视频片段(包括常规场景、动态光照变化、噪声干扰以及遮挡情况)。BCOT 数据集则由 20 种无纹理物体构成,并配以 22 种典型场景以及 404 个长序列视频(总计约 126,000 帧),所有采集过程均在真实环境条件下完成,并考虑了多种相机配置(室内与室外环境)及运动模式差异。OPT 数据集则聚焦于较为简单的 6 种物体类别,并收集了 552 条基于固定操作轨迹的真实世界视频序列(这些序列具有多样化的光照条件)。

基线方法
我们将提出的方法与以下基线方法进行了比较,分为两类:1) 基于优化的基线方法,包括基于关键点的方法 [51, 26, 1],基于边缘的方法 [22, 2, 14, 38, 44, 39] 和基于区域的方法 [28, 41, 56, 57, 13, 20, 35, 36],这些方法的设置与我们的方法相似。2) 基于学习的基线方法 [23, 24],这些方法利用“渲染与比较”的框架来估计单张图像与预定义纹理模型之间的相对姿态。我们将这些基于学习的基线方法纳入分析,以展示我们提出的方法在未见过物体上的优越泛化性能。需要注意的是,我们的方法可以在移动设备上实时,并且仅依赖于无纹理的物体,而 [23, 24] 由于时间开销大且需要纹理模型,无法实现这一点。

实验

4.1. 评估协议

我们对以下方法进行了评估:在三个目标跟踪基准数据集上实施了该方法即RBOT [41] BCOT [21]和OPT [52]数据集。RBOT数据集包含了18种不同类别的物体每种物体具有4个序列这些序列涵盖了丰富的变化场景包括常规光照动态光照噪声以及遮挡情况。BCOT数据集则由20种无纹理物体构成并配合了22个场景以及404个视频序列总计含有126,000帧图像这些视频均是在真实环境中拍摄的涉及各种相机配置室内与室外环境以及运动模式的变化OPT数据集则包含了6种物体并记录了552个现实世界的轨迹这些轨迹具有多样的光照条件并且是由机器人手臂精确采集的预设运动轨迹

基线方法
我们对比分析了以下两类基线方法:第一类是基于优化的技术方案;其中具体包括基于关键点的方法[51、26、1]、基于边缘检测的方法[22、2、14等]以及基于区域划分的方法[28、41等];这些方案在设置上具有相似之处。第二类是基于学习的技术方案[23、24];这些方案采用"渲染与比较"框架来评估单张图像相对于预定义纹理模型的姿态;我们将这类学习型基准方案纳入对比分析范畴;以展现我们提出的方法在处理未知物体时展现出卓越的泛化性能优势。值得注意的是;相较于[23、24]的工作;我们的方案能够在移动设备上实现实时运行;并且无需预先提取纹理信息;而后者由于计算开销较大且需要依赖预先提取的纹理模型;因此不具备上述特性

与现有优化方法的对比研究

在BCOT数据集中基于ADD得分与厘米度评价指标量化姿态误差表现相较于RBOT基准我们采用了更为严格的标准以全面考察跟踪性能包含包括达 Del 厘米度在内的多个关键指标如表 2 所示DeepAC系统在所有姿态误差评估维度上均超越了所有对比基准方法值得注意的是DeepAC系统在极严格的达 Del 评分标准下展现出卓越的性能优势分别实现了达 Del 91 厘米度 141 厘米度及达 Del 1 厘米度上的显著提升分别为914%、1414%及96%这些结果充分证明了DeepAC系统在高精度姿态跟踪领域具有显著优势此外我们选取了表现最为出色的三个系统SRT3D LDT3D及DeepAC对RBOT与BCOT数据集中的姿态复位次数以及无复位跟踪效果进行了全面对比结果如表 3 所示除了BCOT评价框架下的5厘米度评估指标外DeepAC系统在各项评估维度上均取得了最优表现并实现了对其他两个基准系统的较大程度超越

基于[52]的研究基础,在OPT数据集中我们使用AUC(0, 0.2)作为目标跟踪性能评估的标准。结果显示,在所有六个物体类别上我们的方法均全面超越了现有最先进的基于优化的方法。这些结果验证了DeepAC在实际应用场景中的有效性。此外,在RBOT与BCOT中获得第二名的LDT3D[39]在OPT数据集上的表现却明显下降。这一现象可能源于OPT数据集较小帧差异对LDT3D[39]性能的影响。

与基于学习的方法的比较

消融实验
我们对DeepAC中的关键设计要素进行了系统性评估:第一部分是统计信息的整合方式、第二部分是多层次特征提取机制、第三部分是对应线空间不确定性度量方法、第四部分是对应线数量设置方案以及第五部分是每条对应线上的样本分配策略。基于RBOT与BCOT数据集上6-DoF物体跟踪任务相同的协议进行实验设置。从表6可以看出,在保持原有性能基础上各设计要素均显著提升了整体性能水平。进一步分析了对应线数量与每条线样本数量对性能的影响情况(如表7所示)。

除了在桌面端部署DeepAC外,在移动设备(iPhone 11)上我们也进行了移植工作。具体而言,我们借助coremltools3辅助DeepAC网络的部署,并通过C++实现了功能补充模块。

姿态初始化
在第一帧中初始化姿态时, 我们通过将预设的姿态将三维模型投射到手机屏幕上, 并要求用户手动移动手机以匹配实际物体与投影模型. 此过程在附录中的演示视频中进行了详细说明. 初始化的成功判定依据如下: 首先利用神经网络估计边界位置μi及其对应不确定性σi²; 然后计算边界位置与对应线中点之间的平均距离, 并评估其平均不确定性; 最后若计算出的距离低于设定阈值, 则采用该姿态作为初始状态并开始追踪.

时间
我们对DeepAC在iPhone 11设备上各模块的时间成本进行了详细分析。其中图像预处理模块耗时6ms,而FPN-Lite网络模块则耗时8.1ms。提取相应的线、轮廓特征以及边界图所需时间分别为5.1ms、3.7ms和4.2ms。此外,在姿态优化过程中所需时间为4.2ms,在颜色直方图更新阶段所消耗的时间为0.7ms。综合来看,在整合所有这些关键组件后形成的完整流程平均速度约为每秒25帧。

5. 结论
本研究开发了一种名为DeepAC的学习驱动主动轮廓模型,并被用于实时6-DoF物体跟踪任务。基于初始姿态 DeepAC采用了三步流程:提取轮廓特征图、预测边界图以及优化物体姿态。实验结果表明 DeepAC 在多个半合成数据集和真实数据集上表现最佳 并在6-DoF物体会跟踪领域展现了显著优势 其性能优于传统优化方法及近期学习方法 并且在移动设备上实现了实时性。

全部评论 (0)

还没有任何评论哟~