Advertisement

【论文笔记】EagerMOT:3D Multi-Object Tracking via Sensor Fusion

阅读量:

文献来源

Kim A , Oep A , L Leal-Taixé. EagerMOT: 3D Multi-Object Tracking via Sensor Fusion[C]// 2021.

一、什么是EagerMOT?

利用2D+3D数据来进行多目标跟踪的算法。

本文贡献:
  1. 开发出了一个简单的高效多层次数据关联方案,在多个目标检测框架下均能表现优异,并可有效支持不同模态的数据融合。
  2. 开发出的新型算法应用范围广泛,在二维和三维的目标跟踪领域均有良好表现,并适用于融合目标跟踪与分割的任务。
  3. 经过消融实验验证表明该算法具有良好的效果。

二、为什么提出EagerMOT?

现有的方法采用深度感知技术(如激光雷达)来进行三维目标追踪。然而,在远处3D点云数据密度较低导致覆盖范围受限。另一方面,在二维图像中获取了大量详细且丰富的视觉信息,并有助于识别远处的目标。因此,在本文中我们整合了三维与二维数据进行目标追踪;首先通过摄像头识别目标;随后当目标进入激光雷达的有效范围内时,则能够实现更为精确的定位。

三、怎么实现EagerMOT?

算法流程图:

算法流程

算法结构:

EagerMOT算法是检测-跟踪型的算法,检测和跟踪可以分开来。

1.目标检测:

此方法可达成目标。该系统会产出两个关键指标:3dDt与2dDt。其中前者代表三维物体的检测数据,并以三维边界框来描述;而后者则代表二维物体的检测数据,并以二维边界框来描述。

2.目标跟踪:

1)融合

这一步的目的是把属于同一个目标的2D、3D检测结果关联在一起,得到一组实例(instances)It={I0t,…,Iit}。
首先,把 3dDt和2dDt输入到融合模块中,把3dDt投影到平面上,然后看投影和2dDt的交并比IoU的大小,把不同组合的IoU进行降序排列,当满足以下两个条件:
(i)这个IoU超过设定的阈值
(ii)这个组合里的2D、3D检测结果3dDit和2dDit都没有匹配
那么就把3dDit和2dDit组合成一个实例bothIit⊆It,它包含了一个3Dbounding box和一个2D bounding box,此外还可以储存一些额外的信息,比如2D分割掩码。
剩下的没有匹配上的检测结果3dIit⊆It,2dIit⊆It只包含了2D或者3D的信息。
注意:bothIt⊆3dIt以及bothIt⊆2dIt
当然还有很多方法可以判断2D、3D检测结果是不是属于同一个目标,但本算法使用的方法(投影看IoU)很简单,也有一定的鲁棒性。

多个相机的情况:

某些情况下人们通常会采用多个相机进行图像采集例如通过NuScenes数据集来进行验证在这种情况下默认的融合方法依然适用不过值得注意的是在每个摄像机所形成的视图中都会进行一次投影对比计算IoU值这样会导致一个三维点云对象(3D Dt)可能被映射到多个二维检测结果(2D Dt)中然而在实际应用中我们通常会选择具有最高IoU值的那个对应的二维检测结果来进一步处理

2)数据关联

这一过程旨在基于二阶段匹配机制以及关联环节将之前获得的具体实例It与当前的目标轨迹进行优化预测。该目标轨迹在三维空间中的状态由其对应的3D边界框和位置速度矢量共同定义。由于主要关注的是三维空间中的目标跟踪问题,则该目标的状态置信度直接由其在三维状态空间中的置信度决定。

第一阶段:

通过将3dIt与3dTt建立联系。我们已经获得了当前时间点的3dIt值,在此基础上运用卡尔曼滤波器结合恒速运动模型预测了下一时间点的3dTt值,并将这一预测结果与当前时刻的实例进行对比分析以实现关联效果。本算法采用折合距离(scaled distance)作为度量标准来评估实例与轨迹之间的关联程度,请参考下图以获取详细说明。

距离度量

在该处具体描述了3D bounding box的位置信息以及其维度参数h、w、l,并进一步指出了方向参数γ所代表的具体内容。

第二阶段:

我们将不包含bothIt的时间序列(因为它拥有3D边界框,在第一阶段已经完成了相关目标与激光雷达数据的配准)与1uTt和2dTt建立关联(因为这些目标中有些虽然不在激光雷达感知范围内但被摄像头捕获了二维运动信息因此仅有二维轨迹而没有三维信息因此除了尚未完成配准的目标外还需要将这些二维信息与当前时间点上的二维数据进行关联)。
我们现在已经获得了当前时间点t处的二维特征序列2dIt。基于1uTt-1或2dTt-1预测生成当前时刻的三维特征序列2dTt。具体而言若使用的是1uTt-1则会生成相应的三维状态序列3d T t;如果不存在对应的三维信息则直接采用上一时刻的状态作为预测值并将该预测结果与当前时刻的真实二维特征序列进行对比以判断是否能够完成关联操作。
本算法通过计算实例与轨迹在二维空间中的交并比(IoU)来评估它们之间的匹配程度。
同样地当存在多个摄像头时请参考融合处理部分的方法完成各子视图间的配准并最终选择配准效果最优的结果作为最终解。

状态更新:

基于匹配成功的实例来进行轨迹的状态更新。在2D场景中采用最新的2D bounding boxes进行更新即可,在此情况下直接覆盖原有数据以达到最佳效果。对于3D轨迹状态,则建议采用3D bounding boxes配合恒速线性卡尔曼滤波器进行状态更新操作;若未获得对应的3D bounding boxes,则可依据上一帧所计算出的卡尔曼滤波结果来进行状态更新。

3.轨迹管理

如果一个目标轨迹连续多帧未更新,则认为该目标退出系统并予以移除。然而,在当前帧若该轨迹已与某个实例建立关联关系,并且该实例在过去AgeMax2d帧内完成了对二维信息的更新,则应暂时保留该轨迹而不进行删除操作。最终,在未被任何实例成功跟踪的情况下,默认会对所有未被匹配的初始跟踪(2uIt)启动新的跟踪初始化流程。

四、实验结果

该文采用KITTY与NuScenes的四组追踪集合用于评估算法性能,并详细列出了各组的具体应用情况:其中(i) NuScenes 3D MOT作为三维目标追踪的基础数据集被引入;(ii) KITTI 3D MOT则聚焦于城市道路场景下的三维目标追踪问题;(iii) KITTI 2D MOT则主要处理二维目标检测与定位任务;(iv) KITTI MOTS则是针对多目标跟踪场景进行设计的数据集。

目标检测算法选择:

在NuScenes上:

3D目标检测算法选用CenterPoint,2D目标检测算法选用Cascade R-CNN。

在KITTI 3D MOT上:

该研究采用了Point-GNN与Point R-CNN两种方法进行实验对比,在经过多维度评估后最终确定采用表现更为卓越的该模型;针对二维场景中的目标检测任务,在面对车辆数据时选择了RCC模型,在处理人行场景时则采用了Track R-CNN策略。

消融实验:

消融实验

在NuScenes验证集的数据集上实施本文算法的变体测试后显示

消融实验

通过观察上图所示的数据分布情况可以看出, 各种目标检测算法的质量差异对后续跟踪系统的性能有着显著的影响. 该算法的优势在于具有较低的计算开销, 这使得它能够在不显著增加系统资源消耗的前提下, 直接应用于现有的目标检测框架中. 因此, 在追求更高性能的前提下, 我们建议优先选择那些性能更为优越的目标检测算法作为基础组件.

算法对比:

结果对比

该对比图展示本文算法与现有先进算法在NuScenes平台上的性能比较。其中以灰色标记的为当前最高排名的非公开基准算法。为了保证测试环境的一致性,在目标检测模块中所有参与比较的各种方法均采用了与CenterPoint一致的技术方案。

结果对比

该对比图展示了在KITTI 3D数据集上本文算法与若干先进方法的性能比较,在结果中可以看到被标记为†的方法采用了Point R-CNN作为其目标检测工具,并且从结果来看,在采用相同的目标检测方案时本研究提出的方法较之AB3DMOT(仅基于三维数据进行目标检测与追踪)取得了显著提升效果。这表明引入二维信息有助于提升追踪性能

结果对比

该对比图展示了本文算法与现有先进方法在KITTI 2D场景下的性能表现。然而,在三维空间中执行目标跟踪任务的该算法,并非直接基于此场景进行分析。相反地,通过将三维空间中的目标投影至二维平面进行分析,则能够有效实现二维跟踪效果的比较研究。观察结果显示,在HOTA这一高级跟踪精度评估指标下(其中HOTA是一种综合性的评估标准),本文方法不仅实现了精确检测、目标关联及定位效果的综合评价,并且在各项指标表现上均优于其他现有技术方案。

对比

上图呈现了一些目标激光雷达未能有效检测到却能被摄像头捕获的场景,在从上至下的排列中依次为:这些目标超出了激光雷达的工作探测范围、部分区域被其他物体遮挡住了视线以及所使用的探测器发生故障。这表明在实际应用中2D与3D信息能够互补利用以提高感知效果。

对比

该图展示了基于KITTI MOTS平台所提出的方法与其他先进方法的对比结果。当执行MOTS任务时,在关联完成后额外增加了分割掩码用于轨迹分割。结果显示所提出的方法性能优异且运行速度快于其他方法。

总结

该文提出了一种名为EagerMOT的目标跟踪算法。该方法能够处理基于多种目标检测技术输出的数据,并且适用于多模态场景下的目标跟踪任务。实验证明了该算法在多个测试数据集上的卓越性能,并且能够与其他多种目标检测技术协同工作。

全部评论 (0)

还没有任何评论哟~