Advertisement

《Tracking without bells and whistles》简述

阅读量:

引言

在一个视频序列中对多个目标进行跟踪涉及一系列具有挑战性的子任务。对于“基于检测的追踪”这一技术而言,则包括目标重新识别、运动预测以及遮挡处理等环节。本文提出了一种无需额外设计的追踪算法,在不专门针对特定目标的情况下即可完成对该技术的应用,并未对追踪数据进行任何训练或优化工作。为此,本文采用了基于对象检测器的目标包围框回归方法来预估下一帧中各物体的位置变化特征,并将这一过程整合到现有的检测器中以实现其转变为实时追踪器的功能。当前多目标跟踪领域的发展正逐渐趋向于更为复杂的模型架构,在性能提升方面却并不十分显著;而本文则仅专注于对神经网络模型进行基础检测任务的训练工作,在此过程中也实现了对检测任务本身性能水平的最佳化支持

相关工作

在计算机视觉领域中, 监视、活动识别以及自动驾驶等任务常将目标轨迹作为输入信息. 尽管已有大量文献致力于多目标跟踪问题, 但该领域仍面临诸多挑战, 特别是在复杂场景下, 如遮挡现象及错误检测等问题尤为常见. 目前, 最为先进的研究工作多沿基于检测的跟踪框架展开, 其核心依赖于底层检测算法的性能表现.

方法

在这里插入图片描述

第一步,在时刻t = 0时,作者的tracktor用第一组检测结果进行初始化,后续步骤如图一所示,如上图蓝色箭头所示,探索 bounding box regression 来拓展激活的轨迹。通过将 t-1 帧的 bounding box b_(t-1)k进行回归,得到第t帧新的位置b_tk。在Faster RCNN中,这就对应了在当前帧的feature map上进行RoI Pooling操作,但是用的是前一帧的BBox。作者提出这种做法的一个假设就是:两帧之间的运动不是很明显,特别是在high frame rates的视频上。这个identify就自动的从之前的结果上迁移过来了,从而有效的得到了新的轨迹。这种操作可以对所有的视频帧进行重复处理。
第二步,在 BBox 回归以后,作者的跟踪器考虑两种情况来丢弃一个轨迹:
1). 一个物体在视频帧中消失了,或者被其他物体被遮挡了,即:如果新的classification score小于某一阈值;
2). 不同物体之间的遮挡,可以通过采用 NMS 来处理。
为了处理新出现的物体,物体检测器也提供了整个视频帧的检测结果 Dt。
第三步,即图中红色箭头部分,类似于第一帧的初始化。但是,从 Dt 开始的检测,当且仅当IoU与任何已有的active trajectories b_t^k小于某一阈值,即如果新检测到的目标没有覆盖任何轨迹部分(之前帧的目标与当前帧其他目标的IOU小于阈值),则认为该检测出来的目标为新目标。
作者将该模型进行了拓展,即:结合了 motion model 和 re-identification model。
Motion model :之前的假设是在运动目标在帧运动距离较小,但是在相机大范围运动或者其他极端情况下会出现问题。作者所以提出能够加入两种模型来更好的估计目标在未来帧的位置。对于带有移动相机的序列,采用简单的相机运动补偿 (CMC)。
ReID :为了保持在线跟踪,使用了基于孪生网络的外观向量的短期重新身份识别算法。在之前帧存储已经停用的轨迹,然后应用运动模型将新检测到的目标(轨迹)和停用的轨迹比较。通过计算空间距离(基于每个bbox的外观特征向量)。为了最小化降低错误重识别的风险,只考虑停用的轨迹和新的目标边界框。

实验

研究者分别对Re-ID技术和摄像头运动模型的消融性能展开了系统性评估。具体结果可在下表中找到详细说明。

在这里插入图片描述

在MOT17、MOT16以及MOT15上Tracktor++与SOT跟踪算法的性能对比如下表所示:

在这里插入图片描述

总结

这篇论文相较于其他各种tricks堆砌的网络而言,在架构设计上更为简洁明了,并且在MOT 16评估指标上取得了不错的成效(不过我对其中使用的实验方法并不熟悉)。Tracktor系统通过将前一帧的目标 bbox 作为当前帧初始 bbox 的回归过程来处理目标跟踪问题,在此过程中跳过了数据关联步骤这一关键环节。然而由于实验结果中并未提供FPS数据以验证实时性问题,在解决目标遮挡导致的身份切换(IDswitch)这一挑战时作者采用了引入ReID技术的方式并将其命名为Tracktor++模型以提高算法鲁棒性同时又结合运动模型以弥补计算复杂度带来的帧率下降所导致的第一帧与第二帧之间的较大差异问题

全部评论 (0)

还没有任何评论哟~