Advertisement

TADAM:Online Multiple Object Tracking with Cross-Task Synergy

阅读量:

Online Multiple Object Tracking with Cross-Task Synergy

论文地址:https://arxiv.org/abs/2104.00380
代码:https://github.com/songguocode/TADAM
收录于CVPR2021

总体框架

在这里插入图片描述

0、摘要

现代在线多目标跟踪方法通常侧重于两个方向来提高跟踪性能。一种是基于来自先前帧的跟踪信息来预测输入帧中的新位置,另一个是通过生成更多有区别的身份嵌入来增强数据关联。有些作品将两个方向结合在一个框架内,但将它们作为两个单独的任务来处理,因此几乎没有互利。本文提出了一种新的位置预测和嵌入关联协同的统一模型。这两项任务由时间感知目标注意和干扰注意以及身份感知记忆聚合模型联系起来。 具体来说,注意力模块可以使预测更多地集中在目标上,而较少地集中在干扰物上,因此可以相应地提取更可靠的嵌入来进行关联。另一方面,这种可靠的嵌入可以通过记忆聚合来增强身份识别,从而增强注意力模块并抑制漂移。这样,实现了位置预测和嵌入关联之间的协同和对遮挡的强鲁棒性。

1、介绍

MOT旨在定位目标,同时保持其身份,以形成跨视频帧的轨迹。最近在MOT领域的研究大多遵循通过检测进行跟踪的范例,这将MOT问题分为两个独立的步骤。检测首先在每帧中独立获得,然后通过数据关联跨帧链接形成轨迹,在关联过程中通常采用身份嵌入来区分对象。这种两步过程直观地揭示了提高跟踪性能的两种方法。一个是增加检测,另一个是通过嵌入增强数据关联。

大多数现有的在线方法通常只解决这两个方面中的一个,以获得更好的跟踪结果,尽管事实上有一个共同的误差源,即遮挡,会影响这两个方面。由于目标重叠,意外的遮挡通常会导致检测失败,并增加数据关联的难度。许多在线跟踪方法通过预测被跟踪目标的新位置来填补遮挡期间检测的空白,尽管许多研究集中于在整个遮挡都有产生更可区分的嵌入来关联。虽然最近的一些工作试图同时解决这两个问题,但位置预测和嵌入关联被视为两个独立的任务。如何让他们互惠互利还没有很好的探索。

常见的预测方法很少考虑物体之间的相互作用,因此在处理遮挡时,位置预测本身不够强。 在较严重的遮挡下进行预测通常会导致边界框漂移,目标的预测位置开始跟随相邻的对象。然后,由于错误预测的边界框,为关联提取的嵌入变得恶化。这可能会导致在连续帧上传播的关联错误。在这种情况下,做出预测会损害关联嵌入。同时,单独改进嵌入只能减少关联阶段的错误,这无助于直接防止位置预测错误。

在本文中,我们提出了一个统一的模型,在这个模型中,位置预测和嵌入关联以互利的方式联合优化,通过增强对遮挡的鲁棒性来提高跟踪性能。为了带来真正的协同效应,我们让一个任务参与到另一个任务的过程中。这两项任务通过一个由目标注意模块和干扰注意模块以及辨别性记忆聚合组成的链接连接起来。针对关联优化的身份嵌入不仅用于计算相似性,还用于产生对目标的关注以及抑制通过注意模块的漂移。以这种方式,位置预测配备有识别意识,并对附近的物体变得敏感,在较重的遮挡下可以执行更正确的预测并且没有漂移。这种更可靠的嵌入然后参与注意力生成,以便更好地聚焦于目标。这种协同作用被一种身份感知的记忆聚合进一步放大,因为随着时间的推移,更丰富的整体嵌入能够产生更强大的注意力。因此,提高了在具有遮挡的复杂场景中的跟踪性能。我们在统一的端到端模型下共同优化位置预测、嵌入关联和所有建议的模块。我们在统一的端到端模型下共同优化位置预测、嵌入关联和所有建议的模块。主要贡献:
1)提出了一个统一的在线MOT模型,在位置预测和嵌入关联之间带来了互利,从而获得对遮挡更强的鲁棒性。
2)应用时间感知的目标注意力和干扰注意力以及身份感知的记忆聚合来连接这两个任务。
3)通过公开检测在MOTChallenge基准测试中实现了最先进的性能。

2、相关工作

TBD挑战。 现成检测器首先被应用于发现每个传入帧中的对象,然后是数据关联,其中在不同帧中找到的对象被链接以形成轨迹。采用检测跟踪范式的方法在跟踪具有更多遮挡的复杂场景时面临两步挑战。一方面,由于遮挡,检测器给出的检测变得不准确甚至缺失。 这种缺陷通常会导致间歇性或碎片化的轨迹,从而降低跟踪结果。另一方面,在复杂场景下关联对象需要在不同身份的对象之间进行可区分性更强的关联测量。 为此,许多在线MOT方法旨在通过解决这两个问题中的任何一个来提高MOT性能。

利用视觉线索进行位置预测。 为了填补检测中的空白,许多工作提出在没有正确给出对象的位置时推断它们的位置。在所有帧一起提供和处理的离线方法中,一旦跨多个帧的两个对象实例被确认具有相同的身份,就执行插值来推断中间位置。 然而,这种批量处理不适用于在线方法,在这种方法中,必须在不访问最新框架之外的数据的情况下做出决策。因此,在线方法采用对目标位置的预测来处理间隙。 可以仅用运动模型进行预测,例如像卡尔曼滤波器那样的线性模型,像LSTM这样的非线性模型 。但是仅仅依靠运动不能获得与利用视觉线索进行位置预测的方法相当的性能。例如,相关滤波器 已经可以通过使用从先前帧中提取的视觉特征在新帧中找到最高响应来估计新位置。通过为每个目标启动一个跟踪器,MOT中可以采用单目标跟踪(SOT)跟踪器,如ECO,SiamFC 和SiamRPN 。虽然它们确实消除了检测中的一些间隙,但这种跟踪器缺乏区分同一类对象的能力,因此容易被干扰物遮挡。 由于遮挡频率高得多,干扰物在运动目标中难以区分,因此通常需要特殊设计来使运动目标跟踪器适合运动目标框架。在两级检测器的第二步中的包围盒回归,如Faster R-CNN,可以用作新位置的预测器,通过从先前帧传递的先前包围盒中提取特征,并推断框的位移。为了解决在线位置预测中的遮挡问题,我们建议加强对目标的关注并增强对干扰物的抵抗力。

身份嵌入的关联 。建立更可靠的数据关联度量是提高MOT性能的另一个方向。早期的工作使用Iou 来链接跨帧检测,速度快,但通常不准确 。从每个包围盒中提取外观嵌入可以建立更有区别性的关联度量来区分不同身份的对象。身份嵌入 可用作关联的主要来源,或与其他特征(如运动特征)结合使用。这种方法通常需要一个用额外数据集训练的专用模型,这导致了不小的计算成本 。更复杂的关联度量可以建立在身份嵌入与运动特征的融合上,或者与精细的视觉特征(如用于行人跟踪的身体关节)的融合上。其他方法如分层跟踪也可能有助于识别不同的目标。因此,它们都在模型设计和训练过程中引入了更高的成本。

最近,UMA 提出将嵌入生成集成到具有三元组结构的位置预测中,而DeepMOT 采用嵌入头来与基于回归的位置预测同时产生身份嵌入。这种多任务设计降低了训练关联度量的成本,但是位置预测和关联被视为两个单独的任务,并且它们的结果不会相互受益。尽管UMA 设计了一种特定于任务的特征变换,以使两个任务在SOT框架下兼容,但在DeepMOT 中训练集成的嵌入头对预测结果没有影响外部训练的嵌入模型。我们表明,这两个任务可以以更协同的方式一起工作,其中一个任务参与另一个任务的跟踪改进,这在具有遮挡的复杂场景中非常有用。

3、提议的方法

在这项工作中,我们提出了一个统一的模型,使位置预测和数据关联相互受益,从而增强了对遮挡的鲁棒性和跟踪性能。为了实现这一点,我们引入了时间感知的目标注意力和干扰物注意力,以形成对目标的更好的关注,并抑制干扰物的干扰,以及一个身份感知的记忆聚合方案,以产生更鲁棒的注意力。我们将其命名为TADAM,其中TA和DA指的是目标注意力和干扰物注意力,而M指的是记忆聚合。所有组件都在一个统一的模型中用相同的数据源进行训练。

3.1.回归预测位置的初步研究
我们采用基于回归的位置回归跟踪器作为基线,因为它在视觉线索方面优于其他预测方法。它用提供的数据训练一个两级的faster R-CNN检测器,其中一个RPN在第一级被训练生成粗建议盒,一个回归头和一个分类头被训练细化盒并推断盒内对象的类别。在跟踪过程中,第一个RPN阶段被丢弃,而训练好的回归头被用来从在其先前位置提取的预测特征预测被跟踪目标的新位置,分类头给出预测的置信度。然后通过嵌入提取过程获得用于关联的嵌入。位置预测的能力主要来自于用一个给定的精度较低的包围盒来推断一个紧密拟合的包围盒,它是用四边位移的平滑L1损失来训练的。同时,分类头是在输入包围盒的推断类和基本真值类标注之间的交叉熵损失下学习的。这种位置预测方法摆脱了主动跟踪目标的数据关联,而通过匈牙利算法的匹配仍然需要通过比较身份嵌入来搜索新检测中丢失目标的潜在再现。我们提出的方法旨在在位置预测设计的基础上引入跨任务协同。

3.2.时间感知目标注意和干扰注意
当从帧t-1到t对目标Tta执行位置预测时,帧t中的新预测特征Fta-t用其先前的边界框Bta-t-1提取,并且可以用Fta-t预测其新位置。然而,当一个干扰物Tdi在它的边界框附近时,Bdi t-1与Bta t-1有很大的重叠,做出正确的预测变得困难。假设Tta被Tdi遮挡,即Tdi在前面,那么Tta的预测新边界框将倾向于更接近Tdi,因为Fta包含实际上属于Tdi的大部分Fdi t。在这种情况下,持续的位置预测将导致Bta t逐渐漂移到Bdi t。为了克服这种优势,我们引入了一个目标注意模块来扩大Fta中属于Tta的区域以获得更好的聚焦,并引入了一个注意力分散模块来抑制Fta中属于Tdi的部分以减少干扰。 目标注意力是在目标的最新原始身份嵌入Eta和其历史聚合嵌入参考Eta r之间计算的,而干扰物注意力是用Edi和干扰物的参考Edi r生成的。为简单起见,被跟踪目标的干扰物被选择为另一个附近具有最大IoU的被跟踪目标,其中在多个干扰物的情况下选择具有最高重叠的一个。 将这两种关注应用于Fta t以获得精确的预测特征\ Fta t,可以对Bta t 进行更好的位置预测。为了进一步增强注意力模块的鲁棒性,设计了区分性存储器聚合,以提供对象随时间的聚合引用,从而使注意力模块具有区分性和时间感知性。
歧视性聚集非本地注意力 。为了增强或抑制预测特征Fta t中的区域以获得更好的预测,我们计算从参考嵌入Eta r到新提取的原始嵌入Eta t的注意力投影。以有区别的聚合目标参考嵌入Eta rj 作为输入,其中引入了聚合过程。然后,从历史记忆参考Eta rj到Eta ti的聚集非局部目标注意力可以描述如下。
在这里插入图片描述
其中θ和φ是卷积层,用于计算两者之间的相关性,而ρ是另一个卷积层,用于生成输出的Eta rj的表示。
通过序列化Eta上的所有位置对j和Eta ti上的位置对I,我们获得了从参考Eta到新嵌入Eta t的整体非局部关注。由于Eta r是一个具有身份感知记忆的集合,这个过程成为目标的历史参考和在新帧中获得的原始嵌入之间的有区别的聚集的非局部关注。类似地,将Edi rj嵌入到Eta ti上的干扰物参考的辨别性聚集非局部干扰物注意力由下面的等式给出。
在这里插入图片描述
当计算出的目标注意力中具有较大值的位置指示这些部分更可能属于目标时,在干扰物注意力中具有较高反应的区域暗示它们成为干扰物的一部分的较大概率。然后,我们可以通过计算精确预测特征(Fta t)来增强预测,如下所示。
在这里插入图片描述

3.3 身份相关性记忆聚合

4. 实验

mot16含有相同的序列,但只有DPM作为公共检测源,用于训练的ground truth box不如mot17准确。

实现细节
我们在COCO数据集上预先训练ResNet101[21]的主干参数,然后在各自的MOT数据集上训练所有ground truth labeled objects,最小能见度为0.1。RPN锚定比设置为{1.0,2.0,3.0}。我们每批抽取2幅图像帧,从所有采样比是0.75的RPN提案中选取256幅提案。我们用记忆模块对训练进行预热,进行3个阶段的嵌入和聚合学习,以实现更快的收敛,其中学习率设置为0.2。然后我们联合训练12个epoch的所有组件,初始学习率为0.002,每3个epoch衰减0.5。单个GPU上完成mot16和mot17需要9个小时,在两个GPU上完成mot20需要15个小时。

4.1 基准评价
在这里插入图片描述
在这里插入图片描述

4.2 消融研究
一项消融研究在mot17训练集上进行,提供FRCNN公共检测。如表2所示,我们删除了提议的组件,以查看它们对我们的方法的贡献。去掉TA和DA模块后,MOTA测量的跟踪性能下降了1.1,其他指标的结果都更糟。性能差异主要来自FN的数量,全模型FN显著减少,FP也略有减少。这表明,使用TA和DA可以做出更正确的预测。同时,更好的IDF1和更少的IDS表明,完整模型在识别TA和DA时表现得更好。注意模块的预测效果较好,说明在预测中采用内存聚合嵌入中的注意是有好处的。与此同时,用于关联的嵌入也得到了改进,这从较强的判别能力可以看出。两项任务的高表现证实了两者之间的协同作用。

与不使用TA和DA的情况相比,引入TA而不使用DA的情况下MOTA提高了0.5,而单独使用DA的情况下MOTA提高了0.8。具体来说,在仅启用TA的设置中FP最少,而仅启用DA的IDS最低。它们都可以提高跟踪性能,并产生关注,带来协同效应。然而,改进并不像它们一起工作那么大。

适应性权重的影响 :为了验证自适应权值的必要性,我们以相同的方式处理所有情况,即去除自适应权值,而不考虑遮挡级别。与完整模型相比,MOTA下降了1.0,这使得性能比单独使用TA或DA更差,但仍略高于不使用TA和DA的性能。这意味着天真地对所有情况应用TA和DA确实是一种次优方法。虽然需要注意遮挡,但从图3中可以看出,轻微遮挡的简单情况在数据集中占主导地位,在此数据集中,不注意模块的预测工作足够好。因此,有必要不去碰它们,只对咬合较严重的病例给予更强的注意。

记忆聚合效应 :我们还进行了一个实验来观察记忆聚合的好处。我们没有使用内存聚合,而是只存储前一帧中提取的目标和干扰物嵌入作为TA和DA的参考。在没有聚集的情况下,MOTA降低了0.5,FP、FN、IDF1和IDS的结果更糟。这表明,判别性记忆聚合有助于TA和DA在预测和嵌入时形成鲁棒性注意,从而提高跟踪性能。

在不同遮挡级别下的性能 :验证跟踪器对遮挡的鲁棒性的一种直观方法是检查在不同遮挡水平下有多少被遮挡目标被跟踪。在对MOT17训练集的标注中,我们获得了所有ground truth objects的遮挡级别。将遮挡等级量化为10%的间隔,可以统计每个间隔内遮挡程度的出现情况,以显示物体的可见性分布。同时,通过计算每个区间内被跟踪的地面真实目标的百分比,可以评价跟踪器在不同遮挡级别下的性能。为了确定一个ground truth bounding box是否被跟踪器覆盖,将跟踪目标在同一帧内的所有box计算其IoU,并与阈值0.5进行比较。我们将跟踪结果与Tracktor++V2进行比较,如图3所示。
在这里插入图片描述
可以观察到,当遮挡水平小于50%时,我们的跟踪器具有与Tracktor++V2[3]非常相似的跟踪百分比。这意味着这种带有视觉线索的位置预测在中低遮挡水平下已经取得了稳定的性能,并且几乎没有改进的空间。对于遮挡超过50%的物体,我们的框架显示了它的优势。遮挡级别越高,跟踪器的性能提升越大。这是突出显示在遮挡级别>90%,其中我们的跟踪器达到25%左右的跟踪比率,而不是大约5%。实验证明,我们的跟踪器在处理遮挡时具有更好的性能。然而,如何在极低的能见度下更好地跟踪仍然是未来研究的方向。

5. 结论

本文提出了一种联合优化位置预测和嵌入关联的方法。这两个任务通过目标注意模块和分心物注意模块以及身份意识记忆聚合连接起来。所设计的注意模块通过将更多的注意力集中在目标上,减少干扰物的干扰来加强预测,从而能够从更可靠的嵌入信息中提取关联信息。另一方面,这些嵌入被利用在记忆聚合模块的帮助下在预测中形成注意,从而帮助抑制漂移。这样就形成了两个任务之间的协同作用,在复杂场景中具有较强的鲁棒性。在我们的实验中,我们通过大量的分析证明了我们的方法的显著性能和提出的组件的有效性。我们希望我们的方法可以为未来的研究铺平道路,揭示在多任务问题,如MOT中潜在的跨任务好处。

全部评论 (0)

还没有任何评论哟~