Advertisement

CorrTracker:Multiple Object Tracking with Correlation Learning

阅读量:

Multiple Object Tracking with Correlation Learning

在去年年底,《Tracking Local Relation》(TLR)方法就已经在MOT Challenge榜单上占据了领先地位,并持续至今仍未被其他算法超越。近期论文正式发布至CVPR2021Proceedings中,在文章中将这一方法命名为CorrTracker,并确认其为现有开放论文中精度最高的版本。


Abstract

卷积神经网络具有固有的局部感受野特性,在MOT任务中这一特点使其无法有效提取长程的空间和时间关系。为此作者提出了局部相关模块(the local correlation module),该模块能够从目标与其环境之间的拓扑结构中提取关键信息从而提升模型在复杂场景下的识别能力。针对时序问题现有方法主要采用双帧或多帧输入策略以弥补时序信息不足的问题然而这种简单的多帧特征直接使用难以通过卷积操作有效地捕捉动态场景中的运动特征因此作者将局部相关模块引入到时序信息提取过程中具体表现为在不同时间点卷积生成的特征图上建立一阶关联关系模型从而实现了对动态场景运动特性的有效建模


Introduction

一开始作者介绍了tracking-by-detection(TBD)范式以及joint-detection-and-tracking(JDT)范式(这里不展开讨论)。然而,在下图所示的情况下,在存在类似的干扰选项时仅依赖外貌embedding进行目标与轨迹之间的匹配是不够充分的。基于外貌特征计算出的目标与轨迹之间的匹配信心不够精确会导致跟踪关联部分性能下降。这些方法之所以难以有效地区分相似的目标是因为它们受限于局部的感受野范围。下图(b)展示了本文提出的方法生成的热度图,在这种情况下很容易就能分辨出CorrTracker能够有效地区分不同的目标。

图1

基于上述问题作者构建了一个相关性网络来学习目标与周围环境之间的信息 。具体而言作者引入了一个空间相关性层以捕获目标与其所在空间位置的信息 。如果像Non-local网络那样对全局建模相关性对于实时要求高的多目标跟踪(MOT)任务计算成本过高因此作者提出采用correlation volume来限制每个特征金字塔级别内的搜索范围 。这里的correlation volume作者指出这是光流法中的一个术语。(我的理解是correlation volume是一个三维张量(x y d)存储了特征图中(x y)位置与其(x y)+d位置的相关性信息)此外该方法不仅关注目标间的关联还捕获背景信息以增强目标识别与区分能力 。为此作者采用了自监督的方式对correlation volume进行训练。
另一个问题是MOT检测器通常仅接受单帧输入因而难以有效利用时空序列信息导致算法在密集人群场景下误检率较高增加了数据关联难度并降低了整体性能最近一些方法尝试引入两帧或三帧输入以提高时空序列信息提取效果但由于输入帧数有限所提取的信息仍显不足CenterTrack则采用了一系列数据增强手段但受限于卷积操作的局部感知特性提取出的时空序列信息仍然不足因此作者提出将空间相关性模块延展至时间维度以提取历史帧中的时空序列信息从而提升检测模块精度
总结如下:(1)提出了CorrTracker一种利用相关性的跟踪系统能够建模目标与其周围环境的关系;(2)通过自监督学习优化局部相关性模块从而增强了模型识别相似物体的能力;(3)将空间局部相关性模块延展至时间维度以提取更多时空序列信息;(4)最终CorrTracker实现了超越现有最佳水平(sota)并在MOT17测试集上达到了76.5%的MOTA与73.6%的IDF1成绩


Methodology

图2

上图展示了CorrTracker的整体架构,主要包括三个关键阶段:首先是从特征提取入手;其次是在时空维度上学习相关性并进行检测;最后是通过数据关联完成跟踪过程。值得注意的是,在第一阶段与第二阶段之间实现了完整的端到端可训练性。该方法的核心创新点在于通过精准建模关键区域及其周边区域的信息关系,在复杂场景中有效抑制噪声干扰

1. Motivation

给定输入的图像由输入图像\mathbf{I}_{t} \in \mathbb{R}^{H \times W \times 3}给出,在每一帧中通过检测器生成一系列候选检测框集合\{\mathcal{D}_t^i\}_{i=1}^N其中每个候选框表示为坐标及其尺寸参数(x_t^i, y_t^i, w_t^i, h_t^i)。这些候选框与已有的轨迹集合\{\hat{\text{T}}_{t-1,j}\}\$_j=1^M进行比较以计算相似度矩阵\textbf A其中第i,j元素定义为: \textbf A_{ij}=dist(f(\textbf d_t^i),\hat f(\text{T}_{t-1,j}))+\alpha IoU(\textbf d_t^i,\hat d_t^j) 其中f(\cdot)表示外貌embedding函数而 \hat f(\text{T}_{t-1,j})表示历史轨迹经过常数加权更新后的embedding特征值这一方法虽然有效但存在局限性即单纯基于目标特征进行匹配可能导致无法区分同一场景中的多个相似区域为此作者提出了一种改进方案

2. Spatial Local Correlation Layers

作者设计了空间局部相关性层来建模目标和气周围环境之间的关系。在此相关性模块中,只计算目标与其坐标的“邻居”之间的特征相似度。假定l为特征金字塔中的级别,那么\mathbf{F}_{q}^{l} \in \mathbb{R}^{H_{l} \times W_{l} \times d_{l}}\mathbf{F}_{r}^{l} \in \mathbb{R}^{H_{l} \times W_{l} \times d_{l}}之间的correlation volume,\mathbf{C}^{l},计算如下:
\mathbf{C}^{l}\left(\mathbf{F}_{q}, \mathbf{F}_{r}, \mathbf{x}, \mathbf{d}\right)=\mathbf{F}_{q}^{l}(\mathbf{x})^{T} \mathbf{F}_{r}^{l}(\mathbf{x}+\mathbf{d}),\|\mathbf{d}\|_{\infty} \leq R其中,\mathbf{x} \in \mathbb{Z}^{2}为query特征图的坐标,\mathbf{d} \in \mathbb{Z}^{2}是相对于当前坐标的位移,位移的约束为\|\mathbf{d}\|_{\infty} \leq R。作者用一维来表示两维的位移,所以最后的\mathbf{C}^{l}为一个三维(H^{l} \times W^l \times \left( 2R+1 \right)^2)的张量。作者也采用了膨胀卷积来扩大感受野。将\mathbf{C}^{l}送入一个多层感知机,最后再与原特征图进行像素级别的相加,得到最终的特征:\mathbf{F}_{\mathbf{C}}^{l}=\mathbf{F}_{t}^{l}+\mathbf{M L P}^{l}\left(\mathbf{C}^{l}\left(\mathbf{F}_{t}^{l}, \mathbf{F}_{t}^{l}\right)\right)如果对特征图\mathbf{F}_{t}^{l} \in \mathbb{R}^{H^{l} \times W^{l} \times d^{l}}采用non-local模块的话,最终生成的correlation volume为N L\left(\mathbf{F}_{t}^{l}\right) \in \mathbb{R}^{H^{l} \times W^{l} \times H^{l} \times W^{l}},这对与计算代价和内存消耗均太高。相比较而已,作者提出的局部相关性模块,在效率和效果上均好于non-local模块。

3. Correlation at Multiple Pyramid Levels

为了最大限度地获取远程的空间相关性信息,在特征金字塔上执行局部相关性操作,请参考下图

图3

R被增大时(即当R增大),计算量及内存消耗将显著增加)。因此,在构建特征金字塔的过程中(即在构建特征图谱的不同层级上),作者采用相同膨胀率的膨胀卷积操作(即施加相同膨胀率的操作),并结合多级特征融合策略(即通过多层特征融合的方式),使得最终得到的相关性范围则扩展至\left[0, R \times D \times 2^{l}\right]区间内(其中D代表膨胀卷积的操作因子)。这种相关性模型充分考虑了视频序列中自然存在的时空一致性(即利用视频中物体运动的时空连贯性进行建模)。基于此,在特征图谱的各个层级之间建立密集型孪生网络跟踪关系(即通过密集型孪生网络的方式实现跨层级特征匹配)。从另一个角度而言,在匹配过程中还需要考虑全局信息的影响(即从多尺度的角度考虑信息传递机制)。作者的方法通过多尺度相关性分析有效地整合了这两方面的信息传递途径。

4. Temporal Correlation Learning

时序信息在多目标跟踪(MOT)中往往会被忽视。许多现有方法通过数据关联机制尽力减少遮挡问题的影响。然而,在单帧检测器中实现时序一致性非常困难。这会导致跟踪器在处理目标被遮挡、模糊以及尺寸较小时表现出较差性能。为此,作者将空间局部相关性模块扩展到了时间维度,并在此基础上构建了基于帧的相关性建模框架。具体而言,在不同帧之间进行多尺度相关性学习可以看作是运动信息学习的一种替代形式。此外,在实验部分中发现为了尽量减少内存和计算资源消耗,在实际应用中作者选择仅保留前一帧图像以降低计算开销;而为了实现更高的准确率,则采用了保留前五帧图像的技术以增强模型鲁棒性

5. Self-supervised Feature Learning

在本节中,作者研究了一种多任务学习的方法,并利用视频分割级别的标注信息进行有监督训练。此外,在该框架下还实现了基于correlation volume的自监督学习策略。相关性组件具有良好的可解释性特征,在评估不同目标之间相似度方面表现出色。从另一个角度而言,在这种模型架构下相当于执行了M \times N次孪生跟踪操作以提升模型的判别能力。这种设计思路为后续的跟踪方面的有监督学习提供了参考依据:gt标签定义如下所示:\tilde{C}^{l}\left(\mathbf{F}_{q}, \mathbf{F}_{r}, \mathbf{x}, \mathbf{d}\right)=\left\{\begin{array}{ll} 1 & \text { 如果 } \mathbf{y}_{q}(\mathbf{x})=\mathbf{y}_{r}(\mathbf{x}+\mathbf{d}) \\ 0 & \text { 如果 } \mathbf{y}_{q}(\mathbf{x}) !=\mathbf{y}_{r}(\mathbf{x}+\mathbf{d}) \\ -1 & \text { 其他情况 } \\ \end{array}\right.其中y表示对应位置的目标ID值,在背景区域则取负值,并采用类平衡交叉熵损失函数来进行优化训练。至于自监督学习部分,则采用了论文Tracking Emerges by Colorizing Videos中的着色跟踪任务作为基础策略:\hat{\mathbf{I}}_{q}(\mathbf{x})=\sum_{\forall\|\mathbf{d}\|_{\infty}该式将颜色空间划分为离散类别,在相同颜色类别中认为两像素属于同一类别,并采用交叉熵损失函数进行优化训练以获得最优解。

6. Tracking Framework

作者选用FairMOT的结构进行修改,在IDA模块前加入了相关性模块。模型保留了原来的检测和ReID分支,添加了相关性损失。对于跟踪推理,CorrTracker首先计算当前帧的检测目标和历史轨迹之间的相似度,再通过匈牙利算法找到最优匹配。未匹配到的检测结果初始化为新轨迹。为了减少假正例,这些新轨迹暂时设定“inactive”,若几帧之后,这些新轨迹匹配上了,则将其修改为“active”。未匹配上的轨迹,设为“loss”,当“loss”状态持续的帧数多于阈值时,则将其终结。和FairMOT中一样,CorrTracker也采用卡尔玛滤波对行人运动进行建模。


实验

图4

上表基于MOT17验证集上的实验结果表明,在空间相关性和时间相关性模块之间取得了显著成效

图5

实验结果表明作者引入的自监督学习机制能够显著提高跟踪器的整体性能

图6

对于不同的R对跟踪器效果的影响的实验。

图7

该表格展示了CorrTracker与现有最先进的方法(sota)在同一四个数据集上的对比实验结果。结果显示,在 MOT15、MOT16 和 MOT17 三个测试基准上的性能均优于其他现有方法。从中可以看出该方法具有显著的优势。值得注意的是,在速度方面 CorrTracker 的表现仅逊于 FairMOT。


总结

总体而言,这篇文章完成了以下三项工作:(1)提出了基于目标特性和周边环境特征相结合的新方法;尽管单独依赖目标自身的特性难以充分捕捉其特性;为此作者构建了模型来融合周围环境的特征与目标特性的关联;整合到最终的整体特征表示中。(2)深入探讨了时间序列信息在MOT中的重要性;现有基于transformer的方法多集中于静态关系建模;而本研究通过引入动态相关性计算框架;显著提升了模型在遮挡等复杂场景下的鲁棒性能。(3)为了进一步提高模型性能;作者引入了一种自监督学习机制来优化模型参数;并在此基础上取得了显著的效果提升。

全部评论 (0)

还没有任何评论哟~