《Joint detection and online multi-object tracking》简述
引言
多目标跟踪方法通常由以下部分组成:检测模块、检测-跟踪相似性度量、track管理。检测模块用于查找包含特定对象类别实例的边界框;相似性度量用于将检测合并到跟踪中;track管理包括决定何时创建新track以及何时终止旧track。此外,它决定如何更新track,例如相关联的检测是否可信。
本文提出了一种在线多目标跟踪方法,该方法将所有组件集成在一个神经网络中。使用递归神经网络(RNN)将轨迹与检测相关联,并更新每帧中的轨迹表示。本文提出了一种基于空间距离、物体外观、检测分数和track分数的检测-跟踪相似性度量,外观线索是建立在探测器使用的特征上的。因为创建用于检测的综合训练集比用于跟踪更容易,所以本文分两个阶段训练我们的方法。首先,我们用大检测训练集来训练检测器,用于跟踪的训练集则小的多。
相关工作
一般来说,人们区分离线方法和在线方法的特点是离线方法对轨迹进行全局优化,在线方法根据以前观察到的数据做出决策。许多离线方法被公式化为图优化问题,其中检测作为节点,亲和度或距离度量作为边的权重。在线方法使用相似性度量来连接每个帧中的track和检测,匈牙利算法通常用于寻找最佳关联。《Online multi-target tracking using recurrent neural networks》提出了一种用于在线跟踪的端到端训练的递归神经网络,与本文提出的方法类似,它使用RNN将检测结合到随时间变化的轨迹中,但是它没有利用外观特征,并且没有将检测方法包括在它们的网络中。还有一些方法集中于通过利用深度学习来检测视频中的多个对象类别,但是这些方法的目标是提高检测性能,而不是在多个帧上保持一致的实例标识。
方法
本文的方法基于SSD,通过在SSD的每个输出层添加一个额外的卷积层,为每个Prior Box添加了额外的输出参数。RNN和SSD的集成模型如图1所示:

其中RNN的概述如图2所示:
整体流程如下:
(1)首先使用SSD检测器对当前帧t进行目标检测,得到目标检测集包括置信度、坐标、宽高和表观特征。其中,由于还没使用非最大化抑制,该检测集数目由SSD中的prior-boxes决定。
(2)在通过非最大值抑制过滤得分较低的检测之前,计算输入检测集合Dt中的每个检测与前一帧St−1的每个轨迹之间的相似性。因为小目标更受距离影响,因此设置了自适应尺度因子,由输入是宽高,含有一层隐藏层的感知器得到。相似度矩阵,由输入是检测分数集、位置间欧氏距离,含有两层隐藏层的感知器得到。

(3)本文使用贪心的非最大值抑制方法,该方法首先过滤置信度较小的检测,然后删除所有与另一个置信度较高的检测重叠的检测。因为本文不使用轨迹的位置预测,所以轨迹依赖于关联的检测才能更新。因此为了避免那些具有低检测分数却又属于某轨迹的检测被筛选掉,局部最优操作前重新计算检测分数。其中,新检测分数,由输入是相似度矩阵、旧检测分数集,含有两层隐藏层的感知器得到:

(4)使用匈牙利匹配对检测集与跟踪集进行数据关联。其中,基于关联的数据,由输入是相似度矩阵、新检测分数集、跟踪分数集,含有两层隐藏的感知器得到:

(5)计算所有现有track和所有潜在新track的新track分数,其中,分数由输入是上一帧跟踪分数、匹配的新检测分数,相似度矩阵,含有两层隐藏层的感知器得到:

(6)最后一步是管理track生命周期,即开始新track、结束旧track和更新现有track。在集合中保留有限数量的track,根据track得分对新旧track进行排名,并保留得分最高的track。
实验
本文在DETRAC和MOT16基准上测试,DETRAC基准包括10小时的交通监控视频,带有注释的车辆轨迹。





总结
本文提出了一种联合检测和在线多目标跟踪的方法,该方法在SSD的基础上扩展了外观特征和RNN,不过还是使用匈牙利算法检测-track进行关联。论文相关工作部分写的很少,而且以离线和在线的区别展开,但是论文没有强调其提出的方法是在线或是离线,我能看出来和其他论文不一样的重点就是感知器和RNN,利用历史信息来表达跟踪中的轨迹特征。全篇论文写作堆砌了大量符号,使得阅读花费了大量时间,但是其实总结其方法,就是使用SSD进行检测,再计算相似性矩阵,再对其做非最大化抑制,使用匈牙利匹配对检测集与跟踪集进行数据关联,最后计算track分数并更新track,实验里的结果并没有达到state-of-the-art,并且存在大量的假阳性和IDswitches,对于遮挡也没有处理好,看了很多遍,还是没有想通这篇论文跟踪信息反馈给检测的方法,这篇论文没有开源,所以暂时没有办法深究其过程。
