《MOTS: Multi-Object Tracking and Segmentation》简述
引言
达到饱和水平的跟踪性能已经稳定,在深入至像素级别时才可能实现进一步优化。本文主张将检测、分割与跟踪整合为相互依存的过程。在训练与评估目标分割模型的数据集中,通常缺乏对视频数据的标注信息以及不同图像中对象身份的具体标识。相比之下,在多目标跟踪中常用的标注数据集仅提供了物体边界框的信息。这些标注信息往往过于简略,在部分遮挡的情况下(如图1所示),边界框中包含了来自其他物体的额外细节而非自身特征

综上所述,本文的主要贡献体现在以下几个方面:
(1) 基于常用的KITTI和MOTChallenge数据集构建了两个具有时间一致性对象实例分割的新数据集。
(2) 开发出一种新型软多目标跟踪与分割准确度(sMOTSA)评价指标,在多个维度上全面检验新任务性能。
(3) 提出了一个基准模型TrackR-CNN,并与其现有研究进行了对比分析。
(4) 展示了该新数据集在像素级多目标跟踪器端到端训练过程中的有效性
相关工作
多目标跟踪(MOT)数据集:许多MOT数据集集中于街景场景(如KITTI MOT、UA-DETRAC),其中KITTI MOT主要基于车载摄像头获取的视频序列;而DAVIS 2016则专注于单物体的目标跟踪任务。
视频目标分割(VOS)任务的数据集:现有的VOS基准通常仅包含少量对象,在所有测试帧中必须达到像素级精确度;DAVIS 2017扩展了这一任务至支持多个物体的目标跟踪。
视频实例分割(VPose)基准:Cityscapes等其他广泛使用的场景提供了丰富的图像分类标注;但现有VPose基准中的标注仅限于非连续帧间的小范围区域。
方法综述:
- 《Online video object detection using association LSTM》通过融合每帧的位置与外观特征,并利用LSTM模型进行跨帧关联实现目标追踪;
- 《Tracking the Untrackable: Learning to track multiple cues with long-term dependencies》则将速度信息与交互特征结合,并通过LSTM模型实现长时依赖关系下的目标追踪;
【
数据集
半自动标注程序:便于管理。本文提出了一个半自动的方法,在分割的基础上扩展了边界框级别的注解,并通过利用卷积网络从每个边界框自动生成相应的分割掩码。随后采用手动多边形来校正这些初步的结果。为了实现这一转换过程,在基于DeepLabv3+的基础上开发了一个改进型完全卷积网络,在此框架下将输入图像指定为包含边界的区域,并增加了用于捕捉局部细节的小区域通道以及额外的输入通道来编码初始边界的形状信息。
KITTI MOTS:本文在KITTI跟踪数据集的边界框级别注释上详细描述了上述提到的标注流程。其中所使用的部分示例如图2所示:

便于对KITTI跟踪数据集的21个训练序列进行训练与验证,并将其分割为训练集与验证集两部分的数据样本。表1列出了相关的统计数据。

MOTSChallenge 进行了更深入的标注工作,在现有MOTChallenge 2017训练数据集4的基础上新增了4个来自该数据集中不同序列的样本,并成功获取了完整的MOTSChallenge数据集版本。该系统专用于处理复杂拥挤场景中的行人检测问题,在面对多层遮挡情况时展现出极高的挑战性水平;由于其对像素级别的精细描述能够显著提升算法性能这一特点使其成为该领域研究的重要基准之一。具体示例可见图2,详细统计信息可在表1中找到。
评估指标
优化了CLEAR MOT指标用于评估目标检测性能,并受到《Panoptic segmentation》技术的启发。 本文提出的方法要求同一目标的对象的ground truth掩码与MOTS算法生成的掩码不重叠。 在基于边界框的方法中,在跟踪器假设与目标框之间建立对应关系时采用二分匹配算法进行处理:因为ground truth框允许重叠区域的存在,并且多个假设框能够较好地适应单个ground truth框的需求。 在MOTS算法中由于每个像素在ground truth和预测结果之间必须唯一对应这一限制条件,在给定特定的目标mask时至多只有一个预测mask能在IoU(交并比)上达到大于0.5的效果。 这种情况下的IoU计算方式如下:
IoU = (|A ∩ B|) / (|A ∪ B|)

IDswitches的集合IDS被定义为:

另外定义了soft版本的true positives数量为:

改写说明

基于掩码的多目标跟踪和分割精度(MOTSP)为:

soft多目标跟踪和分割精度(sMOTSA):

方法
为了实现检测、跟踪与分割功能的任务(即MOTS任务),我们将其与神经网络进行结合,并基于流行的Mask R-CNN架构进行构建。该架构通过在Faster R-CNN检测器中加入掩码head进行了扩展。在此基础上提出TrackR-CNN模型,并使用一个关联头(association head)和两个3D卷积层来进一步扩展Mask R-CNN架构以处理时间动态关系(如图3所示)。

整合时间上下文 :为了利用输入视频的临时上下文,将3D卷积(其中第三个维度是时间)整合到以ResNet-101为骨干网的Mask R-CNN中。3D卷积应用于主干特征,以便增强主干特征得时序性。
关联头 :为了将检测随时间关联的数据,通过关联头扩展Mask R-CNN,该关联头是一个全连接层,其将区域提议作为输入并且预测每个proposal的关联向量。将两个关联向量v和w之间的距离 定义为它们的欧几里德距离,即:

基于Hermans等人的研究设计用于处理视频序列的关联头的batch hard triplet损失模型。

掩码传播 :定义掩码传播得分为:

追踪:针对每一种类别以及每一帧,在当前帧中置信度高于设定阈值的结果将被与前一帧中通过关联向量距离公式(7)筛选出的相关结果相联系,并通过匈牙利算法实现配对配对,在配对之间仅允许其距离小于设定阈值的标准下完成匹配。对于那些未被分配且具有高置信度的结果,则会启动新的运动轨迹
实验
表2显示了TrackR-CNN在KITTI上的结果

其中TrackR-CNN(box orig)表示在KITTI的原始边界框注释上经过无掩码头部训练的一个版本。
消融实验 :
不同的Temporal Components效果比较如表3所示:

不同的关联方式效果比较如表4所示:

在MOT上的比较效果如表5所示:

总结
花了相当长的时间去理解和消化这些概念
