【论文阅读笔记】MOTS: Multi-Object Tracking and Segmentation
MOTS: Multi-Object Tracking and Segmentation
- 
Abstract
 - 
Introduction
 - 
Related Work
 - 
Datasets
 - 
- 半自动标注程序
 
 - 
Evaluation Measures
 - 
Method
 - 
Experiments
 
Abstract
文章将多目标跟踪任务扩展到多目标跟踪与分割。为此使用半自动标注程序在两个现有的跟踪数据集上创建了密集的像素级的标注。新标注包含了10870个视频帧中977个不同对象(汽车和行人)的65,213个像素掩码。为了进行评估,将现有的多对象跟踪指标扩展到这个新任务中。此外该文提出新的baseline方法,该方法通过使用单一的卷积网络来联合处理检测跟踪与分割。
Introduction
Bounding Box级别的跟踪性能提升趋于饱和了,只有到像素级别的跟踪时才能进行性能改进。因此将检测、跟踪和分割作为联合一起考虑的问题。一般分割数据集不提供视频的标注,甚至不提供不同对象身份信息。另一方面。多目标跟踪常用数据集只提供bounding box级别的标注,不够精细。
因此本文将多目标跟踪任务扩展到实例分割跟踪,称这个新的任务为“多目标跟踪与分割(MOTS)”。提出使用TrackR-CNN作为解决所有MOTS问题的baseline方法,TrackR-CNN是利用3D卷积扩展MaskR-CNN来结合时间信息,并通过一个关联头将对象标识随时间链接起来。
本文贡献如下:
1.提供了两个基于KITTI 和 MOTChallengeMOTS任务的新数据集
2.提出了一种新的指标——sMOTSA来评价MOTS任务各个方面
3.使用TrackR-CNN作为一种解决检测跟踪和分割的baseline方法,并与现有的工作进行比较
4.证明了新数据集对像素级多目标跟踪器端到端训练的有效性。
Related Work
介绍了一些现有数据集和方法以及半自动标注方法。
Datasets
讲了如何利用bounding box级别的数据来生成标注像素级别数据集。
半自动标注程序
提出一种通过分割掩码来扩展bounding box级别标注的半自动方法。使用卷积网络从bounding box中自动生成分割Mask,然后使用手动多边形标注进行校正。对于每条轨迹,都使用手动标注作为附加训练数据来微调初始网络。一直迭代生成和校正Mask过程,直到达到标注的像素级精度。
利用上述标注方法标注了KITTI MOTS和MOTSChallenge。
Evaluation Measures
改进了CLEAR MOT指标来做评估。在度量中纳入每个object的分割mask来进行评估,且每个像素只分配给一个object。接下来介绍MOTS使用的评价指标:
有T个时间帧,高度h宽度w的视频的ground truth由一组N个非空的groundtruth 像素mask M={M1,…MN}组成,其中Mi\in{0,1}h×w。(一些评价指标懒得打了)
Method

通过3D卷积改进Mask R-CNN来结合时间的上下文信息并通过一个关联头为每次检测生成关联向量。关联向量间的欧氏距离用来将检测关联到轨迹中。黄色部分是与Mask R-CNN的不同。
提出TrackR-CNN,其通过一个关联头和两个3D卷积来对Mask R-CNN进行改进,以便能够随时间关联检测并处理时间动态。
整合时间上下文信息 使用3D卷积整合到以ResNet-101为backbone的Mask R-CNN中,另外还想过以LSTM层为替代方案。
关联头 该部分将检测结果进行关联,该部分是一个全连接层,以region proposal为输入并为每个proposal预测关联向量。每个关联向量都表示一个汽车或者人的身份,训练方式是同一实例向量相接近,不同实例向量相背离。距离以欧式距离来度量。
使用Hermans等人提出的batch hard triplet loss来训练,对td时刻的帧的检测结果d\inD由maskd和和关联向量ad组成,并根据和groundtruth重叠度分配轨迹id为idd。关联损失如下:

Mask传播 还使用了Mask warping进行关联向量相似性替代实验。对于t-1时刻的检测d的maskd和t时间检测e的maske,定义Mask 传播分数为:

W(m)表示当前mask m通过叠加t-1 到 t 时刻之间的光流信息向前的信息。
跟踪
使用现有轨迹和新的检测,根据检测的关联向量相似性来扩展成新的轨迹。
对于每帧中每一个类,将当前帧中检测器大于阈值的检测和前面帧的检测进行关联,关联使用上述欧式距离,且只在前一帧到前\beta帧中选择检测。匹配使用匈牙利算法,距离小于\sigma的一对检测才能匹配。未匹配的高置信度的检测产生新的轨迹。
Experiments
略
