Simple Online and Realtime Tracking 论文阅读
Simple Online and Realtime Tracking
Abstract
本文的重点在于探究:如何有效地关联对象,以实现在线和实时应用
检测的质量是影响跟踪性能的关键因素。
1. Introduction
- 
a tracking-by-detection framework
- objects are detected each frame and represented as bounding boxes 在每一帧都要进行目标检测?
 - detection 和 tracking 是在两个部分分别实现的:前一帧的检测结果和当前帧的检测结果输入到 tracker
 
 - 
Data association problem
- 考虑如何在视频序列中,将跨帧的检测结果结合起来,实现跟踪
 - Modelling the motion and appearance of objects in the scene 对要跟踪的对象的运动和外观建模
 - 数据关联技术:
- Multiple Hypothesis Tracking
 - Joint Probabilistic Data Association
 
 
 - 
Detection
- 检测的质量会很大程度影响跟踪的表现
 - 在检测的结果中,只有得到的 bounding box 的位置和尺寸信息输入到 tracker 中,外观特征被忽略了
 
 - 
本文的内容
 
Efficient and reliable handling of the common frame-to-frame associations
关注的还是帧间的关联
* 对于检测的部分,直接利用了当前性能较好的检测器(R-CNN)
* Tracker 中的方法 
  * For motion prediction : Kalman filter
  * For data association : Hungarian method
        2. Literature review
- Traditional MOT
- 主要的问题在于决策延迟而无法应用于实时在线跟踪
 - 提出了一些相关的MOT方法
 
 
3. Methodology
分成了几个部分介绍:
- Detection
 - Propagating object states into future frames 目标状态的传递
 - Associating current detections with existing objects 当前检测结果的利用
 - Managing the lifespan(“寿命”) of tracked objects
 
3.1. Detection
- 
使用了 the Faster Region CNN (FrRCNN) 作为检测框架
 - 
使用不同的 backbone ,得到了两个不同的检测器:
- FrRCNN(ZF)
 - FrRCNN(VGG16)
 
 - 
通过使用不同的 detector 和 tracker 进行比较,可以发现检测的质量对跟踪表现有很大影响

 
3.2. Estimation Model
__ 介绍的是对目标/对象进行建模的方法 __
- 
the object model : 用于将目标的id传递到下一帧的表示形式和运动模型
- 表现形式 representation
 - 运动模型 motion model
 
 - 
每个目标的状态表示

- u, v : 目标中心在图像上的像素位置
 - s, r : bounding box 的面积和纵横比,其中 r 为常值
 
 - 
目标检测得到的 bounding box 用于更新目标状态,在该状态下通过卡尔曼滤波器对速度分量进行最佳求解
 - 
使用 a linear constant velocity model (线性恒速模型) 来逼近每个对象的帧间位移
 - 
如果没有检测到与目标相关联的检测信息,那么无需使用线性恒速模型
 
3.3. Data Association
- 
存有疑惑的几个问题:
- 如何将当前的检测结果与现有跟踪目标匹配?
 - 现有跟踪目标是以什么形式存储?
 - 预测目标新位置的方法
 - 如何/为什么根据目标的预测位置来估计每个目标的边界框几何形状?
 
 - 
The assignment cost matrix (将检测结果分配给对应的现有目标)
- the IOU distance
 - each detection and all predicted bounding boxes from the existing targets
两个部分的匹配,一个是目标检测的结果,一个是现有目标的所有预测边界框;
目前的问题在于如何预测现有目标在当前帧的边界框,以及如何根据IOU来进行分配(分配策略) 
 - 
The assignment is solved optimally using the Hungarian algorithm.
 - 
如果 IOU 小于某一阈值,则拒绝分配
 - 
一个发现:> The IOU distance of the bounding boxes implicitly handles short term occlusion caused by passing targets.
IOU距离的策略,隐式处理了由于目标移动引起的短期遮挡问题。 
3.4. Creation and Detection of Track Identities
- 
处理的情况:当目标出现/消失在图像中时,其对应的 identity 需要按照一定规则进行创建/消除。
 - 
For creating trackers :
- 当某一 detection 的重叠小于 IOUmin 时,表示存在未跟踪的目标
 - Tracker 初始化
- 使用边界框的几何体(geometry)初始化,并将速度设置为零
 - 由于当前速度无法观察得到,因此速度分量的协方差初始化为很大的值,表示不确定性
 - 新创建的 tracker 需要经历一个试用期,在此期间,目标需要与检测相关联以累积足够的证据,以防跟踪误报
 
 
 - 
Tracks are terminated (终止跟踪条件) :如果在 Tloss 帧没有被检测到(在实验中, Tloss 设置为1)
 - 
为什么在本文实验中 Tloss 设置为1
- 恒定速度模型(the constant velocity model)不能准确预测真实动力学
 - 论文主要关注帧间跟踪,不关注对目标的重新识别(re-identification)
 - 这也意味着当某一对象重新出现在图像中时,tracker 将以新的id对其进行隐式恢复
 
 
4. Experiments
- 数据集:包含了动态和静态摄像机序列
 - 调整的超参数:
- the initial Kalman filter covariances
 - IOUmin
 - Tloss
 
 
4.1. Metrics
the evaluation metrics + the standard MOT metrics
- MOTA : Multi-object tracking accuracy
 - MOTP : Multi-object tracking precision
 - FAF : number of false alarms per frame
 - MT : number of mostly tracked trajectories 最长跟踪轨迹 例如目标在至少80%的使用寿命中具有相同的标签
 - ML : number of mostly lost trajectories
 - FP : number of false detections
 - FN : number of missed detections
 - ID sw : number of times an ID switches to a different previously tracked object 在跟踪过程中出现混淆
 - Frag : number of fragmentations where a track is interrupted by miss detection
True positives : 与真实边界框至少有50%的重叠 
4.2. Performance Evaluation
与其他现有的 online trackers 进行比较。

- 获得了最高的 MOTA 分数
 - 由于SORT专注于帧间关联,其ML是最小的
 
4.3. Runtime
SORT 实现了实时跟踪,且没有牺牲准确度
5. Conclusion
- 强调该方法重点关注于帧间预测和关联
 - 检测表现很大程度上影响跟踪质量
 - re-identification – 解决长期遮挡问题
 
