【多目标跟踪论文阅读笔记——FairMOT】
[阅读心得] 多目标跟踪经典论文——FairMOT
- 写在前面
-
-
1. Abstract
-
2. Unfairness Issues in One-shot Trackers
-
- 2.1 Anchor机制
- 2.2 特征图
- 2.3 特征图尺寸
-
3. FairMOT
-
- 3.1 Backbone
- 3.2 Multi-Task Learning
- 3.3 Association
-
4. Experiments
-
- 4.1 Visualization
- 4.2 Run-time
- 4.3 Compare with SOTA
-
参考
-
【论文】https://arxiv.org/pdf/2004.01888.pdf
【代码】https://github.com/ifzhang/FairMOT
写在前面
作者提出,目前的跟踪算法设计过程中,将REID任务作为Detection的下游任务,这导致了其精度很大程度上取决于Detection效果。这对REID任务来说是“不公平的”。因此本文分析了这种“不公平”的来源(第2节)并设计了一种基于anchor-free机制的网络(第3节)。在保证实时性情况下,性能得到了进一步提升。
1. Abstract
论文主要做了如下工作:
- 分析 了JDE模式(one-stage)下REID任务和Detection任务不公平的问题来源
- 提出 一种简介有效的方法“FairMOT”,顾名思义,公平地在一个网络完成两个任务,表现优异
2. Unfairness Issues in One-shot Trackers
提出3种对REID任务不公平的成因,认为这导致了整体算法性能下降

2.1 Anchor机制
现有的one-stage模式跟踪算法(JDE、Track R-CNN)都采用的anchor机制的网络,但是发现这种机制可能不利于 获得优秀的REID特征,原因如下:
- ,先检测再REID,会导致REID效果极大地受到检测任务的影响
- 一个anchor对应多个ID,如Fig2. (b),则REID网络会被迫提取两个不同ID的外形特征,效果不理想不言而喻
- 多个anchor对应一个ID,如Fig2. ©
2.2 特征图
目前的one-stage跟踪算法,Detection和REID的任务共享了绝大部分的特征(feature),但是这两个任务实际上需要来自不同层的特征 来获得最优性能,按照原作者所说:
Object detection requires deep feature toe estimate object classes and positions
RE-ID requires low-level appeareance features to distinguish different instances of the same class
2.3 特征图尺寸
先前的工作中,REID网络主要学习高维的特征图。但作者认为REID网络学习低维特征更好。原因有三:
- 从高维学习REID特征可能会伤害Detection效果
- 不同于单纯的REID任务,MOT中对应的任务相对更简单,不需要那么高维的特征学习
- 推理速度更快
3. FairMOT

3.1 Backbone
基于anchor-free机制、不同任务的侧重特征维度不同两个思路,设计了DLA-34网络,具体细节见原论文。主要的设计思想就是前面说的两个。
3.2 Multi-Task Learning
\mathcal L_{total} = \frac {1}{2} (\frac{1}{e^{w_1}}\mathcal L_{detection} + \frac{1}{e^{w_2}}\mathcal L_{identity} + w_1 + w_2)
其中,w_1, w_2是可学习的参数
笔者认为,这部分基本与JDE中多任务平衡的做法相同,只不过FairMOT没有把所有平衡或者Alignment的任务都寄托在这个环节,而是依靠前面更精细的backbnone和head设计思路分担了这个压力,所以最终获得了更好的平衡效果。
3.3 Association
基本按照MOTDT提出的方法进行
4. Experiments
4.1 Visualization

证明了anchor-free机制和DLA-34网络的有效性
4.2 Run-time

4.3 Compare with SOTA
1.与同范式的前作JDE、Track R-CNN进行对比

JDE的作者特意提到的IDs过高的问题明显改善了,证明anchor-free机制确实更利与REID部分的表现。
此外,整体性能提升,帧数不降反升。笔者认为这是因为在网络设计上更加精细,舍弃了FPN的三通道结构,且用了更轻量的网络原型(ResNet34 v.s. Darknet)作基础,因此速度上表现十分优异。
2.与SOTA对比(不仅包含one-stage,甚至包含two-stage~)

