FairMOT: On the Fairness of Detection and Re-Identification in MultipleObject Tracking
FairMOT 论文开发了一种基于 CenterNet 的多目标跟踪系统,在检测与重识别(re-ID)任务之间实现了公平性的提升。通过优化网络架构来提升这两项指标的表现。

背景:
“检测优先、重识别次要”:是一种不平衡的架构
基于anchor的传统方法:基于检测提取re-ID特征,锚点引入了模糊性
两个独立的模型:它们没有共享的特征,并且面对大量对象时无法实现实时推理;然而,在这种情况下,当它们具有共同的特性时,则会进而产生冲突
单个网络估计对象:其检测精度较高且伴随跟踪性能有所降低;它仅与邻近帧的对象相关联,并无需重新初始化丢失的轨迹
re-ID和目标检测的特征维度巨大差异损害两个任务的性能
关键:
创新点:
去锚框的结构:基于中心点的检测架构CenterNet提取物体特征
双分支设计:在单一网络环境中同时实施检测与重识别过程,以保证两个任务各自的特征独立性
低维重识别特征:MOT任务不同于re-ID任务
基于单一图像的重识别网络:该方法在图像级别的数据集上进行预训练,并通过优化设计进一步提高网络在泛化性和检测效果方面的性能。
重点:
多任务平衡:通过计算不确定性损失的自动进行检测与重识别的过程来实现各任务之间的特征分配与共享
高效率的数据配准:通过融合 Kalman 滤波器与余弦相似度算法,实现实时目标的配准。
高效的网络结构:保持检测精度的同时实现实时处理
难点:
特征冲突的解决 :
在传统 one-shot 框架下,由于检测与重识别任务共用特征图而导致的特征冲突问题较为突出。为此,FairMOT 通过设计合理的网络架构及高效的特征提取方法以降低冲突程度。
深层vs浅层:
深层特征:在网络中层次的深度,越深层包含越抽象的语义信息
re-ID:浅层特征,更贴近图像原始信息,边缘、颜色等更好区分外观
目标检测:深层次特征,在图像处理过程中通过多层卷积模块叠加计算来获取更为复杂的抽象语义信息,并且这种技术能够有效地辅助系统准确识别物体所属类别及其具体位置
高维vs低维:
高维特征:指特征向量维度的大小,越高维越可以提取细节信息,高维

深层
re-ID:高维特征,需要在特征空间中区分每个行人的身份
目标检测:通过低维表征来描述为目标类别的坐标信息及包围框。
重识别特征的准确性 :
低维更适合一次性MOT:
①学习低维re-ID特征可平衡目标检测和re-ID任务
②re-ID需要高维特征,但MOT整体不需要始终使用特别高维特征
③提升推理速度
实时性要求 :
多目标跟踪任务对计算资源的依赖程度较高,在保证跟踪精度的基础上进一步提升运行效率是必要的。
FairMOT:
网络结构:
backbone:
ResNet-34 + DLA-34
upsampling:
在低级和高级特征之间采用跳跃连接,类似FPN,更好的进行特征融合

替代该模块中的卷积层采用可变形卷积结构进行替换,并根据物体的尺寸与形状进行动态调节以适应不同物体的尺寸与形状变化
检测+re-ID:
基础检测框架:CenterNet
目标检测和重识别:

- 检测分支:主要负责生成目标中心点的热力图和边界框的位移信息。热力图中每个像素代表对应位置是否为目标中心点的位置,而位移量可用于精确定位边界框的位置。
- 重识别分支:主要负责生成一个特征嵌入(embedding)图,在此过程中为每个像素生成相应的特征表示。每当检测到某个目标中心点位置时,在其对应的特征中记录下该目标的身份信息。
输入:

输出:

去锚框的架构设计:
基于锚点的设计不适合学习re-ID特征:
①基于检测提取re-ID特征,锚点引入模糊性
②一个锚点对应多个身份,ROI-Align采样位置干扰

③多个锚点对应两者中的一个身份
基于 CenterNet 通过热力图预测中心点:

红色框表示正锚点(positive anchors),绿色框表示目标对象
TrackRCNN和JDE:
①都是基于锚点的跟踪算法
②TrackRCNN将检测视为主要任务,将re-ID作为次要任务
③TrackRCNN使用ROI-Align从所有正锚点中提取re-ID特征
④JDE在所有正锚点的中心提取re-ID特征
FairMOT:
①不基于锚点(Anchor-free)的跟踪算法
位于目标对象的中心区域,有助于提取出re-ID特征,并且能够降低因锚点问题引发的冲突与误报
多任务平衡
Uncertainty-task:
分别学习检测损失和重新识别损失的两个参数
Uncertainty-branch:
分别学习热图损失、框大小损失、偏移损失和重新 ID 损失的四个参数。
Uncertainty Loss:
通过动态优化损失权重配置,模型能够实现检测精度与重识别精度的最佳协调

通过学习两个可调参数

和

,实现两个任务的损失平衡,使网络优化时不偏向任何一个任务
单图像训练(Single Image Training)
FairMOT视作CrowdHuman等单图像数据集的目标并将其视为独立的身份,在此过程中赋予每个目标独特的身份标记。通过图像级别的训练优化检测与重识别模块的通用性,并由此增强了在不同场景下的追踪能力。
模型流程:

输入图像

输入是一个视频帧或图像,检测图中的多个目标并进行身份重识别
编码-解码网络(Encoder-Decoder Network)
提取网络的核心结构,输入图像会先经过网络提取特征


编码-解码网络采用了一种层级结构,特征图从粗到细逐层提取
- 下采样操作:红色指示线,在逐级缩小尺寸的同时提取出图像中的高层语义信息。
- 上采样过程:黄色指示线,在逐步还原并恢复至高分辨率图像的过程中捕捉细节。
- 保持图像清晰度:蓝色连接线,在直接连接各层节点的同时维持图像清晰度。
- 特征融合过程:通过逐级叠加不同深度的特徴图谱,在最终生成一个高清晰度且富含丰富语义信息的特徵图。
检测分支(Detection Branch)
该系统采用基于CenterNet的方法,并由三个并行模块构成。这些模块用于定位并估计物体在图像中的具体位置和尺寸。

在推理过程中, 检测分支首先生成了热力图, 并对该结果采用了非极大值抑制技术以定位每个目标的中心点. 随后通过分析边界框的大小与位置偏移信息从而获得了更为精确的目标边界. 因此整个检测分支的主要任务即在于实现高效的精准目标检测, 并为此提供必要的基础定位信息.
Heatmap:
该方法旨在确定每个目标的关键位置;通过创建中心点热力分布图来确定目标位置。
维度:

GT box:

,

代表左上角和右下角点
目标中心点:

映射到特征图上的点:

热图相应使用高斯分布
损失函数:

Box Offset/Size Head:
Size:
基于中心点坐标的确定, 该模型能够计算并预测得到目标区域的宽度. 高度及其对应的边界框尺寸.
定义:

输出:

Box Offset:
微调目标的中心点,使边界框位置更精确
定义:

输出:

损失函数:

重识别分支(Re-ID Branch)
用于身份特征提取的分支网络(Re-ID Embeddings)被设计用来识别各目标的独特标识信息,在同一场景的不同帧中追踪相同的对象

特征嵌入图(Feature Embedding Map) :
重识别分支随后创建了一个与检测分支热力图尺寸相同的特征嵌入图,在该特征嵌入图中每一个像素位置均对应着一个用于表示该位置身份特性的特征向量
目标特征提取(Target Feature Extraction) :
对于每个目标的中心点位置,在识别分支中提取相应的特征向量,并将其作为该对象身份特性的特征向量进行处理。在模型训练过程中,在具有相同中心点的所有对象中将他们的相应参数进行分类处理,并将具有相同中心点的所有对象的参数进行分类处理,并将具有相同中心点的所有对象参数统一归类为同一类别。从而使得该分类后的数据能够有效反映特定身份信息并被后续模型所利用
低维特征表示 :
将重识别特征的维度减少为 64 维

缓解检测与重识别任务之间的特征竞争关系,并使跟踪整体性能得到提升;通过采用低维特征表示进一步提升推理效率,并确保模型的实时性
损失函数:

多任务分支结构
FairMOT 将检测和重识别分支集成在同一个网络中。
检测模块与重识别模块共享编码-解码网络获取的高质量特征,在处理流程中各自独立运行。
确保检测系统的高精度,并非为了提高重识别的能力;同时化解了检测与重识别之间的功能矛盾。
模型输出
模型整合每个目标的边界框位置及身份特征进行输出,并分别用于确定目标位置及身份。
在实际场景中进行多目标跟踪时,在每一帧中模型都会更新目标的位置与特征参数,并完成这一过程以实现持续追踪。
数据关联:
在推理阶段中, 该模型通过融合 Kalman 滤波与余弦距离的方法, 在推理过程中建立了当前帧检测结果与上一帧跟踪结果之间的关联关系
一阶段:
通过应用 Kalman 滤波算法对运动物体的轨迹位置进行实时估算,并基于实时检测到的数据点计算出当前观测值与预估轨迹之间的距离差异
结合余弦距离计算重识别特征的相似性,作为辅助匹配依据
将 Mahalanobis 距离与根据 re-ID 特征计算的余弦距离融合:


=0.98
使用匈牙利匹配
二阶段:
对于不匹配的检测和轨迹,根据它们的框之间的重叠匹配IOU
保存 30 帧不匹配的轨迹
结论:
FairMOT 通过提出一个去锚框、双分支的多任务跟踪架构,在解决多目标跟踪中的公平性问题方面取得了显著成效,并实现了精确高效且均衡的性能。
效果图:

