《Rethinking the competition between detection and ReID in Multi-Object Tracking》简述
引言
基于ReID的跟踪器主要包含两阶段和单阶段两种类型。前者具有较高的识别精度但计算负担较大(因为ReID需要从每个检测框中提取特征),因此逐渐被单阶段方法所取代。本文深入探讨单阶段方法的工作原理,并揭示性能下降的主要原因:第一,在单阶段方法中目标置信度、目标尺寸及ID信息均源自同一共享嵌入空间;尽管效率较高但忽视了不同任务间的固有差异性——检测任务要求同类目标间具有最大的类间距离(相似语义信息),而ReID则要求同类目标间具有最大的类内距离(区分语义特征);第二,在ReID任务中输入图像通常采用固定尺寸表示,在多目标跟踪(MOT)中由于目标尺寸可能在帧间剧烈变化导致ReID网络难以适应
为了解决上述的竞争问题论文提出了一种创新性的交叉相关网络(CCN)来优化单阶段跟踪框架中的检测与识别协同学习过程作者将两者进行了解耦分别独立学习接着两个分支通过自注意力机制生成各自的任务权重图以及交叉相关权重图自注意力权重图有助于促进各自分支的学习而交叉相关权重图则旨在提升两任务间的协同学习效果此外为解决尺度变化带来的挑战设计了一种尺度感知注意力网络(SAAN)用于优化ReID特征提取过程该网络采用空间注意力与通道注意力相结合的方式能够有效捕获目标不同尺度下的外观特征最终通过融合不同尺度下的特征从而实现了性能提升
方法
整体框架如下:

基于JDE框架设计,在系统中间部分引入了CCN网络模块,并将其应用于构建用于检测与识别不同分支的特征图。随后将这些特征图分别输入到检测头与SAAN模块中进行处理。值得注意的是,在检测头部分采用了YOLOv5架构替代了JDE中的YOLOv3结构以进一步优化性能

从检测器的backbone提取特征图F后,在经过平均降维池化处理后获得更为精炼的特征图F'。随后分别作用于精炼特征图F'上的两个不同卷积层生成T1和T2两个新特征图。接下来将M1与自身转置矩阵相乘后应用softmax函数获得自注意力权重Wt1;同理可得Wt2。同样地将M1与M2转置矩阵相乘并施加两次softmax操作以获取互信息权重Ws1;再将M2与其转置矩阵相乘后再施加一次转置并应用softmax函数来计算Ws2。对于每个分支而言需将自关注权重与互关注权重进行叠加求取通道级融合权重然后将其与原始输入特征求点积后再累加原始输入特征求得最终输出特征求取该分支上的结果分别为Ft1用于检测头部识别任务以及 Ft2用于SAAN中的目标重识别任务。

首先,在输入图像尺寸的基础上,将尺度为1/16和1/32的特征进行采样至1/8。接着,在重构后的特征图上应用3×3的卷积层进行编码。通过引入空间注意力机制来增强与目标相关的特征表示的同时(如图3 (b)所示),本文将不同尺度的特征映射连接起来,并通过通道注意力模块传递信息。(如图3©所示)其中通道注意模块由平均池化层和最大池化层构成(如图4所示)。
实验
关于CCN和SAAN作用的消融实验如表1所示:

在MOT16和MOT17上实验结果如表2所示:

总结
最近看到最新的MOT论文基本都是类似于JDE的one-shot方法,这些方法在MOT的榜单上都有不错的表现,这篇文章写法上引言和其他one-shot的论文差不多,一开始说介绍MOT,然后说明TBD这种two-stage的方法不足,再引入one-shot,分析one-shot可以改进的点,再引出本文方法,其他不同的就是这篇文章没有写相关工作。
内容上就主要是针对于特征优化的提升,引入了注意力机制。之前JDE 就是一个特征图送入检测和ReID分支,然后作者认为这会造成后续的特征混淆,所以提出了CCN模块,用于提取更适合detection和ReID任务的一般特征和特定特征,不过从CCN网络模块来看,并看不出能说服与适合相关的理论依据,两边唯一不同的就是中间的M1和M2的转置相乘后是否转置,然后后面提出的SAAN模块,就是不同分支采用不同的下采样倍率获得不同尺度的特征图,对ReID进行多尺度融合,这两部分就是论文里的改进点(检测从yolov3换成yolov5应该算不上提出的改进点吧,这篇论文也是在实验部分里说明的)。
从与SOTA的整体实验里可以看出,这篇论文的精度效果确实很好,但是FPS上降低了。另外从消融实验里看到,把检测模块从yolov3换成yolov5得到的非常多,所以感觉这领域还是更多靠检测上的提升。另一方面整体实验可以看到大多数MOT榜单上的方法FPS都偏低,不过在消融实验和整体实验里,JDE的效果并不一样,查阅JDE论文后发现,前者应该是作者自己做的实验,而后者数据是论文里的数据。

