TransCenter: Transformers with Dense Queries for Multiple-Object Tracking
The TransCenters framework incorporates dense query mechanisms to achieve efficient multi-object tracking.
近期几篇基于transformer实现多目标跟踪的论文之一发布于MIT,并已经达到了当前的最优水平。建议深入阅读这篇论文。
Introduction
论文在一开始的introduction内很好地阐述了当前MOT的一些局限性,并凸显了基于点的目标跟踪在该领域的独特价值。
作者提出,在以往的研究中大多采用边界框(bbox)的形式来表征目标特征,在这种框架下 bbox 在目标出现严重遮挡时会存在显著缺陷:即多个 bbox 之间的重叠现象会导致跟踪性能下降的原因在于 bbox 不仅用于精确定位目标的位置参数(如宽度与高度),同时也参与外貌特征提取的过程,在重叠情形下所学习到的外貌信息易产生相似性。
值得注意的是 bbox 表示方式在一定程度上会引入背景信息干扰。
FairMOT 提出了一种创新思路:将检测任务与关联任务同等重视,并寻求两者的平衡协调。
中心态向(CenterTrack)则直接突破传统模式通过预测目标在两帧间的偏移量来进行追踪操作。
近年来Transformer架构已在计算机视觉领域展现出巨大潜力,并被成功应用于目标检测领域中的DETR模型。
DETR 基于ResNet提取图像特征后通过解码器进行目标检测定位。
尽管其具有较高的计算复杂度但其收敛速度较难满足实际需求为此研究团队提出了可变卷积(Deformable DETR)改进方案有效降低了收敛速度的同时降低了计算复杂度并支持多尺度特征提取以捕捉更精细的目标细节。
在此基础上研究者将Transformer架构引入目标跟踪领域提出了两种创新设计:
一种是基于DETR框架添加了track query模块实现直接追踪;
另一种是在DETR基础之上构建了一个解码器分支用于处理历史帧图像从而实现对现有目标位置进行微调优化。
值得注意的是MO3TR模型同时采用了空间维度与时间维度各一个Transformer模块分别负责捕捉目标间相互作用关系及长程遮挡问题。
然而目前所有基于Transformer的目标跟踪模型仍停留在检测框架层面仅将其作为辅助工具用于追踪过程且均采用了传统的 bbox 表示方式这仍是当前研究的主要局限性所在。
受此启发作者开发出了 TransCenter 模型首次将Transformer架构应用于点跟踪问题中并提出了一种全新的解决方案 TransCenter 的核心思想在于通过解决传统 bbox 跟踪方法中存在的遮挡问题实现了无需依赖分割级 ground truth 标注的需求。
然而该模型面临一个关键的技术挑战即如何高效生成密集点表示这一问题直接影响着整体算法性能表现

上图为按顺序依次展示TransCenter的行为热力图、基于TransTrack生成的目标中心定位热力图以及CenterTrack与FairMOT的行为热力对比。早期的TransTrack方法依赖于稀疏采样机制,在实际应用中容易出现漏检现象(如示例中的粉色箭头所示),尤其是在目标被强烈遮挡时还可能引发误检问题(如绿色箭头所示)。与之相比,在预测目标中心位置时,CenterTrack和FairMOT方法均采用了独立建模的方式,而 TransCenter 创新性地采用了密集多尺度采样策略来构建目标中心位置的行为热力图,并通过引入注意力机制捕捉各关键点间的相互作用关系。
TransCenter for Multiple Object Tracking
从整体来看,作者将MOT问题划分为两个子任务:一是检测t时刻的目标位置;二是关联t-1时刻的目标与当前时刻的目标。相较于传统方法而言,在这一框架下引入了并行设计的优势在于能够同时完成这两个子任务的操作。具体来说,在解码器的设计上采用了两步并一法的策略:首先通过检测解码器估算出当前目标的位置信息及其尺寸参数;其次通过跟踪解码器结合历史信息推导出目标相对于上一帧的位置变化量。
TransCenter in a Nutshell

上图展示了TransCenter的整体架构。具体而言,在t时刻和t-1时刻连续采集的两帧图像被输入至CNN主干网络中进行处理,在此过程中主干网络提取了多尺度特征,并与Deformable DETR模型中的组件保持一致特性。这些特征随后经过可变卷积编码器处理后得到了两张多尺度特征图\mathbf{M}_{t}和\mathbf{M}_{t-1}。随后将\mathbf{M}_{t}输入至一个查询学习网络(QLN),该网络由全连接层构成,在此过程中生成用于检测任务密集式的多尺度查询向量\mathbf{D Q}_{t}。将这些检测相关的查询向量进一步输入到另一个QLN模块中,则会生成用于跟踪分支的查询向量\mathbf{T Q}_{t}。在解码过程中采用了两个可变卷积解码器分别对这两组查询向量进行操作:检测解码器利用\mathbf{D Q}_{t}对当前时刻的记忆单元\mathbf{M}_{t}进行解码操作,并最终生成用于目标检测的多尺度特征图\mathbf{D F}_{t};而跟踪解码器则通过利用前一时刻生成的查询向量\mathbf{T Q}_{t}对记忆单元中的上一帧图像信息\mathbf{M}_{t-1}进行解码操作,并在此基础上预测出目标位置偏移量向量\mathbf{T}_{t}. 此外,在目标检测阶段还需要结合预测得到的位置偏移信息以及当前帧与前一帧之间的中心点热度图信息来实现精确的目标定位。
Dense Multi-scale Queries
传统的transformer结构,其decoder部分输出的数量,是与输入到decoder的query的个数相同的,而且输出是对应着实体的,比如DETR中一个输出对应一个目标bbox。当TransCenter需要推理出中心点的热度图时,每个像素点对应一个目标的中心点的概率,便成了模型需要寻找的东西,而这数量是稀疏query远远达不到的,所以作者设计了密集多尺度query。这些密集query是从检测编码器的输出(memory,\mathbf{M}_{t})中得到的,将memory输入到query学习网络(QLN)中,得到用于检测的query,\mathbf{D Q}_{t}。再将\mathbf{D Q}_{t}送入第二个QLN中,会得到用于跟踪的query,\mathbf{T Q}_{t}。
作者将密集query特征图的分辨率调整为与原始图像成比例的大小,这样做有着以下优点:(1)query可以是多尺度的,利用编码器的多分辨率结构,可以使得query也可以捕获到小目标的信息;(2)密集的query使得网络结构更加灵活,可以适应任意的输入图像大小。换而言之,QLN的使用,避免了人工设定query大小和个数的步骤 。
Fully Deformable Dual Decoder
为了实现目标轨迹的追踪,在一个MOT方法中不仅要求能够检测出目标本身还需要对这些目标进行跨帧关联处理。作者在TransCenter架构中设计了一种较为复杂的双解码器结构(稍显复杂),这种结构包含了两个可变卷积相同的可变卷积模块以辅助特征重建过程。从工作流程来看相对简单:检测分支利用注意力机制通过\mathbf{C}_{t}对\mathbf{M}_{t}进行解码从而识别图像I_t中的目标并输出其位置信息;而跟踪分支则基于\mathbf{T Q}_{t}与前一帧特征图\mathbf{M}_{t-1}之间的关系提取相关特征用于目标状态更新这一步骤同样包含着时间信息的捕捉功能以支持t到t-1的目标偏移预测需求。两种分支的输入均为密集型query特征图这一特点使得模型能够在多尺度特征处理上展现出良好的适应性特性。然而在实际应用中如果采用传统的transformer架构则会面临较高的内存消耗问题导致计算复杂度急剧上升至O\left(H^{2} W^{2}\right)这样的计算负担会对算法的实际应用带来诸多限制特别是在处理多尺度特征时表现尤为明显因此作者随后转而思考引入了可变多头注意力机制
The Center, the Size and the Tracking Branches
这两个解码器分别输出了\mathbf{D Q}_{t}与\mathbf{T Q}_{t}。具体而言,在模型架构设计中, 由四个不同分辨率构成的一系列特征图, 分别对应于输入图像尺寸的八分之一, 四分之一, 十六分之一以及六十四分之一. 在中心点热度分支模块以及用于计算目标框尺寸的部分中, 通过可变卷积层与双线性插值技术进行信息整合. 如下图所示

经过融合后的特征图尺寸相当于输入图像面积的四分之一。输出结果中C_t位于[0,1]区间内,并且S_t是一个实数矩阵。在跟踪分支中采用相同的融合方法(仅参数有所区别),从而获得两张与原图四分之一尺寸一致的特征图。将前一帧生成的热力图进行下采样处理后,并将其与上述两个特征进行拼接组合。随后和其他分支一样,通过几层卷积层计算出对应的偏移量T_t属于一个实数矩阵
Training TransCenter
训练TransCenter其实就是一个中心点热度图的分类任务加上目标大小和偏移量的回归任务。
Center Focal Loss: 为了训练分类分支,首先需要构建gt热度图,\mathbf{C}^{*} \in[0,1]^{H / 4 \times W / 4}。这里构建\mathbf{C}^{*}的思路与CenterNet和CenterTrack一致,采用该点到以各个目标为中心的高斯核的最大相应。具体公式如下:\mathbf{C}_{x y}^{*}=\max _{k=1, \ldots, K} G\left((x, y),\left(x_{k}, y_{k}\right) ; \sigma\right)其中,(x_{k}, y_{k})是 gt目标的中心点坐标,G(\cdot, \cdot ; \sigma)为高斯核函数,里面的\sigma和目标的大小成正比。有了\mathbf{C}^{*}和推理出的\mathbf{C},便可以计算focal loss:L_{\mathrm{C}}=\frac{1}{K} \sum_{x y}\left\{\begin{array}{ll} \left(1-\mathbf{C}_{x y}\right)^{\alpha} \log \left(\mathbf{C}_{x y}\right) & \mathbf{C}_{x y}^{*}=1 \\ \left(1-\mathbf{C}_{x y}^{*}\right)^{\beta}\left(\mathbf{C}_{x y}\right)^{\alpha} \log \left(1-\mathbf{C}_{x y}\right) & \text { otherwise } \end{array}\right.其中超参设定为\alpha=2和\beta=4。
Sparse Regression Loss: 只有当对应的C_{x y}^{*}等于1时,才计算bbox大小和偏移量的L1损失:L_{\mathrm{S}}=\frac{1}{K} \sum_{x y}\left\{\begin{array}{ll} \left\|\mathbf{S}_{x y}-\mathbf{S}_{x y}^{*}\right\|_{1} & \mathbf{C}_{x y}^{*}=1 \\ 0 & \text { otherwise } \end{array}\right.偏移量损失L_{\mathrm{T}}的计算方式与L_{\mathrm{S}}类似。为了保证L_{\mathrm{T}}和L_{\mathrm{S}}的稀疏性,作者还额外添加了一个L1损失,L_{\mathrm{R}},是从\mathbf{S}_{\mathbf{t}}计算得到的bbox和gt框之间的损失。
所以最终损失即为各个损失的加权和,权重由各个损失的数值范围决定(文中实验设为\lambda_{S}=0.1,\lambda_{R}=0.5,\lambda_{T}=1.0):L=L_{\mathrm{C}}+\lambda_{\mathrm{S}} L_{\mathrm{S}}+\lambda_{\mathrm{T}} L_{\mathrm{T}}+\lambda_{\mathrm{R}} L_{\mathrm{R}}
Experimental Evaluation
推理过程中,作者设定阈值为0.5,从中心点热度图上过滤出若干中心点,\left\{\mathbf{c}_{t, k}\right\}_{k=1}^{K_{t}}。在\mathbf{S}_{t}中再提取相应位置的bbox大小,最终得到当前帧的检测结果\mathbf{D}_{t}=\left\{\mathbf{c}_{t, k}, \mathbf{s}_{t, k}\right\}_{k=1}^{K_{t}}。再在\mathbf{T}_{t}的相应位置出提取出偏移量,得到当前帧目标在上一帧中的位置\tilde{\mathbf{D}}_{t-1}=\left\{\mathbf{c}_{t, k}+\mathbf{t}_{t, k}, \mathbf{s}_{t, k}\right\}_{k=1}^{K_{t}}。通过匈牙利算法,将上一帧的检测结果\mathbf{D}_{t-1}和这一帧预测的当前帧目标在上一帧中的位置\tilde{\mathbf{D}}_{t-1}进行匹配。轨迹的初始化和终结也自然而然可以进行:未匹配到上一帧检测结果的当前帧目标开启一段新的轨迹,而上一帧的检测结果未匹配到新的检测框时,将其暂时保留,若 60帧内还是没有匹配到,则将其终结。


基于MOT17和MOT20的数据集对比实验中可以看出

实验结果展示图中清晰展示了作者在MOT17和MOT20两个数据集上的消融实验结果。首先,在仅采用单个解码器的情况下表现欠佳(performance)。其次,在此基础之上引入ReID网络以解决轨迹中断问题时(通过与前一时刻检测到的目标进行匹配),虽然降低了误报率(false alarm rate),但整体跟踪性能并未显著提升(mOTP指标)。最后分析发现,在以bbox形式定义目标位置时(虽然能较为准确地定位目标物体),其平均精度(mOTP)虽有所提升(达到一定水平),但同时带来了更高的误报率和漏报率(false positives and false negatives)。因此,在不引入额外损失函数的情况下(如去除L_R项),模型的整体性能会受到轻微影响
总结
该研究开发了一种名为TransCenter的新方法,在多目标跟踪(MOT)领域首次实现了将变换器与点跟踪技术相结合。通过整体架构图可以看出,在不考虑变换器的部分时,剩余的框架与现有的CenterTrack方法具有相似性。该方法的核心贡献在于通过引入变换器模型有效地提升了特征提取效果。特别值得一提的是,在多尺度特征融合模块中采用了独特的算法设计。
