Global Tracking Transformers (多目标跟踪2022CVPR)
Global Tracking Transformers
论文地址:https://arxiv.org/abs/2203.13250
代码: https://github.com/xingyizhou/GTR
目录
- Global Tracking Transformers
- 摘要
- 1、介绍
- 2、相关工作
- 3、预备阶段
- 4、全局跟踪器
-
4.1. 跟踪Transformer:
-
基于Transformer架构构建了一种新型的追踪模型。
-
设计并实现了高效的训练策略以及优化算法。
-
支持高效的在线推理能力,并满足实时处理需求。
-
深入探讨了网络结构的设计思路及其优化过程。
-
在线推理性能达到实时处理水平。
-
网络架构设计充分考虑了计算效率与准确性之间的平衡。
-
5.实验
-
- 5.2. 训练和推理细节
- 5.3. 全局与局部关联
- 5.4. 与最新技术的比较
- 5.5. 设计选择实验
-
6.结论
-
摘要
我们的网络采用短序列帧作为输入,并通过生成目标的全局运动轨迹来实现追踪。该模块能够对所有处理帧中的目标特征进行编码处理,并通过轨迹查询将其分组形成运动轨迹。其中轨迹查询模块仅依赖于单个帧内的目标特征信息。该系统无需依赖中间步骤进行配对分组或关联操作,并支持与对象检测器协同训练以提升追踪性能。值得注意的是,在整个设计过程中我们特别强调了方法的独特性与创新性。我们的框架能够无缝整合到当前最先进的大规模视觉检测系统中...
1、介绍
多目标跟踪旨在发现并跟踪视频流中所有目标。它是移动机器人等领域的基本构件,自治系统必须穿越由其他移动代理填充的动态环境。近年来,随着深度学习和目标检测技术的发展,基于检测的跟踪 已经成为主流跟踪模式。
TBD范式将跟踪减少为两步:检测和关联。首先,目标检测器独立地在视频流的每个帧中查找潜在对象。第二,关联步骤通过时间链接检测。本地跟踪器主要考虑贪婪的两两关联 ,它们根据位置或身份特征 维护每条轨迹的状态 ,并根据当前帧检测与每条轨迹上一可见状态相关联 。这种两两关联是有效的,但缺乏一个整体轨迹的明确模型,有时会遇到严重的遮挡或强烈的外观变化。其他全局跟踪器在成对关联上运行基于图的离线组合优化。它们可以解决不一致的分组检测,并且更加健壮,但速度较慢,通常与检测器分离。
在这项工作中,我们展示了如何将全局跟踪(图1b)表示为深度网络中的几层(图2)。 我们的网络直接输出轨迹,因此避开了成对关联和基于图的优化。我们证明,探测器[ Mask r-cnn,Faster R-CNN,Objects as points]可以通过Transformer层来增强,从而变成联合探测器和跟踪器。我们的全球跟踪变换器(GTR)对多个连续帧的检测进行编码,并使用轨迹查询将其分组为轨迹。 查询是非最大抑制后单个帧(例如在线跟踪器中的当前帧)的检测特征,并由GTR转换为轨迹。每个轨迹查询通过使用softmax分布为其分配来自每个帧的检测来生成单个全局轨迹。因此,我们模型的输出是检测及其随时间的关联。
训练时 ,我们使用GT真实轨迹及其图像级边界框监督学习我们的GTR输出。在推理过程中 ,我们以滑动窗口的方式运行GTR,时间大小适中,为32帧,并在线链接窗口之间的轨迹。该模型在时间窗口内是端到端可微的。
Trackformer、Transtrack、End-to-end video instance segmentation with transformers.
Trackformer、Transtrack、End-to-end video instance segmentation with transformers.
该框架建立在最近 advancements in computer vision[参考文献: 49; 8; 53; 67] 和 transformer-based detection techniques[参考文献: 49; 8; 53; 67] 的基础上发展而来。我们通过在一个时间段内实现轨迹查询与目标特征间的交叉注意力机制,并明确监督该机制生成一个从查询到检测的分配关系来实现这一目标。每个这样的分配均与全局轨迹建立联系。相较于采用 transformer-based detection methods 的现有解决方案(如 Trackformer 和 Transtrack),我们方法的独特之处在于:首先我们采用了固定的 query parameters 而非从零学习;其次我们利用现有的 detection modules 来获取 query terms 并使其适应于具体场景;最后我们特别强调的是:我们的 GTR module 是直接作用于 detected objects 而不是原始像素数据上。
此外,在设计架构时我们始终秉持了端到端可训练性原则并致力于提高其高效可靠性。

2、相关工作
Tracking without bells and whistles、Tracking without bells and whistles、JDE、Transcenter、Fairmot、Tracking objects as points
全局跟踪: 传统的跟踪器首先在离线环境中进行目标检测,并对所有帧之间的对象关联关系进行分析与建模作为组合优化问题。Zhang等人[65]将跟踪过程描述为图上的最小代价最大流问题,在此框架下节点代表目标检测结果而边表示目标之间的有效关联关系。MPN[6]对图的构建进行了简化,并引入了一种基于神经网络的图形优化求解器。LPC[12]在此基础上进一步引入了一个分类模块来辅助目标追踪过程。Lif T[44]则在图形优化过程中综合运用了人再识别技术和姿态特征分析方法。值得注意的是这些方法仍然局限于基于配对关系的模型假设并依赖组合优化技术来选择全局一致的目标分配方案。而我们的方法直接输出一致性的长期轨迹无需依赖复杂的组合优化机制这使得整个追踪过程能够在相对浅层的网络架构中通过一次正向传播即可完成。
在目标追踪领域中:Transformers in tracking领域中
视频目标检测: 在视频目标检测任务中, 采用在视频目标特征上的注意力机制作为一个成功的方法 [37]. SELSA [57]通过将随机采样的帧区域建议反馈至自身注意力模块, 从而能够提供全局语境. MEGA [9]则提出了一种基于大时间跨度感知能力的新分层注意力机制. 基于外部存储器机制的 ContextRCNN [2]能够从外部存储器中读取离线生成的长期特征库以获取长期时序信息. 主要区别在于, 它们不再依赖于明确的目标身份信息而改用隐式的相关性推断机制来进行检测优化.
3、预备阶段
我们从正式定义目标检测、跟踪和逐检测跟踪开始。
目标检测(识别并定位所有目标) :目标检测器[8,36,45,70]将图像I作为输入,并生成一组位置为{bi}的对象{pi} 。对于多类目标检测,第二阶段[20,36]提取目标特征并生成分类分数si∈ RC来自一组预定义的类C和一个优化的位置〜bi。对于单级检测(例如行人检测[31]),可以省略第二阶段。
跟踪 : 跟踪器的目标是找到轨道τ1,τ2,随时间变化的所有对象的τk。 跟踪器可以选择性地预测目标每个轨迹的类得分sk[13],通常为每帧切片的平均类。
基于目标检测的跟踪系统:将整个跟踪过程划分为两个关键环节:一是每帧的目标检测;二是不同帧之间的目标关联。我们的研究框架采用多通道卷积神经网络(Multi-Channel Convolutional Neural Networks, MC-CNNs)提取候选目标bt1、bt2等边界框bti∈ R4,并在此基础上实现了高效的实时性追踪算法设计与性能评估指标建立。传统的解决方法通常依赖于在线匹配算法,在线阶段仅根据当前帧与前一两帧的信息进行配准。为了实现全局最优配准效果,在此研究中我们采用了端到端的学习框架,并在此基础上提出了新型跟踪系统能够在单个前向通道内同时完成多任务学习与实时性优化。实验结果表明,在32帧级数下测试显示我们的算法能够达到较高的追踪精度
4、全局跟踪器
(GTR)通过概率分配和微分机制建立各目标间的联系。 它会将每个视频帧中的目标pti与其相关联的轨迹索引qk对应起来。 每个轨迹索引qk都会生成一个对象间关联得分向量g∈ RN来覆盖所有视频帧中的目标信息。 随后根据该得分向量确定每帧中各目标的连接关系αtk∈ {∅, 1至Nt} ,其中αtk为空表示未建立连接关系;Nt则代表当前视频帧中检测的目标数量。 这些连接关系的组合最终形成一条完整的运动轨迹τk(如图2所示)。 此外该过程具备微分特性,并可与基础的目标检测模型协同训练以提升整体性能
4.1. 跟踪Transformer
基于非最大抑制(NMS)算法的设计下, 检测器能够保证点集Pt与点集PA之间的一一对应关系. 在训练阶段中, 我们最有效地提升了地面真实轨迹的概率密度. 利用概率模型动态生成长序列数据.
4.2 训练
给定一组地面真值轨迹ˆτ₁, ˆτ_K, 我们的任务是训练一个跟踪器(tracking module),该跟踪器能够推断出PA(performance metric)并通过间接推断的方式估算轨迹分布PT(trajectory distribution)。为了实现这一目标,在每一次训练迭代中,我们首先基于非最大值抑制策略获取高置信度的目标候选体bt₁, bt_Nt及其对应的特征Ft。随后,在每个轨迹τ的基础上进行优化:具体而言,在已知qk与F的条件下最大化对数似然函数log PA(α_t | qk, F)。这等价于为每个轨迹τ赋予相应的类别标签α_t后最大化其似然函数值。在实现这一过程时,默认采用目标检测的方法框架(通常基于R-CNN架构),并遵循简单的联合交集(IoU)分配规则进行目标定位:即根据各候选体与其相关特征之间的IoU值大小进行最优匹配

我们采用此划分来训练底层两级检测器的边界框回归,并计算其可能性PA值。然而这种可能性将受到后续所定义的轨迹查询qk的影响
轨迹查询: 是我们研究的核心问题。每个查询qk都会产出一条轨迹,在以往研究中[8]指出, 目标轨迹被训练成网络参数并在推理过程中保持不变. 这种做法使得查询与图像特征无关, 需要彻底枚举它们. 对于物体而言, 这种方法是可行的[8], 如锚[23]和提案[41]所展示的. 然而, 相较于简单的矩形框, 轨迹存在于潜在运动物体指数级空间中, 因此需要更多的轨迹来进行覆盖. 此外, 轨迹数据集拥有较少标注实例, 并且学习得到的轨迹容易过拟合并记住训练数据
与之前不同的是,在本研究中我们将所选的目标轨迹设定为主观测点并将之与剩余部分进行对比分析为此阶段提供了一个更为精确的基础框架在这种框架下我们可以将所选的目标轨迹设定为主观测点并将之与其他部分进行对比分析以此为基础我们可以建立一个更为精确的基础框架
训练目标: 整体训练目标将等式(2)中的分配与轨迹查询进行融合,并旨在最大化每个轨迹在其对应的查询下的条件对数似然。对于每一条轨迹τ_k来说,我们需要求解其赋值的对数似然度估计量^α_k:

对于任何未关联的特征,我们会生成空轨迹:

最终的损失只是两个方面的结合:

我们采用基于标准检测损失[70]的联合训练套索框架进行优化。该框架涉及分类损失与包围盒回归损失,并在第二阶段可选性地引入分类与多类别跟踪回归损失[13]。
4.3. 在线推理
在推理期间,在线处理视频流时采用滑动窗口策略。该策略设定窗口大小T为32,并以单位步长移动。对于每个单独的帧t,在馈送至跟踪器之前将图像输入网络以获取Nt个边界框Bt及其对应的对象特征ft。为此我们构建了一个时间历史缓冲区包含过去连续T帧的数据即B={B_{t-T+1},…,B_t}以及F={F_{T-T+1},…,F_T}这些数据用于后续操作。在此基础上我们运行跟踪器并生成相应数量的跟踪结果。针对初始状态我们将所有探测初始化为目标追踪序列随后根据后续每一帧的信息更新现有追踪结果并动态扩展目标序列库。具体而言当检测到新目标时我们计算其与现有追踪序列的距离并应用匈牙利算法确定最优匹配关系若新目标与已有目标的距离超过预先设定阈值则将其独立作为一个新的追踪序列加入系统;否则我们将当前检测信息附加到最近匹配的目标追踪序列上形成复合追踪结果
4.4. 网络架构
该全局跟踪变换器基于一组对象特征F∈ RN×D用于编码器输入,并以查询矩阵Q用于解码器输入。进而,在查询与目标之间生成关联矩阵G。跟踪变压器的详细结构如图3(左)所示:

该模型基于DETR架构[8](Distributed Transformer for Robotic Manipulation),但采用了单编码器与单解码器设计以减少计算复杂度)。经实验观察发现,在实际应用中无需涉及自注意力机制即可实现有效的特征提取(Query and Layer Normalization[1])。整体架构设计较为紧凑(仅包含10个线性层),在主干检测器运行期间的时间开销较小(甚至可支持数百次查询请求)。
4.5. 与嵌入学习和ReID的联系
探讨GTR与其相关联的点积分数变化量Δgti(qk, F ) = qk · F ti 。进一步探讨如何学习所有轨迹查询集合Q= {Q1,…,QK}作为自由参数,并对每个训练轨迹TAK进行建模。在这种变化中,在等式(1)中对softmax的分配简化为分类问题。对于每个对象特征,则将其归类为特定的训练实例或背景。这正是基于分类的嵌入学习在个人ReID[29]中的目标,在基于ReID的设计中也采用此方法。嵌入学习与GTR之间的两个关键区别在于:首先,在我们的transformer架构中并未假设gti任何因式分解形式,并且模型能够在一次推理中同时处理多个框的信息;另一方面,在基于点积的ReID网络设计中假设所有框都是独立生成兼容嵌入表示的。关于该transformer架构的具体实现细节,请参考第5.5节相关内容。第二,在现有方法中通常会对轨迹查询进行学习建模;然而在我们提出的架构设计中未对轨迹查询进行学习建模操作。这使得我们的transformer能够一次性生成长期关联表示;而基于ReID的传统跟踪器则依赖于分阶段、逐组余弦距离计算的方式进行匹配。
5.实验
我们在两个跟踪基准上评估我们的方法:TAO[13]和MOT17[31]。
TAO: 覆盖了多种多样的物体跟踪任务。这些图像来自6个不同的视频数据集,在室内、室外以及驾驶场景中均有分布。该数据集主要集中在大型词汇表对象的长尾分布上,并包含约0.5k至1.5k的视频样本用于训练、验证和测试阶段(分别占总样本量的28%、47%和25%)。每个视频样本包含约40个带注释帧(每秒约一个带注释帧),相邻帧之间具有明显的运动特征。由于训练注释不完整性问题,在本研究中我们选择仅使用LVIS[19]进行模型训练,并基于TAO基准集进行验证与测试。
MOT: 在人群场景中追踪人类行进行为,并包含7个训练序列与7个测试序列的数据集。各序列包含500至1500帧图像信息(记录速度为25-30 FPS),我们参考CenterTrack[68]框架将每个训练序列均等分割为前后两部分:前半部分用于模型训练阶段后半部分作为验证集用于消融研究并与其他方法进行性能对比实验;在私有检测协议下完成模型评估工作。
5.2. 训练和推理细节
TAO 训练
MOT 训练
Tracking-Based Classification Conditions. A global association module is applied to object features before classification, enabling the use of temporal patterns in tracking data for object categorization. In our TAO experiments, we achieved this by averaging each frame's classification score across the trajectory to compute a global classification score for each trajectory.
评估执行时间
5.3. 全局与局部关联
我们首要确认的核心贡献在于全局关联机制。对比了基于位置(SORT[5])与身份相关联的FairMOT[66]等基线局部跟踪器。为了便于直接比较各种跟踪器的效果,在同一模型检测输出的基础上应用所有基线跟踪器,并参考表1中的第1至3行数据进行验证。ReID特征则通过我们提出的关联损失进行训练,并在表1中第4行的数据中加入了基于原始实例分类的相关损失作为对比基准。此外,在FairMOT[66]的具体实现方案中采用了默认设置及相关的优化技巧。
表1显示了TAO[13]和MOT17[31]验证集的结果。首先,尽管MOTA和DetA很接近,但基于ReID的方法(FairMOT[66]和ours)通常比仅定位基线[5]实现更高的跟踪精度。对于我们的方法,当T=2时,它将简化为仅在连续帧对之间关联的局部跟踪器。该跟踪器无法从任何遮挡或检测缺失中恢复,从而产生相对较低的AssA。 然而,当我们逐渐增加时间窗口T时,我们观察到关联准确性持续增加。在T=32的MOT17上,我们的方法比FairMOT[66]好1.8 AssA和1.7 IDF1,这表明了我们的全局跟踪公式的优势。在TAO上,性能在T=16时饱和。这可能是因为TAO数据集中的帧速率低得多,这导致在长时间窗口内布局发生剧烈变化。
5.4. 与最新技术的比较
随后,在针对不同检测能力的测试集上进行比较时
表2详细列出了TAO基准及其在测试集上的验证结果
TAO基准[13]处于较新的阶段,并且公开数据条目极为有限[13,
我们的显著提升得益于采用了更先进的探测技术
这一优势尤其体现在我们可以将探测技术和目标跟踪系统无缝集成
表2中的第三行对比了GTR算法与QDTrack[
我们在相同条件下使用相同的探测技术实现了显著提升(4 . )mAP 和 (1 . )AssA 的性能增益
在我们的计算平台上
各目标主体部分的重要性相对较低
表3对我们的追踪器与其他多个系统进行了全面对比。通过测试我们实现了74.1 MOTA、71.2 IDF1及59.0 HOTA等优异指标。这些数值均优于基于Transformer架构的各种并发跟踪系统包括Trackformer[30]、MOTR[64]、TransCenter[61]以及TransTrack[40].值得注意的是在当前版本中我们在关键性能指标方面仍略逊于最近提出的TransMOT[10].尽管如此但在实现细节上存在一些差异其中主要体现在探测系统的选择算法框架设计以及训练策略等方面具体来说我们采用了不同的数据集输入方式相较于Transformers体系我们引入了额外的特征提取模块并优化了计算效率以期在保证精度的同时提升运行速度
5.5. 设计选择实验
在本次分析中, 我们重点探讨了我们的关键设计选择. 所有实验均基于表1中的最佳配置进行, T值设定为32. 不同运行的随机噪声其值限定于0.2倍的MOTA与0.5倍的AssA之间
注意力结构 。我们最先考察了关联头采用Transformer架构的必要性。并以此为基础,在图3中去除了自我注意模块以及交叉注意力机制,并于线性变换之后直接对目标特征进行计算。表4a的数据表明,这一做法显著降低了AssA指标。参照DETR[8]的研究,在解码器中进一步引入自注意力机制并不会提升性能效果,基于此,我们决定仅在编码器中采用自注意力机制以优化模型架构。
位置嵌入。 在transformer架构中,位置编码被普遍应用于模型构建。本研究成功地开发了位置编码和时间编码两种类型的学习机制。然而,在经过详细评估(如表4b所示),我们发现这些编码方案未能显著提升模型在关联准确性指标上的表现。因此,在最终模型中选择不采用任何形式的位置编码机制。
本节展示了不同数量注意力层在编码器与解码器中的应用效果。然而传统的基于 Transformer 的追踪系统[30,40]通常需要6个编码-解码层。我们发现,在我们的模型设计中仅需单个注意力层即可实现良好的跟踪性能。其中一个潜在的原因可能是:相比之下,现有追踪系统通常将像素级特征作为输入;而我们的方法是在目标检测后提取对象级别的特征;这使得整体任务难度降低。
在实验中采用位置信息。参考第4.3节内容,在推理阶段我们整合了轨迹概率与基于位置的IoU。表4d评估了这一策略的效果。在MOT17数据集上运行时,在使用position提升AssA表现的基础上实现了帧率的提升。对于帧率较低的TAO场景,在position辅助下预测关联的效果已经足够理想。
6.结论
我们设计并实现了融合目标检测与追踪的整体框架。其中的核心组件是基于全局视角的跟踪转换器。该转换器通过整合时间窗口内的所有帧数据来提取目标特征,并通过动态分组形成运动轨迹。经过实验评估,在MOT17基准测试中我们的模型取得了优异成绩,在TrackAndField竞赛中的TAO基准测试中也表现出色。未来的研究工作将继续致力于提升系统在复杂自然环境下的鲁棒性和通用性能力。
模型的缺点在于:受限于GPU内存的限制,我们固定了时间窗口尺寸为32,并采用滑动窗口推断技术,在较大的时间范围内进行身份聚合。然而该方法无法从丢失检测或大于32帧的遮挡情况中恢复。此外,由于现有公开数据集中缺乏多类多目标跟踪训练数据集的支持,我们的TAO模型目前仅在静止图像数据上进行过训练。将其应用于这些大规模的数据集(如UVO[51])将是极具吸引力的下一步。
