Advertisement

CVPR2022《Unified Transformer Tracker for Object Tracking》

阅读量:

论文:[[2203.15175] Unified Transformer Tracker for Object Tracking (arxiv.org)

icon-default.png?t=N7T8

https://www.arxiv.org absorb/[ID 2203.15175] [Unveiled Transformer Tracker for Object Tracking task](https://www.arxiv.org absorb/[ID 2203.15175] Unveiled Transformer Tracker for Object Tracking task)

一、摘要

目标跟踪作为计算机视觉的一个重要领域,已经形成了两个独立的研究领域,分别是单目标跟踪(SOT)和多目标跟踪(MOT)。然而,由于两种任务的训练数据集和跟踪对象不同,目现阶段,在一种跟踪场景下设计的算法不能够很好的适应另一种跟踪场景。虽然UniTrack证明了可以使用多头的共享外观模型来处理单个跟踪任务,但它不能使用大规模跟踪数据集训练,并且在SOT上表现不佳。本文就此提出了统一Transformer跟踪器(UTT),提供了一个范例解决不同场景下的跟踪问题。UTT通过了一种Track transformer来跟踪SOT和MOT中的目标,其中利用目标特征和跟踪帧特征之间的相关性来定位目标。最后证明了SOT和MOT任务都可以在该框架内解决,并且可以通过在单个任务的数据集上交替优化SOT和MOT目标来同时端到端训练模型,并使用在SOT和MOT数据集上训练的统一模型在几个基准上进行了广泛的实验。

二、Motivation

1、SOT和MOT算法相互之间相互独立、不能迁移或适配

由于两种任务所涉及的训练数据集以及被追踪的目标存在差异,在一种特定的跟踪场景中设计出来的算法,在另一种不同的场景中往往无法良好地适用。然而即使存在能够解决这一挑战的方法,在面对海量数据时依然面临着诸多困难。

2、成本与价值

维持两个独立的监控系统不仅高昂而且效率低下;因此统一化的监控系统能够根据具体需求灵活切换监控模式,在实际应用中日益体现出其不可或缺的重要性。

三、创新点

1、提出了UTT,能够同时解决SOT和MOT问题

2、提出了一种新的目标定位方式

基于目标特征与跟踪帧特征之间的关联性,我们开发了一种新型且高效的跟踪架构以实现目标的定位。该架构使得目标特征能够通过基于transformer的结构进行高效编码。

3、在SOT和MOT上都实现了与SOTA相当的性能。

四、实现细节

1、SOT vs. MOT

图1展示了该系统采用UU-Track(UTT)框架分别处理单目标跟踪(SOT)与多目标跟踪(MOT)任务的架构设计。在初始帧中明确界定了目标区域后,在后续每一帧中都需要对这些区域进行更新与优化;其参考信息基于后续所有检测到的目标框并不断更新;本研究设计了一种基于UU-Track框架的联合模型(UTT),能够有效结合单目标与多目标跟踪的需求,在各Tracking frame中实现对相应任务的目标定位与预测

2、SOT与运用到MOT的难点

SOT一般性地通过从基准图像中切割出待跟踪物体及其所在的帧来生成对象描述(object description)。然而,在涉及多个预先指定的目标的追踪场景中,针对每个目标及其相关帧进行切割会导致计算开销显著增加。

3、UTT概述

对于参考帧中的跟踪对象而言,在SOT指定对象或MOT检测到的目标的基础上,在跟踪帧中增加了少量的特征映射建议。随后将目标特征与其相关联以更新目标表示并输出目标定位结果;这一过程使UTT能够统一处理SOT与MOT中的对象定位问题。在更新后的目标特征基础上与其相关联并引入新的搜索建议;新的搜索建议基于生成的目标定位结果进行剪裁;随后重复上述步骤以持续提升对跟踪目标的定位精度;此外该系统还可以根据各自任务的数据集分别训练网络模型从而充分利用两种任务提供的训练样本数量优势

图2UTT框架。我们首先使用主干Φ提取帧特征。Track transformer有三个输入,包括参考帧和跟踪帧的帧特征,以及参考帧中的参考bbox。Track transformer的目标是预测目标在跟踪帧中的位置。首先利用轨道Transformer中的目标解码器提取目标特征,然后提议解码器(Proposal Decoder)在跟踪帧中产生候选搜索区域,最后将目标特征和搜索特征同时馈送到目标Transformer(Target Decoder)****中,以预测目标的定位。

4、UTT特点

(1)提取目标表示方面

基于高级特征图提取目标表示,并通过剪切 特征图来缩小搜索区域。利用目标特征求解与搜索特征求解之间的相关注意力机制(Corr-Att)来更新目标表示以实现跟踪。而非Transformer架构中普遍使用的Cross-Att机制。

(2)目标特征聚合方式

不同于先前采用基于Cross-Attention机制的方法,本研究提出了一种新的架构设计,在同一个Object Transformer内将编码器与解码器进行整合,并在此对象转换器中为每个目标特征应用Self-Attention机制以提取局部上下文信息。随后利用Corr-Attention机制整合搜索空间中的相关特征以更新目标特征。

(3)与原始\一般的Transformer架构的区别
  • 网络效率更高,计算复杂度更低

在MOT领域中,传统的Transformer架构均采用编码器解码器模式以增强目标表征.该设计模式将目标特征定义为查询(Query),并利用整个跟踪帧中的特征信息作为键(Key)和值(Value)。具体而言,在编码器阶段利用自注意力机制强化了特征表征;随后,解码器阶段引入交叉注意力机制,并将查询更新为前一帧中检测到的目标特征.然而,在处理多目标跟踪任务且视频分辨率较高的情况下,该方法的表现会受到一定限制.在这种情况下,在UTT方法中通过从更高维的空间金字塔特征中提取候选区域来进行定位.在此过程中,系统会对候选区域进行标准化归一化处理;随后,再通过滑动窗口的方式提取候选区域内的关键点描述子;最后结合空间位置信息构建完整的描述向量.这一系列操作使得网络能够更加精准地定位目标的同时显著降低了计算复杂度.

  • 使用Corr-Att代替Cross-Att,可以在各种场景下更有效地跟踪目标。

UTT通过将encoder和decoder整合到同一个transformer架构中,并在多个目标特征层上施加Self-Attention机制;随后通过Corr-Attention机制更新目标特征层以及搜索相关特征。

(4)损失函数
  • MOT
  • SOT

5、如何实现MOT与SOT的统一?

(1)统一的query和键值对表示

UTT通过将SOT和MOT中的目标都表示为一组查询集,并将场景特征编码成键值对的形式来统一数据表征,在这种统一的数据表征下,Transformer能够有效地同时建模单个或多个目标并实现跟踪

(2)特征提议 & Corss-Att

针对在SOT中指定或MOT中被检测到的参考帧的跟踪目标,在实际应用中通常会采用以下方法:首先通过之前的目标定位信息获取对应于当前参考帧的小型候选区域(即所谓的"proposals");随后将这些候选区域与其对应的潜在物体特征进行匹配计算;如果匹配结果符合预设条件,则保留并更新当前的目标表示;在此基础上再结合最新的观察数据重新评估候选区域的位置信息,并最终输出精确的目标位置估计值。这种设计策略使UTT能够在统一的网络架构下实现对SOT和MOT场景的目标追踪。

(3)跨帧注意力机制

UTT框架在Transformer编码器模块中开发出了一种创新性的跨帧注意力机制。这种机制通过使查询能够跨越不同帧进行交互,在空间-时间关联网络中建立了统一的连接,并成功识别了目标的时间一致性以及运动特征

(4)匹配注意力模块

为了提升目标表征能力, 作者开发了一种用于关注机制的系统. 该系统能够根据输入的目标特征及其对应的跟踪帧特征间的关联度来进行定位, 并深入挖掘了与目标紧密相关的上下文信息, 进而拓展了对目标的理解.

(5)损失函数设计

针对同的任务设计了不同的损失函数,能高效的训练网络。

全部评论 (0)

还没有任何评论哟~