Advertisement

CVPR 2021 Learning Spatio-Temporal Transformer for Visual Tracking

阅读量:
动机

对于视觉目标跟踪,卷积核具有局部依赖而全局无关的缺陷。

视觉目标跟踪是计算机视觉中的一个基础而又具有挑战性的研究课题。在过去的几年中,基于卷积神经网络的目标跟踪取得了令人瞩目的进展。然而,由于无论是在空间上还是在时间上卷积核只能处理一个局部邻域,因此不能很好地对图像内容和特征的长程关系进行建模。目前流行的跟踪器,包括离线Siamese跟踪器和在线学习模型,几乎都是建立在卷积运算基础上的。结果表明,这些方法只对图像内容的局部关系建模效果较好,而对长时全局交互的描述不能很好很好的建模。这种缺陷可能会降低模型在处理场景的能力,该场景中全局上下文信息对目标对象的局部化是非常重要的。例如目标经历大规模变化或频繁进出视图。

transformer是全局依赖的,在视觉领域也有很大的发展。

长时相互作用的问题已经通过transformer的使用在序列建模中得到解决。Transformer不仅在自然语言建模和语音识别等领域取得了巨大的成功。近年来,transformer在计算机视觉模型中的应用也得到了很大的发展。受最近的检测转换器(DETR)的启发,提出了一种新的端到端的编码器-解码器transformer跟踪结构,以提高传统卷积模型的性能。

时空信息的挖掘是目标跟踪领域的核心问题。

空间信息和时间信息对目标跟踪都很重要。前者包含目标的外观信息,用于目标定位;后者包含目标在帧间的状态变化。以前的Siamese追踪器只将空间信息用于跟踪,而在线方法使用历史预测进行模型更新。现有的跟踪器可分为两类:纯空间跟踪器和时空跟踪器。大多数离线Siamese跟踪器都是纯空间跟踪器,它们将目标跟踪看作是初始模板与当前搜索区域之间的模板匹配。为了提取模板与搜索区域之间沿空间维度的关系,大多数跟踪器采用了相关的变体,包括朴素相关、深度相关和点相关。这些方法虽然在近几年取得了显著的进展,但仅仅是捕捉局部的局部信息,而忽略了全局信息。而transformer中的自我注意机制能够捕捉到长时关系,适合于配对匹配任务。与纯空间跟踪器相比,时空跟踪器增加了时间信息,提高了跟踪器的鲁棒性。这些方法也可以分为两类:基于梯度的方法和无梯度的方法。基于梯度的方法在推理过程中需要进行梯度计算。其中一个经典的作品是MD-Net,它以梯度下降的方式更新特定领域的层。为了提高优化效率,后面的研究采用了更先进的优化方法,如Gauss-Newton方法或基于元学习的更新策略。然而,许多部署深度学习的现实世界设备并不支持反向传播,这限制了基于梯度的方法的应用。相比之下,无梯度方法在实际应用中具有更大的潜力。一类无梯度方法利用一个额外的网络来更新Siam跟踪器的模板。另一个代表性的工作LTMU学习元更新器预判当前状态是否足够可靠,以用于长期跟踪中的更新。这些方法虽然有效,但却但并没有对空间和时间的关系进行显式建模,造成了时间与空间的分离。与此相反,本论文的方法将空间信息和时间信息整合为一个整体,并与transformer同时学习。

方法
简介
在这里插入图片描述

提出了一种用于视觉追踪的新的基于编码器-解码器transformer的时空体系结构。新架构包含三个关键部件:编码器、解码器和预测头。编码器以一个初始目标对象、当前图像和一个动态更新的模板作为输入。编码器中的自注意力模块通过特征依赖来学习输入之间的关系。由于模板图像在整个视频过程中不断更新,因此编码器可以同时捕获目标的空间信息和时间信息。解码器学习一个查询嵌入来预测目标物体的空间位置。基于角点的预测头用于估计当前帧中目标对象的边界框。同时,学习一个评分头来控制动态模板图像的更新。提出的跟踪方法将目标跟踪转换为直接的边界框预测问题,不使用任何proposal或预定义anchor。利用编码器-解码器转换器,目标的预测仅仅利用一个简单的全卷积网络,直接估计目标的角点。整个方法是端到端的,不需要进行余弦窗口和边界框平滑等后处理步骤,大大简化了已有的跟踪流程。提出的跟踪器在五个具有挑战性的短时和长时基准上实现了最先进的性能,同时以实时速度运行,比Siam R-CNN快6倍。

本论文的工作受到了最近工作DETR的启发,但有以下根本区别。

(1)所研究的任务不同。DETR是为目标检测而设计的,而本工作是为目标跟踪而设计的。(2)网络输入不同。DETR将整个图像作为输入,而本论文的输入是由一个搜索区域和两个模板组成的三元组。它们来自主干的特征首先被flatten和concatenated,然后被传递到编码器。(3)查询设计和训练策略不同。DETR使用100个对象查询,并在训练期间使用Hungarian算法将预测与ground-truth相匹配。相比之下,本论文的方法只使用一个查询,并且总是不使用Hungarian算法的情况下将其与ground-true匹配。(4)边界框头不同。DETR使用一个三层感知器来预测框。本论文的网络采用基于角点的框头,以实现更高质量的定位。

此外,TransTrack和TrackFormer是最近两个关于transformer跟踪的代表性著作。

TransTrack具有以下特点。(1)编码器将当前帧和前一帧的图像特征都作为输入。(2)它有两个解码器,分别将学习到的对象查询和来自最后一帧的查询作为输入。随着查询的不同,编码器的输出序列分别转换为检测框和跟踪框。(3)利用Hungarian算法基于IoUs对预测的两组框进行匹配。

而TrackFormer具有以下特点。(1)它只将当前帧特征作为编码器的输入。(2)只有一个解码器,在这里学习的目标查询和来自最后一帧的轨迹查询彼此交互。(3)它仅通过注意力操作来关联随时间的轨迹,而不依赖于任何额外的匹配,如动作或外观建模。相比之下,本论文的工作与这两种方法有以下根本区别。(1)网络输入不同。本论文的输入是由当前搜索区域、初始模板和动态模板组成的三元组。(2)该方法不像TransTrack和TrackFormer那样对目标查询进行更新,而是通过动态模板的更新来捕捉跟踪目标的外观变化。

本论文提出了一种用于视觉跟踪的时空transformer网络,称为STARK。为了清晰起见,首先介绍了一种简单的基线方法,它直接应用原编码器-解码器transformer进行跟踪。基线方法只考虑空间信息,取得了很好的性能。然后,将基线扩展到学习对于目标定位的空间和时间表征。

一种基于transformer的简易基础模型

提出了一种基于可视化transformer的目标跟踪基线框架。它主要由卷积主干、编码器-解码器transformer和边界框预测头三部分组成。

骨干网络。本论文的方法可以使用任意卷积网络作为骨干进行特征提取。在不丧失通用性的情况下,本论文采用了vanilla ResNet作为主干。更具体地说,除了去掉最后一层和全连接层外,对于原来的ResNet没有其他变化。主干的输入是一对图像:初始目标对象的一个模板图像z(维度为3×Hz×Wz)和当前帧的一个搜索区域x(维度为3×Hx×Wx)。干网络之后,模板z和搜索图像x被映射为两个特征映射fz维度为C×Hz/s×Wz/s)和fx(维度为C×Hx/s×Wx/s)。

编码器。从主干输出的特征映射,需要在输入编码器之前进行预处理。具体地说,首先使用一个瓶颈层来将通道数从C减少到d。然后将特征映射沿空间维度进行flatten和concatenated,得到长度为Hz/sWz/s+Hx/sWx/s以及维度为d的特征序列,将它作为transformer编码器的输入。编码器由N个编码器层组成,每个层由带有前馈网络的多头自注意力模块组成。由于原始transformer的置换不变性,本论文在输入序列中加入正弦位置嵌入。编码器捕获序列中所有元素之间的特征依赖,并用全局上下文信息加强原始特征,从而使模型能够学习用于目标定位的判别特征。

解码器。解码器将来自编码器的目标查询和改进的特征序列作为输入。与DETR[5]采用100个对象查询不同的是,本论文只在解码器中输入一个单个查询来预测目标对象的一个边界框。此外,由于只有一个预测,本论文去掉了用于DETR中的Hungarian算法以预测关联。与编码器类似,解码器堆叠了M个解码器层,每个层由一个自注意力、一个编码器-解码器单元和一个前馈网络组成。在编码器-解码器注意力模块,目标查询可以关注模板上的所有位置和搜索区域特征,从而为最终的边界框预测学习鲁棒的表示。

预测头。DETR采用三层感知器预测目标框坐标。然而,正如GFLoss所指出的那样,直接回归坐标等于拟合Dirac delta分布,不能考虑数据集的模糊性和不确定性。这种表示方法不灵活,对目标跟踪中的遮挡和杂乱背景等问题也不具有鲁棒性。为了提高框估计的质量,通过估计框角点的概率分布,设计了一种新的预测头。首先从编码器的输出序列中提取搜索区域特征,然后计算搜索区域特征与解码器的输出嵌入的相似度。接下来,将相似性分数与搜索区域特征元素相乘,以增强重要区域并削弱区别不大的那个。新的特征序列被reshaped为特征映射f(维度为d×Hs/s×Ws/s),然后反馈到一个简单的全卷积网络(FCN)。FCN由L个堆叠的Conv-BN-ReLU层组成,分别输出目标边界框的左上角和右下角的概率映射Ptl(x, y)和Pbr(x, y)。最后,通过计算角点概率分布的期望值,得到预测的框坐标(xtl,ytl)和(xbr,ybr)。与DETR相比,该方法明确地模拟了坐标估计中的不确定性,为目标跟踪提供了更精确和鲁棒的预测。

训练和推断。本论文的基线跟踪器是以端到端的方式训练的,结合了L1损失和广义IoU损失得到损失函数。DETR不同的是,本论文没有使用分类损失和Hungarian算法,从而进一步简化了训练过程。在推理过程中,在每一帧中,模板图像连同其来自主干的特征由第一帧初始化。跟踪时,在每帧中,网络从当前帧中取一个搜索区域作为输入,返回预测框作为最终结果,不使用余弦窗口或边界框平滑等任何后处理。

时空transformer跟踪

由于目标物体的外观可能会随着时间的推移发生显著变化,因此捕获目标的最新状态以进行跟踪是很重要的。如何基于之前介绍的基线方法同时利用空间和时间信息,具有三个不同的关键,包括网络输入,一个额外的分数头,和训练和推断策略。

输入。与仅使用第一帧和当前帧的基线方法不同,时空方法引入了从中间帧中采样的动态更新模板作为附加输入,除了初始模板提供的空间信息外,动态模板还能捕捉目标外观随时间的变化,提供额外的时间信息。类似于基线体系结构,三元组的特征映射是被flatten和concatenated,通过建模同时在空间和时间维度中的所有元素间的全局关系,提取出不同的时空特征。

头。在跟踪过程中,有些情况下不应该更新动态模板。例如,当目标被完全遮挡或移出视线时,或当跟踪器漂移时,剪切模板是不可靠的。为了简单起见,本论文认为只要搜索区域包含目标,就可以更新动态模板。为了自动判断当前状态是否可靠,本论文增加了一个简单的分数预测头,它是一个由sigmoid激活的三层感知器。如果分数高于阈值τ,则认为当前状态可靠。

训练和推断。联合学习定位和分类可能会导致两个任务的次优解,并且有助于定位和分类的解耦。因此,本论文将训练过程分为两个阶段,以定位为主要任务,以分类为次要任务。具体地说,在第一阶段,整个网络,除分数头外,仅用与定位相关的损失进行端到端的训练。在这个阶段,本论文保证所有的搜索图像都包含目标对象,并让模型学习定位能力。在第二阶段,仅对分数头进行优化,并做二进制交叉熵损失。这样,经过两个阶段的训练,最终的模型学习了定位和分类能力。

在推理过程中,在第一帧中初始化两个模板和相应的特征。然后裁剪搜索区域并将其输入到网络中,生成一个边界框和一个置信度分数。仅当达到更新区间且置信度得分高于阈值时,才更新动态模板。为了提高效率,本论文将更新区间设置为Tu帧。从原始图像中裁剪出新的模板,然后输入到主干中进行特征提取。

实验

本论文的跟踪器是使用Python3.6和PyTorch 1.5.1实现的。实验是在一台装有8个16GB Tesla V100 GPU的服务器上进行的。

STARK采用三个变体:STARK-S50,STARK-ST50和STARK-ST101。STARK-S50仅利用空间信息,并以ResNet-50为骨干,即基线跟踪器。STARK-ST50和STARK-ST101分别以ResNet-50和ResNet-101为骨干,同时利用空间和时间信息,即提出的时空跟踪器。

通过在ImageNet上预先训练的参数来初始化主干网。BatchNorm层在训练期间被冻结。骨干特征是从第4阶段开始做池化的,步长为16。transformer的结构与DETR中的结构相似,具有6个编码器层和6个解码器层,由多头注意层(MHA)和前馈网络(FFN)组成。MHA有8个头,宽度为256,而FFN有2048个隐藏单元。使用0.1的Dropout比率。边界框预测头是一个轻量级的FCN,由5层堆叠的Conv-BN-ReLU层组成。分类头是一个三层感知器,每层有256个隐藏单元。

训练。训练数据包括LaSOT、GOT-10K、COCO2017和TrackingNet。按照VOT2019挑战赛的要求,本论文从GOT-10K训练集中移除1K禁止序列。搜索图像和模板的大小分别为320×320像素和128×128像素,对应于目标框区域的25倍和4倍。使用了数据增强,包括水平翻转和亮度抖动。STARK-ST的最小训练数据单元为一个三元组,由两个模板和一个搜索图像组成。STARK-ST的整个训练过程由两个阶段组成,分别用500个epoch进行定位和50个epoch进行分类。每个epoch使用60000个三元组。该网络使用AdamW优化器和权重衰减10−4进行优化。损失权重λL1和λiou分别设为5和2。每个GPU承载16个三元组,因此每个迭代的最小批处理大小为128个三元组。主干和其余部分的初始学习率分别为10−5和10−4。学习率在第一阶段400个epoch后下降10倍,在第二阶段40个epoch后下降10倍。STARK-S的训练设置与STARK-ST的训练设置基本相同,但STARK-S的最小训练数据单元是一个模板搜索对;训练过程只有第一阶段。

推断。默认情况下,动态模板更新间隔Tu和置信度阈值分别设置为200帧和0.5。推理流程只进行前向传导和从搜索区域到原始图像的坐标变换,不需要任何额外的后处理。

在三个短期基准(GOT-10K、TrackingNet和VOT2020)和两个长期基准(LaSOT和VOT2020-LT)上比较了STARK与现有最先进的物体跟踪器。大量的实验证明,提出的方法在短期和长期跟踪基准上都获得了最新的性能。例如,提出的时空transformer跟踪器在GOT-10K和LaSOT上分别以3.9%(AO分数)和2.3%(Success)超过Siam R-CNN。同样值得注意的是,与以前的长期跟踪器相比,提出的方法的框架要简单得多。具体地说,以前的方法通常存在多个部件,例如基础跟踪器、目标验证模块和全局检测器。相比之下,提出的方法只有以端到端的方式学习的单个网络。此外,提出的跟踪器在Tesla V100 GPU上以实时速度运行比Siam R-CNN快6倍(30 V.s.5 fps)。

贡献

提出了一种新的transformer架构用于视觉跟踪。它能够捕捉视频序列中空间信息和时间信息的全局特征依赖。

整个方法是端到端的,不需要余弦窗口和边界框平滑等后处理步骤,大大简化了后续跟踪流程。

proposal的跟踪器在五个具有挑战性的短期和长期基准上实现了最先进的性能,同时以实时速度运行。

小结

设计了一种用于视觉追踪的新的基于编码器-解码器transformer的时空体系结构。新架构包含三个关键部件:编码器、解码器和预测头。编码器建模目标对象与搜索区域之间的全局时空特征依赖,解码器学习查询嵌入来预测目标对象的位置,基于角点的预测头用于估计当前帧中目标对象的边界框。提出的跟踪方法将目标跟踪转换为直接的边界框预测问题,不使用任何proposal或预定义anchor。利用编码器-解码器转换器,目标的预测仅仅利用一个简单的全卷积网络,直接估计目标的角点。整个方法是端到端的,不需要进行余弦窗口和边界框平滑等后处理步骤,大大简化了已有的跟踪流程。提出的跟踪器在五个具有挑战性的短时和长时基准上实现了最先进的性能,同时以实时速度运行,比Siam R-CNN快6倍。

全部评论 (0)

还没有任何评论哟~