Advertisement

Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking

阅读量:

Transformer Combines Tracker: Making Use of Temporal Information for Effective Visual Tracking

  • 引言
  • 一 摘要
  • 二 贡献
  • 方法
    • 第一部分 复述跟踪框架综述

    • 第二部分 视觉跟踪中的Transformer模型

      • 2.1 Transformer概述

      • 2.2 Transformer编码器模块

      • 2.3 Transformer解码器模块

        • 2.3-1 掩码变换方式
        • 2.3-2 特征变换过程
      • 2.4 Tracking with Transformer-enhanced Features

    • 四、Experiments

      • 1. Implementation Details
      • 2. Ablation Study
      • 3. State-of-the-art Comparisons

前言

本次会议是CVPR 2021。
这篇论文只是简要介绍。
详细内容见文章。
论文
代码

一、Abstract

在视频对象跟踪领域中,在现有技术中已明显忽视了连续帧之间的丰富时序信息。为了改进这一现状,在本研究工作中我们将单个视频帧进行连接,并通过一种稳定的对象跟踪架构探索它们之间的时序关系。与传统自然语言处理(NLP)任务中Transformer架构的经典应用方式不同,在本研究中我们将编码器与解码器分开设置为两个并行分支,并在类似于孪生网络的目标跟踪框架下精心设计它们之间的交互关系。值得注意的是,在本研究中我们采用了基于注意力机制的目标模板增强策略来提升Transformer编码器性能;而针对解码器部分则采用了一种基于模板传播的目标定位策略来简化目标搜索流程。整个所提出的Transformer辅助目标跟踪框架采用了端到端的学习策略来进行优化训练。实验结果表明:基于所提出的Transformer技术一种相对简单的连体匹配方法即可超越现有最优目标跟踪算法;此外将其与最新的判别式跟踪方法相结合后,在公开的目标跟踪基准测试上实现了新的最好成绩

二、Contribution

在这里插入图片描述
  1. 我们开发出了一种简洁且现代设计感强的Transformer辅助跟踪框架。
    值得注意的是,在这项研究领域中,
  2. 我们深入分析了模型特征与注意力机制,
    并探讨了其潜在价值。
    此外,
  3. 为了评估其应用前景,
    我们将所设计的高效架构整合至主流跟踪系统中。
    通过测试,
  4. 我们的跟踪系统在多个基准测试中均展现了显著成效。

三、Method

1、Revisting Tracking Frameworks

在介绍用于对象跟踪的Transformer之前,在确保内容全面性的同时进行简要回顾以帮助理解基础原理。如图所示,在当前研究领域中流行的各种追踪算法均可被建模为相似于双子结构的形式,在这一架构中上层组件负责基于模板学习来进行目标追踪建模工作;而底层组件则专注于实现精确的目标定位任务。

图1

如图所示,在上部部分,transformer编码器接受多个模板特征并相互融合表示;在下部部分,transformer译码器将模板功能及其分配的掩码传递至search patch通道以增强表示。

在这里插入图片描述

2、Transformer for Visual Tracking

主流的方法可以构建为一个类似于双胞胎结构的框架。我的目标在于通过建立基于关系模型以及传播时序上下文来提升该通用跟踪框架,并未更改其原始追踪机制(例如采用模板匹配)。

2.1 Transformer Overview

类似于经典的transformer架构,在编码器中自注意力机制通过增强作用来提升多个模板特征的表现。在解码阶段中层间连接机制通过分支传播时序信息来优化特征提取。(例如:feature and attention)

图2

为了满足视觉跟踪任务的需求,在以下几个方面对经典Transformer进行了优化和改进:

采用编码器-解码器拆分策略。如图所示,在NLP任务中未采用编码器和解码器的级联结构,而是将其拆分为两个分支以适应基于站点式的跟踪方法。

图3
  • 块权重共享机制表明编码器与解码器中的自注意力块(图2所示的黄色框)共用参数,在同一特征空间中执行查询与键值对的交互操作。
  • 图像规范是NLP领域中的常规做法;针对图像特征嵌入应用实例归一化处理可有效保留重要细节信息。
  • 轻量化设计旨在提升视觉跟踪的速度与效率平衡;通过去除全连接层并保留单头自注意力机制简化了传统架构。

2.2 Transformer Encoder

  • 经典transformer中的基本块是attention mechanism,输入为query: Q,key:K和value:V。
  • 采用点积计算query和key之间的相似矩阵AK-Q(具体内容见文章)。
  • 通过矩阵AK-Q,转换value。
  • transformer编码器接收一组模板特征T i ,进一步连接以形成模板特征集成T
  • 为了便于注意计算,我们reshape T to T’。
  • transformer编码器的主要操作是self-attention,它的目的是相互加强来自多个模板的特征。为此,我们首先计算self-attention map: AT-T。
  • 通过AT-T变换template feature得到残余项AT-TT’。并与T’相加,再进行Ins. Norm得到 T*

2.3 Transformer Decoder

  • transformer decoder接受搜索块特征:S
  • S重构成S'后, 通过点积计算得到AS - S
  • S^* = \text{Ins.} \, \text{Norm}(AS - SS' + S')
2.3.1 Mask Transformation
  • 生成cross-attention矩阵:记为AT-S
    • 在视觉跟踪任务中,已知目标在模板中的位置.基于高斯函数构建了模板特征的掩模.
    • 类似地,通过融合mi生成矩阵M,其Reshape操作将其转换为M'.
    • 经过运算后,S⊗mask经过归一化处理得到结果.
2.3.2 Feature Transformation

除了空间注意力机制外,在T域向S域传输上下文信息也是可行的。
当视频中的背景场景发生剧烈变化时,在某些情况下传递目标表示是有益的;然而,在这种情况下暂时传播却是不合理的。因此,在执行特征转换之前的第一步操作中(即通过计算T^*\otimes M'),我们需要先对模板特征施加掩码处理以抑制背景区域的影响。
然后得到S_{\text{feat}} = \text{Ins. Norm}(AT_S(T^*\otimes M') + S_{\text{att}})

最终得到S * final=Ins. Norm( S * feat +S * mask)

2.4 Tracking with Transformer-enhanced Features

基于生成高质量的模板特征编码T_{\text{encoded}}和搜索特征解码S_{\text{decoded}}的操作,该结构能够有效提升跟踪效果。 基于两种流行的范例利用T_{\text{encoded}}训练跟踪模型。

  • Siamese Pipeline:我们通过将Tencoded中的目标特征提取为模板CNN内核,并将其与Sdecoded进行卷积以生成响应(此过程与SiamFC中采用的互相关方法一致)。
  • DCF Pipeline:基于DiMP方法中的端到端DCF优化,在Tencoded和Sdecoded之间进行卷积以生成响应(此处采用了鉴别CNN内核)。

在在线跟踪过程中,在有效利用时序信息的同时适应目标外观的变化过程中 我们动态维护模板集合T 具体而言 每隔5帧我们就会删除掉集合T中最古老的模板 并将当前收集到的最新特征每隔5帧加入到集合T中 这种集合的最大容量设定为20个模板 当集合T得到更新后 我们会通过transformer编码器计算出新的编码特征Tencoded 尽管transformer编码器采用了稀疏机制 但transformer解码器在每一帧中都会被调用 通过将这些表示与注意力机制从前一阶段的模板传递到当前搜索窗口中 来生成每一帧对应的解码结果Sdecoded

大多数研究者普遍认可,在DiMP架构中采用DCF公式相较于孪生网络跟踪器中的简单互相关方法具有显著优势。然而,在实验验证中发现,在本研究提出的transformer架构框架下,经典的孪生网络框架能够有效对抗最新的DiMP方法。此外,通过本研究提出的transformer技术改进后的DiMP跟踪器在性能上取得了进一步提升。

四、Experiments

1. Implementation Details

采用双网络匹配算法(如孪生网络匹配)与基于DiMP架构设计的跟踪系统,在本节后续实验中将分别探讨其性能表现。我们采用Transformer辅助设计的方法,在实验中分别测试并评估了两种不同的跟踪器:一种命名为TrSiam(Siamese),另一种命名为TrDiMP(DiMP)。

  • backbone为Res-Net 50
  • 在编码器和解码器之前,我们还添加了一个卷积层(3×3Conv)将骨干特征通道从1024减少到512。
  • 输入模板和搜索补丁是目标大小的6倍,并进一步调整到352×352。
  • 使用LaSOT,TrackingNet,GOT-10K,COCO进行离线训练。
  • 所提出的transformer网络以端到端的方式与原始跟踪部件(例如跟踪优化模型和IoUnet)联合训练。
  • 我们的框架被训练为50个epoch,每个epoch1500次迭代,每批36个图像对。 采用ADAM优化器,初始学习速率为0.01,每15个epoch衰减因子为0.2。
  • 在在线跟踪阶段,TrSiam和TrDiMP的主要区别在于跟踪模型的生成方式。 在预测目标定位的响应图后,都采用了最近的概率IoUnet[9]进行目标尺度估计。 我们的跟踪器是使用Py Torch在Python中实现的。 在单个Nvidia GTX1080Ti GPU上,TrSiam和TrdiMP分别工作约35帧/秒(FPS)和26帧/秒(FPS)。

2. Ablation Study

为了评估本文提出transformer架构的有效性及其性能优势,在本研究中我们采用了来自GOT-10k数据集的180个视频样本,并对我们的TrSiam与TrDiMP方法进行了系统性评估。基于Siam与DIMP算法作为基准体系,在此过程中我们对transformer架构中的各个组成部分进行了详细考察,并逐一分析其对整体性能的影响因素

  • 针对Siam和DiMP方法的transformer展开实验研究。通过利用GOT-10k测试集计算出各模型在AO指标下的表现来评估性能。
在这里插入图片描述
  • 对本文transformer体系结构进行深入探讨研究。该基线追踪器被命名为TrSiam,并采用GOT-10k测试集作为基准数据集来评估模型性能;其度量标准为平均交并率(IoU)分数
在这里插入图片描述

*通过绘制Siam(左)与DCF(右)的训练损失曲线图。采用特征转换与掩码转换相结合的方式进行处理后,我们的方法显著降低了训练损失

在这里插入图片描述

3. State-of-the-art Comparisons

将所提出的TrSiam和TrdiMP追踪器与现有的主流追踪算法进行了对比实验,在测试集中采用了TrackingNet、GOT-10k、LaSOT、VOT2018、Need for Speed、UAV123以及OTB-2015等广泛认可的基准数据集作为评估指标

TrackingNet

在这里插入图片描述

GOT-10k

在这里插入图片描述

LaSOT

在这里插入图片描述

VOT2018

在这里插入图片描述
在这里插入图片描述

NfS,UAV23,OTB2015 datasets in terms of AUC score

在这里插入图片描述

详细分析见文章

ps:本人学疏才浅,若有不对的地方,请及时与我联系,进行更改。

全部评论 (0)

还没有任何评论哟~