单目标追踪——【Transformer】SwinTrack: A Simple and Strong Baseline for Transformer Tracking

阅读量：

文章侧重点

基于目标检测领域的Swin Transformer为 foundation ，构建了全Transformer架构的目标追踪算法——Swin-Track。
引入了Motion Token这一技术，在追踪过程中综合考虑了目标的运动信息，并在适度增加计算复杂度的同时提升了性能水平。
针对传统的绝对位置编码（absolute position encoding），本研究采用了 untied positional encoding 进行替代。
将交叉熵损失函数替换为 varifocal loss 以优化训练效果。

网络结构

输入：该帧图像（裁剪比例为4倍）、目标模板（裁剪比例为2倍）
基于Transformer的特征表示提取：
1. 本模块主要负责特征提取工作，并采用基于Siamese架构的设计方案。其目的是在同一特征空间中提取目标模板与搜索区域的特征信息。
2. 实验中采用Swin Transformer-Tiny（预训练至ImageNet-1k）与Swin Transformer-Base（预训练至ImageNet-22k）作为主要的特征提取网络。
- Transformer-based Feature Fusion ：
  特征融合一共有两步：Vision特征融合（Encoder的实现）+运动特征融合（Decoder的实现）。
  Vision特征融合：

通过将目标模板特征与Search Region的特征进行融合操作得到 $f_m$ 作为输入。
遵循了Transformers编码器模块的设计框架：采用Layer Normalization(LN)、多层自注意力(MSA)以及前馈网络(FFN)搭建编码器结构。值得注意的是，在此架构中仅通过Self-Attention机制实现了特征增强与特征间的相互作用。
公式表达：

f_{m}(x)=\sigma(W_{m}x+b_{m})

最后一步DeConcat直接将特征分离，就可以得到Search Region的特征。

运动特征融合：

Motion Token Construction ：

生成用于表示运动信息的Token。通过集合的形式将目标的历史轨迹转化为由多个边界框定义的运动轨迹集：其中每个边界框由左上角和右下角坐标（即x₁,y₁,x₂,y₂）组成，并用 $o_{s₁}$ 表示第 $s₁$ 个轨迹。

其中恒定规模 $n$ 代表运动轨迹集合的大小，在固定采样周期 $\Delta$ 下，在固定帧间距的情况下，并非采用相邻帧之间的直接对比方式而是采用某种中间状态进行对比以防止目标框位置过于接近导致数据冗余。

在该轨迹所确定的目标位置上，在经过中心区域裁剪后的情况下（导致目标位置发生变动），我们获得中心裁剪后的目标位置： $\bar{T}={\bar{o}_{s_1}, ..., \bar{o}_{s_1}}$
对当前的有效坐标值进行归一化处理，在整数范围内 $[1,g]$ 内生成具有容错机制的嵌入集合：

随后，在实现目标追踪的过程中，在当前帧中未检测到目标时，在搜索窗口边缘处补充一个全零填充向量；随后，在历史轨迹集合中各坐标点依次连接生成运动序列特征图 $E_{motion}$ ；随后将该运动特征图与视觉融合结果 $f_z,f_x$ 一同作为解码器的输入使用

带运动信息的Decoder：

该Decoder的造型与Encoder相似于，在结构上有着高度的一致性；然而，在功能模块上存在显著差异：其中MSA被转换为MCA（全称可缩写）。预测头；通过三层神经网络模块完成预测任务。

实验

无motion token的消融实验

1：基准模型SwinTrack-T-224；2：采用ResNet50作为主干网络；3：替代编码器中的多头自注意力机制以引入多头循环注意力；4：通过目标编码实现解码过程；5：采用绝对正弦位置编码替代邻近位置编码；6：使用交叉熵损失函数作为损失函数；7：在推理阶段省略了处理后的补丁应用——Hanning窗口惩罚

SwinTrack的消融实验

1: SwinTrack-T-224;
2: SwinTrack-B-384;
3: 不含运动token的SwinTrack-T-224;
4: 不含运动token的SwinTrack-B-384;
5: 将运动token替换成一个可学习的embedding token。

全部评论 (0)

还没有任何评论哟~

单目标追踪——【Transformer】SwinTrack: A Simple and Strong Baseline for Transformer Tracking

目录文章侧重点网络结构实验无motiontoken的消融实验 SwinTrack的消融实验论文链接：<https://arxiv.org/abs/2112.00995 代码链接：<https...

单目标追踪——【Transformer】Transformer Tracking

目录文章侧重点网络结构上下文增强模块交叉特征增强 TransT网络结构可视化结果分析 n=1 n=2 n=3 n=4 Transformer这个香饽饽怎么能不用来迁移到目标追踪里呢。本篇文...

单目标追踪——【Transformer】Learning Spatio-Temporal Transformer for Visual Tracking

目录文章侧重网络结构 STARKS网络——仅空间建模 STARKST网络——同时对时空建模可视化和失败案例分析 Encoder的可视化 Decoder的可视化失败案例分析 Transforme...

单目标追踪——【Transformer】Transformer Meets Tracker:Exploiting Temporal Context for Robust Visual Tracking

目录文章侧重网络结构具体的Encoder和Decoder的结构模型的推理过程 Transformer这个香饽饽怎么能不用来迁移到目标追踪里呢。我计划对CVPR2021的3篇将Transfor...

多目标追踪——【Transformer】Global Transformer Tracking

目录 Trackingbydetection范式文章侧重点网络结构目标关联模块——GTR 训练策略与推理逻辑论文链接：<https://arxiv.org/pdf/2203.13250.pdf...

单目标追踪——【Transformer】Autoregressive Visual Tracking

ARTrack 利用目标先前帧的预测位置，建模目标运动信息来辅助当前的目标追踪定位。原本的基于帧的追踪任务（次最优化**）变成了**序列追踪任务（最优化），这一点与目标追踪本身的定义一致。 2. 端到...

单目标追踪——【Transformer】ECCV2022-Towards Sequence-Level Training for Visual Tracking

目录文章侧重点 SequenceLevelTraining（SLT） SLTpipeline图示 SLT伪代码 SLT+TransT 论文代码文章侧重点这篇文章关注到了目标追踪的Tracker...

【论文阅读】A Simple and Strong Baseline for Universal Targeted Attacks on Siamese Visual Tracking

一、背景目标跟踪也是无人驾驶中一个关键性的子任务，广义敌对攻击（UAPs）已经能够在各类计算机视觉任务中产生有效的攻击，但是目前并没有将UAP攻击应用在目标跟踪的先例。这篇文章中作者通过向视频中加入...

2021-CIKM-SimpleX: A Simple and Strong Baseline for Collaborative Filtering

CF三大块：交互Encoder、损失函数、负采样本文提出余弦对比损失，整合到一个简单的统一的CF模型—SimpleX 个人认为亮点在损失函数上，模型大道至简，表现很好；但是拿CCL和BPR比相当于对...

多目标追踪——【Transformer】MOTR: End-to-End Multiple-Object Tracking with TRansformer

目录文章侧重点将ObjectQuery变成TrackQuery需要解决的问题总体网络结构——时序融合网络 QIM——Query交互模块训练逻辑 TrackletAwareLabelAssign...

是否确定退出登录?

单目标追踪——【Transformer】SwinTrack: A Simple and Strong Baseline for Transformer Tracking

目录

文章侧重点

网络结构

实验

无motion token的消融实验

SwinTrack的消融实验

全部评论 (0)

相关文章推荐

单目标追踪——【Transformer】SwinTrack: A Simple and Strong Baseline for Transformer Tracking

单目标追踪——【Transformer】Transformer Tracking

单目标追踪——【Transformer】Learning Spatio-Temporal Transformer for Visual Tracking

单目标追踪——【Transformer】Transformer Meets Tracker:Exploiting Temporal Context for Robust Visual Tracking

多目标追踪——【Transformer】Global Transformer Tracking

单目标追踪——【Transformer】Autoregressive Visual Tracking

单目标追踪——【Transformer】ECCV2022-Towards Sequence-Level Training for Visual Tracking

【论文阅读】A Simple and Strong Baseline for Universal Targeted Attacks on Siamese Visual Tracking

2021-CIKM-SimpleX: A Simple and Strong Baseline for Collaborative Filtering

多目标追踪——【Transformer】MOTR: End-to-End Multiple-Object Tracking with TRansformer