单目标追踪——【Transformer】SwinTrack: A Simple and Strong Baseline for Transformer Tracking
目录
- 研究重点
- 网络架构
 - 实验分析
 - 
- 
- 不带motion token的消融研究
 - SwinTrack消融实验的研究
 
 
 - 
 
 
论文资源链接:https://arxiv.org/abs/2112.00995
代码仓库链接:https://github.com/LitingLin/SwinTrack
文章侧重点
- 基于目标检测领域的Swin Transformer为 foundation ,构建了全Transformer架构的目标追踪算法——Swin-Track。
 - 引入了Motion Token这一技术,在追踪过程中综合考虑了目标的运动信息,并在适度增加计算复杂度的同时提升了性能水平。
 - 针对传统的绝对位置编码(absolute position encoding),本研究采用了 untied positional encoding 进行替代。
 - 将交叉熵损失函数替换为 varifocal loss 以优化训练效果。
 
网络结构

- 
输入:该帧图像(裁剪比例为4倍)、目标模板(裁剪比例为2倍)
 - 
基于Transformer的特征表示提取:
- 本模块主要负责特征提取工作,并采用基于Siamese架构的设计方案。其目的是在同一特征空间中提取目标模板与搜索区域的特征信息。
 - 实验中采用Swin Transformer-Tiny(预训练至ImageNet-1k)与Swin Transformer-Base(预训练至ImageNet-22k)作为主要的特征提取网络。
 
- Transformer-based Feature Fusion :
特征融合一共有两步:Vision特征融合(Encoder的实现)+运动特征融合(Decoder的实现)。
Vision特征融合: 
 
- 通过将目标模板特征与Search Region的特征进行融合操作得到f_m作为输入。
 - 遵循了Transformers编码器模块的设计框架:采用Layer Normalization(LN)、多层自注意力(MSA)以及前馈网络(FFN)搭建编码器结构。值得注意的是,在此架构中仅通过Self-Attention机制实现了特征增强与特征间的相互作用。
 - 公式表达:
 
f_{m}(x)=\sigma(W_{m}x+b_{m})

最后一步DeConcat直接将特征分离,就可以得到Search Region的特征。
运动特征融合:
- Motion Token Construction :
 
生成用于表示运动信息的Token。通过集合的形式将目标的历史轨迹转化为由多个边界框定义的运动轨迹集:其中每个边界框由左上角和右下角坐标(即x₁,y₁,x₂,y₂)组成,并用o_{s₁}表示第s₁个轨迹。

其中恒定规模n代表运动轨迹集合的大小,在固定采样周期\Delta下,在固定帧间距的情况下,并非采用相邻帧之间的直接对比方式而是采用某种中间状态进行对比以防止目标框位置过于接近导致数据冗余。
- 在该轨迹所确定的目标位置上,在经过中心区域裁剪后的情况下(导致目标位置发生变动),我们获得中心裁剪后的目标位置:\bar{T}={\bar{o}_{s_1}, ..., \bar{o}_{s_1}}
 - 对当前的有效坐标值进行归一化处理,在整数范围内[1,g]内生成具有容错机制的嵌入集合:
 

随后,在实现目标追踪的过程中,在当前帧中未检测到目标时,在搜索窗口边缘处补充一个全零填充向量;随后,在历史轨迹集合中各坐标点依次连接生成运动序列特征图E_{motion};随后将该运动特征图与视觉融合结果f_z,f_x一同作为解码器的输入使用
- 带运动信息的Decoder:
 

该Decoder的造型与Encoder相似于,在结构上有着高度的一致性;然而,在功能模块上存在显著差异:其中MSA被转换为MCA(全称可缩写)。预测头;通过三层神经网络模块完成预测任务。
实验
无motion token的消融实验
1:基准模型SwinTrack-T-224;2:采用ResNet50作为主干网络;3:替代编码器中的多头自注意力机制以引入多头循环注意力;4:通过目标编码实现解码过程;5:采用绝对正弦位置编码替代邻近位置编码;6:使用交叉熵损失函数作为损失函数;7:在推理阶段省略了处理后的补丁应用——Hanning窗口惩罚

SwinTrack的消融实验
1: SwinTrack-T-224;
2: SwinTrack-B-384;
3: 不含运动token的SwinTrack-T-224;
4: 不含运动token的SwinTrack-B-384;
5: 将运动token替换成一个可学习的embedding token。

