Advertisement

单目标追踪——【Transformer】Transformer Meets Tracker:Exploiting Temporal Context for Robust Visual Tracking

阅读量:

目录

  • 文章侧重

  • 网络结构

    • 具体的Encoder和Decoder的结构
  • 模型的推理过程

Transformer这个热门模型怎么能不用来应用到目标追踪中呢? 我打算对CVPR2021上引入Transformer用于目标追踪任务的三篇论文进行深入分析,并总结它们的研究进展与创新点。其中一篇值得分享的是TrDiMP/TrSiam这篇论文。

Transformers and Trackers的结合:Leveraging Temporal Context for achieving robust visual tracking

文章侧重

这篇文章的主要创新点在于采用Transformer架构作为特征提取增强模块。其核心原理是通过自注意力机制对Backbone网络提取出的特征进行增强,并且在这一过程中还运用了交叉注意力机制实现了Template区域与Search窗口内各区域之间信息的有效融合。这种设计不仅提升了模型在目标检测任务中的表现能力,并为后续的目标定位提供了更有力的支持

  1. 由于这篇文章只是将Transformer用于增强特征,所以在实验部分,这篇文章分别将该特征模块集成到两个Tracking pipeline中——SiamFC、DiMP,比如目标定位的方法、训练策略、超参数设定就应用这两个框架中本来的设置。
  2. Ecoder和Decoder都只有一层,摒弃了原有Transformer的堆叠结构,且它们的自注意力机制的参数共享 ,作者认为这样的设计是为了使输入Encoder和Decoder的patch 映射到相同的特征空间,有利于交叉注意力机制的应用 而多层堆叠会将template feature和search feature映射到不同的特征空间。
  3. 摒弃了原有Transformer中的前馈神经网络。作者认为前馈神经网络的参数过多可能导致过拟合问题,而在文章的消融实验中证明去除前馈神经网络的模型在测试集上表现更好。
  4. 摒弃了原有Transformer中的多头注意力机制,只用到单头注意力。因为作者在实验中发现,增加多头机制不会显著改善效率,Head Number从1到4,测试集上AO增加0.6%,速度下降10fps。
在这里插入图片描述

网络结构

在这里插入图片描述

这里的Template实际上有20个

具体的Encoder和Decoder的结构

如下图:

在这里插入图片描述

模型的推理过程

孪生网络框架

该网络架构仅包含特征增强模块,在集成过程中与现有SiamFC【孪生网络框架

  • TrSiam:提取或剪裁Encoded Features用于构成CNN的核单元,并对其进行互相关运算(遵循SiamFC的一致性原则)。
  • TrDiMP:基于Encoded Features设计一种判别性更强的CNN核单元,并通过与Decoded Feature进行卷积操作生成响应图。

要QQ每天都开开心心~

全部评论 (0)

还没有任何评论哟~