单目标追踪——【Transformer】Transformer Tracking
目录
- 
文章侧重点
 - 
网络结构
 - 
- 上下文增强模块
 - 交叉特征增强
 - TransT网络结构
 
 - 
可视化结果分析
 - 
- 
- n=1
 - n=2
 - n=3
 - n=4
 
 
 - 
 
Transformer这种前沿技术为何不能迁移到目标追踪领域呢?
文章侧重点
这篇文章基于Transformer构建了一个注意力机制驱动下的特征融合模块,并将其与一种整合该模块的系统性追踪体系命名为TransT。在这一体系中,该特征融合模块将取代传统Siamese架构中的correlation相关操作。
文中分析,原有的correlation是一种局部的线性的匹配过程,会导致语义信息丢失,陷入局部最优
文中深入探讨指出现有的correlation机制存在明显的局限性:它是一种局部化的线性匹配过程易导致语义信息丢失并最终陷入局部最优解的状态
网络结构
上下文增强模块

该模块主要功能在于集成多头自注意力机制并结合位置编码Sin函数进行信息处理。相较于原始的Transformer架构,在设计上进行了优化与创新。因此该模块被称为上下文语境增强机制其命名依据源于Transformer编码器内全局自注意力特性所具有的跨序列信息整合能力
交叉特征增强

不过在上一篇Transformer meets Tracking(TMT)中,有做关于FFN的消融实验证明FFN提升不多反而参数敏感容易坏事。这篇文章的消融实验关注于模块有无,倒也没这么细,不过我相信FFN肯定比TMT中重要啦
TransT网络结构

这个网络结构算不上有什么特别之处,特征提取 + 特征融合 + 特征解析*,其核心算法框架较为传统.为了进一步优化检测效果,在获取最大响应边界框之前引入了后置机制——窗口惩罚.这种机制通过为那些与上一帧位置相差较大的响应赋予较小的权重,从而抑制由于物体运动特性导致的位置漂移现象.
可视化结果分析
该文展示了注意力模块的具体表现,并详细说明了其在实验过程中的重要性。在该网络架构中,在特征融合的基础上构建了一种基于空间对齐机制与通道 attention 的混合模型,在实验过程中发现该模型在分类性能上具有显著优势。
n=1

n=1是相当于经过ECA的自注意力结果;经过ECA-CFA的交叉注意力结果
- 搜索区域内的自注意力机制尚未引入模板信息,在此阶段主要关注前景目标特征提取。
 - 模板自身应用自注意力机制以提取目标特征信息。
 - 在搜索区域构建查询层后引入交叉注意力机制,在此过程中关注点逐步聚焦于目标蚂蚁主体部位。
 - 在模板层构建查询引导结构后应用交叉注意力机制,在此过程中关注点逐步聚焦于目标蚂蚁主体部位。
 
n=2

当n等于2时,等价于通过执行ECA-CFA-ECA机制实现的自注意力机制的结果;而通过执行ECA-CFA-ECA-CFA机制所得出的交叉注意力结果
- 第一行显示Search特征求取了自身注意。
此时观察到大部分注意集中在目标区域。
这些干扰物仅获得少量关注。 - 第二行呈现Template特征求自身注意的情况。
此时关注点集中在目标边缘。
通常预期交叉注意应主要集中在边界区域,
但这一现象确实让人感到困惑。 - 第三行分析表明,
Search区域的交叉注意机制输出表明
其关注重点同样位于目标边缘。 - 第四行描述指出,
Template特征求交叉注意时呈现出更为复杂的空间分布模式,
我认为原因可能在于将Search区域内的自注意输出用作查询键和值向量,
在此过程中引入了一些原有特征的信息。 
n=3

当n=3时等价于经历了连续五次循环执行ECA-CFA交互作用所形成的自注意力结果;其交叉注意力的结果则表现为持续六次的ECA-CFA交互作用所生成的内容
- 第一行展示了搜索相关属性的自注意力机制的作用。
- 第二行反映了模板相关属性的自注意力分布情况。
 - 第三行描述了搜索相关的跨注意力机制产生了显著影响。
 - 第四行指出模板相关的跨注意力分布更加集中于特定区域。
 
 
n=4

当n=4时,模型相当于依次经历四个ECA-CFA循环后得到自注意力输出的结果;而随后又经历了五个ECA-CFA循环以获得交叉注意力输出的结果
- 第一行反映了Search特征自注意力的作用。
- 第二行表明Template特征自注意力的效果较为分散。
 
 - 第三行显示Search特征交叉注意力主要集中在目标区域。
 - 第四行显示Template特征交叉注意力在中间区域表现出较高的集中度。
- 这种现象值得注意的是,在这一过程中作为 key 和 value 的Search区域的自注意力分布呈现明显的不对称性。
 - 这种现象值得注意的是,在这一过程中作为 key 和 value 的Search区域的自注意力分布呈现明显的不对称性。
 
 
强强觉得奇怪吗?
