单目标追踪——【Transformer】Transformer Tracking

阅读量：

文章侧重点

这篇文章基于Transformer构建了一个注意力机制驱动下的特征融合模块，并将其与一种整合该模块的系统性追踪体系命名为TransT。在这一体系中，该特征融合模块将取代传统Siamese架构中的correlation相关操作。

文中分析，原有的correlation是一种局部的线性的匹配过程，会导致语义信息丢失，陷入局部最优

文中深入探讨指出现有的correlation机制存在明显的局限性：它是一种局部化的线性匹配过程易导致语义信息丢失并最终陷入局部最优解的状态

网络结构

上下文增强模块

该模块主要功能在于集成多头自注意力机制并结合位置编码Sin函数进行信息处理。相较于原始的Transformer架构，在设计上进行了优化与创新。因此该模块被称为上下文语境增强机制其命名依据源于Transformer编码器内全局自注意力特性所具有的跨序列信息整合能力

交叉特征增强

不过在上一篇Transformer meets Tracking（TMT）中，有做关于FFN的消融实验证明FFN提升不多反而参数敏感容易坏事。这篇文章的消融实验关注于模块有无，倒也没这么细，不过我相信FFN肯定比TMT中重要啦

TransT网络结构

这个网络结构算不上有什么特别之处,特征提取 + 特征融合 + 特征解析*,其核心算法框架较为传统.为了进一步优化检测效果,在获取最大响应边界框之前引入了后置机制——窗口惩罚.这种机制通过为那些与上一帧位置相差较大的响应赋予较小的权重,从而抑制由于物体运动特性导致的位置漂移现象.

可视化结果分析

该文展示了注意力模块的具体表现，并详细说明了其在实验过程中的重要性。在该网络架构中，在特征融合的基础上构建了一种基于空间对齐机制与通道 attention 的混合模型，在实验过程中发现该模型在分类性能上具有显著优势。

n=1

n=1是相当于经过ECA的自注意力结果；经过ECA-CFA的交叉注意力结果

搜索区域内的自注意力机制尚未引入模板信息，在此阶段主要关注前景目标特征提取。
模板自身应用自注意力机制以提取目标特征信息。
在搜索区域构建查询层后引入交叉注意力机制，在此过程中关注点逐步聚焦于目标蚂蚁主体部位。
在模板层构建查询引导结构后应用交叉注意力机制，在此过程中关注点逐步聚焦于目标蚂蚁主体部位。

n=2

当n等于2时，等价于通过执行ECA-CFA-ECA机制实现的自注意力机制的结果；而通过执行ECA-CFA-ECA-CFA机制所得出的交叉注意力结果

第一行显示Search特征求取了自身注意。
此时观察到大部分注意集中在目标区域。
这些干扰物仅获得少量关注。
第二行呈现Template特征求自身注意的情况。
此时关注点集中在目标边缘。
通常预期交叉注意应主要集中在边界区域，
但这一现象确实让人感到困惑。
第三行分析表明，
Search区域的交叉注意机制输出表明
其关注重点同样位于目标边缘。
第四行描述指出，
Template特征求交叉注意时呈现出更为复杂的空间分布模式，
我认为原因可能在于将Search区域内的自注意输出用作查询键和值向量，
在此过程中引入了一些原有特征的信息。

n=3

当n=3时等价于经历了连续五次循环执行ECA-CFA交互作用所形成的自注意力结果；其交叉注意力的结果则表现为持续六次的ECA-CFA交互作用所生成的内容

第一行展示了搜索相关属性的自注意力机制的作用。
- 第二行反映了模板相关属性的自注意力分布情况。
- 第三行描述了搜索相关的跨注意力机制产生了显著影响。
- 第四行指出模板相关的跨注意力分布更加集中于特定区域。

n=4

当n=4时，模型相当于依次经历四个ECA-CFA循环后得到自注意力输出的结果；而随后又经历了五个ECA-CFA循环以获得交叉注意力输出的结果

第一行反映了Search特征自注意力的作用。
- 第二行表明Template特征自注意力的效果较为分散。
第三行显示Search特征交叉注意力主要集中在目标区域。
第四行显示Template特征交叉注意力在中间区域表现出较高的集中度。
- 这种现象值得注意的是，在这一过程中作为 key 和 value 的Search区域的自注意力分布呈现明显的不对称性。
- 这种现象值得注意的是，在这一过程中作为 key 和 value 的Search区域的自注意力分布呈现明显的不对称性。

强强觉得奇怪吗？

全部评论 (0)

还没有任何评论哟~

单目标追踪——【Transformer】Transformer Tracking

目录文章侧重点网络结构上下文增强模块交叉特征增强 TransT网络结构可视化结果分析 n=1 n=2 n=3 n=4 Transformer这个香饽饽怎么能不用来迁移到目标追踪里呢。本篇文...

多目标追踪——【Transformer】Global Transformer Tracking

目录 Trackingbydetection范式文章侧重点网络结构目标关联模块——GTR 训练策略与推理逻辑论文链接：<https://arxiv.org/pdf/2203.13250.pdf...

单目标追踪——【Transformer】Autoregressive Visual Tracking

ARTrack 利用目标先前帧的预测位置，建模目标运动信息来辅助当前的目标追踪定位。原本的基于帧的追踪任务（次最优化**）变成了**序列追踪任务（最优化），这一点与目标追踪本身的定义一致。 2. 端到...

单目标追踪——【Transformer】Learning Spatio-Temporal Transformer for Visual Tracking

目录文章侧重网络结构 STARKS网络——仅空间建模 STARKST网络——同时对时空建模可视化和失败案例分析 Encoder的可视化 Decoder的可视化失败案例分析 Transforme...

单目标追踪——【Transformer】SwinTrack: A Simple and Strong Baseline for Transformer Tracking

目录文章侧重点网络结构实验无motiontoken的消融实验 SwinTrack的消融实验论文链接：<https://arxiv.org/abs/2112.00995 代码链接：<https...

单目标追踪——【Transformer】Transformer Meets Tracker:Exploiting Temporal Context for Robust Visual Tracking

目录文章侧重网络结构具体的Encoder和Decoder的结构模型的推理过程 Transformer这个香饽饽怎么能不用来迁移到目标追踪里呢。我计划对CVPR2021的3篇将Transfor...

多目标追踪——【Transformer】MOTR: End-to-End Multiple-Object Tracking with TRansformer

目录文章侧重点将ObjectQuery变成TrackQuery需要解决的问题总体网络结构——时序融合网络 QIM——Query交互模块训练逻辑 TrackletAwareLabelAssign...

单目标追踪——【Transformer】ECCV2022-Towards Sequence-Level Training for Visual Tracking

目录文章侧重点 SequenceLevelTraining（SLT） SLTpipeline图示 SLT伪代码 SLT+TransT 论文代码文章侧重点这篇文章关注到了目标追踪的Tracker...

单目标追踪——【Transformer】MixFormer: End-to-End Tracking with Iterative Mixed Attention

目录文章侧重点网络结构 MAM——MixedAttentionModule MixFormer 论文代码文章侧重点本文的出发点是认为现有的多阶段Siamese追踪框架【特征提取特征融合边界框...

目标追踪_多目标追踪(Multi-Object Tracking)-船舶

（本文章终于更新啦！！）多目标追踪是目前在自动驾驶领域感知部分非常重要的一个研究主题，正确的目标信息才能提供正确的态势感知和为之后的决策避障部分提供基础。本文的目的是帮助大家能快速的了解什么是多目标...

是否确定退出登录?

单目标追踪——【Transformer】Transformer Tracking

目录

文章侧重点

网络结构

上下文增强模块

交叉特征增强

TransT网络结构

可视化结果分析

n=1

n=2

n=3

n=4

全部评论 (0)

相关文章推荐

单目标追踪——【Transformer】Transformer Tracking

多目标追踪——【Transformer】Global Transformer Tracking

单目标追踪——【Transformer】Autoregressive Visual Tracking

单目标追踪——【Transformer】Learning Spatio-Temporal Transformer for Visual Tracking

单目标追踪——【Transformer】SwinTrack: A Simple and Strong Baseline for Transformer Tracking

单目标追踪——【Transformer】Transformer Meets Tracker:Exploiting Temporal Context for Robust Visual Tracking

多目标追踪——【Transformer】MOTR: End-to-End Multiple-Object Tracking with TRansformer

单目标追踪——【Transformer】ECCV2022-Towards Sequence-Level Training for Visual Tracking

单目标追踪——【Transformer】MixFormer: End-to-End Tracking with Iterative Mixed Attention

目标追踪_多目标追踪(Multi-Object Tracking)-船舶