Advertisement

单目标追踪——【Transformer】Learning Spatio-Temporal Transformer for Visual Tracking

阅读量:

目录

  • 文章侧重视角

    • 网络架构
      • STARK-S架构——专注于空间建模
      • STARK-ST架构——同时进行时空建模
  • 可视化分析与异常情况下的系统行为研究

    • Encoder模块的可视化的实现
    • Decoder模块的可视化的实现
    • 失败样本的分析与重构

Transformer这个热门模型为何就不能不使用在目标追踪上呢?这篇博客深入探讨了STARK的相关内容。如有疏漏,请随时指正。

Developing a Spatio-Temporal Transformer for Visual Tracking.

文章侧重

仅考虑空间特征

仅考虑空间特征

如余弦窗口、边界框平滑

考虑到Encoder接收的是Search Region与Template各自通道融合后的Feature表示,在其自注意力机制在特征增强过程中实际上实现了Search Feature与Template Feature之间的交叉关注。
Decoder接收的是Encoded Feature以及与目标相关的Query向量,并基于此构建了一个用于生成边界框位置信息的查询向量。
将目标跟踪问题转化为一个直接定位边界框的核心任务,在每帧中通过全卷积神经网络直接输出对应的目标角点响应图,并无需依赖复杂的超参数敏感后处理步骤(例如余弦加窗或边距平滑等)。

网络结构

STARK-S网络——仅空间建模

在这里插入图片描述

网络组成部分:

注意:这里可以看到,Enoder的自注意力机制是对传入的特征全局性的计算相似度矩阵,这里传入的特征有Search特征和Template特征,所以这里自注意力已经相当于在交叉注意力了,但是和真正的交叉注意力有区别,因为自注意力机制中QKV都是自己。

在这里插入图片描述

通过交互注意力

猜测之前编码器输出了256个一维向量吗?这个目标查询嵌入是一个1 * 1 * 256的空间, 它会对编码器每个位置对应的权重进行赋值以增强关注区域

在这里插入图片描述

STARK-ST网络——同时对时空建模

在这里插入图片描述

上图展示了时空交织的STARK网络架构。其中蓝色区域采用空间建模的STARK架构设计;而粉色区域则专注于时间维度的构建。该网络架构通过引入动态模板机制,在分析过程中综合考量了目标形态的变化特征。其核心模块对应的就是Score模块。

个人认为

个人认为

可视化和失败案例分析

Encoder 的可视化

在这里插入图片描述

动态模板, 初始模板, 搜索区域

如果能把Backbone生成的特征也可视化作为对比,这样才更能说明Encoder的增强作用吧。

输入三元组由动态模板、初始模板和搜索区域构成

Decoder的可视化

在这里插入图片描述

动态模板, 初始模板, 搜索区域

动态模板, 初始模板, 搜索区域

动态模板初始模板以及搜索区域构成一个输入三元组。经过解码器处理后得到最终结果。
可以看出,在左侧模板中(即左边图),关注点集中在牛尾部的位置;
而在右侧搜索区域内,则关注点集中在牛边界的附近。
研究者发现,在左侧模板中(即左边图),关注点集中在目标图像的左上方区域;
而在右侧搜索区域内,则关注点集中在目标图像的边界附近。

失败案例分析

在这里插入图片描述

该图表源自作者在CVPR汇报中的展示幻灯片。又如图左侧所示,在应对外观突变方面STARK表现不足。为了验证这一假设,在将STARK与DiMP结合使用后发现:通过引入DiMP的在线更新机制后显著提升了性能。再看右侧图表,则可以看出实际上可以理解为:或许是因为模板数量过少?或者更新模板机制的效果并不理想?

今天西安下大雨了,强强落汤鸡~

全部评论 (0)

还没有任何评论哟~