Autoregressive Visual Tracking论文笔记
该论文设计了一个基于视觉目标跟踪的时间自回归框架ARTrack。该框架将目标跟踪建模为一个坐标序列解释问题,即通过递归估计当前目标的位置轨迹,其中当前状态依赖于历史信息,从而影响后续的目标定位过程。如图所示展示了该方法的具体架构

先利用编码器将模板与搜索图像的视觉特征进行编码,接着,解码器基于空间时空中文推断结果、命令输入及视觉信息来解析当前时间t处的空间时空中文token序列.其中,空间时空中文推断结果为解码器输出的关键中间结果.
文中所提到的ARTrack由以下主要组成部分组成:
基于视觉跟踪器的设计流程中包含两个关键步骤:首先,在初始化阶段, 给定一个待处理的视频序列以及初始的目标框位置后, 跟踪系统将依次预测并获取后续每一帧图像中的目标边界框. 这些边界框会被统一映射到同一个坐标系中, 并通过共同使用的词汇表示为离散化的token序列进行处理.
网络架构:采用编码器-解码器结构,在其中编码器提取视觉特征信息,并由解码器解析目标序列的信息。
基于视频帧进行具有结构性的损失函数应用以使目标序列的对数似然性达到最高水平。
序列构建:
为了减少描述连续坐标时所需的大规模参数数量的同时实现对这些坐标值的离散化处理这一过程被称作Tokenization
轨迹坐标的映射表明,在多数跟踪器采用截取特定区间的策略可以有效减少计算开销。这种做法并非直接在整个分辨率的画面中追踪目标。相反地,在当前画面生成的目标位置则基于该特定区间的位置确定。为了使各框架中的目标位置能够统一表示,则需将各框架中的边界框转换至同一参考系统。在此方案下,在处理完截取后的搜索区间的前提下将各前N个框架中的边界框转换至全局参考系统。
词汇的表示范围:基于搜索区域尺寸设定词项的表现空间;然而,在物体快速移动的情况下,在某些情况下原先积累起来的轨迹序列可能会超出搜索区域边界线外。为了应对这一挑战性问题,在本文中我们将词项的表现空间扩大为搜索区域范围内某个倍数。
网络架构:
我们采用Vision Transformer(ViT)编码器来实现视觉特征提取。将模板图像与目标图像分割为多块区域后,在每一块内执行展平操作并将其映射至高维空间以生成一连串token嵌入序列。在此基础上添加带位置信息和身份标识的位置编码与检索tokens,并通过连接的方式输入到Vision Transformer主干网络中从而完成对视觉特征信息的整体提取。
Decoder:基于Transformer架构设计的目标序列生成模块。该解码模块以坐标tokens、命令token以及视觉特征为输入信息逐步完成目标序列的生成过程。其工作原理包含两个主要环节:第一层通过带有因果掩码的自注意力机制,在坐标token之间传递时空信息;第二层则整合运动向量与视觉特征进行预测判断。在每一层中都会依次融合自注意力与交叉注意力嵌入,并以此更新当前时态的状态表示。图(a)展示了传统解码器的基本架构,在此基础上我们提出了一种改进型解码器结构(如图b所示),通过优化层间信息传递机制有效提升了跟踪系统的运行效率

训练:
除了每帧的训练与优化之外, ARTrack是基于视频序列的学习方法.该方法采用了一个基于结构化目标的设计,该目标采用了基于 softmax 交叉熵损失函数来最大化token序列的条件概率分布.

其中T是目标序列的长度。
为了提升模型在目标检测任务中的性能,在论文中采用了SIoU(Simplified Intersection over Union)损失函数这一创新方法。该方法旨在更好地预测边界框与真实框之间的空间相关性。具体而言,在估计概率分布的基础上获得坐标token时,默认情况下采样过程不可微分,在这种情况下我们采用利用分布的期望值来表示坐标位置参数。随后能够生成预测边界框的位置参数,并基于真实边界框计算对应的SIoU损失值作为整体损失函数的形式:L = 1 - IOU(g, p)其中g代表真实边界框而p代表预测边界框的位置参数

,其中

为交叉熵损失,

是平衡两个损失地权重。
