Autoregressive Visual Tracking论文笔记

阅读量：

该论文设计了一个基于视觉目标跟踪的时间自回归框架ARTrack。该框架将目标跟踪建模为一个坐标序列解释问题,即通过递归估计当前目标的位置轨迹,其中当前状态依赖于历史信息,从而影响后续的目标定位过程。如图所示展示了该方法的具体架构

先利用编码器将模板与搜索图像的视觉特征进行编码,接着,解码器基于空间时空中文推断结果、命令输入及视觉信息来解析当前时间t处的空间时空中文token序列.其中,空间时空中文推断结果为解码器输出的关键中间结果.

文中所提到的ARTrack由以下主要组成部分组成：

基于视觉跟踪器的设计流程中包含两个关键步骤：首先，在初始化阶段, 给定一个待处理的视频序列以及初始的目标框位置后, 跟踪系统将依次预测并获取后续每一帧图像中的目标边界框. 这些边界框会被统一映射到同一个坐标系中, 并通过共同使用的词汇表示为离散化的token序列进行处理.

网络架构：采用编码器-解码器结构，在其中编码器提取视觉特征信息，并由解码器解析目标序列的信息。

基于视频帧进行具有结构性的损失函数应用以使目标序列的对数似然性达到最高水平。

序列构建：

为了减少描述连续坐标时所需的大规模参数数量的同时实现对这些坐标值的离散化处理这一过程被称作Tokenization

轨迹坐标的映射表明，在多数跟踪器采用截取特定区间的策略可以有效减少计算开销。这种做法并非直接在整个分辨率的画面中追踪目标。相反地，在当前画面生成的目标位置则基于该特定区间的位置确定。为了使各框架中的目标位置能够统一表示，则需将各框架中的边界框转换至同一参考系统。在此方案下，在处理完截取后的搜索区间的前提下将各前N个框架中的边界框转换至全局参考系统。

词汇的表示范围：基于搜索区域尺寸设定词项的表现空间；然而，在物体快速移动的情况下，在某些情况下原先积累起来的轨迹序列可能会超出搜索区域边界线外。为了应对这一挑战性问题，在本文中我们将词项的表现空间扩大为搜索区域范围内某个倍数。

网络架构：

我们采用Vision Transformer（ViT）编码器来实现视觉特征提取。将模板图像与目标图像分割为多块区域后，在每一块内执行展平操作并将其映射至高维空间以生成一连串token嵌入序列。在此基础上添加带位置信息和身份标识的位置编码与检索tokens，并通过连接的方式输入到Vision Transformer主干网络中从而完成对视觉特征信息的整体提取。

Decoder：基于Transformer架构设计的目标序列生成模块。该解码模块以坐标tokens、命令token以及视觉特征为输入信息逐步完成目标序列的生成过程。其工作原理包含两个主要环节：第一层通过带有因果掩码的自注意力机制，在坐标token之间传递时空信息；第二层则整合运动向量与视觉特征进行预测判断。在每一层中都会依次融合自注意力与交叉注意力嵌入，并以此更新当前时态的状态表示。图（a）展示了传统解码器的基本架构，在此基础上我们提出了一种改进型解码器结构（如图b所示），通过优化层间信息传递机制有效提升了跟踪系统的运行效率

训练：

除了每帧的训练与优化之外, ARTrack是基于视频序列的学习方法.该方法采用了一个基于结构化目标的设计,该目标采用了基于 $softmax$ 交叉熵损失函数来最大化token序列的条件概率分布.

其中T是目标序列的长度。

为了提升模型在目标检测任务中的性能，在论文中采用了SIoU（Simplified Intersection over Union）损失函数这一创新方法。该方法旨在更好地预测边界框与真实框之间的空间相关性。具体而言，在估计概率分布的基础上获得坐标token时，默认情况下采样过程不可微分，在这种情况下我们采用利用分布的期望值来表示坐标位置参数。随后能够生成预测边界框的位置参数，并基于真实边界框计算对应的SIoU损失值作为整体损失函数的形式： $L = 1 - IOU(g, p)$ 其中g代表真实边界框而p代表预测边界框的位置参数

，其中

为交叉熵损失，

是平衡两个损失地权重。

全部评论 (0)

还没有任何评论哟~

Autoregressive Visual Tracking论文笔记

该论文提出了一个针对视觉目标跟踪的自回归框架，即ARTrack。它将跟踪看作是一个坐标序列解释任务，也就是逐步估计目标轨迹，当前的估计由以前状态所影响，进而影响子序列。这种时间自回归方法对轨迹的顺序演...

论文阅读：CVPR2023 : Autoregressive Visual Tracking

论文地址：CVPR2023OpenAccessRepository codeongithub：https://github.com/MIVXJTU/ARTrack Abstract 该模型ARtrac...

CVPR2023 Autoregressive Visual Tracking 理解记录

本文细致的讲解了ARTrack的原理附代码

论文笔记Understanding and Diagnosing Visual Tracking Systems

最近在看目标跟踪方面的论文，看到王乃岩博士发的一篇分析跟踪系统的文章，将目标跟踪系统拆分为多个独立的部分进行分析，比较各个部分的效果。本文主要对该论文的重点的一个大致翻译，刚入门，水平有限，如有理解错...

论文笔记之Understanding and Diagnosing Visual Tracking Systems

UnderstandingandDiagnosingVisualTrackingSystems 论文链接：<http://dwz.cn/6qPeIb 本文的主要思想是为了剖析出一个跟踪算法中到底哪个部...

单目标追踪——【Transformer】Autoregressive Visual Tracking

ARTrack 利用目标先前帧的预测位置，建模目标运动信息来辅助当前的目标追踪定位。原本的基于帧的追踪任务（次最优化**）变成了**序列追踪任务（最优化），这一点与目标追踪本身的定义一致。 2. 端到...

Learning Multi-Domain Convolutional Neural Networks for Visual Tracking 论文笔记

0摘要我们提出了一种基于CNN的视觉跟踪算法。算法从多个标注的videos中，来学习物体的共享的表示，协助进行跟踪。网络的结构：sharedlayers+multiplebranchesofdom...

《Siamese RPN：High Performance Visual Tracking with Siamese Region Proposal Network》论文笔记

参考代码：DaSiamRPN 1\.概述导读：这篇文章提出了一种端到端的离线训练网络Siameseregionproposalnetwork（SiameseRPN），它使用大量的成对数据完成网络训练...

《One-shot Adversarial Attacks on Visual Tracking with Dual Attention》论文笔记

这是cvpr20的一篇与对抗攻击相关的文章。涉及的问题深度学习虽然在cv领域硕果累累，但是它的脆弱性（vulnerable）是众所周知的。通过人眼无法察觉的微小改动，就可以使得神经网络模型产生截然...

论文阅读笔记SiamRPN：High Performance Visual Tracking with Siamese Region Proposal Network

SiamRPN是2018CVPR上的一篇文章，通过孪生网络+RPN的方式实现高速、精准的目标跟踪。摘要主要讲述目前大部分深度学习算法无法达到高速和准确同时兼顾，本文的SiamRPN利用大量训练图片...

是否确定退出登录?

Autoregressive Visual Tracking论文笔记

全部评论 (0)

相关文章推荐

Autoregressive Visual Tracking论文笔记

论文阅读：CVPR2023 : Autoregressive Visual Tracking

CVPR2023 Autoregressive Visual Tracking 理解记录

论文笔记Understanding and Diagnosing Visual Tracking Systems

论文笔记之Understanding and Diagnosing Visual Tracking Systems

单目标追踪——【Transformer】Autoregressive Visual Tracking

Learning Multi-Domain Convolutional Neural Networks for Visual Tracking 论文笔记

《Siamese RPN：High Performance Visual Tracking with Siamese Region Proposal Network》论文笔记

《One-shot Adversarial Attacks on Visual Tracking with Dual Attention》论文笔记

论文阅读笔记SiamRPN：High Performance Visual Tracking with Siamese Region Proposal Network