FCOT: Fully Convolutional Online Tracking 笔记

阅读量：

FCOT:Fully Convolutional Online Tracking.

该研究将特征提取、分类以及回归整合到统一的网络架构中进行实现。具体而言，在该框架下采用了全卷积神经网络定位目标中心，并对目标中心与周围边缘区域的距离进行回归。

Overview

基于Encoder-Decoder架构设计的模型FCOT，在输出端能够得到尺寸更大的特征图，并从而实现更精确的目标定位效果。在回归任务中，我们采用最速下降法进行在线优化以提升回归模型生成器的效果；而对于分类问题，则采用DiMP算法对目标检测模型进行在线优化。具体而言，在主干网络选择上我们采用了将ResNet-50网络作为主干架构，并结合Classification头与Regression头用于特征微调工作；其中Classification头通过分类卷积层能够得到目标中心位置响应信号，并通过分类卷积层能够得到目标中心位置响应信号；而 Regression 头则估计了从四个边界到目标中心的位置偏移量参数；（这种设计思路确实让人联想到DIMP算法与SiamFC++的一些相似之处）。

Feature Extraction.

采用encoder-decoder架构提取特征：其中encoder部分由Resnet-50的第1层至第4层组成；解码器部分则由一个1×1卷积层以及两个简单的上采样层构成；最终输出的特征图具有 downsampling 比例为 4 ，即步长为 4 。随后利用分类头与回归头对特征进行微调处理

训练与测试分支中的分类分支具有相同的结构并共享参数配置而回归分支则各自独立。其中 Regression Head-1 生成1024通道的空间特征图并分别对应四组过滤器（每组包含256个通道）而 Regression Head-2 则生成256通道的空间特征图并通过逐一对比进行卷积操作

Classification and Regression

分类分支用来预测目标位置的定位结果图，并对其标签进行赋值以反映该目标中心的位置信息；回归分支则用于计算该位置相对于gt边界框四个方向的距离值集合{l*, r*, t*, b*}；其中l*=floor(s/2 + xs) - x_0

$r^\ast=x_1-\left\lfloor\frac{s}{2}+xs\right\rfloor$

$t^\ast=\left\lfloor\frac{s}{2}+ys\right\rfloor-y_0$

$b^\ast=y_1-\left\lfloor\frac{s}{2}+ys\right\rfloor$
其中 $(x_0,y_0)$ 和 $(x_1,y_1)$ 表示左上角和右下角的角点。回归目标中心 $c_t$ 位于半径为2之内的区域而非唯一的位置 $c_t$ 增强容错性。

Regression Model Generator

作者使用一种回归模型生成器来在线优化目标回归：

该回归模型由初始化模块与优化模块组成。其中初始化模块基于第一帧的回归特征及边界框（即4个3×3、256通道的空间滤波器）构建初始参数。该模块采用大小为3×3的区域响应池化操作，并仅在第一帧数据上进行学习。随后将训练集的所有样本及其对应边界输入至优化模块中进行迭代更新以获得最优参数设置。在线回归训练损失函数定义如下： $L(f)= \frac{1}{N}\sum_{(X,c)\in S_{train}} |M^{(c)}_{reg}-X^{(c)} \ast f|_2 + |\lambda f|_2$

N代表在线训练集Strain的数量，在该训练集中所有用于跟踪的目标均具有较高的分类准确性。这些跟踪帧均具有较高的分类准确性。通过回归头模块1进行特征提取得到的结果为X。其中， $M_{reg}^{\left(c\right)}$ 表示在位置c处提取的4D距离矢量特性量，在此位置周围取一个3×3的局部区域作为输入样本以获取这些特征量特性量特性值。
该公式旨在通过最速下降法优化滤波器参数f：即通过计算损失函数L关于f的最佳下降方向来更新模型参数值。

参数i代表优化过程中的迭代次数，在采用与DiMP类似的表达式框架下计算α以及梯度项∇ L(f^(i)))

classification model generator

这部分采用Dimp的方法，生成256×4×4的卷积核。

Offiline Training & Online Tracking

离线训练涉及主干网络、分类模块、回归头以及用于回归优化的生成器（基于λ的训练参数）等组件。具体而言，在离线阶段首先对非回归优化网络进行训练, 接着独立更新回归优化器. 离线训练的整体损失函数定义为： $L_{tot}=\alpha L_{cls}+\beta L_{reg}$

其中参数设定为α=100和β=0.1，在线阶段：采用与DiMP一致的损失函数和训练策略进行分类分支设计。针对目标中心周围半径为2的邻近点进行IoU损失度量。

对第一帧图像利用数据增强技术生成训练集（15），从而提升了初始模型性能；
被选入每25帧中具有最高分类得分的帧作为在线训练集的一部分；
模型叠加：
$f^{\left(cur\right)}=\lambda f_1+\left(1-\lambda\right)f_{lat}$

在其中，在数学表达式中使用了 $f_{lat}$ 和 $f_1$ 来分别表示最新的模型以及第一帧初始化的模型；即基于权重 $\lambda$ 来平衡后续的信息与初始信息的重要程度。

实验

Decoder Feature Layers：
U1 and U2 表示Up − Block1 and Up −Block2

Online Model Generators：

Opt1代表使用第一帧的增强训练集进行优化的过程, Opt0则指的是在线优化阶段. 对中心点邻近区域中的像素点进行回归, 以达到预设的目标尺寸.

性能：
GOT-10k:

LaSOT：

全部评论 (0)

还没有任何评论哟~

FCOT: Fully Convolutional Online Tracking 笔记

FCOT:FullyConvolutionalOnlineTracking. https://arxiv.org/abs/2004.07109 作者将特征提取，分类和回归放在一个网络体系结构中实现：采...

Visual Tracking with Fully Convolutional Networks 笔记

简单介绍一下背景，这篇文章是大连理工的卢湖川教授<http://202.118.75.4/lu/publications.html 的学生LijunWang在港中文与XiaogangWang团队合作的...

论文笔记（二） fully-convolutional siamese networks for object tracking

基于多尺度全卷积孪生网络的目标跟踪算法一.背景技术介绍传统的跟踪算法大多从物体的外观出发，只能在线学习，从当前的视频中在线抓取数据进行学习跟踪的算法，如：TLD、Struck、KCF，这类算法必须...

Visual Tracking with Fully Convolutional Networks

VisualTrackingwithFullyConvolutionalNetworks 本文作者提出了一种新的全卷积神经网络的方法来做视觉跟踪。作者不是简单的将卷积神经网络看做是一个黑盒的特征提取器...

Fully-Convolutional Siamese Networks for Object Tracking

摘要任意目标追踪通常通过从训练视频中在线学习出一个目标的外观模型来解决。DNN能有效提升模型的丰富度，但却需要在线SGD调整网络参数，限制了速度。本文提出一种基于全卷积孪生网络的基本追踪算法模型，...

【Tracking 系列：一】Siamese-FC｜Fully-Convolutional Siamese Networks for Object Tracking

滑窗分类 SOT早期的工作 SiameseFC,对单目标来做跟踪，论文中通过计算两个图像patch之间的相似度，来定位物体，通过多次rescale输入图片来实现多尺度物体的跟踪。

SiamCAR: Siamese Fully Convolutional Classification and Regression for Visual Tracking 阅读记录

将视觉跟踪任务分解成两个子任务：像素分类和边界框回归 SiamCAR框架包含两个子网络：一个用于特征提取，一个用于预测边界框使用ResNet50作为主干网络与其他的最先进的跟踪算法比较，本文提出的...

SiamFC全文翻译：Fully-Convolutional Siamese Networks for Object Tracking

摘要传统上，通过使用视频本身作为唯一的训练数据，专门在线上学习对象外观模型，可以解决任意对象跟踪的问题。尽管这些方法取得了成功，但仅在线方法固有地限制了他们可以学习的模型的丰富性。近来，已经进行了...

Pose Flow:Efficient Online Pose Tracking 学习笔记

本文主要是关于人体的posetracking，提出了一种基于时空的poseflow方法，将时间信息考虑进来，也就是通过分析前后若干帧的人体姿态之间的联系来完成tracking。

论文笔记：Fully Convolutional Networks for Semantic Segmentation

摘要卷积网络是产生特征层次结构的强大视觉模型。我们展示了卷积网络本身，经过端到端、像素到像素的训练，超过了语义分割的最新技术水平。我们的主要见解是构建“全卷积”网络，该网络接受任意大小的输入并通过有...

是否确定退出登录?

FCOT: Fully Convolutional Online Tracking 笔记