FCOT: Fully Convolutional Online Tracking 笔记
FCOT:Fully Convolutional Online Tracking.
该研究将特征提取、分类以及回归整合到统一的网络架构中进行实现。具体而言,在该框架下采用了全卷积神经网络定位目标中心,并对目标中心与周围边缘区域的距离进行回归。
Overview

基于Encoder-Decoder架构设计的模型FCOT,在输出端能够得到尺寸更大的特征图,并从而实现更精确的目标定位效果。在回归任务中,我们采用最速下降法进行在线优化以提升回归模型生成器的效果;而对于分类问题,则采用DiMP算法对目标检测模型进行在线优化。具体而言,在主干网络选择上我们采用了将ResNet-50网络作为主干架构,并结合Classification头与Regression头用于特征微调工作;其中Classification头通过分类卷积层能够得到目标中心位置响应信号,并通过分类卷积层能够得到目标中心位置响应信号;而 Regression 头则估计了从四个边界到目标中心的位置偏移量参数;(这种设计思路确实让人联想到DIMP算法与SiamFC++的一些相似之处)。
Feature Extraction.
采用encoder-decoder架构提取特征:其中encoder部分由Resnet-50的第1层至第4层组成;解码器部分则由一个1×1卷积层以及两个简单的上采样层构成;最终输出的特征图具有 downsampling 比例为 4 ,即步长为 4 。随后利用分类头与回归头对特征进行微调处理

训练与测试分支中的分类分支具有相同的结构并共享参数配置而回归分支则各自独立。其中 Regression Head-1 生成1024通道的空间特征图并分别对应四组过滤器(每组包含256个通道)而 Regression Head-2 则生成256通道的空间特征图并通过逐一对比进行卷积操作
Classification and Regression
分类分支用来预测目标位置的定位结果图,并对其标签进行赋值以反映该目标中心的位置信息;回归分支则用于计算该位置相对于gt边界框四个方向的距离值集合{l*, r*, t*, b*};其中l*=floor(s/2 + xs) - x_0
r^\ast=x_1-\left\lfloor\frac{s}{2}+xs\right\rfloor
t^\ast=\left\lfloor\frac{s}{2}+ys\right\rfloor-y_0
b^\ast=y_1-\left\lfloor\frac{s}{2}+ys\right\rfloor
其中(x_0,y_0)和(x_1,y_1)表示左上角和右下角的角点。回归目标中心c_t位于半径为2之内的区域而非唯一的位置c_t增强容错性。
Regression Model Generator
作者使用一种回归模型生成器来在线优化目标回归:

该回归模型由初始化模块与优化模块组成。其中初始化模块基于第一帧的回归特征及边界框(即4个3×3、256通道的空间滤波器)构建初始参数。该模块采用大小为3×3的区域响应池化操作,并仅在第一帧数据上进行学习。随后将训练集的所有样本及其对应边界输入至优化模块中进行迭代更新以获得最优参数设置。在线回归训练损失函数定义如下:L(f)= \frac{1}{N}\sum_{(X,c)\in S_{train}} |M^{(c)}_{reg}-X^{(c)} \ast f|_2 + |\lambda f|_2
N代表在线训练集Strain的数量,在该训练集中所有用于跟踪的目标均具有较高的分类准确性。这些跟踪帧均具有较高的分类准确性。通过回归头模块1进行特征提取得到的结果为X。其中,M_{reg}^{\left(c\right)}表示在位置c处提取的4D距离矢量特性量,在此位置周围取一个3×3的局部区域作为输入样本以获取这些特征量特性量特性值。
该公式旨在通过最速下降法优化滤波器参数f:即通过计算损失函数L关于f的最佳下降方向来更新模型参数值。
参数i代表优化过程中的迭代次数,在采用与DiMP类似的表达式框架下计算α以及梯度项∇ L(f^(i)))
classification model generator
这部分采用Dimp的方法,生成256×4×4的卷积核。
Offiline Training & Online Tracking
离线训练涉及主干网络、分类模块、回归头以及用于回归优化的生成器(基于λ的训练参数)等组件。具体而言,在离线阶段首先对非回归优化网络进行训练, 接着独立更新回归优化器. 离线训练的整体损失函数定义为:L_{tot}=\alpha L_{cls}+\beta L_{reg}
其中参数设定为α=100和β=0.1,在线阶段:采用与DiMP一致的损失函数和训练策略进行分类分支设计。针对目标中心周围半径为2的邻近点进行IoU损失度量。
对第一帧图像利用数据增强技术生成训练集(15),从而提升了初始模型性能;
被选入每25帧中具有最高分类得分的帧作为在线训练集的一部分;
模型叠加:
f^{\left(cur\right)}=\lambda f_1+\left(1-\lambda\right)f_{lat}
在其中,在数学表达式中使用了 f_{lat} 和 f_1 来分别表示最新的模型以及第一帧初始化的模型;即基于权重 \lambda 来平衡后续的信息与初始信息的重要程度。
实验
Decoder Feature Layers:
U1 and U2 表示Up − Block1 and Up −Block2

Online Model Generators:

Opt1代表使用第一帧的增强训练集进行优化的过程, Opt0则指的是在线优化阶段. 对中心点邻近区域中的像素点进行回归, 以达到预设的目标尺寸.

性能:
GOT-10k:

LaSOT:

