(DaSiamRPN)Distractor-aware Siamese Networks for Visual Object Tracking 阅读笔记
2018年的VOT竞赛结果已出,基于深度特征(Deep Feature)的相关滤波依旧强势,但值得注意的是,基于孪生网络(Siamese Network)的方法异军突起,在主赛上有不俗表现的同时,在实时赛与长时跟踪赛上取得了几乎垄断的绝对优势。
先解释一下SiamRPN与DaSiamRPN
SiamRPN(High Performance Visual Tracking with Siamese Region Proposal Network)是发表于CVPR2018上的论文,而DaSiamRPN(Distractor-aware Siamese Networks for Visual Object Tracking)则是对SiamRPN的改进版。
目录
1、概述
2、Siamese Network
3、Region Proposal Network
4、Proposal selection 候选区域的选择策略
4.1 丢弃远离输出特征图中心的anchor所产生的边界框
4.2 余弦窗与尺度变化惩罚
1、概述
我们先从SiamRPN 开始说起,这套算法的思路是利用Siamese孪生网络分别提取初始帧目标与待检测帧图像的特征,二者提取的特征经过Region Proposal Network(RPN,区域候选网络),输出候选区域是目标的概率及其与位置大小有关的相对偏移量(非绝对量),进一步筛选处理后,得到最终目标位置与边界框。
如果你了解牛津Joao F. Henrique等人出的(SiameseFC)Fully-Convolutional Siamese Networks for Object Tracking以及目标检测领域的Faster RCNN的话,就很容易理解这篇论文了。
当然,不了解也没关系,配合我之后写的代码解读,也可以理解SiamRPN~~
首先看一下运行跟踪时网络总体结构图:

网络从功能层级上主要分为Siamese Network与Region Proposal Network两部分,分别对应图中左侧区域与中间区域,而右侧是输出。
Siamese Network部分分为Template模板分支与Detection检测分支,分别对应于输入的初始帧目标图像与后续待预测帧图像。显然,初始帧目标图像只输入网络一次,提取特征参数后Template模板分支就不变了,而后续待检测图像则会不断的输入网络,Detection检测分支每帧都会计算。
Region Proposal Network部分分为分类分支(classification)与回归分支(regression),分别输出候选区域是目标的概率及其与位置大小有关的相对偏移量。
接下来结合代码,绘制出各部分的详细结构图
2、Siamese Network

孪生网络部分与SiameseFC类似,都是AlexNet的变体,具体参数见上图,使用的是在github上开源的代码中设置的参数。模板帧(初始帧的目标图像)与待检测帧都使用同一网络提取特征,这就是孪生网络。
3、Region Proposal Network

紧接着上一步孪生网络的输出,模板分支输出经过不同卷积后得到两个尺寸一样(4*4),通道数不同的结果,通道数分别为2k(上图Cls kernel)与4k(上图Reg kernel),其中k是RPN的anchor比例尺度,论文里设置是[0.33, 0.5, 1, 2, 3]共5种尺度。通道数2k的要用于分类分支计算,因为要计算相应位置是目标(前景)及背景的概率2个值。通道数4k的要用于回归分支计算,计算出相应位置目标相对于预设anchor值的偏移量,包括dx、dy坐标偏移量与dw、dh长宽偏移量。
检测分支输出也进行卷积计算,但通道数不变,卷积计算出两个相同的结果(上图Cls F、Reg F),分别用于分类与回归计算。
分类分支是Cls kernel与Cls F进行相关计算,输出各位置在不同anchor比例尺度下是目标(前景)及背景的概率,回归分支是Reg kernel与Reg F进行相关计算,输出各位置目标相对于预设anchor值的偏移量,包括dx、dy坐标偏移量与dw、dh长宽偏移量。
简单来说,RPN部分就是用初始帧目标图像经过Siamese网络提取的特征作为卷积核,与待检测帧图像经过Siamese网络提取的特征进行卷积计算,得到分类特征图与回归特征图。
4、Proposal selection 候选区域的选择策略
RPN输出了各候选区域的分类特征与回归特征,需要一定的筛选策略以得到最终目标。
4.1 丢弃远离输出特征图中心的anchor
因为相邻帧物体运动一般不会很大,对于19192k的分类特征图,只保留靠近中心的anchor,比如15*15范围内的,在这范围外的,直接抛弃。

4.2 余弦窗与尺度变化惩罚
相邻帧物体运动一般不大,物体尺度变化也不大,所以进行加权计算,靠近中心(即上一帧目标的位置)以及尺度变化小的系数值大。对分类特征图的目标(前景)分值进行加权计算后,根据加权分值排名,最大的值对应的位置表示此帧的目标。
最后利用回归特征图计算出精细目标与边界框。
