【目标跟踪】SiameseRPN:High Performance Visual Tracking with Siamese Region Proposal Network
今年CVPR2018在跟踪领域的研究非常热门的文章主要采用的是Siamese类方法,在该领域都取得了显著的效果。过去我们已经报道了一篇名为FlowTrack的文章作为相关研究的案例。今天又推送了一篇来自同一会议的Spotlight论文《High Performance Visual Tracking with Siamese Region Proposal Network》,该论文详细探讨了基于区域建议网络的高效视觉追踪方法,在国际顶级会议CVPR上获得了 Spotlight 论文的认可。原文链接:High Performance Visual Tracking with Siamese Region Proposal Network
Motivation & Summary
相对于其他复杂的设计方案而言,作者的目标较为直接:即打造一个兼具高精度与高速度的追踪系统。就tracking领域而言,在准确性和速度之间寻求平衡一直是两个关键而相互制约的因素。基于相关滤波器的方法具有快速追踪的能力(CF),然而基于深度学习的方法在准确率方面表现更为突出。为了弥补这些差异,在采用SiameseNetwork作为基准模型的基础上,作者针对性地解决了其存在的不足,并提出了一种改进型的跟踪网络架构——将Siamese结构与区域 proposal网络(RPN)相结合(Siamese+RPN)。这种创新设计在显著的速度提升下实现了较高的精度水平。
Contribution
Siamese + RPN Network
Siamese Network
我们先回顾一下SiameseFC

这一简单的网络架构在过去两年对tracking的发展起到了主导作用。所谓的是双胞胎式神经网络,在主体由上、下两支分支构成的情况下实现信息传递与特征提取。其中上支网络(z)被定义为模板提取器(Template Extractor),负责从模板帧中提取特征;而下支网络(x)则被设定为搜索器(Search Module),其任务是从当前帧中识别候选区域并进行特征匹配计算。
该网络的优势体现在实现了将tracking任务转化为检测与匹配的过程,在整个tracking过程中无需更新该网络从而使得该算法运行速度显著提升至每秒80帧以上。随后的研究中后续研究者开发的CFNet则将特征提取与特征判别统一为一个端到端的整体系统首次实现了深度学习模型与相关滤波技术的无缝结合。
但是Siamese算法也存在明显的局限性:
- 模板支仅在初始帧提取,在tracking过程中难以确定哪一帧的结果更为可靠的情况下(我认为这是因为: 1)第一帧的特征最为可靠且稳定;2)仅采用初始帧提取模板特征的方法更为简洁高效,并且运算速度更快)。
- Siamese算法仅能确定目标中心位置(无法获得目标的实际尺寸信息),因此只能采用较为简单的多尺度回归方法(这种做法不仅增加了计算开销,并且降低了预测精度)。
为此,SiameseRPN的作者提出了Siamese+RPN的网络结构来解决问题2
Siamese RPN

该算法的流程图如上所示。其中紫色区域类似于经典的Siamese网络结构,在经过同一卷积神经网络(CNN)处理后生成两个特征图(feature maps)。蓝色区域属于区域建议框(RPN),其具体内容可通过下图进一步了解。

该作者取用了meta学习的概念,在模版帧中训练检测分支RPN的网络参数。简单来说,在预训练模板分支的基础上利用第一帧的目标特征生成了一系列weights(权重),这些weights编码了目标的信息,并被用作检测分支RPN网络用于识别目标的过程。
这样的方法有以下优势:
1)模板支能够学习到编码的目标特征,并通过此特征定位目标,
相较于仅使用第一帧的特征图进行匹配更为稳健。
2)与传统的双胞胎网络架构不同,
相比原始的Siamese网络,
RPN网络可以直接回归出目标的位置坐标及其尺寸,
无需像multi-scale那样进行多尺度处理而浪费时间。
Details
training
proposal selection
1. 空间和尺度变化的惩罚系数
2. 非极大抑制
Experiments
VOT 2015&2016


OTB100


从最后一张图表可以看出,在训练样本数量逐渐增加的过程中,模型性能持续提升。这进一步验证了这一算法采用的数据驱动策略。
