Distractor-aware Siamese Networks for Visual Object Tracking—ECCV’18 阅读
通过主动调节包含语义样本和简单样本的数据分布结构, 有效提升网络在区分不同类别方面的性能;同时, 在对网络架构进行深入研究的基础上, 优化了网络宽度设计, 提升了模型的整体计算能力;根据目标尺寸的变化动态调整搜索窗口范围, 确保能够适应不同尺度目标的检测需求
Abstract.
Recent studies have significantly attracted the attention of the visual tracking community due to their balanced tracking accuracy and high speed.
最近基于Siamese的跟踪器由于精度高速度快备受关注。
Despite most Siamese tracking approaches relying on feature descriptors, they are limited to discriminating target objects from non-semantic regions.
但是基于Siamese的跟踪器采用的特征只能从非语义背景中区分前景。
Aided by the semantic backgrounds, which are often perceived as distractions, the performance of Siamese trackers tends to be negatively impacted.
语义背景通常被认为是干扰会影响到基于Siamese的跟踪器的性能。
In this paper, we investigate the development of Siamese networks that are robust against distractions to achieve precise and enduring tracking performance.
本文作者专注于研究基于干扰感知的Siamese追踪器以实现精准而持续的追踪
As a starting point, features from traditional Siamese trackers have been analyzed initially. Observing that training data's inherent imbalance renders learned features less discriminative.
首先对传统的基于Siamese架构设计的跟踪器所依赖的各种特征进行了深入分析,在训练数据存在类别不平衡的情况下,所提取出的各种特征间的判别能力较弱
During the offline training phase, a well-optimized sampling approach is implemented to manage this distribution and ensure that the model prioritizes semantic distractors.
在离线训练过程中,采用了高效的采样方案以调控数据分布情况,并增强了模型对语义干扰的敏感度。
When performing inference, a novel module designed to be aware of distractors is developed. This module is capable of incremental learning and can achieve effective transfer of the general embedding to the current video domain.
在推理阶段中开发了一种新型干扰感知模块来进行增量学习,并能够显著地将一般的嵌入过程映射至当前的视频域。
Furthermore, we expand the proposed approach for long-range tracking by introducing a straightforward and efficient local-to-global search region strategy.
此外,在研究的基础上提出了一个基于局部到全局的搜索区域策略,并将其与所提方法相结合以提升其在长时跟踪任务中的表现
大量实验在基准测试中证实了我们方法在基准测试中的显著优势,在VOT2016数据集上分别获得9.6%的相对提升,在UAV20L数据集上则实现了35.9%的相对提升。所提出的追踪器不仅能够在短时间基准测试中稳定运行至每秒160帧,在长时间基准测试中也能达到每秒110帧的性能水平。
实验证明精度高速度快。
Introduction
三个问题:
大多数基于Siamese架构的设计仅局限于在单一目标及其无意义背景场景下实现有效的跟踪。然而,在被跟踪的目标本身具有语义信息并成为背景成分时(即存在干扰物),其性能表现欠佳。
大部分采用了Siamese框架的跟踪系统,在运行阶段无法更新模型状态;训练好的模型在处理不同特定目标时表现相同。然而这带来了较高的运行速度但却伴随精度性能的下降。
针对长时间追踪任务中,在采用Siamese框架进行目标追踪时(原句)其难以处理复杂的遮挡情况以及目标超出画面范围等情况(改写)
针对以上三个问题,作者做了相应的工作:
研究者指出,在实际应用中发现,在训练阶段存在两类关键问题:一类是非语义背景与具有语义意义的干扰物之间的不均衡分布导致学习过程受到阻碍;另一类是由于难以获得高质量的数据而使模型性能受限。其中丰富地收集不同类别(positive pairs)的有效实例能够显著提高模型的一般化能力;而充足的难对(negative pairs)则有助于增强模型的区分度。为此,在实验阶段我们采用了以下措施:首先通过整合现有检测数据集来补充正对的数量;其次又通过引入难对以提升模型的整体性能表现(如图所示)。

相较于前一研究(SiamRPN),该方法使用的训练数据集主要来自ILSVRC2015-VID视频序列和Youtube-BB视频序列,并未能充分覆盖所需场景类型。为此,在原有研究的基础上进一步增加了ILSVRC2015训练图像以及COCO基准库中的静态图片,并通过一系列增强手段(如图像平移、大小调节以及灰度化处理等)来显著提升正样本对的数量。
为增强区分度,在负样本数据中,研究者发现,在负样本中的语义背景及同类干扰物相对较少。为此,研究者引入了不同类别间的困难负样本来防止目标追踪出现漂移现象,并进一步引入了同一类别内的复杂干扰样本以更专注地刻画目标细节。
在数据增强的基础上,在专注于特定目标追踪时仍然难以将通用模型转换为专用于特定视频域的应用。此时上下文信息变得至关重要。为此作者提出了基于干扰物感知的模块(distractor-aware module),即当进行追踪操作时,在前一帧提取多个候选框(proposals),其中最大响应值即为目标的追踪结果。通过非极大值抑制算法筛选出大于设定阈值的候选框作为潜在的干扰物(di)。随后,在当前帧中计算各候选框与搜索区域之间的响应,并从整体响应中减去这些干扰项的影响来修正最终定位结果。其中a^被定义为权重因子并设为0.5,在实际应用中每个候选框对应的权重ai取1。

因为互相关操作是线性的,遵从结合律,所以可以写成下式:

加入增量学习:

DaSiamRPN表现出色地应对长时跟踪问题,在作者提出的短时跟踪与失败情况下的切换方法中实现了这一目标;当发生跟踪失败时,则采用了从局部到全局的搜索策略来进行目标重新检测。该方法通过detection score指标能够很好地指示出目标丢失状态;此时即可启动局域到全局搜索策略的同时将搜索窗口放大以完成后续定位
参考
Distraction-aware Siamese Networks for Visual Object Tracking (https://openaccess.thecvf.com/content_ECCV_2018/papers/Zheng_Zhu_Distractor-aware_Siamese_Networks_ECCV_2018_paper.pdf)
2. <>
3. <>
