Advertisement

【Da-SiamRPN】《Distractor-aware Siamese Networks for Visual Object Tracking》

阅读量:
在这里插入图片描述

ECCV-2018

中科大


文章目录

  • 1 背景与动机分析

    • 2 相关研究综述
    • 3 劣势与贡献分析
    • 4 方法论
      • 4.1 传统Siamese网络的特点及局限性分析
      • 4.2 含干扰器训练策略探讨
      • 4.3 含干扰器的增量学习策略研究
      • 4.4 DaSiamRPN长序列跟踪机制设计
  • 5 实验

    • 5.1 数据集与指标

    • 5.2 前沿方法比较(基于VOT数据集)

    • 5.3 前沿方法比较(基于无人机数据集)

    • 5.4 前沿方法比较(基于目标跟踪基准数据集)

    • 5.5 消解分析

    • 6 Conclusion(own) / Future work


1 Background and Motivation

单一目标追踪的主要挑战包括遮挡、超出视野范围、形变以及背景干扰等因素

Siamese tracking approaches are capable of distinguishing foreground and non-semantic backgrounds, 其具体表现为以下几点.

  • 当场景变得复杂时,该方法可能会出现重大问题。
  • 通常缺乏在线更新模型的机制。
  • 在长时间跟踪的情况下,full occlusion和out-of-view场景可能导致难以处理的情况。

研究者致力于high-accuracy and long-term tracking领域,并提出了一种名为Distractor-Aware Siamese Networks的模型。在离线训练阶段采用了高效的采样策略,并在推理过程中引入了distractor-aware模块以提升性能。

  • 基于双子网络的追踪机制
  • 用于追踪的特征指标
  • 长时间目标追踪任务

3 Advantages / Contributions

  • 发现非语义背景与语义干扰器在训练数据中的不平衡状态是学习的主要障碍。
    • 提出了一种新型的方法Distractor-aware Siamese Region Proposal Networks (DaSiamRPN),在训练过程中学习到具有抗干扰能力的特征,在推理过程中通过在线跟踪能够显式地抑制干扰器。
    • 在推理阶段提出了局部到全局搜索区域策略,并显著提升了长期跟踪效果。

4 Method

4.1 Features and Drawbacks in Traditional Siamese Networks

在这里插入图片描述

用的是 metric learning

Metric Learning也可称为Distance Metric Learning或Similarity Learning,其核心目标是开发一种能够有效提取数据中高层次抽象特征的距离度量方法.研究者们致力于设计并优化各种各样的距离度量模型,这些模型通常被称为Mapping Functions,用于将原始数据转换为更适合后续处理的新表征空间.在这个新空间中,通过合理地配置参数设置,算法能够使得在该空间中相似样本之间的度量值较低且不相似样本之间的度量值较高.

训练的时候 non-semantic background occupies the majority

导致很难区分比较复杂的背景

图 1 展现的淋漓尽致

4.2 Distractor-aware Training

数据抽样方式

在这里插入图片描述

Various types of positive pair sets can enhance the model's generalization capability.

引入了 ImageNet Detection and COCO Detection 的目标检测数据集,并丰富了正样本类别。如图 2(a) 所示

2)Semantic negative pairs can improve the discriminative ability

负样本不仅来自于同类别,也引入了不同类别的负样本,如图2(b)和(c)

同类别的负样本可以让网络 focused on fine-grained representation

3)Customizing effective data augmentation for visual tracking

除了传统意义上的翻译(12像素),还有尺度变化(范围在0.85至1.15之间)以及亮度调整

还引入了 motion blur 数据增强方法

25% of the pairs are converted to grayscale

4.3 Distractor-aware Incremental Learning

增量学习

增量学习(Incremental Learning)即为一种通过持续利用新增数据不断获取新知识的学习方法,并能够在这一过程中保留大部分之前已掌握的知识内容。

在这里插入图片描述

普遍采用的方法是通过使用 cosine window 以抑制干扰项(随着距离增加惩罚降低),但在物体运动状况复杂的情况下这一方法无法保证其可靠性。

The author developed a distraction-aware module to efficiently transfer the generic representation into the video-related field.

(video domain 没有太明白指的是什么)

下面看看作者的具体增量学习方法——distractor-aware module

孪生跟踪器学习的是 similarity metric f(z,x),基础知识可以参考

SiamFC

SiamFC

SiamRPN

在这里插入图片描述

作者在这个的基础上引入 hard negative samples (distractors)

在每个帧中包含 17×17×5 个提议,在每个帧中使用 NMS 筛选出 potential distractor candidates d_i

在这里插入图片描述

h is the predefined threshold

z_t is the selected target in frame t,得分最高的 proposal 选为 z_t

the number of this set |D| = n

总体而言来说的话

Rank the candidate proposals P by their top-k similarity scores relative to the exemplar, selecting the highest-ranking candidates among the potential distractors and performing subsequent actions on them.

在这里插入图片描述

weight factor \hat{\alpha} = 0.5

The weight factor \alpha_i = 1 corresponds to the dual variables under sparse regularization.

对偶变量被称为在对偶线性规划问题中引入的一种变量形式,在优化生产过程中各资源或工艺条件时具有重要价值。

它表示为第i种资源每增加一个单位所导致的目标函数值的变化量。

d_i 需遍历 n 个 proposals

p_k 需遍历 k 个 proposals

为了确保最高得分为 p_k(其中最高得分为 z_t 的可能是目标 x 本身)与其他 NMS 处理后的 proposals 的相似度最小化——从而扩大前景与背景之间的差异。

Exemplars and distractors are considered as positive and negative exemplar sets within the framework of correlation filters.

作者对上述公式进行加速

在这里插入图片描述

this system effectively achieves the tracker's operation when compared to SiamRPN, which demonstrates equivalent performance.

引入学习率 \beta = \sum_{i=0}^{t-1}(\frac{\eta}{1- \eta })^{i}\eta=0.01

在这里插入图片描述

这就是优化目标,替代了上面的

在这里插入图片描述

训练的时候优化,推理的时候 online tracking

4.4 DaSiamRPN for Long-term Tracking

extremely challenging scenarios pose additional significant challenges in long-term tracking

作者提出了一个简单而有效的局部至全局搜索区域策略

在这里插入图片描述

在目标丢失的情况下,在测试过程中使用了DaSiamRPN算法计算所得的结果表明:其分数明显下降;这可能是因为该算法表现出更高的性能;而与所采用的具体策略无关。

在目标丢失的情况下,DaSiamRPN 的搜索范围会扩大——采用迭代式的局部到全局搜索策略

以便捕捉到在常规搜索范围之外出现的目标

5 Experiments

5.1 Datasets and Metrics

数据集

VOT2015

VOT2016

VOT2017

UAV20L with 20 long-term videos

UAV123 with 123 videos

OTB2015

评价方式

accuracy (A)

robustness ®

expected average overlap (EAO)

OP: mean overlap precision at the threshold of 0.5;

DP: mean distance precision of 20 pixels;

Success and precision plots

5.2 State-of-the-art Comparisons on VOT Datasets

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

领先的很明显

5.3 State-of-the-art Comparisons on UAV Datasets

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

The long-term tracking dataset benefits from distractor-aware features and a locally-to-globally search-based approach.

5.4 State-of-the-Art Comparisons on OTB Datasets

Each of the trackers starts their initialization process with a true object state at the beginning of the first frame.

在这里插入图片描述

5.5 Ablation Analyses

在这里插入图片描述

消融的实验很好的体现了本文提出的方法的提升点

6 Conclusion(own) / Future work

核心竞争力:具备干扰项感知能力和局部到全局搜索策略的特征。(本博客 4.3 和 4.4 小节)

个人网站上的文章《ECCV视觉目标跟踪之DaSiamRPN》

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

全部评论 (0)

还没有任何评论哟~