Advertisement

【SiamFC++】《SiamFC++: Towards Robust and Accurate Visual Tracking with Target Estimation Guidelines》

阅读量:
在这里插入图片描述

Xu Y et al. propose an enhanced version of SiamFC called SiamFC++ which is designed to improve visual tracking accuracy and reliability through refined feature extraction mechanisms

AAAI-2020


文章目录

  • 1 背景与动机分析
  • 2 相关研究综述
  • 3 劣势与贡献
  • 4 方法概述
  • 5 实验分析
    • 5.1 数据集选择
    • 5.2 方法发展轨迹:从SiamFC到SiamFC++
    • 5.3 多个基准测试结果展示
    • 5.4 对比现有非基于我们的方法的追踪器性能

第6节 结论与未来工作


1 Background and Motivation

单目标跟踪方法可以大致分为如下 3 类

  • DCF 和 SiamFC 采用了粗暴的多尺度测试方法(即具有显著缺陷),该方法不仅存在准确性问题而且效率低下。
  • ATOM 通过迭代优化多个初始边界框(即初始候选框),利用梯度上升方法(即通过梯度上升算法)来估计目标边界框;然而该方法的一个主要缺点是会显著增加计算开销并引入了额外的超参数设置。
  • SiamRPN 跟踪器家族在检测阶段引入了 RPN(即单次检测器)架构;尽管这一改进简化了训练过程并降低了计算复杂度;但其缺点在于:首先 RPN 算法在计算相似性得分时会引入锚框过载现象;其次由于锚框尺寸和长宽比的选择过于局限;容易导致跟踪鲁棒性下降;此外该方法对数据分布先验信息的依赖偏离了传统目标跟踪对通用物体特性的需求。

Upon analyzing the distinctive features of visual tracking tasks and the shortcomings of existing trackers, the authors put forward four design principles for model development.

both classification and target state estimation (G1)

giving classification score without ambiguity (G2)

tracking without prior knowledge (G3)

being aware of estimation quality (G4)

在TrackingNet平台上获得了未曾见过的AUC分数达成了75.4%,同时以超过90帧每秒的速度运行

(1)Tracking Framework

作者展开描述下先前提到的的 3 类单目标跟踪方法

multi-scale test to estimate the target scale

the RPN structure is much more fit for object detection

The tracking mechanism is significantly affected by the ambiguous association between the anchor box and the object, which in turn impairs the tracker's robustness.

(2)Detection Framework

  • anchor-free detectors
  • anchor-based detectors

3 Advantages / Contributions

制定了四种构建单目标跟踪算法的标准;根据这些标准开发出了SiamFC++;该系统在多个公开基准测试中展现出显著的速度和准确性。

4 Method

在这里插入图片描述

(1)G1: decomposition of classification and state estimation

相比于 SiamFC,引入了回归分支

在这里插入图片描述

regression head 的位置到 ground truth image boundaries 的距离进行回归训练,并且这个方法完全一致于 FCOS 算法。

Tian Z, Shen C, Chen H, et al. FCOS: 具有简洁而强大的特性不依赖锚点的目标检测器[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 44(4): pages 1922–1933.

在这里插入图片描述
在这里插入图片描述

location (x, y) on feature map

The coordinates (x₀, y₀) and (x₁, y₁) represent the top-left and bottom-right corners of the ground truth bounding box.

Here s is the total stride of backbone (s = 8 in this paper)

回归的时候落在下述范围的网格才是正样本

在这里插入图片描述

(2)G2: non-ambiguous scoring

在这里插入图片描述

作者采用的是完全不依赖锚点的方法,并不再依赖基于锚点的方法。他的表述有些迂回曲折——实际上只是回归的方式有所区别。通过确保优化空间得到充分约束,这有助于提升梯度反向传播的效率

对于 anchor-based 方法而言,在计算时其歧义性似乎有些难以让人信服。在计算过程中,在每个位置都会生成多个锚点,并为每个锚点生成对应的特征图。随着锚点数量的不同,在计算时每个位置都会生成多个特征图。这些不同的特征图分别学习对应锚点相对于真实偏移量的不同偏移关系

从某些观点来看,这种方法的表现令人满意。然而,在正样本密度极其集中的情况下,该 anchor-based 方法会产生大量误报,并难以有效应用于仅在全局范围内定位单一目标的场景。

(3)G3: prior knowledge-free

这个也是 anchor-free 的特点

(4)G4: estimation quality assessment

该团队提出了一种简单而强大的无锚定物体检测器:FCOS[J]. IEEE transactions on pattern analysis and machine intelligence, 2020, 44(4): 1922-1933.

Jiang B, Luo R, Mao J, et al. Established localization confidence toward precise object localization[C]//Proceedings of the European conference on computer vision (ECCV). 2018: 784-799.

也是来自 FCOS 里面的,评估计算方法如下

在这里插入图片描述

adding a single 1×1 convolutional layer while performing the 1×1 convolution classification head in parallel

Prior Spatial Score (PSS)

在这里插入图片描述

作者出于规避嫌疑的目的,并未提供IoU评分作为质量评估指标。最终的结果未能维持PSS的稳定性而被迫放弃使用。

在这里插入图片描述

Inference involves calculating the score employed to determine the final bounding box location as the product of PSS and the corresponding predicted classification score.

(5)Training Objective

在这里插入图片描述

分类任务采用了focal损失函数,在回归问题中应用了IoU损失,在质量评估指标的构建过程中引入了二元交叉熵(BCE)损失函数

5 Experiments

SiamFC++ 搭配 AlexNet 主干

SiamFC++ 搭配 GoogleNet 主干

5.1 Datasets

  • ILSVRC-VID/DET
  • Youtube-BB
  • LaSOT
  • VID

5.2 From SiamFC towards SiamFC++

在这里插入图片描述

SiamFC 是没有回归分支的

该方法引入了回归分支以及用于质量评估的分支;有人认为可以将这两个分支分别处理;例如,在表格4与5之间添加一行;具体来说是将Head type设置为cls+reg;而Quality assessment则设为空;通过消融实验可以进一步验证这一改进的有效性

有一说一,提点还是挺多的,EAO

Quality Assessment Choice,作者实验发现 PSS 更稳定

5.3 Results on Several Benchmarks

在这里插入图片描述

评价指标 SR.75 比较好说明框的质量更高,质量评估分支发挥了一定的作用

5.4 Comparison with Trackers that Do not Apply Our

Guidelines

在这里插入图片描述

基于锚点的 SiamRPN 模型预测出的结果普遍较高,在误分类的情形中(most classification score of SiamRPN++ follows similar and highly overlapped distributions, regardless of success or failure)

The predicted box of SiamRPN++ exhibits a higher degree of overlap with the anchor boxes compared to the ground truth boxes, which may result in performance degradation.

图 3 还是比较直观的说明了 anchor-based 和 anchor-free 的差异

6 Conclusion(own) / Future work

许多图像分类设计网络结构的论文行文结构如此,强调设计准则

实验部分的数量相对较少,在图形和表格的数量上也有所欠缺;文中采用的方法多为现有技术的借鉴与融合,在单目标跟踪领域中将这些技术混合应用到研究中;提点较为突出但整体创新性略显不足;与文中其他方法相比,在提升精度方面取得了显著成果

7 SFFAI65—目标跟踪主题《许胤达:SiamFC++:视觉目标跟踪器设计的指导准则》

许先生分享《SiamFC++》——一种先进的目标追踪算法的设计思路与实践要领

一作汇报分享的PPT

在这里插入图片描述
在这里插入图片描述

跨模态,白天训练的,晚上也能跟踪(右下角)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

ATOM 类方法 online optimized

在这里插入图片描述
在这里插入图片描述

ambiguity 歧义性

1 predictions mapped at a single pixel, 在空间上是, 但 feature maps have quantities of them, each quantity corresponding to different bbox regression

在这里插入图片描述

state estimation 是输出框的意思

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

全部评论 (0)

还没有任何评论哟~