Advertisement

Learning Dynamic Siamese Network for Visual Object Tracking—ICCV2017 阅读

阅读量:

本文主要聚焦于SiamFC跟踪器的研究工作,在探索如何使其具备良好的时变适应能力的同时进一步提升鲁棒性方面进行了深入探讨。尽管现有的深度学习方法在相似性度量精度和计算效率上展现出巨大的潜力,但在分类性能上仍存在显著不足。针对这一技术瓶颈问题,在现有研究基础上我们提出了一种新型动态自适应框架——一种基于多层特征自适应融合的新方法框架。该框架采用自适应学习机制能够有效地捕捉目标外观的历史变化特征并实现背景抑制功能;同时我们还设计了一种创新性的多层特征融合策略能够在保持计算效率的同时显著提升跟踪性能;此外该框架不仅支持在线学习还能直接应用于标记视频序列训练过程以充分利用运动目标的空间-temporal信息特性而非仅依赖于随机选取的两帧图像进行传统训练方法

Abstract.

为了有效学习目标的时序变化,并在杂乱背景中排除干扰的同时保持实时响应能力的问题,则是视觉物体跟踪中的核心挑战。

如何通过有效的学习方法来观察目标外观在时间中的变化,并避免杂波干扰的影响的同时确保实时响应能力?这是一切视觉目标跟踪系统必须解决的核心问题。

Siamese networks have demonstrated remarkable capabilities in being built upon matching-based trackers to achieve balanced accuracy and exceed the real-time processing speed.

目前一种基于Siamese框架的跟踪器(采用matching策略)在准确性和速度方面实现了良好的平衡

基于深度网络构建的跟踪系统具有较高的准确性但其运算效率较低。采用传统的方法如相关滤波算法构建的跟踪系统计算速度快但定位精度较低。改进型Siamese框架设计下的追踪系统不仅能够保持较高的定位精度还能显著提升运行效率。

Despite their significant potential, these trackers exhibit a considerable deficiency in handling the temporal variations of object instances and imaging parameters, which limits their effectiveness in real-world applications.

然而,在应对目标随时间演变等方面存在明显不足的情况下(基于Siamese的自适应跟踪系统仅以初始帧为目标建立模板,并未进行持续更新,在目标状态发生显著变化时可能会降低系统的性能表现)。

Within this study, we introduce a dynamic Siamese network through a rapid transformation-based learning framework. This system is designed to facilitate the acquisition of target appearance variations and the mitigation of background suppressions from preceding frames in an online manner.

该研究者开发了一种基于动态调整的Siamese架构,在线更新算法使其具备自适应能力,并成功应用于目标检测任务中;该算法采用基于实时更新机制的学习模型,在不影响系统运行的前提下实现了高效率的目标检测性能;同时利用历史帧信息有效消除背景干扰以提高检测精度

We subsequently introduce a method called elementwise multi-level integration for dynamically aggregating the network outputs through multi-level deep features.

除了作者之外, 他还提出了多层融合方法, 根据需求灵活运用深层特征以整合网络输出结果。

Distinct from existing methods, our approach permits the use of any feasible feature set, whether they are trained in general or specifically for particular tasks, such as SiamFC and VGG.

与其他跟踪器不同,本文的方法允许使用任何可行特征,如SiamFC和VGG。

More importantly, a proposed dynamic Siamese network structure is capable of being integrated and trained comprehensively across labeled video sequences, thereby fully leveraging the extensive spatial-temporal data inherent to moving objects.

本文所提出的策略基于视频序列进行训练,并且能够充分地利用运动目标在空间和时间维度的信息。

Our strategy thereby demonstrates that it achieves leading-edge performance on OTB-2013 and VOT-2015 benchmarks, while being characterized by remarkable balance in accuracy and real-time performance relative to other state-of-the-art methods.

在OTB13和VOT15测试了跟踪性能可以很好地平衡跟踪精度和速度。

Framework

Dynamic Siamese Network

该文对该跟踪器进行了概述性介绍,并基于公式(1)提出了Dynamic Siamese Network的匹配函数:

作者采用RLR方法估计 Vlt-1Wlt-1 。给定两个变量X和Y的目标是找到一个最优的线性转换矩阵R,并使X与Y尽可能接近。该上式可借助于傅里叶变换在频域进行快速计算。

Target appearance variation V: 在经过t-1帧后的跟踪中确定了目标Ot-1的位置,在此基础上基于初始状态和当前时刻的状态推导出外观变化模型(假设其变换过程呈现连续性特征)。

采用背景抑制技术W: 作者指出通过有效地抑制无关背景的影响来提升跟踪系统的性能, 其中在图3中Gt-1代表第t-1帧的原始图像(包含背景与前景),

使用高斯权值映射后的前景图(是想要通过学习 Wlt-1 后获得的目标图像)

Elementwise multi-layer fusion: 展述了如何实现多层深度特征的融合, 以便更有效地完成目标定位任务. 设计一个elementwise weight map.

,最终的响应图:

参考

Developing a Dynamic Siamese Network for Visual Object Tracking with Deep Learning Techniques

2. https://zhuanlan.zhihu.com/p/104948990

3. <>

4. <>

全部评论 (0)

还没有任何评论哟~