Advertisement

DWSiam《Deeper and Wider Siamese Networks for Real-Time Visual Tracking》阅读笔记

阅读量:

Deeper and Wider Siamese Networks for Real-Time Visual Tracking

  • 一 目的
    • 二 探讨

    • 三 策略

    • 四 系统架构规划

    • [1) 定量评估]

    • [2) 定性评估]

    • [3) 核心设计理念]

    • [4) 一种基于残差精简的技术(CIR)]

    • [5) 网络架构设计]

    • 五 实验

    • 论文&工程地址

一 动机

DEEPER AND WIDER意指'深入而广泛'

神经元感受野的大量增加导致特征的可辩性和定位精度降低。

卷积网络的padding在学习中引起了位置偏差。

二 分析

基于作者进行了大量对比实验并归纳总结得出的原因。我们接下来将探讨本文中提出的方法。

为了深入解析这一现象的原因, 研究者对Siamese网络的结构进行了系统性分析, 并明确指出: 神经元的空间扩展程度. 采样间隔以及填充策略构成了影响跟踪性能的关键因素.

较大的感知域能够包含更为丰富的图像背景信息。
相比之下, 较小的感知域可能难以捕捉到目标对象的内部结构。
由此可见, 在模型设计中选择适当的感受野尺寸对于性能提升至关重要。

网络步长设置对定位精度具有显著影响,尤其是对小型目标表现尤为突出.此外,步长参数直接影响所生成的特征图尺寸,这一因素会对特征辨识能力和检测性能产生重要影响.

在全卷积网络中,卷积操作中的填充策略可能导致可能出现的位置偏移问题,在模型训练过程中导致可能出现的位置偏移问题,并影响预测结果的准确性

三 方案

作者所提出的解决方案基于残差瓶颈架构构建了一组自裁残差单元(CIR Unit),其中通过调节步幅和平移范围优化了目标检测精度。残留路径源自ResNet的设计,在提升网络深度的同时保持了计算效率。随后通过串联多个自裁残差单元构建了两种不同的网络架构。包括更深和更宽两种版本。最终只需将该创新性设计应用到孪生回溯追踪器中即可实现目标追踪功能。

四 框架设计

那么具体又是如何设计这个跟踪框架呢?作者系统地研究了影响其追踪精度的关键性网络要素,并深入探究导致替代型网络性能出现瓶颈的根本原因。随后,在分析和消除网络结构内在要素的影响机制时开展了一系列消融实验,并最终识别出对其追踪性能降低具有决定性作用的关键性要素。这些研究成果不仅深化理解了相关技术机理,还据此提出了适用于Siamese追踪架构的设计参考方案。

1)定量分析

性能下降与网络结构的变化直接相关,在深入分析这些网络架构之前,请明确它们之间的结构差异。如表所示,在进一步探讨其他因素时,请注意以下几点:除了深度和宽度之外,在神经网络架构中还有其他几个不同的内部参数设置需要关注。例如,在卷积神经网络中引入了步长因子(stride)和填充因子(padding),这些参数会显著影响模型的感受区域大小(receptive field)以及输出特征维度(output feature dimensions)。

在这里插入图片描述
在这里插入图片描述

在表格中对AlexNet、VGG-19、Inception-22以及ResNet-50等神经网络架构的内部因素进行了详细分析。编号为1至10的不同版本中,在调整卷积核尺寸的同时,并结合下采样层与填充策略来展示变化趋势。其中,在Inception系列网络中感受野被定义为一个可变范围,在此过程中研究者仅提出了理论上的最大感受野范围并将其与ResNet进行对比分析

通过表格数据可以看出,在步幅上升的情况下会导致性能急剧下降。由此可见,在孪生网络跟踪器中使用中级特征(即str为4或8)时其分类精度较深特征(即str≥16)会更高。

在最佳区间内(约60%至80%),感受野的具体数值表现出了良好的效果)。例如,在127像素的标准图像中(91像素是一个典型的选择)。有趣的是,在作者的研究中发现这一比例对于各种网络架构而言具有稳定性(并且表现出对架构变化的高度鲁棒性)。这也表明,在孪生框架中特征嵌入的质量与滤波器尺寸密切相关。

核心因素是感受野决定了计算特征在图像中的分布区域。较大的感受野能够覆盖丰富的图像背景信息,并使提取出的特征无法准确反映目标对象在空间中的位置关系。相比之下,较小的感受野难以捕捉到物体内部复杂的结构细节。

因此,在特定尺寸范围内使用的RF能够使该特征成功地提取出目标物体的特征,并且该最佳尺寸与其参考图像的大小高度相关(60%~80%)。

经过观察研究发现,在OFS取值不大于3的情况下, 其对跟踪精度的作用并不显著. 此外, 作者认为主要原因在于小特征图无法有效描述目标的空间结构.

最后揭示了Padding对跟踪性能产生了显著的负面影响,并为进一步探究采取了定性实验方案

2)定性分析

从定性分析的角度来看,在带padding设计的backbone架构中, 当目标移至边界时, 此时响应图的最大值就无法精确指示出目标的具体位置.

在这里插入图片描述

在图像中观察到当目标靠近图像边缘时 ResNet失效了 相比之下 在同一场景下采用改进后的追踪器则能够成功跟踪

3)设计方针

基于上述内容的分析,作者阐述了四个指导原则用于减轻网络结构中影响因素的作用。

  • 孪生跟踪器在小步幅的表现上更好。

经验上选择步幅是4或者8

  • 感受野的大小应该根据模板图片的大小调整。

经验上是模板帧的60%~80%

  • 在设计网络架构时,应将网络步幅,感受野和输出特征尺寸视为一个整体。

根据需要调整三者的大小,以协调网络结构

针对全卷积结构的孪生网络而言,在解决两个网络流之间的感知不一致问题上具有尤为关键的作用。

有两种有效的方案可供选择:一种是去除填充操作;另一种则是同时扩大模板帧及检测帧,并对受到padding影响的部分进行去除处理。

4)自裁残差单元( cropping-insideresidual,CIR)

简单来讲,使用作者提出的自残单元的堆叠来建立更深、更宽的网络。

残差模块由三个堆叠的卷积层和绕过它们的快捷连接构成,如图3所示。这三个卷积层分别为1×1、3×3及1×1尺寸,其中前两个卷积层分别负责压缩后又恢复输入维度(即第一层的1×1卷积实现降维而第二层的1×1卷积则又将其恢复至原始输入维度),从而使得中间的3×3卷积成为瓶颈层。该瓶颈层采用大小为零边界填充的一系列操作,在相加前以确保输出尺寸与前一层兼容。

在这里插入图片描述

自裁残差单元在基础残差单元之上新增了执行剪裁操作的模块。其原因已在前述部分详细阐述。为消除padding所带来的影响,在基础残差单元上增加了执行剪裁操作的模块。该模块的输出与新增特征在同一位置进行整合,并如图3(a')所示展示其工作流程。

采用下采样机制的自裁模块CIR-D通过降低空间维度实现特征图尺寸的缩减,并使每个位置处的输出通道数量翻倍。类似于残差模块中的设计,CIR-D同样采用了填充策略,但研究者在此基础上优化了网络架构以规避填充所带来的负面影响。值得注意的是,相较于传统的CIR模块,加入自裁机制后,我们采用了Max-pooling对特征进行进一步降维。

作者基于之前的方针指导进行了这些修改工作。其主要思路在于通过删除受填充影响的特征来实现内部块结构的有效保持。具体而言,在建议采用CIR单元的情况下,在添加操作完成后再进行裁剪操作(如同文中所述),而并未调整下采样位置的情况下,则会导致被裁剪后的特征无法从输入图像外围像素获取任何信息。

作者将CIR单元也用到了多分支的网络中,如图3的©、(d)所示。

5)网络结构

基于ResNet构建了更深一层的网络架构,在此过程中对步长和感受野尺寸进行了相应的优化以适应不同的应用场景需求。具体包括了CIResNet 16、19、22及43等系列模型的设计方案,在实验验证中均展现了优异性能表现。具体参数可在原文中详细阐述

该研究者开发了两种更为宽广的网络架构,包括CIR-Inception和CIR-NeXt两种模型。具体细节在此省略。

在这里插入图片描述

五 实验

作者替换了原有的浅层骨干网络,并采用5层AlexNet结构进行优化;这也是对原有架构的主要改动。

以下是几种网络结构的实验结果。

在这里插入图片描述

可以看到除了帧数略有降低,AUC、EAO都有所提升。

论文&工程地址

学术论文的链接位置:https://arxiv.org/abs/1901.01660

全部评论 (0)

还没有任何评论哟~