SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks
Abstract
基于Siamese网络的跟踪器将跟踪描述为目标模板和搜索区域之间的卷积特征互相关。然而,与最先进的算法相比,Siamese追踪器的精度仍有差距,它们无法利用深度网络(如ResNet-50或更深)的特性。在这部著作中,我们证明了核心原因来自于缺乏严格的平移不变性。通过全面的理论分析和实验验证,我们通过一种简单而有效的空间感知采样策略打破了这一限制,成功地训练了一个性能显著提高的resnet驱动的Siam跟踪器。此外,我们提出了一个新的模型架构来执行分层和深度的聚合,这不仅进一步提高了准确性,而且减少了模型的大小。我们进行了大量的消融研究来证明所提出的跟踪器的有效性,该跟踪器目前在五个大型跟踪基准上获得了最好的结果,包括OTB2015、VOT2018、UAV123、LaSOT和TrackingNet。我们的模型将会发布,以方便进一步的研究。
1. Introduction
在过去的几十年里,视觉对象跟踪得到了越来越多的关注,并一直是一个非常活跃的研究方向。它在视觉监控[47]、人机交互[26]、增强现实[48]等领域有着广泛的应用。虽然最近已经取得了很大的进展,但由于许多因素,如光照变化、遮挡和背景杂波等,这仍然是一个非常具有挑战性的任务。
最近,基于Siamese网络的跟踪器[40,1,15,42,41,24,43,52,44]引起了社区的广泛关注。这些Siamese跟踪器将视觉对象跟踪问题表述为通过学习目标模板和搜索区域的特征表示之间的互相关来学习通用的相似度图 。为了保证跟踪效率,离线学习的Siamese相似度函数在运行期间经常被固定[40,1,15]。CFNet跟踪器[41]和DSiam跟踪器[11]分别通过一个运行平均模板和一个快速转换模块更新跟踪模型 。SiamRNN跟踪器[24]在Siamese网络之后引入区域建议网络[24],并进行联合分类和回归跟踪 。DaSiamRPN跟踪器[52]进一步引入了干扰感知模块,提高了模型的分辨能力
虽然以上的Siam追踪器已经获得了出色的追踪性能,特别是在良好的平衡精度和速度方面,即使是表现最好的SIam追踪器,如SiamRPN,在跟踪基准上,如OTB2015[46],其准确度仍然与最先进的[5]有显著的差距。我们注意到,所有这些跟踪器都是在类似于AlexNet[23]的架构上构建它们的网络的,并且多次尝试使用更复杂的架构(如ResNet[14])来训练SIam的跟踪器,但是没有性能提升。受此启发,我们对现有的SIam追踪器进行分析**,发现其核心原因来自于对严格平移不变性的破坏**。由于目标可能出现在搜索区域的任何位置,目标模板的学习特征表示应该保持空间不变,我们进一步从理论上发现,在现代深层架构中,只有AlexNet的zero-padding 变体满足这种空间不变性约束.
为了克服这一限制,利用更强大的深层架构来驱动SIAm追踪器,通过大量的实验验证,我们引入了一个简单而有效的采样策略来打破Siam追踪器的空间不变性限制。我们成功地训练了一个基于SiamRPN[24]的跟踪器,使用ResNet作为骨干网络,取得了显著的性能改进。得益于ResNet架构,我们提出了一种分层的加重layer-wise特征结构用于互相关操作,这有助于跟踪器从多个层次学习的特征预测相似度图。 通过对Siamese网络结构进行交叉关联分析,发现其两个网络分支在参数数量上极不平衡 ;因此,我们进一步提出了一种深度可分相关结构 ,该结构不仅大大减少了目标模板分支中的参数数目,而且稳定了整个模型的训练过程。此外,我们还观察到一个有趣的现象,即同一类别的物体在同一通道上有较高的响应,而其他通道的响应则受到抑制。正交特性也可以改善跟踪性能
总之,这项工作的主要贡献是以下分四部分列出:(其实就是对于RPN的改性贡献)
- 我们对Siamese跟踪器进行了深入的分析,证明了在使用深度网络时,由于严格的平移不变性的破坏而导致精度下降。
- 我们提出了一种简单而有效的采样策略来打破空间不变性的限制,成功地训练了一个由ResNet架构驱动的Siam跟踪器。
- 我们提出了一种分层的特征聚合结构用于互相关操作,这有助于跟踪器根据在多个层次上学习到的特征预测相似度图。 ??
- 我们提出了一个深度可分离的相关结构来增强互相关,从而产生多个与不同语义相关的相似度图。 ??
基于以上的理论分析和技术贡献,我们开发了一种高效的视觉跟踪模型,该模型在跟踪精度方面达到了新的水平,同时以35帧/秒的速度高效运行。该跟踪器被称为SiamRPN++,在五个最大的跟踪基准上始终获得最佳跟踪结果,包括OTB2015 [46], VOT2018 [21], UAV123 [31], LaSOT [10], TrackingNet[30]。此外,我们提出了一个使用MobileNet[18]骨干网的快速改进型跟踪器,在以70帧/秒的速度运行的同时,保持竞争力的性能。为了进一步研究视觉跟踪方向,我们将发布SiamRPN++ tracker的源代码和训练模型.
2. Related Work
在本节中,我们将简要介绍最新的跟踪器,重点介绍基于SIam网络的跟踪器[40,1]。此外,我们还描述了深层体系结构 的最新发展。
由于新的基准数据集[45、46、19、21、10、30]的构建和改进的方法[16、51、6、7、17、32、9、5、43、52、49],视觉跟踪在过去十年中得到了快速发展。标准化基准[45,46,10]为不同算法的比较提供了公平的测试平台。每年举行的跟踪挑战[22,19,20,21]不断推动跟踪性能。随着这些进步,许多有前途的跟踪算法被提出。Bolme等人的开创性工作[3]将信号处理领域的卷积定理引入到视觉跟踪中,将对象模板匹配问题转化为频域的相关运算。基于相关滤波器的跟踪器正是基于这种转换,不仅获得了高效的运行速度,而且如果使用适当的特征,还可以提高精度[16,50,51,8,6]。随着深度学习模型在视觉跟踪中的广泛应用,基于深度特征表示的相关滤波器的跟踪算法[9,5] 已经在流行的跟踪基准[45,46]和挑战[22,19,20]中获得了最先进的精度。
近年来,基于Siamese网络的跟踪器因其良好的均衡跟踪精度和效率而备受关注[40,1,15,42,41,12,24,43,52,44]。这些跟踪器将视觉跟踪描述为一个互相关联的问题,并期望从端到端的学习中更好地利用深度网络的优点。为了从两个分支的相互关系中产生一个相似映射,他们训练了一个y形的神经网络来连接两个网络分支,一个用于对象模板,另一个用于搜索区域。此外,这两个分支可以在跟踪阶段 保持固定[40,1,15,43,24,52]或在线更新 以适应目标的外观变化[42,41,12]。目前最先进的暹罗跟踪器[24,52] (Diasiam,RPN)在暹罗网络之后通过区域建议网络增强了跟踪性能 ,并产生了非常有前途的结果。然而,在OTB基准[46]上,他们的跟踪精度仍然与最先进的深度跟踪器如ECO[5]和MDNet[32]有较大的差距.
随着Alex等人在2012年提出的现代深度架构AlexNet,对网络架构的研究迅速增长,提出了许多成熟的深度架构,如VGGNet[37]、GoogleNet[38]、ResNet[14]、MobileNet[18]等。这些深度架构不仅为神经网络的设计提供了更深入的理解,也推动了许多计算机视觉任务的发展,如目标检测[33]、图像分割[4]和人体姿态估计[39]。在深度可视跟踪器中,网络架构通常包含不超过5个由AlexNet或VGGNet裁剪的构成层。解释了这一现象,认为浅层特征对物体[34]的准确定位起着重要作用 。在这项工作中,我们认为,如果使用更深层的模型对模型进行适当的训练,暹罗追踪器的性能可以得到显著的提升
3. Siamese Tracking with Very Deep Networks
这项工作最重要的发现是,如果使用更深层次的网络,基于暹罗网络的跟踪算法的性能可以显著提高。然而,仅仅通过直接使用像ResNet这样更深层次的网络来训练暹罗语跟踪器并不能获得预期的性能改进。我们发现潜在的原因很大程度上涉及到暹罗追踪器的内在限制,因此,在引入所提出的暹罗rpn ++模型之前,我们首先对暹罗网络进行了更深入的分析.
3.1. Analysis on Siamese Networks for Tracking(分析Siamese网络的跟踪)
基于Siamese网络的跟踪算法[40,1]将视觉跟踪描述为一个互相关问题 ,并从具有Siamese网络结构的深度模型中学习一个跟踪相似图,一个分支用于学习目标的特征表示,另一个分支用于搜索区域。目标补丁通常是在第一帧的序列,可以被视为一个范例z。我们的目标是找到最相似的patch(实例)在语义框架x嵌入空间φ(·):
f (z、x) =φ(z)∗φ(x) + b, (1)

其中b用于对相似值的偏移量进行建模。
这个简单的匹配函数自然包含了设计Siam跟踪器的两个内在限制。
-
承包部分和特征提取器中使用Siam追踪器有一个内在限制严格的平移不变性,f (z, x[△
τj]) = f (z、x)[△τj],[△τj]在哪里翻译转移子窗口操作,保证了有效培训和推理。 -
收缩部分对结构对称性有内在的约束,即f(z, x 0) = f(x 0, z),适合于相似学习。
经过详细的分析,我们发现防止使用深度网络的Siam跟踪器的核心原因与这两个方面有关。具体来说,一个原因是深层网络中的填充会破坏严格的平移不变性。另一个是RPN需要非对称特征来进行分类和回归。我们将引入空间感知采样策略来克服第一个问题,并在3.4节中讨论第二个问题 .

图1所示。使用不同的随机平移时正样本先验概率的可视化。在±32像素内随机平移后,分布更加均匀.

图2。随机平移对VOT数据集的影响
严格的平移不变性只存在于没有填充的网络中,如修改过的AlexNet[1]。以前的基于暹罗的网络[1,42,41,24,52]被设计得很浅,以满足这个限制。然而,如果所使用的网络被诸如ResNet或MobileNet这样的现代网络所取代,填充将不可避免地使网络更深入,从而破坏了严格的翻译不变性限制。我们的假设是,违反这一限制将导致空间偏差
我们通过填充网络的仿真实验来验证我们的假设。移位定义为数据扩充中均匀分布产生的最大平移范围。我们的仿真实验如下。首先,在三个独立的训练实验中,目标被放置在中心,移动范围不同(0,16和32)。收敛后,我们将测试数据集上生成的热图进行聚合,并将结果可视化如图1所示。在第一次零位移模拟中,边界区域的概率降为零。结果表明,尽管实验对象出现了,但仍然存在很强的中心偏差。另外两个仿真结果表明,增加偏移范围将逐步防止模型崩溃为这个平凡解。定量结果表明,32-移位的聚集热图更接近测试对象的位置分布。实验证明,空间感知采样策略有效地缓解了填充网络对严格平移不变性的破坏
为了避免在物体上产生强烈的中心偏差,我们通过空间感知采样策略来训练具有ResNet-50主干的SiamRPN。如图2所示,在VOT2018上,零移位的性能降低到0.14,适当的移位(±64像素)对于训练深暹罗跟踪器至关重要。

图3。说明我们建议的架构。在给定目标模板和搜索区域的情况下,通过融合多个Siamese区域建议(SiamRPN)块的输出,得到稠密预测。每个SiamRPN块显示在右侧
3.2. ResNet-driven Siamese Tracking(resnet驱动的Siamese跟踪器)
基于以上分析,可以消除中心偏差 的影响。一旦我们消除了对中心位置的学习偏差,任何现成的网络(如MobileNet、ResNet)都可以在域适应后进行视觉跟踪。此外,我们还可以自适应地构造网络拓扑结构,揭示深度网络的视觉跟踪性能。
在本小节中,我们将讨论如何将深度网络转移到我们的跟踪算法中。我们的实验主要集中在resnet - 50[14]上。原始的ResNet步长较大,为32像素,不适合密集Siamese网络预测。如图3所示,我们通过修改conv4和conv5块使其具有单位空间步长,将最后两个块的有效步长从16像素和32像素降低到8像素,并通过扩大卷积[27]来增加其感受野。每个块输出都附加一个1×1的卷积层,将信道压缩到256。
由于保留了所有层的标记,因此模板特征的空间大小增加到15,这给相关模块增加了沉重的计算负担。因此,我们裁剪中心7×7区域[41]作为模板特征,其中每个特征单元仍然可以捕获整个目标区域。
在[24]之后,我们使用互相关层和全卷积层的组合来组装一个head模块来计算分类分数(用S表示)和边界盒回归(用B表示),Siamese RPN块用P表示。
此外,我们发现对ResNet进行仔细的微调可以提高性能。通过将ResNet提取器的学习速率设置为RPN部分学习速率的10倍,使特征表示更适合于跟踪任务。与传统的Siamese方法不同,深度网络的参数是端到端联合训练的。据我们所知,我们是第一个实现端到端的学习深度暹罗网络(> 20层)的视觉跟踪。
3.3. Layer-wise Aggregation
利用深度网络如ResNet-50,可以实现不同深度层的聚合。直观地说,视觉跟踪需要丰富的表示,从低到高,从小到大,从细到粗的分辨率。即使在卷积网络中有深度的特征,单独的层也是不够的:组合和聚合这些表示可以提高识别和定位的推理能力。
在之前的作品中,只使用了像AlexNet这样的浅层网络,多层次的功能并不能提供非常不同的表现。然而,考虑到接受域的差异,ResNet中的不同层更有意义。早期层的特征主要集中在低层信息上,如颜色、形状,这是本地化所必需的,而缺乏语义信息;来自后一层的特征具有丰富的语义信息,这在一些挑战场景中是有益的,比如运动模糊、大变形。假设使用这种丰富的层次信息来帮助跟踪。
在我们的网络中,通过提取多分支特征来协同推断目标定位。至于ResNet- 50,我们将探索从最后三个残差块中提取的多级特性,以实现分层聚合。我们分别将这些输出称为F3(z)、F4(z)和F5(z)。如图3所示,conv3、conv4、conv5的输出分别送入三个Siamese RPN模块.
由于三个RPN模块的输出尺寸具有相同的空间分辨率,因此直接对RPN输出进行加权求和。加权融合层结合了所有的输出。
由于组合权值的域不同,对组合权值进行分类和回归。权重与网络一起进行端到端离线优化。与之前的工作相比,我们的方法并没有明确地结合卷积特性,而是分别学习了classi- fier和regressions。请注意,随着骨干网络深度的显著增加,我们可以从足够的视觉语义层次多样性中获得实质性的收益。


图4。说明不同的互相关层。
(a)在SiamFC[1]中,互相关(XCorr)层预测目标模板与搜索补丁之间的单通道相似性映射。
(b)上通道互相关(UP-XCorr)层在SiamRPN[24]中将一个沉重的卷积层与几个独立的XCorr层层叠,输出一个多通道相关特性。
©深度相关(dww - xcorr)层预测模板与搜索patch之间的多通道相关特征。

图5. conv4的深度相关输出通道。在conv4中总共有256个信道,但只有少数几个在跟踪过程中具有高响应。因此我们选择了148、222、226通道作为演示,它们分别是图中的2、3、4行。第一行包含来自OTB数据集[46]的六个相应的搜索区域。不同的频道代表不同的语义,第148频道对车的响应高,对人、脸的响应低。第222和第226帧对人和面孔的反应分别很高。
3.4. Depthwise Cross Correlation 深度相关
互相关模块是嵌入两个分支信息的核心操作。SiamFC[1]利用余弦相关层来获得用于目标定位的单通道响应映射。在SiamRPN[24]中,通过增加一个巨大的卷积层来扩展通道(UP-Xcorr) ,将互相关扩展到嵌入更高级别的信息,如锚点。重上通道模块使得参数分布严重不平衡(即RPN模块包含20M参数,而特征提取器在[24]中仅包含4M参数),使得SiamRPN的训练优化变得困难 。在本小节中,我们提出了一个轻量级的互相关层,称为深度互相关(dwi - xcorr) ,以实现有效的信息关联。dwi - xcorr层包含的参数是UP-XCorr层的10倍,而性能与UP-XCorr相当。
为此,采用卷积bn块对每个残差块的特征进行调整,以适应跟踪任务。重要的是,边界框预测和基于锚点的分类都是非对称的,这与SiamFC不同(见3.1节)。为了对差异进行编码,模板分支和搜索分支传递两个非共享的卷积层 然后两个具有相同信道数的地形图逐信道进行相关运算。附加另一个convbn -relu块来融合不同的通道输出。最后,对最后一个卷积层进行分类或回归输出。
通过将互相关替换为深度相关,可以大大降低计算成本和内存使用量。这样可以平衡模板和搜索分支上的参数数量,使得训练过程更加稳定。
此外,一个有趣的现象如图5所示。同一类别的对象在同一信道上(第148信道上的car、第222信道上的person、第226信道上的face)具有较高的响应,而其余信道上的响应被抑制。这种特性可以理解为深度相关产生的信道特征几乎是正交的,每个信道代表一些语义信息。我们还分析了在使用上通道互相关时的热图,而响应图的解译性较差 .
