Siamese Box Adaptive Network for Visual Tracking --Siamban
论文链接 : 该论文 : http://xxx.itp.ac.cn/pdf/2003.06761v2.pdf发布于
创新点是以SIAMBAN框架为基础
改进是精确评估目标物体尺寸与比例
随着RPN(残差金字塔网络)的引入而带来的参数复杂性
减少了大量超参数并提升了模型设计的灵活性
Abstract
大多数现有的跟踪器都依赖于多尺度搜索方案或预先定义的锚框来精确估计目标的尺寸和比例。然而这些方法通常都需要复杂的启发式参数设置来实现性能提升。针对这一问题我们提出了一种简洁但高效的视觉跟踪框架Siamese Box Adaptive Network SiamBAN该框架充分运用了全卷积神经网络(FCN)的强大表达能力。SiamBAN通过去除锚框预先定义这一限制将视觉追踪任务建模为一个并行分类与边界回归相结合的问题从而能够在统一的FCN架构中完成对象分类与边界定位无需额外的成本。该方法通过去除候选框相关的超参数显著提升了灵活性与通用性经过在VOT2018 VOT2019 OTB100 NFS UAV123以及LaSOT等多个基准测试集上的大量实验验证SiamBAN不仅实现了最高的检测性能而且能够在40帧每秒的速度下高效运行充分证明了其优越性与实用性代码已公开发布至https://github.com/hqucv/siamban
1. Introduction
视觉跟踪是计算机视觉的一个核心且极具挑战性的研究领域。基于初始帧中的目标状态进行预测的视觉跟踪系统,在后续帧中需持续更新并更新目标状态信息。尽管近年来取得了显著的进步[6,3],但该技术仍面临诸多难题:首先是由于遮挡现象、尺度变换、背景干扰以及快速移动物体等因素的影响;其次是由于快速运动物体所带来的复杂运动特性;此外还受到光照变化以及外观多变等外部因素的困扰;最后还面临着计算资源有限导致的实时性问题等多重限制因素的存在。为了适应这些复杂条件的变化,在真实视频采集过程中必须动态调整目标的实际尺寸与比例关系[21,52,20]。为了实现对动态变化的适应性需求,在这一领域中精确估计出一个动态可变的目标尺寸与比例关系成为一个关键的技术难点;然而现有的大多数视觉跟踪算法仍未能有效解决这一问题:它们普遍依赖于多尺度搜索技术来确定目标尺寸[6,3];而这种做法往往会导致计算开销大且鲁棒性差的问题出现。针对上述问题,在最近的研究中[21,52,20]提出了一个基于深度卷积神经网络(Siamese网络)的新颖框架:该框架通过引入一种区域建议网络(RPN)模块来生成精确的目标边界框;但这一方法却面临两个主要的技术瓶颈:一是如何有效提取出高精度的目标候选框;二是如何在不同尺寸与比例关系下实现高效精准匹配的问题尚未得到彻底解决

图1所示。(a)用于估计目标尺寸或比例的方法包括多尺度搜索(如SiamFC、ECO),基于锚点的搜索(如siamRPN、siamRPN++)以及无锚点搜索(如我们的方法)。
(b)我们对SiamBAN跟踪器及其与当前两个最先进跟踪器的代表性实验结果进行了详细分析。通过可视化结果可以看出,在尺度和长宽比估计方面,我们的跟踪器均优于其他两种方法.
相比之下,在神经科学研究中已证实:生物视觉初级视觉皮层能够高效地从复杂背景中提取物体轮廓或边界特征。这表明人类可以在无需候选框的情况下识别物体位置及边界信息。那么我们是否能开发出一种无需候选框的支持即可实现精确且鲁棒视觉跟踪框架呢?受无锚探测器研究启发[14,47,31,51,37]的答案是可以肯定的。基于全卷积网络(FCN)的强大表达能力的基础上我们提出了一种简洁有效的视觉跟踪框架称Siamese box adaptive network (SiamBAN),旨在解决精确估计目标尺寸及长宽比的关键挑战。该框架由一个Siamese网络及多个自适应盒子头构成,在训练过程中实现了端到端优化过程而无需预先定义候选框.
SiamBAN通过对目标进行分类并直接回归至统一的全卷积网络中将视觉追踪问题转化为分类回归问题.其创新性在于直接预测相关特征图上各空间位置的目标前背景类别得分及四维向量.其中四维向量描述了包围框四边相对于搜索区域对应特征位置中心点的位置偏移量.在推理阶段我们采用以前一位置为目标中心构建搜索图像的方式.通过最佳得分位置对应的包围框即可获得目标在帧间的位置偏移及其大小变化信息。
这项工作的主要贡献有三方面
我们构建了一个Siamese框式可适应网络系统,在基于经过高质量标注的数据集上实现了一种完整的无监督学习过程(参见文献[12])
SiamBAN采用了无优先级的设计方案以取消与候选框相关的超参数,并因此使得我们的跟踪器更加灵活且具有广泛的应用潜力。
SiamBAN不仅达到了最先进的结果,并且在跟踪基准测试中以平均每帧40帧的速度高效运行。其中涉及的测试包括VOT2018[17]、VOT2019[18]、OTB100[43]、NFS[16]、UAV123[27]以及LaSOT[9]等。
2. Related Works
计算机视觉技术是近年来人工智能领域的重要研究方向之一。由于对相关跟踪器的全面研究超出了本文的研究范围,在现有基础上我们仅需关注与本研究直接相关的两大技术要点:基于Siamese网络实现的可视化追踪系统及其在无靶标检测中的应用。
2.1. Siamese Network Based Visual Trackers
注
2.2. Anchor-free Object Detectors
近年来,无锚对象检测引起了对象检测界的关注。然而,无锚检测并不是一个新概念。DenseBox[14]首先引入了一个FCN框架来联合进行人脸检测和地标定位。UnitBox[47]通过精心设计优化损失,为性能改进提供了另一种选择。YOLOv1[31]提出将输入图像分割成一个网格,然后预测每个网格单元上的边界框和类概率。
最近,出现了许多新的无锚探测器。这些检测方法大致可以分为基于关键点的对象检测[19,50,46]和稠密检测[51,37]。具体来说,CornerNet[19]提出将一个对象边界框作为一对关键点来检测。极值集[50]用于检测四个极值点和一个中心对象点使用标准的关键点估计网络。RepPoints[46]引入了代表性点,这是一种新的对象表示,用于建模细粒度的本地化信息并识别对对象分类有重要意义的局部区域。FSAF[51]提出了特征选择无锚模块,解决了基于锚的单次发射探测器的特征金字塔启发式特征选择的局限性。fcos[37]提出直接预测物体存在的可能性和不需要锚点参考的边界盒坐标 。
与物体检测相比,视觉跟踪任务存在两个关键挑战,即未知类别和不同物体之间的区分。 无锚检测器通常假定要检测的对象的类别是预先定义的。 但是,在跟踪之前,目标的类别是未知的。 同时,无锚检测器通常专注于检测来自不同类别的对象,而在跟踪时,有必要确定两个对象是否相同 。 因此,在我们的框架中需要一个可以对外观信息进行编码的模板分支,以识别目标和背景。
3. SiamBAN Framework
在本节中阐述了我们提出的SiamBAN框架方案。如图所示, SiamBAN由Siamese主干网络与多个自适应辅助块构成。其中主干网络通过卷积操作提取模板区域与搜索区域的空间特征,每个自适应辅助块包含用于目标分类的任务分支以及用于边界框回归的任务分支。具体而言,在各层中对每个采样点执行前景-背景分类任务,并基于此生成对应的边界框定位结果。

如图2所示的研究方案框架中包含一个改进型的Siamese-style自适应网络架构设计。左侧子图详细展示了核心架构模块及其功能分布情况,在此过程中,C3、C4及C5分别代表基础网络模块,其中Cls映射与Reg映射分别对应于分类器与回归器等关键组件的作用机制。右侧子图则着重描绘了各SiamBAN头部单元的设计逻辑,其中DW-Corr运算模块直接反映了深度互相关计算的核心过程。
3.1. Siamese Network Backbone
现代深度神经网络(如引用[12, 44, 13]所示)在基于暹罗网络构建的跟踪系统(如引用[20, 42, 49]所示)中展现出良好的效果。因此,在我们的跟踪系统中可集成诸如ResNet系列、ResNeXt和MobileNet等主流模型。为了实现目标检测任务的有效性与计算效率之间的平衡,在我们的跟踪系统中采用了ResNet-50(参考文献[12])。尽管连续卷积步幅能够提升模型对抽象特征学习的能力;但是该方法会降低特征分辨率这一问题尚未得到完全解决。然而;由于基于暹罗网络的设计需求;需要对目标区域具有密集的空间感知能力以执行精确预测;为此我们采取了相应的改进措施:即通过删除最后两个卷积块中的下采样操作来解决这一矛盾;同时通过引入无规则卷积层(参考文献[4])来提升空间分辨率;该层已被证明能够有效提高视觉追踪性能(参考文献[21, 42])。此外;受多网格方法启发;我们在主干网设计了不同的分支策略:具体而言;在conv4和conv5块中将步幅设置为1;并在conv4块内将原子率设定为2;而在conv5块内将原子率设定为4这一设计思路既保留了传统架构的优势又显著提升了模型性能。
3.2. Box Adaptive Head
如图2右侧所示,在本设计中盒式自适应磁头由两个关键模块构成:分类模块与回归模块。这两个模块均能自模板分支及搜索分支获取功能信息。具体而言,在构建网络架构时我们仅需将ϕ(z)及ϕ(x)分别复制至对应的两类神经元中:即在分类层中复制至to(z) cls以及to(x) cls,在回归层中则复制至from(z) reg以及from(x) reg。此外根据设计要求每一类别的相关层都需要输出特定数量的通道来完成目标任务:其中分类层每个点输出两个通道用于前景与背景分类而回归层每个点则需输出四个通道以实现边界框定位功能每一步骤均采用深度互相关层[20]来进行特征融合

其中符号⋆具体而言是以[ϕ(z)]_cls或[ϕ(z)]_reg作为卷积核进行的具体运算。P_{cls}(w,h,2)代表分类图,P_{reg}(w,h,4)代表回归图。**特别值得一提的是,在基于锚点设计的传统跟踪器中使用具有五个锚框时,...其变量数量减少了五倍。**
针对每一个分类图P cls(尺寸w×h×2)或回归图P reg(尺寸w×h×4),在其每个位置上都可以将其映射至输入搜索patch。例如,在搜索片上的对应位置(i,j)会被计算为[⌊wim/2⌋ + (i−⌊w/2⌋) × s, ⌊hj/2⌋ + (j−⌊h/2⌋) × s](表示为(pi,pj))。其中,wim和his分别代表输入搜索补丁的宽度和高度,s则表示网络的整体跨度,这个(pi,pj)即对应于原始位置(i,j)。对于回归任务而言,基于锚框跟踪器[21、52、20]会将(pi,pj)作为锚框中心的位置,然后对其进行定位回归操作,从而得到(pi,pj)处的目标偏移量aw和ah。然而,尽管如此,在这一过程中可能会出现某些问题:因为我们的目标是正实数,因此我们在回归模块的最后一层采用exp(x),这样可以确保输出结果始终位于(0,+∞)区间内。此外,由于这种方法可能会导致某些边缘情况下的偏差较大,因此我们选择不调整pi,pj的位置坐标值,而是直接计算其到边界框边界的偏移量。
需要注意的是:为了保证输出结果的有效性,
建议在实际实现时对上述过程进行适当优化。
3.3. Multi-level Prediction
通过采用ResNet-50模型执行自由卷积操作后,在实际应用中我们能够基于多层次特征实现预测任务。然而,在骨干网络中的conv3、conv4及conv5模块虽然具有相同的分辨率却带来了令人不快的卷积操作,并由于各自扩展速率的不同导致其收视范围存在显著差异,在构建过程中也难以准确捕捉到自然界的多样性。参照文献[26]的研究发现,在实际应用中我们发现:尽管较早层提取的独特特征有助于精确定位目标这一重要特性非常突出;而随着层次深度增加后期模块则能够更加有效地提取出抽象语义信息并能可靠地反映目标外观的变化这一特性同样值得重视。为了充分利用各层次提取的独特特征我们采用了多框自适应算法来进行最终结果整合:每个检测头所生成的结果图像是经过自适应融合处理使其能够充分反映各层次信息的重要性和独特性

其中α₁和β₁是与每个地图相关的权重,并作为网络进行优化处理。 通过分别构建分类图和回归图,分类模块和回归模块能够分别针对各自对应的领域进行优化。

图表3展示了分类标签与回归结果。预测值与监控信号如图表所示,在此图中每个椭圆被标记为E1或E2。在分类任务中我们采用交叉熵损失,在目标检测中采用IoU损失作为框回归的目标函数。
3.4. Ground-truth and Loss(GT和损失)
分类标签与回归目标如图3所示。每个搜索补丁的目标均标注了地面真实边界框的位置。 ground truth边界框的宽度、高度、左上角坐标、中心点以及右下角坐标分别由 gw、gh、(gx₁, gy₁)、(gxc, gyc) 和 (gx₂, gy₂) 表示。 基于 (gxc, gyc) 作为中心点 gw² 和 gh² 作为轴长 我们可以得到椭圆 E₁

以(gxc,gyc)为中心,以gw 4,gh 4为轴长,我们可以得到椭圆E2:

当位置(pi, pj)位于椭圆E2内部时,则以正号标注;如果它位于椭圆E1之外,则分配负号;并处于椭圆之间的情况则予以忽略。请注意,在处理时应忽略这两个椭圆之间的区域。具有正标签的位置(pi, pj)将用于进行边界框的回归训练;其目标公式如下所示:

其中dl、dt、dr和db分别代表位置到边界框四条边的距离(如图所示)。分类损失和回归损失是模型优化的重要组成部分。我们提出了多任务丢失功能的具体定义如下:基于加权求和的方式进行计算。

在计算过程中,Lcls被定义为cross-entropy loss, 而Lreg则被定义为intersection over union (IoU) loss. 在计算过程中,我们不涉及方程式6的超参数优化, 直接设定λ₁和λ₂均为1. 参照GIoU[33]的方法,我们将其IoU损失函数定义为:

其中IoU定义为预测边界框与真实边界框交叠区域与并集区域的面积比例。 具有正标记的位置(pi, pj)位于椭圆E2内部,并且其回归值为正值。 因此满足0 < IoU ≤ 1;进而有0 ≤ LIoU < 1。 IoU损失将导致dl、dt、dr及db的联合回归。
3.5. Training and Inference
训练
我们的整个网络可以在大规模数据集上进行端到端的培训。 我们使用在视频或静止图像上采样的图像对来训练SiamBAN。 训练集包括ImageNet VID [34],YouTube边界框[30],COCO [25],ImageNet DET [34],GOT10k [15]和LaSOT [9]。 模板补丁的大小为127×127像素,而搜索补丁的大小为255×255像素。 另外,尽管我们的阴性样本比基于锚的跟踪器要少得多[21,20],但阴性样本仍比阳性样本多得多。 因此,我们从一对图像中最多收集16个阳性样本和48个阴性样本。
Inference
在推断过程中,我们裁剪模板补丁
从第一帧开始并将其馈送到特征提取网络。 提取的模板特征将被缓存,因此我们不必在后续跟踪中计算它们。 对于后续帧,我们裁剪搜索补丁并根据前一帧的目标位置提取特征,然后在搜索区域中进行预测以获得总分类图P cls-all w×h×2和回归图P reg -全部w×h×2。之后,我们可以通过以下方法获得预测框方程:

其中d reg l、d reg t、d reg r和d reg b分别代表回归图的预测值,在(px1, py1)与(px2, py2)之间表示预测框的左上角与右下角坐标位置。
生成预测框后,我们采用余弦窗口及尺度变化惩罚机制来平滑目标动态变化[21]。随后选择得分最高的候选框,并通过线性插值更新其尺寸参数的同时维持原有帧的状态。
4. Experiments
4.1. Implementation Details
我们通过ImageNet [34]上的预训练权重来初始化骨干网络参数,并对模型中的前两层神经元参数予以固定不变。随后,我们通过随机梯度下降(SGD)算法进行网络优化,在每批处理28对样本数据的过程中不断更新模型参数。具体而言,在最初的5个阶段中我们采用了预热学习率从1\text{e-}4递增到5\text{e-}4的学习策略,在随后的15个阶段则采用了指数衰减的学习率策略(范围为5\text{e-}4至5\text{e-}5)。整个训练过程共计持续20个 epochs,并最终实现了对模型参数的有效优化目标。在此过程中,在最初的10个 epoch内我们仅用于优化盒式自适应磁头这一组件,在后续的10个 epoch中则以当前学习速率的十分之一比例来进行骨干网络的精细微调优化工作。同时,在实现过程中我们也设置了合理的正则化超参数:动量因子被设定为9\times 1\text{e-}4}而权重衰减系数则维持在1\times 1\text{e-}4}水平上。我们的实验环境配置由一个配备Intel Xeon(R)4108 1.8GHz CPU、64G RAM以及Nvidia GTX 1080Ti显卡的个人电脑完成,并采用PyTorch框架在Python语言环境中进行开发和实现
4.2. Comparison with State-of-the-art Trackers
我们对SiamBAN追踪器与现有最先进的追踪器进行了全面对比测试,在Visual Object Tracking Challenge 2018(VOT2018)这一由60个不同场景组成的序列数据集中展开了评估。为了全面衡量追踪系统的性能特征,在这项研究中我们采用了预期平均重叠(EAO)这一关键指标来进行评估。预期平均重叠(EAO)被用作衡量整体追踪性能的关键指标之一,并结合了准确性(成功跟踪期间的平均重叠)和鲁棒性(失败率)。表1展示了与VOT2018中几乎所有性能最佳的追踪系统进行的比赛结果比较。其中DiMP [2]通过最大化预期平均重叠率(EAO),展现了卓越的追踪性能;而SiamRPN++ [20]则在精确度方面表现优异。值得注意的是尽管DiMP在准确度方面表现不俗但其失败率略高于我们的追踪系统如果没有任何在线更新支持的话我们的系统可能会在失败率上表现得更为出色相较于SiamRPN++我们系统的故障率减少了23.9%同时预期平均重叠率却提升了8.4%这样的改进幅度足以说明我们在多个关键指标上的提升效果通过全面对比分析可知 在准确度和鲁棒性两项关键指标上 我们的系统均取得了超越同类产品的优异成绩
