Advertisement

Siamese Keypoint Prediction Networkfor Visual Object Tracking(论文翻译)

阅读量:

论文:http://xxx.itp.ac.cn/pdf/2006.04078v1

代码:GitHub - ZekuiQin/SiamKPN: Siamese Keypoint Prediction Network for Visual Object Tracking

摘要

视觉目标跟踪的目的是在给定初始边界框的情况下估计视频序列中任意目标的位置。通过利用离线特征学习,Siamese范例最近已成为高性能跟踪的领先框架。然而,现有的Siamese跟踪器要么严重依赖复杂的基于锚点的探测网络,要么缺乏抵抗干扰的能力。在本文中,我们提出了Siamese关键点预测网络(SiamKPN)来解决这些挑战。在Siamese主干功能嵌入的基础上,SiamKPN受益于用于粗细预测建模的级联热图策略。具体地说,该策略是通过沿级联顺序缩小标签热图的覆盖范围以应用宽松到严格的中间监管来实现的。在推理过程中,我们发现预测的连续阶段的热图逐渐向目标集中,而减少到干扰物。SiamKPN在包括OTB-100、VOT2018、LaSOT和GOT-10k在内的四个基准数据集上的视觉对象跟踪性能优于最先进的跟踪器,同时以实时速度。

1.引言

视觉目标跟踪是在第一帧中仅提供目标的边界框的情况下预测视频序列中任意目标的位置的任务。与其他计算机视觉任务如图像分类、目标检测和语义分割一样,由于变形、视点、比例、遮挡、光照等因素引起的外观变化,目标跟踪是非常具有挑战性的。此外,当考虑到背景杂乱和相似的干扰时,这项任务就更难解决了。在文献中,视觉目标跟踪的经典方法是判别相关滤波器[5,18]。然而,在深度学习时代,这种方法很难利用端到端的深度功能学习来获得更好的性能。

为了解决这个问题,Siamese学习范式[6]已被采用并发展为从离线深度特征学习中收获[45,2]。该范例学习目标区域和搜索图像的共享特征嵌入网络,从而将视觉目标跟踪问题描述为一个相似学习问题。第一个实现是SINT[45],它训练Siamese网络通过取样成对的补丁。虽然SINT在跟踪精度上是有效的,但由于基于面片的冗余和低效的特征提取,SINT远远不是实时的。作为一种简单的改进,SiamFC[2]利用全卷积运算来学习Siamese网络,并通过两个特征映射之间的有效互相关来解决匹配问题。

沿着这条研究路线,CFNet[46]将相关滤波器作为可区分层合并到Siamese框架中。RASNet[50]采用注意机制来提高互相关响应的质量。在这些方法中,预测建模部分被限制在简单的体系结构中,这在一定程度上导致了性能的限制。

为了改进预测建模,SiamRPN[27]在Siamese网络上引入了来自目标检测文献[37]的区域建议网络(RPN)。DaSiamRPN[59]通过增加训练数据以包括语义上硬的负对来进一步处理干扰因素。最近,SiamRPN++[26]中的ResNet[16]通过空间感知采样策略成功地替换了主干,以保持有用的平移不变性和深度互相关以稳定训练。另一项工作[57]采用裁剪内部残差(CIR)单元来修改ResNet、Inception[44]和ResNeXt[53],以适应更深更广的骨干网络。

同时,一些方法利用级联和分支策略来提高SiamRPN的跟踪精度和鲁棒性。例如,CRPN[14]提出了Siamese级联RPN框架,以从堆叠多个RPN来增加强度,这些RPN根据调整后的锚定方案从粗略训练到精细训练。SPM-Tracker[47]设计了一种串并联结构来融合粗匹配阶段用于对干扰的鲁棒性,精细匹配阶段用于区分能力。虽然这些基于RPN的方法总体上都是有效的,但它们在很大程度上依赖于复杂锚点方案的选择来获得合理的跟踪性能。

本文提出了一种用于视觉目标跟踪的Siamese关键点预测网络(SiamKPN)。整个网络由用于特征学习的改进的ResNet-50 Siamese主干和用于预测建模的一系列紧凑的KPN头组成。特别地,我们使用来自主干的多层输出作为特征,而每个KPN头部由标准卷积和一个深度互相关构成。通过实施从宽松到严格的中间监管,一连串的预测热图可以逐渐集中到目标,减少到干扰。值得注意的是,我们的方法受到最近目标检测文献[7,25,58]中的级联和无锚策略的激励,尽管它们有关键的区别。首先,据我们所知,我们是第一个考虑Siamese模式下的目标跟踪的无锚点方案。其次,基于锚点的级联方法对每个阶段的锚点进行调整以细化预测,而本文提出的级联热图策略采用宽松到严格的中间监督来指导细化过程。

在多任务损失的离线训练后,SiamKPN提供了一个有效、高效的跟踪器,无需在线更新。具体地说,SiamKPN跟踪器在以实时速度的同时,在一定程度上对类似的干扰项具有健壮性。
通过在OTB-100[52]、VOT2018[24]、LaSOT[12]和GOT-10k[20]四个跟踪基准上的综合实验,对SiamKPN跟踪器进行了评估。特别是,三级SiamKPN跟踪器(SiamKPN3)与最先进的深度跟踪器相比表现出色,特别是与其他Siamese跟踪器相比。图1展示了三个具有挑战性的序列的一些代表性结果。

2.相关工作

除了Siamese跟踪方法外,考虑到最近调查的分类[30,40,55],我们简要回顾了另外两种主要的深度视觉跟踪方法[30,40,55]。这两个类别包括特征提取跟踪和端到端跟踪。

2.1 特征提取跟踪

早期的深度跟踪方法大多只利用深度网络进行特征提取,并依赖于经典的目标预测方法。例如,CNN-SVM[19]训练支持向量机使用网络输出作为外观特征来分类正样本和负样本。这种基于区域的分类不得不依靠稀疏采样来提高速度,但代价是性能下降。

一种更好的方案是基于深层特征训练相关滤波器。例如,HCFT[34]自适应地学习多个卷积层上的相关滤波器以编码目标外观。C-COT[11]提出了一个联合学习框架来融合来自不同空间金字塔的深层特征。ECO[10]引入了因子分解卷积算子、生成性样本空间模型和保守模型更新策略,以更好地利用深层特征进行健壮和高效的跟踪。UPDT[4]提出了一种自适应融合方法,利用深浅特征来提高跟踪性能。

2.2 端到端跟踪

端到端跟踪通常需要学习一个统一的网络来进行特征提取和目标预测。例如,DeepTrack[29]以一种纯在线的方式训练了一个简单的CNN模型,该模型包含两个卷积和两个完全连接的层,用于视觉跟踪。MDNet[35]预先训练了一个共享的CNN模型,并在在线学习过程中微调了多个特定领域的层。FCNT[48]采用预先训练的VGG-16网络[39],并在视觉跟踪期间学习两个额外的头部网络。STCT[49]利用整体学习来利用不同的CNN专题频道。Crest[41]将相关滤波器重新定义为具有残差学习的网络层。DSLT[33]设计了一种收缩损耗来改进深度回归跟踪。

最近,ATOM[9]设计了基于重叠最大化的体系结构来预测目标框和提案框之间的并集交集(IOU)重叠。作为修改,DIMP[3]将调制模块替换为参数优化器,以进一步提高性能。注意,ATOM和DIMP都通过利用IOU-Net[21]来处理预测建模,该IOU-Net仍然属于基于锚的检测范例。相反,我们的SiamKPN中的预测建模完全基于中心点、目标大小和偏移量估计的热图回归。

3.模型表示

在本节中,我们首先介绍SiamKPN的基本构建块。然后,我们详细介绍了级联热图方案,并说明了它对从粗略到精细预报的影响。图2展示了SiamKPN的整个框架,它包括用于特征学习的Siamese主干和用于预测建模的紧凑KPN头部的级联。

3.1 Siamese主干

与[26]类似,我们使用改进的ResNet-50来定义我们的Siamese主干网络。为了使ResNet-50适合我们密集的预测任务,我们减小了空间步长以保持更多的特征,并应用膨胀卷积来增加其接受场。特别地,将卷积4_1层和卷积5_1层中的原始空间跨度转换成一个空间跨度,从而产生空间上更大的特征地图。

同时,将Conv4和Conv5块的原始扩张率分别改为2和4,以增加感受野。在改进的ResNet-50骨干网的基础上,提取了conv3_4、conv4_6和conv5_3层的输出作为特征,采用1×1卷积进行信道调整,然后送入后续的主干子网。

3.2 关键点预测标头

图3说明了KPN头的架构。如图所示,它由三个3×3卷积和一个5×5深度互相关构成。更具体地说,每个KPN头包括以下操作流程,

其中,Conv和Corr是卷积和互相关的缩写。此外,wt和ws分别表示用于处理目标和搜索特征图的两个卷积的参数,wa表示内部调整卷积的参数。我们已明确表示阶段号 s 与以下记号一致并且{{x{(0)},\tilde{y}{}}}实际上是目标和搜索图像的Siamese主干输出特征图。注意,搜索特征图ilde{y}^{}被馈送到下一阶段,同时由另外两个卷积进一步处理以获得预测的热图at{y}^{}

除了架构之外,我们还想详细说明预测热图中不同通道的含义。在我们的实现中,定义了三种类型的任务,分别包括中心点、点偏移量和目标大小估计。特别地,我们使用一个通道来处理中心点估计任务,因此它代表了目标位置^y的响应图。同时,利用两个偏移量通道来解决由步长引起的离散化误差,从而产生{at{o}{x},at{o}{y}}。此外,还使用了另外两个通道来估计目标尺寸,即高度和宽度{at{s}{x},at{s}{y}}。

3.3 级联热图监控

与[14]中要求对锚定方案进行仔细调整的级联RPN头不同,级联KPN头可以通过直接重复堆叠轻松实现。此外,整个体系结构通过连续缩小标签热图的方差来支持沿级联的细化。为此,我们有如下给出的高斯热图的缩小版本,

其中(i,j)表示热图中任意点的坐标, (ic;jc)表示目标中心点的坐标,S=1,2,3,...代表阶段编号,ρ∈(0,1]控制高斯函数中方差σ的收缩强度。因此,随着阶段数的增加,高斯热图在目标中心点附近变得更加峰值。换句话说,监管信号沿着梯级变得越来越严格。

为了说明我们提出的方案的效果,我们将其与具有固定方差的朴素堆叠进行了比较。图4(a)和图4(b)给出了这两种策略的顺序演变热图的示例。如图所示,固定方差的堆叠可以稍微帮助将预测的热图集中到目标上,但它也加强了类似干扰项的热图得分。相比之下,缩小方差方案可以很好地提高目标中的热图得分,降低背景中的热图得分,从而随着级联的加深更容易区分目标和相似的干扰项。

值得一提的是,上述方案还可以应用于点偏移和目标大小估计。特别地,点偏移量标签{Ox,Oy}被计算为精确位置和跨距夹紧版本之间的离散化间隙,即用于位置(i,j)和步幅m的{i/m-[i/m], i/m-[j/m]}。此外,我们定义目标尺寸标签{sh, sw}为中心点周围的地面真实高度和宽度{h,w},否则为零。

4.算法

在本节中,我们将介绍SiamKPN的训练和跟踪算法。一般来说,SiamKPN的训练是端到端的,有中间监督,而SiamKPN跟踪器是在没有在线适配的情况下使用的,以达到高精度和实时鲁棒性的目的。

4.1 离线训练

在离线训练阶段,考虑到搜索图像特征图的大小为31×31,我们通过设置ρ=0.9和σ=31/16来准备标签热图。类似于[25,58],我们用多任务损失来训练每个KPN头。具体地说,关键点估计信道由焦点损失的加权平衡版本来优化[31],而偏移和目标大小估计信道通过平滑的L1损失来监督。

更具体地说,通过使用公式(1)和(4),在我们的框架中,预测热图和标签热图之间的关键点估计损失被定义为如下

其中Ⅱ[·]表示指示器函数。请注意,为简单起见,我们省略了阶段号s。在所有实验中,我们将超参数设置为α=2,β=4和γ=0.05。

此外,偏移和目标大小估计损失定义如下

通过综合不同阶段的所有损失,我们获得了如下总体训练目标

其中,λ1和λ2权衡了关键点、偏移和目标大小估计之间的平衡。我们在所有实验中设置了λ1=1和λ2=0.05。

4.2 在线跟踪

对于在线跟踪阶段,我们首先在给定视频序列中第一帧的边界框的情况下,围绕目标进行裁剪,并将其大小调整为127×127。在经过主干网络和头子网络后,调整目标特征图,沿级联得到大小为5×5的多个匹配模板,这些模板在整个跟踪过程中保持不变。给定前一帧中预测的目标位置,我们将以此位置为中心裁剪大约两倍大的图像区域,并将其大小调整为255×255。在沿级联应用5×5模板之后,我们使用最外面的响应图来预测当前帧中的目标位置。

为了得到预测的包围盒,首先通过应用Sigmoid函数将中心点响应图变换到从0到1的范围。通过阈值处理,得分较高的点将参与后续处理,而其余的点将被忽略。基于所选择的点,通过考虑相应的点偏移和目标大小来获得候选边界框。为了应对相邻帧中边界框的改变,我们添加了对以下函数给出的目标比例和纵横比更改的惩罚

其中k是超参数,{s1;s2;r1;r2}分别表示相邻帧的目标比例和纵横比。每一分的分数乘以它的惩罚因子τ罚分,就得到了被处罚的分数。在惩罚分数的基础上,我们引入高斯平滑函数来抑制目标的较大位移,从而得到每个候选点的最终分数。为此,得分最高的位置对应于目标的预测中心。作为后处理步骤,中心点的目标大小是使用两个相邻帧的加权平均值。因此,整个过程涉及三个超参数,即惩罚系数、高斯平滑窗口系数和目标尺寸平滑系数。

5.实验

在这一部分中,我们将在几个视觉对象跟踪基准上对SiamKPN进行评估,包括OTB-100[52]、VOT2018[24]、LaSOT[12]和GOT-10k[20]。SiamKPN是在GTX 1080Ti GPU上使用PyTorch用Python实现的。

5.1 实验细节

网络架构。改进后的ResNet-50主干输出了conv3_4、conv4_6和conv5_3层作为特征。它们的通道从512、1024和2048调整为256,然后馈入KPN级联。当通过级联时,目标和搜索特征图的通道数保持在256,而空间大小分别保持在15×15和31×31。在每个KPN内部,调整卷积仅在15×15目标特征图的5×5中心位置上操作。因此,在深度互相关过程中,得到的5×5特征图作为搜索特征图上的卷积核。每个KPN的输出由两个卷积进一步处理,以给出5个通道的预测热图。采用分层聚合来合并这三个分支,以产生每个阶段的最终预测。

训练数据集。训练数据集由来自YouTube-BB[36]、LaSOT[12]、GOT-10k[20]和COCO[32]数据集的训练拆分组成。尤其是,YouTube-BB提供了大量稀疏标记的视频,LaSOT和GOT10k提供了逐帧标记的视频,而Coco图像被用来增加类的多样性。以4:2:2:1的比例,我们采样了450000个目标搜索对,类似于每个历元[27],并进行了几种数据增强操作,包括随机移位、随机标度改变、随机模糊、随机颜色抖动和负样本[59]。每个目标搜索图像对的大小分别为127×127和255×255,遵循[2]中相同的数据集精选程序。

学习。SiamKPN由自适应矩估计(ADAM)优化器[23]在总批次大小为80的5个GPU上进行训练。ResNet-50主干经过ImageNet[38]的预培训。在微调期间,只训练主干和整个头子网的最后三个卷积块。特别地,对于头子网络,前5个epoch的学习率从0.005逐步衰减到0.002,最后15个epoch的学习率从0.002指数衰减到0.0005。对于主干,我们在前10个epoch将学习率设置为零,在最后10个epoch将头子网络中的学习率设置为十分之一。最后,我们将监督的收缩因子ρ设置为0.9。

推理。在跟踪过程中,利用Sigmoid函数对预测的末级中心点热图进行归一化处理。根据这个分数图,我们选择得分最高的分数,方法是将其阈值设置在0.15以上,并将分数限制在8到32之间。对于这三个超参数,采用两级网格搜索来寻找最优构型。第一级以0.1为间隔搜索从0到0.9的每个超参数,以寻找最近10个时期的所有模型。然后,我们在目前为止的最佳配置附近应用间隔为0.01的第二级搜索。

5.2 在OTB100上的结果

OTB-100包含100个具有代表性的序列,具有11个挑战属性,包括背景杂波、尺度变化、变形等。其中有20个灰度序列。OTB使用一次通过评估(OPE)两个指标来评估跟踪器,即精度和成功图的曲线下面积(AUC)。精度图显示了估计位置和地面真实之间的距离在给定阈值20像素内的帧的百分比。成功图由阈值从0到1变化的成功帧比率定义。

图5显示了SiamKPN-3与OTB-100上最先进的跟踪器之间的比较结果。如图所示,SiamKPN-3的排名在成功图和精确度图上都是第一,在AUC得分上领先第二名UPDT 1.7%。此外,在所有Siamese跟踪器中,SiamKPN-3S在成功率和精度方面分别以2.3%和1.4%的相对收益超过了之前最好的SiamRPN。这验证了我们的级联热图架构可以提供更准确的预测。

5.3 在VOT2018上的结果

VOT2018包含60个更具挑战性的序列。与OTB上的OPE测试不同,VOT Challenges在故障帧重新初始化跟踪器。它还有10帧的老化周期,这意味着初始化后的10帧对于精度计算将被标记为无效。此外,VOT使用准确性(A)、稳健性(R)和预期平均重叠(EAO)指标来评估跟踪器。特别是,EAO评分可以综合反映准确度和稳健性。

我们在VOT2018上将SiamKPN-3s与Siamese跟踪器和DCF跟踪器进行了比较。如表1和图6所示,SiamKPN-3S在EAO中排名第一,分别以6.3%和9.7%的相对增益超过SiamRPN++和ATOM。在不需要任何在线更新的情况下,我们的方法获得了与DIMP相同的EAO,并且在准确率上优于DIMP。此外,与其他基于Siamese的跟踪器不同,SiamKPN-3在很大程度上提高了鲁棒性。SiamKPN-3S的鲁棒性得分高于所有其他Siamese跟踪器。更多,SiamKPN-3s拥有比ATOM更高的鲁棒性分数,这是一个带有在线更新的有区别的跟踪器。这些结果是合理的,因为方差衰减策略可以帮助SiamKPN-3抑制干扰并提高鲁棒性。

图7比较了SiamKPN-3s和VOT2018上最先进的跟踪器的质量和速度。我们直观地看到了相对于每秒帧数(FPS)的预期平均重叠(EAO)。请注意,FPS轴使用对数刻度,我们将实时阈值设置为20 FPS。在图中,性能最好的CF追踪器速度较慢,而Siamese追踪器速度较快。我们的SiamKPN-3s在实时速度为24FPS的情况下获得了最好的EAO分数,在性能和速度之间实现了更好的平衡。

5.4 在LaSOT上的结果

为了在更大、更具挑战性的数据集上进一步验证所提出的框架,我们在LaSOT上进行了实验。LaSOT数据集提供了大规模、高质量的密集标注,总共有1400个视频,测试集中有280个视频。LaSOT有70个类别的对象,每个类别都包含二十个序列,并且平均视频长度为2512帧,这对于评估长期跟踪器非常有用。LaSOT采用与OTB类似的一次通过评估(OPE)测试成功率和精确度。精度是通过比较预测框和地面真实边界框之间的距离(以像素为单位)来计算的。成功计算为预测框和地面真实边界框之间的并集交集(IOU)。

表2和图8报告了我们的SiamKPN-3s跟踪器与其他方法在LaSOT测试集上的总体比较。值得注意的是,鲁棒性测量在LaSOT上是必不可少的,因为如果追踪器在长期序列中失去目标,将包括零重叠预测。从这一点上说,在线更新的跟踪器在LaSOT上应该表现得更好。特别是,DIMP在成功率和精确度方面都名列前茅。然而,在没有在线更新的跟踪器中,我们的SiamKPN-3s性能优于所有其他跟踪器,包括SiamRPN++。特别是,SiamKPN-3S实现了比SiamRPN++相对高4.7%的更大精度分数。令人意想不到的是,SiamKPN-3S的性能甚至超过了最新的在线更新跟踪器ATOM。从上面的比较来看,SiamKPN-3S在长期跟踪方面显示出很大的潜力。

5.5 在GOT-10K上的结果

GOT-10K也是一个包含10000多个视频片段的大规模数据集,有180个测试视频。训练和测试拆分在对象类中没有重叠,因此避免了在特定类上的过度拟合。此外,该基准要求所有跟踪器仅将列车分割用于模型训练,而禁止外部数据集。我们严格遵循这一协议,仅在GOT-10K的训练分裂上对SiamKPN-3s进行再训练。表3显示了SiamKPN-3S与其他方法在GOT-10K测试分割上的比较结果。并不令人惊讶的是,DIMP实现了最好的性能,因为在线更新对于跟踪不可见的类对象非常重要。然而,对于没有在线更新的跟踪器,我们的SiamKPN-3获得了最好的SR0:75和AO分数,与SiamRPN相比,相对收益分别为10%和2.3%。

5.6 消融实验

为了研究不同成分对我们方法的影响,我们使用OTB-100和VOT2018进行了两项消融研究。

阶段数:表4显示了SiamKPN通过改变级数的性能。随着阶段的增加,SiamKPN在改进过程中积累了更多的力量,尽管性能收益会逐渐减少。随着级数的增加,跟踪速度降低也就不足为奇了。然而,性能最好的SiamKPN-3仍然以24FPS的实时速度。顺便说一句,在图5和表1中,可以发现基本单级SiamKPN在OTB-100和VOT2018基准测试中获得了与SiamRPN相当的结果。

缩小方差:在训练期间,热图监控中缩小的方差对于指导我们的框架逐步完善预测非常重要。为了说明其有效性,我们将因子ρ=0:9的缩小方差策略与固定方差策略(即ρ=1)进行了比较。表5显示了使用这两种不同策略的SiamKPN-3的比较结果。人们可以观察到,随着方差的缩小,我们的跟踪器可以更准确地预测OTB-100。这一观察结果证实了沿级联应用宽松到严格的监管信号的重要性。

6.结论

开发了一种用于视觉目标跟踪的Siamese关键点预测网络。虽然文献中已经设计了很多Siamese网络,但是仍然没有一个高性能的方案来应对这一任务的挑战。所提出的SiamKPN模型通过提供级联热图方案来实现跟踪精度和鲁棒性,从而缩小了这一差距。训练SiamKPN是在从松到严的监督下实施的,并且以端到端的方式基于多任务损失。当应用SiamKPN进行跟踪时,预测的连续阶段的热图逐渐向目标集中,而减少到干扰物。纯粹基于离线训练,SiamKPN在与最先进的Siamese追踪器和那些带有在线学习模块的方法相比表现优异,同时以实时速度。

全部评论 (0)

还没有任何评论哟~