Visual Tracking with Fully Convolutional Networks
Visual Tracking with Fully Convolutional Networks
本文作者提出了基于全卷积神经网络的新型视觉跟踪方法。值得注意的是,在研究卷积神经网络时,并非仅仅将其视为一个黑盒式的特征提取器;而是通过大量图像数据的研究工作深入探讨了CNN特性的性能特点。在此过程中获得的一些关键发现激发了作者对文中跟踪系统的构建设计兴趣所在。从理论上讲,在卷积神经网络的不同层级上所承载的目标特异性则呈现出层次分明的特点:高层单元主要负责识别更为抽象的语义信息;而低层单元则集中于捕捉细节上的差异性特征表现;这种特性使得我们能够在不同层级上获取丰富且具有区分度的信息资源以实现有效的目标跟踪任务完成目标定位与状态更新两大核心环节中的关键操作步骤
对于给定有限规模的在线训练数据以及深度模型较高的复杂度,在直接将卷积神经网络应用于跟踪问题时其表现欠佳。这是因为卷积神经网络在执行任务时往往需要依赖于大量数据进行训练。为了充分利用卷积神经网络的优势并深入探讨其性能特征后发现了若干关键点,并由此启发作者开发出了独特的跟踪系统。
第一条,在跟踪问题中,CNN的不同层上的特征表现出各自不同的效果。其中高层特征能够提取出更加抽象的高阶语义信息,并且能够在不同类别间有效地区分目标物体,在面对形变和遮挡情况时展现出良好的鲁棒性特点。然而这些高层特征不具备将同一类别中的不同物体区分开来的能力。相比之下较低层则提供了更为具体的局部特征描述,并能有效地帮助从干扰因素中清晰辨识目标物体;但是较低层在应对外观变化时往往缺乏足够的稳定性与鲁棒性支持。基于以上观察结果作者提出了一种在跟踪过程中实现自动转换的技术方案旨在综合运用这两类特征以提升跟踪性能
第二点,在ImageNet基础上训练的CNN模型能够有效地区分各种通用目标物体。然而,并非所有提取出的目标描述符都对鲁棒追踪具有实用性。某些描述符可能受到噪声干扰而产生误导性结果。通过合理的筛选策略,在提取的过程中去除那些对目标表达无用且易受背景干扰的因素描述符,在保留核心描述符的基础上实现了更加精确的目标表示,并有效抑制了背景干扰的影响
本文的几点贡献:
研究者探究了通过大规模图像分类任务训练得到的CNN特征,并揭示了对目标追踪具有重要意义的关键性能。这些发现有助于更深入地理解CNN特征,并促使开发出一种有效的基于CNN的目标追踪算法。
2)、作者开发出了一种创新的跟踪技术,在融合两个不同的卷积层的基础上,在应对复杂的外观变化以及从相似的干扰项中准确识别目标上表现出色,并获得了显著的效果。这种方法有效地缓解了漂移现象的问题。
- 开发出一种自动化的特征图谱筛选机制,在去除噪声和非关键特征的基础上,显著提升了跟踪效果。
 
3、Deep Feature Analysis for Visual Tracking(深度特征分析for视觉跟踪)
通过深入分析深度表达方式有助于阐明深度学习机制的本质。研究者采用了基于16层VGG网络的特征提取方法,在ImageNet图像分类任务上进行了预训练训练,并包含了13个卷积层和3个全连接层。我们主要聚焦于第10号和第13号卷积层(分别为conv4-3和conv5-3),这些层级均生成512维特征图谱。
发现一:然而CNN特征图谱的影响也十分显著,并且激活的特征图谱不仅高度稀疏而且呈现局部化特性。其对应的激活区域与目标语义区域具有高度的相关性。
26
在池化层以及卷积层中,在特征图谱中仅存在局部区域具有非零值;这些非零值是具有局部性特征,并且与图像中的前景目标位置高度吻合;研究者借鉴了文献[26]的方法来提取CNN显著特征图;这些显著特征图表明,在输入发生改变时会导致在目标区域的选择总数量呈现出明显增加趋势;这种现象表明,在图像分类任务中所学习到的深度神经网络(DNN)特征是具有局部性的特性,并且与目标的具体视觉线索高度相关;基于此分析结果可得出结论:该类CNN显著特征能够有效地用于目标定位任务
发现二:大量CNN特征图谱属于噪音或者与我们的目标无关。
CNN提取了多样化的典型特征,并能有效捕捉丰富的视觉细节。然而,在追踪一个特定的目标时,
该目标应聚焦于更有限且更具代表性的视觉细节。
这种专注有助于更好地突出目标并减少背景干扰。
通常情况下,在这些特征图谱中大部分区域具有极低或零的相关性,
因此,在众多特征图谱中存在大量与目标无关或关联较小的部分。
为了提高效率,
我们可以仅利用有限的关键样本来进行跟踪,
从而保持性能而不至于因过多冗余信息而受限。
发现三:各层次提取了多样化的特征类型。高层模块主要关注语义层面的目标类别特征,在深层结构中逐步归纳总结各类别间的关联关系;而底层则聚焦于类内更具区分性的细节特征。
考虑到特征图谱中存在冗余信息这一问题,在本研究中我们采用了稀疏表达机制以提高视觉效果并减少计算复杂度;同时为了提高视觉效果并减少计算复杂度我们将利用网络提取出的特征图谱能够有效反映图像本质属性

,改造成一个d维的向量,n表示特征图谱的数量。

用于表示前景掩码。接着我们基于特征图谱的一部分来重建前景掩码,并通过求解以下方程式:


是稀疏系数向量,

平衡重建误差和稀疏的一个参数(正则项)。
经过一系列实验研究后发现
4、提出的算法

对于给定的目标而言,特征图谱的选择过程是被挑选出与之最优匹配的特征图谱以避免过拟合的发生。
2、一般的网络(GNet)是用选择的最相关的特征图谱来捕获目标的类别信息。
特定的网络模型用于从具有相似外观的背景中识别出目标,并且同样采用的是从中选出的关键特征图谱
在启动阶段,在线初始化常规网络与专用网络,并针对目标对象进行前景热图的回归分析,并采用多样化的在线更新策略
在处理新输入的一张图像时,系统会将所关注的区域包括目标和背景部分进行识别处理,并将这些区域输入到网络中进行进一步分析。
基于常规网络以及专用网络的基础上,系统将会分别生成两个具有前瞻性的热图.随后将依据这两个热图分别实施目标定位.
随后,我们的主要目标在于依靠一种干扰项检测系统来确定在步骤六中哪一个特定的热图可能会被采用。
4.1. 特征图谱的选择
文中的特征图谱选择方法由目标的热图回归模型构成,并被称为sel-CNN。该选中的模型在卷积层之后添加了一个dropout层,并未执行任何非线性变换操作。将所选特征图谱用作输入来预测目标热图M这一二维高斯分布变量;该热图M被视为以目标真实值为中心的二维高斯分布形态。通过最小化预测值与真实值之间的均方误差来优化模型参数并完成训练任务。

利用反向传播算法实现参数收敛后, 我们随后固定了模型的参数, 并基于这些参数对损失函数的作用来评估相应的特征图谱. 对于输入的特征图谱, 首先对其进行向量化处理. 然后我们可以通过计算以下二阶泰勒展开式来评估特征图谱对损失函数的影响:


5
5
分别是目标函数对于输入特征图谱的一阶偏导与二阶偏导的结果。该特征图谱所包含的元素数量极为庞大(超过27万)。为了计算所有二阶梯度所需的时间复杂度约为O(27, 万 × 27, 万),这是一项耗时的工作。为了简化计算,在公式【5
按照重要性排序后选取排名前K的特征图谱,并认为其对目标函数具有显著影响;这些被选中的特徴图像与跟踪任务高度相关;我们采用的方法可以在实时环境中运行;在我们的实验中,在仅初始帧处进行一次特徵提取就获得了良好的效果;这得益于强大的CNN特性
源于1989年时提出的一种数值优化方法。其核心在于通过数学建模将复杂的问题简化为一组低维变量。然而我们的目标是通过滤除噪声特征图谱从而提升追踪效果。
4.2. 目标定位
基于第一帧图像完成了特征图谱的选择过程后
SNet和GNet在第一帧通过最小化如下的损失函数的来初始化的:

注意,在 sel-CNN 和 GNet 和 SNet 之间存在各自的 CNN 架构特点。其中 sel-CNN 的架构相对较为简洁,并未采用噪声特征图谱来逼近目标函数;相比之下 GNet 和 SNet 则更为复杂一些。值得注意的是由于在特征图谱选择阶段已经去除掉了噪声特征图频域特性 相对复杂的网络架构则有助于实现更为精准的追踪效果
在给定的新图像中,我们首先勾勒出感兴趣的区域。经由前向传播处理后,在GNet和SNet两个网络中均会输出相应的前景热图。其中的目标位置信息将最先被GNet网络确定下来,并基于其输出结果进行后续定位计算

x,y,sigma 分别表示目标的中心坐标和尺度。给定的上一帧目标的位置

,我们假设当前帧的候选目标的位置服从高斯分布:


是对角协方差矩阵Σ(记作Σ_{ii}),它反映了定位参数之间的差异性。用于计算第i个候选目标置信度的方法是将候选区域内的所有热图值相加。其中具有最高置信度得分的目标区域将被GNet识别为该目标。
该网络基于卷积层5-3结构设计,在捕捉语义特征方面表现出良好的鲁棒性。由此可知,在前景热图中使用GNet网络生成的结果时,默认情况下会将目标及其外观相似但可能干扰识别的对象均予以标注。
为了防止跟踪器移动到背景区域中,我们通过干扰项检测机制进一步确定最终目标的位置

表示GNet网络预测的目标的区域,在热图中相应的目标区域表示为

位于背景区域的干扰项发生的概率是根据外层置信度与内层置信度的比例来计算的


代表的是热图中的背景区域。当概率

在数值低于设定阈值的情况下, 我们判定无干扰项后, 将GNet预测的目标位置定为最终定位结果; 反之则采用另一种方法, 即将SNet网络的预测结果确定为定位方案.
4.3. 在线更新
9
9
9
9


表示的是SNet网络的卷积权重。(x,y)表示的是空间坐标。
10
10
10
