Advertisement

ECO目标跟踪: Efficient Convolution Operators for Tracking(翻译+笔记)

阅读量:

ECO: Efficient Convolution Operators for Tracking
摘要
近年来,基于判别相关滤波器 (DCF) 的方法显着提高了跟踪的最新技术水平。 然而,在追求不断提高的跟踪性能的过程中,它们的特征速度和实时能力逐渐减弱。 此外,越来越复杂的模型具有大量可训练的参数,引入了严重过拟合的风险。 在这项工作中,我们解决了计算复杂性和过度拟合问题背后的关键原因,目的是同时提高速度和性能。
我们重新审视核心 DCF 公式并引入:(i)分解卷积算子,它大大减少了模型中的参数数量; (ii) 训练样本分布的紧凑生成模型,可显着降低内存和时间复杂度,同时提供更好的样本多样性; (iii) 一种具有改进鲁棒性和降低复杂性的保守模型更新策略。 我们对四个基准进行了全面的实验:VOT2016、UAV123、OTB-2015 和 Temple Color。 当使用昂贵的深度特征时,与 VOT2016 挑战中排名最高的方法 [12] 相比,我们的跟踪器提供了 20 倍的加速,并在预期平均重叠方面实现了 13.0% 的相对增益。 此外,我们的快速变体使用手工制作的特征,在单个 CPU 上以 60 Hz 的频率运行,同时在 OTB-2015 上获得 65.0% 的 AUC。
1.Introduction
通用视觉跟踪是计算机视觉中的基本问题之一。 这是在仅给定初始状态的情况下估计图像序列中目标轨迹的任务。 在线视觉跟踪在众多实时视觉应用中起着至关重要的作用,例如智能监控系统、自动驾驶、无人机监控、智能交通控制和人机界面。 由于跟踪的在线性质,在实时视觉系统的硬计算约束下,理想的跟踪器应该是准确和健壮的。
近年来,基于跟踪基准的有识别能力的相关性过滤器(DCF)方法在准确性和鲁棒性方面显示出持续的性能改进 [23, 37]。 基于 DCF 的跟踪性能的最新进展是由使用多维特征 [13, 15]、稳健的尺度估计 [7, 11]、非线性内核 [20]、长期记忆组件 [28]、 复杂的学习模型 [3, 10] 和减少边界效应 [9, 16]。 然而,这些准确性的提高是以显着降低跟踪速度为代价的。 例如,Bolme 等人的开创性 MOSSE 跟踪器。 [4] 在 VOT2016 挑战 [23] 中比最近排名第一的 DCF 跟踪器 C-COT [12] 快约 1000 倍,但准确率只有一半。
如上所述,DCF 跟踪性能的进步主要归功于强大的特征和复杂的学习公式 [8, 12, 27]。 这导致了更大的模型,需要数十万个可训练的参数。另一方面,这种复杂的大型模型有严重的过拟合风险(见图1)。在本文中,我们解决了当前DCF跟踪器的过拟合问题,同时恢复其标志性的实时能力。
图 1. 我们的方法 ECO 与基线 C-COT  在三个示例序列上的比较。 在所有三种情况下,CCOT 都存在对目标特定区域的严重过度拟合。 在尺度变化(顶行)、变形(中行)和平面外旋转(底行)的情况下,这会导致目标估计不佳。 我们的 ECO 跟踪器成功解决了过度拟合的原因,从而更好地泛化了目标外观,同时实现了 20 倍的加速。

图 1. 我们的方法 ECO 与基线 C-COT [12] 在三个示例序列上的比较。 在所有三种情况下,CCOT 都存在对目标特定区域的严重过度拟合。 在尺度变化(顶行)、变形(中行)和平面外旋转(底行)的情况下,这会导致目标估计不佳。 我们的 ECO 跟踪器成功解决了过度拟合的原因,从而更好地泛化了目标外观,同时实现了 20 倍的加速。
1.1. Motivation
我们确定了导致最先进的 DCF 跟踪器中计算复杂性增加和过度拟合的三个关键因素。
模型大小:高维特征图的集成,例如深度特征,导致外观模型参数的数量急剧增加,通常超出输入图像的维度。 例如,C-COT [12] 在模型的在线学习过程中不断更新大约 800,000 个参数。 由于跟踪中训练数据的固有稀缺性,这样的高维参数空间容易出现过拟合。 此外,高维度导致计算复杂度的增加,导致跟踪速度变慢。
训练集大小:最先进的 DCF 跟踪器,包括 C-COT,由于依赖迭代优化算法,需要存储大量的训练样本集。 然而,在实践中,内存大小是有限的,尤其是在使用高维特征时。 维持可行内存消耗的典型策略是丢弃最旧的样本。 然而,这可能会导致对最近的外观变化过度拟合,从而导致模型漂移(见图 1)。 此外,大型训练集会增加计算负担。
模型更新:大多数基于 DCF 的跟踪器应用持续学习策略,其中模型在每一帧中都被严格更新。 相反,最近的作品使用 Siamese 网络 [2],在没有任何模型更新的情况下显示了令人印象深刻的性能。 受这些发现的启发,我们认为最先进的 DCF 中的连续模型更新过度且对由例如尺度变化、变形和平面外旋转引起的突然变化敏感(见图 1)。 由于过度拟合最近的帧,这种过度的更新策略会导致较低的帧速率和鲁棒性的降低。
1.2. Contributions
我们提出了一种新颖的公式,可以解决先前列出的最先进 DCF 跟踪器的问题。 作为我们的第一个贡献,我们引入了一个分解卷积算子,它极大地减少了 DCF 模型中的参数数量。 我们的第二个贡献是训练样本空间的紧凑生成模型,它有效地减少了学习中的样本数量,同时保持了它们的多样性。 作为我们的最后贡献,我们引入了一种有效的模型更新策略,同时提高了跟踪速度和鲁棒性。
综合试验表明,该方法同时提高了跟踪性能和速度,因此提出了四个最先进的基准:VOT2016, UAV123, OTB-2015, and Temple-Color.与基线相比,我们的方法在学习中显着减少了 80% 的模型参数数量、90% 的训练样本和 80% 的优化迭代。 在 VOT2016 上,我们的方法在挑战中优于排名最高的跟踪器 C-COT [12],同时实现了显着更高的帧速率。 此外,我们提出了我们的跟踪器的快速变体,该变体保持了竞争性能,在单个 CPU 上的速度为每秒 60 帧 (FPS),因此特别适用于计算受限的机器人平台。
2. Baseline Approach:C-COT
在这项工作中,我们共同解决了最先进的 DCF 跟踪器中的计算复杂性和过度拟合的问题。 我们采用最近推出的连续卷积算子跟踪器 (C-COT) [12] 作为我们的基线。 C-COT 在最近的 VOT2016 挑战赛中获得最高排名 [23],并在其他跟踪基准测试中取得了出色的成绩 [26, 37]。 与标准 DCF 公式不同,Danelljan 等人 [12]提出了在连续空间域中学习滤波器的问题。 C-COT 中的广义公式产生了与我们的工作相关的两个优点。
C-COT 的第一个优势是多分辨率特征图的自然集成,通过在连续域中执行卷积来实现。 这提供了独立选择每个视觉特征的单元格大小(即分辨率)的灵活性,而无需显式重新采样。 第二个优点是目标的预测检测分数是作为连续函数直接获得的,可以实现精确的子网格定位。
在这里,我们简要描述 C-COT 公式,为方便起见采用与 [12] 中相同的符号。 C-COT 基于 M 个训练样本 的集合有区别地学习卷积滤波器。 与标准的 DCF 不同,每个特征层 都有一个独立的分辨率 。通过引入插值模型,将特征图转移到连续空间域 t ∈ [0, T ),由算子 给出,

其中, 是一个周期T > 0 的插值核。因此结果 是一个插值的特征层,被视为一个连续的T周期函数。我们使用 J {x} 来表示整个插值特征图,其中 。
C-COT构想中,一个连续的T周期通道卷积特征 用来预测目标的检测分数 为:

分数定义在特征图 的相应图像区域t∈[0,T)中。在(2)中,单通道T周期函数的卷积定义为 。多通道卷积 是通过对所有通道的结果求和获得的,如(2)中所定义。滤波器是通过最小化以下目标来学习的,

样本 的标记检测分数 设置为周期性重复的高斯函数。数据项由加权分类误差组成,由 范数 给出,其中 是样本 的权重。 正则化集成了空间惩罚 以减轻周期性假设的缺点,同时实现扩展的空间支持[9]。
与以前的DCF方法一样,通过更改为傅立叶基础,可以获得更易于处理的优化问题。 Parseval 的公式暗示了等价的损失,

其中,T 周期函数 g 的 表示傅立叶级数系数 并且 -范数定义为 。检测分数(2)的傅立叶系数由公式 给出,其中 是 的离散傅立叶变换(DFT)。 在实践中,滤波器 假定具有有限多个非零傅立叶系数 ,其中 。通过求解正规方程优化,等式 (4) 就变成二次问题,

其中, 和 分别是 和 中傅立叶系数的向量化。 矩阵A表现出稀疏结构,对角块包含 形式的元素。此外,Γ 是权重 的对角矩阵,W 是具有核 的卷积矩阵。 C-COT [12] 采用共轭梯度 (CG) 方法 [32] 迭代求解 (5),因为它被证明是针对该问题可以有效利用的稀疏结构。
3. Our Approach
如前所述,DCF 学习中的过度拟合和计算瓶颈源于共同因素。 因此,我们对这些问题进行了集体处理,旨在提高性能和速度。
鲁棒学习:如前所述,(3)中大量优化的参数可能会因训练数据有限而导致过拟合。 我们通过在 3.1 节中引入分解卷积公式来缓解这个问题。 在深度特征的情况下,这种策略从根本上减少了80%的模型参数数量,同时提高了跟踪性能。此外,我们在 3.2 节中提出了一个样本分布的紧凑生成模型,它提高了多样性并避免了之前讨论的与存储大样本集相关的问题。 最后,我们研究了第 3.3 节中更新模型的策略,并得出结论,过滤器更新频率较低可以稳定学习,从而实现更稳健的跟踪。
计算复杂度:学习步骤是基于优化的DCF跟踪器(例如 C-COT)的计算瓶颈。 C-COT中外观模型优化的计算复杂度是通过分析应用于(5)的共轭梯度算法获得的。 复杂度可以表示为 ,其中 是CG迭代次数, 是每个滤波器通道的傅立叶系数的平均数。受这种学习复杂性分析的启发,我们分别在第 3.1、3.2 和 3.3 节中提出了减少 D、M 和 的方法。
3.1. Factorized Convolution Operator
我们首先介绍一种因式卷积方法,目的是减少模型中的参数数量。我们观察到,在 C-COT 中 的许多滤波器包含的能量可以忽略不计。 这对于高维深度特征尤为明显,如图 2 所示。此类过滤器几乎不会对目标定位做出贡献,但仍会影响训练时间。我们没有为每个特征通道 d 学习一个单独的过滤器,而是使用一组较小的基础过滤器 , 其中 C < D. 然后将特征层d的过滤器构造为线性组合 , 过滤器 一组学习系数 组成。 系数可以紧凑地表示为D×C矩阵 。 然后可以将新的多通道滤波器写为矩阵向量乘积 。 我们得到分解的卷积算子,

最后一个等式来自卷积的线性。 因此,分解卷积(6)可以被两步操作替代,其中每个位置 t 的特征向量 首先与矩阵 相乘。然后将得到的C维特征图与滤波器f进行卷积。矩阵 类似于线性降维算子,如在 [13]。关键区别在于,我们通过最小化分解算子 (6) 的分类误差 (3),以有区别的方式联合学习滤波器f和矩阵P。
为简单起见,我们考虑从单个训练样本x中学习分解算子 (6)。 为了简化符号,我们使用 来表示内插特征图 的傅立叶系数。傅立叶域 (4) 中的相应损失可导出为

这里我们添加了P的 Frobenius 范数作为正则化,由权重参数λ控制。
与原始公式 (4) 不同,我们的新损失 (7) 是一个非线性最小二乘问题。 由于 的双线性,损失 (7) 类似于矩阵分解问题 [21]。 然而,由于我们问题的参数大小和在线性质,这些应用程序的流行优化策略(包括交替最小二乘法)是不可行的。相反,我们采用高斯牛顿 [32] 并使用共轭梯度方法来优化二次子问题。高斯牛顿方法是通过使用一阶泰勒级数展开对(7)中的残差进行线性化而导出的。这里,这对应于将双线性项 近似于当前估计值 为,
ˆ
在这里,我们设置 。 在最后一个等式中,Kronecker 乘积⊗用于获得矩阵步长ΔP的向量化。
迭代 i 的高斯-牛顿子问题是通过将一阶近似 (8) 代入 (7) 导出的,

由于滤波器f被限制为具有有限多个非零傅立叶系数,等式 (9) 是一个线性最小二乘问题。对应的正规方程与(5)有部分相似的结构,附加分量对应于矩阵增量ΔP变量。我们采用共轭梯度法优化每个高斯牛顿子问题以获得新的滤波器 ,Δ和矩阵增量ΔP*。然后将滤波器和矩阵估计更新为 ,∆ 和 。
我们的分解卷积操作的主要目标是降低跟踪器的计算和内存复杂度。 由于滤波器的适应性,矩阵P可以仅从第一帧中学习。这有两个重要的含义。 首先,只有投影特征图 需要存储,从而显著节省内存。其次,可以使用投影特征图 作为第2节中描述的方法的输入在后续帧中更新滤波器。这将特征维度D的线性复杂度降低到滤波器维度C,即 。
在这里插入图片描述

图 2. 对应于深度网络中最后一个卷积层的学习过滤器的可视化。 我们显示了由基线 C-COT (a) 学习的所有 512 个滤波器 fd 和由我们的分解公式 (b) 获得的 64 个滤波器 f c 的缩减集。 绝大多数基线过滤器包含的能量可以忽略不计,表明相应特征层中的信息不相关。 我们的分解卷积公式学习了一组紧凑的具有显着能量的判别基础滤波器,实现了参数的彻底减少。
在这里插入图片描述

图 3. 基线 C-COT(底行)和我们的方法(顶行)中训练集表示的可视化。 在 C-COT 中,训练集由一系列连续样本组成。 由于外观的缓慢变化,这引入了大量冗余,而外观的先前方面被遗忘。 这可能会导致对最近样本的过度拟合。 相反,我们将训练数据建模为高斯分量的混合,其中每个分量代表外观的不同方面。 我们的方法产生了紧凑而多样的数据表示,从而降低了过度拟合的风险。
3.2. Generative Sample Space Model
在这里,我们提出了一个紧凑的样本集生成模型,它避免了前面讨论的存储大量最近训练样本集的问题。大多数DCF跟踪器,例如 SRDCF [9] 和 C-COT [12],每帧 j 添加一个训练样本 。权重通常设置为指数衰减 ,由学习指数λ控制。如果样本数量已经达到最大限制Mmax,则替换权重最小的样本 。 然而,这个策略需要一个大的样本限制Mmax来获得一个有代表性的样本集。
我们观察到,在每一帧中收集一个新样本会导致样本集中出现大量冗余,如图 3 所示。标准采样策略(底行)用相似的样本xj填充整个训练集,尽管包含几乎相同的信息。 相反,我们建议使用样本集的概率生成模型,该模型通过消除冗余和增强多样性来实现对样本的紧凑描述(顶部)。
我们的方法基于样本特征图x的联合概率分布p(x, y) 和相应的期望输出分数 y。 给定 p(x, y),直观的目标是找到最小化预期相关误差的滤波器。 这是通过用
获得的。
这里,期望 E 是在联合样本分布 p(x, y) 上评估的。请注意,原始损失 (3) 是通过将样本分布估计为 来作为特殊情况获得的,其中 表示训练时的狄拉克脉冲样本 。相反,我们期望为样本分布p(x, y)建立一个紧凑模型,导致预期损失的更有效的近似。
我们观察到样本 x 的所需相关输出 y 的形状是预先确定的,这里是高斯函数。标签函数 yj在(3)中的区别仅在于将峰值与目标中心对齐的平移。这种对齐通过移动特征图 x 等效地执行。因此,我们可以假设目标位于图像区域的中心,并且所有 y = y0 都是相同的。 因此,样本分布可以分解为 ,我们只需要估计 p(x)。 为此,我们采用高斯混合模型 (GMM),使得 。 这里,L是高斯分量 的个数, 是分量l的先验权重, 是它的均值。 协方差矩阵设置为单位矩阵I以避免在高维样本空间中进行代价高昂的推理。
为了更新 GMM,我们使用了 Declercq 和 Piater [14] 的在线算法的简化版本。 给定一个新样本 xj,我们首先用 和 (在 [14] 中连接)初始化一个新的分量 m。 如果组件数量超过限制 L,我们简化 GMM。 如果一个分量的权重 低于阈值,我们就丢弃它。 否则,我们将两个最接近的分量 k 和 l 合并为一个公共分量 n [14],

使用 Parseval 公式在傅立叶域中有效地计算所需的距离比较 。
最后,损失方程(10)近似于,

请注意,在(3)中,高斯意味着 和先验权重 分别直接替换了xj和 。因此,可以应用与第 2 节中描述的相同的训练策略。
与(3)相比,复杂度的主要区别在于样本数量从 M 减少到 L。在我们的实验中,我们表明组件数量 L 可以设置为 M/8,同时获得改进的跟踪性能。 我们的样本分布模型 p(x, y) 通过将样本x替换为投影样本 与第 3.1 节中的分解卷积相结合。 投影不会影响我们的公式,因为矩阵P在第一帧之后是常数。
3.3. Model Update Strategy
基于 DCF 的跟踪的标准方法是在每一帧中更新模型 [4, 9, 20]。在 C-COT 中,这意味着在添加每个新样本后通过迭代求解正规方程 (5) 来优化 (3)。 基于迭代优化的 DCF 方法利用损失函数在帧之间逐渐变化。 因此,过滤器的当前估计提供了迭代搜索的良好初始化。 尽管如此,在每一帧中更新过滤器对计算负载有严重影响。
我们使用稀疏更新方案,而不是每帧以连续方式更新模型,这是非 DCF 跟踪器 [31, 38] 中的常见做法。直观地说,只有在目标发生足够的变化后才应开始优化过程。 但是,找到这样的条件并非易事,并且可能导致不必要的复杂启发式方法。 此外,基于损失(3)梯度的最优条件,由(5)的残差给出,在实践中评估成本很高。 因此,我们避免明确检测目标中的变化,并通过在每个第 帧中启动优化过程来简单地更新过滤器。 参数 决定了过滤器更新的频率,其中 NS=1 对应于在每一帧中优化过滤器,如标准 DCF 方法。 在每个第 帧中,我们执行固定数量的 共轭梯度迭代来细化模型。结果,每帧的平均 CG 迭代次数减少到 ,这对学习的整体计算复杂度有很大影响。 注意 不影响3.2节介绍的样本空间模型的更新,每帧更新一次。
令我们最初惊讶的是,我们观察到模型的适度不频繁更新( ≈5)通常会改善跟踪结果。 我们主要将这种效果归因于减少了对最近训练样本的过度拟合。通过延迟模型更新少数几帧,通过在样本中增加一个新的小批量来更新损失,而不是针对每一个。这可能有助于稳定学习,特别是在新样本受到突然变化影响的情况下,例如平面外旋转、变形、杂波和遮挡(见图 1)。
虽然增加 会导致计算量减少,但它也可能会降低优化的收敛速度,从而导致模型判别性较差。 通过增加CG迭代次数 进行的简单补偿会抵消实现的计算增益。相反,我们的目标是通过更好地使 CG 算法适应在线跟踪,其中损失动态变化,从而实现更快的收敛。 这是通过将标准 Fletcher-Reeves 公式替换为 Polak-Ribi`ere 公式 [34] 来寻找动量因子而获得的,因为它已经显示出改进的不精确和灵活预处理的收敛速度 [18],这与我们的场景有相似之处。
在这里插入图片描述

表1 我们的实验使用中提出的分解卷积方法的设置,对于每个特征,我们显示维数D和过滤器数量C。
4.Experiments
试验基于四个数据库: VOT2016[23], UAV123 [29], OTB-2015 [37], and TempleColor [26].
4.1.1Implementation Details
我们的跟踪器是在 Matlab 中实现的。 我们应用与 C-COT 相同的特征表示,即 VGG-m 网络 [5] 中第一个 (Conv-1) 和最后一个 (Conv-5) 卷积层的组合,以及 HOG [6] 和颜色名称 (CN) [35]。 对于 3.1 节中介绍的分解卷积,我们为每种特征类型学习一个系数矩阵 P。 每个特征的设置总结在表1中。(7)中的正则化参数λ设置为 。对于子问题 (9),损失 (7) 在第一帧中使用 10 次高斯-牛顿迭代和 20 次 CG 迭代进行了优化。 在第一次迭代 i = 0 中,滤波器 被初始化为零。为了保持跟踪器的确定性,我们通过 PCA 初始化系数矩阵 P0,尽管我们发现随机初始化同样稳健。
对于 3.2 节中介绍的样本空间模型,我们将学习率设置为 γ = 0.012。 组件数量设置为 L = 50,与 C-COT 中使用的样本数量 (M = 400) 相比,这表示减少了8倍。 我们在每个 =6 帧中更新过滤器(第 3.3 节)。 我们使用与 C-COT 中相同数量的 =5 共轭梯度迭代。 请注意,数据集中所有视频的所有参数设置都保持固定。
在这里插入图片描述

表 2. 我们在 VOT2016 上的方法分析,显示了当时从左到右逐步积分一项贡献的影响。 我们展示了预期平均重叠 (EAO) 的性能和 FPS 的速度(在单个 CPU 上进行了基准测试)。 我们还总结了使用我们的设置在每个步骤中获得的学习复杂度 的降低,包括符号和绝对数字(底行)。 我们的贡献系统地提高了性能和速度。
4.2. Baseline Comparison
在这里,我们通过展示逐步整合我们的贡献的影响来分析我们在 VOT2016 基准上的方法。 VOT2016 数据集由 60 个视频组成,这些视频由 300 多个视频组成。性能在准确性(成功跟踪期间的平均重叠)和稳健性(失败率)方面进行评估。整体性能是使用预期平均重叠 (EAO) 评估的,它考虑了准确性和稳健性。我们参考 [24] 了解详细信息。
表 2 显示了我们的贡献分析。 将我们的分解卷积集成到基线中可以提高性能并显着降低复杂性(6 倍)。 样本空间模型在 EAO 中进一步提高了 2.9% 的相对增益,同时将学习复杂度降低了 8 倍。此外,结合我们提出的模型更新使我们的 EAO 得分提高到 0.374,从而获得最终的相对增益 与基线相比为 13.0%。 在表 2 中,我们还展示了我们的贡献对跟踪器速度的影响。 为了公平比较,我们报告了表中所有条目在单个 CPU 上测量的 FPS,不考虑特征提取时间。 我们的每一项贡献都系统地提高了跟踪器的速度,与基线相比,最终增益提高了 20 倍。 当包括所有步骤(也包括特征提取)时,我们的跟踪器的 GPU 版本以 8 FPS 运行。
我们发现表 1 中的设置对微小更改不敏感。 通过减少滤波器 C 的数量可以获得速度的显着提高,但代价是性能略有下降。 为了进一步分析我们联合学习的分解卷积方法的影响,我们与在第一帧中应用 PCA 来获得矩阵 P 进行比较。 PCA 将 EAO 从 0.331 降低到 0.319,而我们基于判别学习的方法达到 0.342。
我们观察到,当使用相同数量的组件和样本 (L = M) 时,与 C-COT 中采用的训练样本集管理相比,我们的样本模型始终提供更好的结果。对于较少数量的组件/样本,这一点尤为明显:在标准方法中将样本数量从 M = 400 减少到 M = 50 时,EAO 从 0.342 减少到 0.338 (-1.2%)。 相反,当使用 L = 50 个分量的方法时,EAO 增加了 +2.9% 至 0.351。 在模型更新的情况下,当 从 1 增加到 6 时,我们观察到性能呈上升趋势。当 N 进一步增加时,观察到逐渐下降的趋势。 因此,我们在整个实验中使用 =6。
在这里插入图片描述

图 4. VOT2016 上的预期平均重叠 (EAO) 曲线。 为清楚起见,仅显示了前 10 个跟踪器。 EAO 度量,计算为典型序列长度(灰色区域)的平均 EAO,显示在图例中(有关详细信息,请参见 [24])。
在这里插入图片描述

表 3. VOT2016 数据集在预期平均重叠 (EAO)、稳健性(失败率)、准确性和速度(以 EFO 单位为单位)方面的最新技术。 仅显示前 10 个跟踪器。 我们基于深度特征的 ECO 实现了卓越的 EAO,而我们手工制作的特征版本 (ECO-HC) 具有最佳速度。

4.3. State-of-the-art Comparison
在这里,我们在四个具有挑战性的跟踪基准测试中将我们的方法与最先进的跟踪器进行比较。 补充材料中提供了详细的结果。
VOT2016 数据集:在表 3 中,我们将我们的方法与 VOT2016 挑战中排名靠前的跟踪器在预期平均重叠 (EAO)、稳健性、准确性和速度(以 EFO 为单位)方面进行了比较。 在 VOT2016 挑战赛中排名第一的 C-COT 提供了 0.331 的 EAO 分数。 与 C-COT 相比,我们的方法在 EAO 中实现了 13.0% 的相对增益。 此外,我们的 ECO 跟踪器实现了 0.72 的最佳故障率,同时保持了具有竞争力的准确性。 我们还报告了 EFO 方面的总速度,它根据硬件性能对速度进行了标准化。值得注意的是,EFO也将特征提取时间考虑在内,独立于我们的 DCF 改进的主要附加复杂性。 在比较中,我们的跟踪器 ECO-HC 仅使用手工制作的特征(HOG 和颜色名称)实现了最佳速度。 在挑战中排名前三的跟踪器中,都基于深度特征,TCNN [30] 以 1.05 的 EFO 获得最佳速度。 与 TCNN 相比,我们的深度特征版本 (ECO) 在 EFO 中实现了近 5 倍的加速,在 EAO 中的相对性能提高了 15.1%。 图 4 显示了前 10 个跟踪器的 EAO 曲线。
UAV123 数据集:使用无人机 (UAV) 进行空中跟踪最近受到了很多关注,其视觉应用包括野生动物监测、搜索和救援、导航和人群监视等。 在这些应用中,需要持续的无人机导航,因此实时跟踪输出至关重要。 在这种情况下,所需的跟踪器应该是准确和健壮的,同时在有限的硬件能力下实时运行,例如 CPU 或移动 GPU 平台。 因此,我们引入了我们方法的实时变体(ECO-HC),基于手工制作的特征(HOG 和颜色名称),在单个 i7 CPU 上以 60 FPS 的速度运行(包括特征提取)。
我们在最近推出的空中视频基准 UAV123 [29] 上评估我们的跟踪器,用于低空无人机目标跟踪。 该数据集由超过 110K 帧的 123 个航拍视频组成。 跟踪器使用成功图 [36] 进行评估,计算为具有交集交叉(IOU)重叠超过阈值的帧的百分比。 使用曲线下面积 (AUC) 分数对跟踪器进行排名。 图 5a 显示了数据集中所有 123 个视频的成功图。 我们与 [29] 中报告的所有跟踪结果进行比较,并由于其高帧率和 C-COT [12] 进一步添加 Staple [1]。 在排名前 5 的跟踪器中,只有 Staple 实时运行,AUC 得分为 45.3%。 我们的 ECO-HC 跟踪器还实时运行 (60 FPS),AUC 得分为 51.7%,明显优于 Staple 6.4%。 C-COT 的 AUC 得分为 51.7%。我们的ECO比C-COT更好,用相同的特征实现了53.7%的AUC值。
OTB2015 数据集:我们将跟踪器与 20 种最先进的方法进行比较:TLD [22]、Struck [19]、CFLB [16]、ACT [13]、TGPR [17]、KCF [20]、DSST [7] , SAMF [25], MEEM [38], DAT [33], LCT [28], HCF [27], SRDCF [9], SRDCFad [10], DeepSRDCF [8], Staple [1], MDNet [31] 、SiameseFC [2]、TCNN [30] 和 C-COT [12]。 图 5b 显示了 OTB-2015 数据集 [37] 中所有 100 个视频的成功图。 在使用手工制作特征的比较跟踪器中,SRDCFad 提供了最好的结果,AUC 得分为 63.4%。 我们提出的方法 ECO-HC 也采用手工制作的特征,其 AUC 得分为 65.0%,同时在 CPU 上以 60 FPS 的速度运行,其性能优于 SRDCFad。 在比较的深度特征跟踪器中,C-COT、MDNet 和 TCNN 提供了最好的结果,AUC 分数分别为 69.0%、68.5% 和 66.1%。 我们的方法 ECO 以 70.0% 的 AUC 分数提供最佳性能。 TempleColor 数据集:在图 5c 中,我们展示了包含 128 个视频的 TempleColor 数据集 [26] 的结果。 我们的方法再次实现了对 CCOT 的实质性改进,AUC 增加了 0.8%。
在这里插入图片描述

图 5. UAV-123 (a)、OTB-2015 (b) 和 TempleColor © 数据集上的成功图。 为清楚起见,图例中仅显示了前 10 个跟踪器。 每个跟踪器的 AUC 分数显示在图例中。 我们的方法显着提高了所有数据集的最新技术水平。

5.Conclusions
我们重新审视核心 DCF 公式以解决过度拟合和计算复杂性的问题。 我们引入了一个分解卷积算子来减少模型中的参数数量。 我们还提出了一个紧凑的训练样本分布生成模型,以大幅减少学习的记忆和时间复杂度,同时增强样本多样性。 最后,我们提出了一种简单而有效的模型更新策略,可以减少对最近样本的过度拟合。 在四个数据集上的实验证明了最先进的性能和改进的帧速率。 致谢:这项工作得到了 SSF(SymbiCloud)、VR(EMC2,起始资助 2016-05543)、SNIC、WASP、Visual Sweden 和 Nvidia 的支持。

全部评论 (0)

还没有任何评论哟~