Long-term Correlation Tracking -- 长期相关性跟踪
经过多年的实践探索与优化尝试,在追踪目标的长期过程中的确发现了诸多挑战性场景下的不足之处——极端遮挡和物体移出观察范围的情况往往会导致追踪系统失灵,并且难以恢复到最初的追踪状态;从15年的经典论文中可以看出其对这类复杂情况的有效应对策略,并希望在此基础上进行进一步的技术改进与应用研究。
直接入题 :本文提出了一种针对长期视觉跟踪问题的解决方案,在上述情况下(即目标物体因形变、突然运动、严重遮挡及超出视野范围等因素导致外观明显变化),我们将追踪任务分解为对象平移与尺度估计两部分。研究表明,在时间上下文相关性显著提升的基础上,并采用置信度最大的帧来训练鉴别相关滤波器(discriminative correlation filters),从而有效估计尺度变化是可行且有效的策略。
另外,在目标追踪过程中恢复丢失的对象的前提下开发一个基于在线式随机化Fern分类器(an online random fern classifier)。通过大规模基准数据集上的广泛实验结果表明,在效率、准确性和鲁棒性方面所提出的算法优于目前最先进的方法。
基于以前工作的两个观察 :
在极短时间内(即小于0.04秒的时间尺度),两个连续帧之间的视觉变化极为微小;即便目标出现严重遮挡现象,其周围环境的信息仍可能保持稳定。因此,在构建基于目标及其背景的时间视觉关系模型方面具有重要意义。本文采用了一种基于相关滤波器的核岭回归方法(kernel ridge regression method)来编码由目标及其周边环境所组成的外观模板特征。通过自适应构建的特征模板能够有效抑制重度遮挡、快速运动以及形态显著改变的影响。与现有基于相关滤波器的跟踪算法相比,在长期追踪过程中容易发生漂移现象的方法不同,该方法的主要优势在于能够通过合理利用相关滤波器技术实现长期视觉追踪中的精确时序建模。
提升长期跟踪器的性能至关重要,在其设计中包含了两个关键要素:一是准确估计物体尺寸的变化比例;二是当出现长时间遮挡或目标从视野范围内消失导致丢失追踪时能够及时重新定位。为了实现精准的比例估算,在选择训练数据时优先考虑那些图像质量最佳、信息最丰富的帧。首先提取物体的关键特征——高阶梯度(HOG)向量;其次基于这些特征构建多层次的目标金字塔,并对每个层级进行详细分析以确定最佳缩放比例。当面临高维空间中的复杂场景时,在线学习算法能够有效避免传统方法依赖全局搜索所带来的计算开销问题。
该算法通过综合运用两个不同适应率的相关滤波器类型的回归模型来构建分析时间上下文相关性及目标外观特征的模型以解决不一致的问题
本文三个创新点 :
该时间上下文回归器致力于灵活应对平移估计以克服复杂形变及严重的遮挡影响。
(2)目标回归器保守地适应并应用于外观金字塔以进行尺度估计。
(3)该系统提出了一种新方法,在目标跟踪失败时会唤醒该目标并执行重试检测,并通过使用目标回归器来判断是否采用重试检测结果。

做法
,
不同于以往的常规方法,在本研究中我们不再依赖初始帧中的明确目标点位置去推断后续帧的目标位置;相反地,在经过充分的数据训练后,我们能够从所有训练样本中提取出最稳定的特征点集,并训练了一个判别回归模型Rt用于后续预测。该模型能够有效地预测后续每一帧的目标位置。
最大值用于评估跟踪结果的置信度。通过预先设定适当的阈值来提高Rt模型的可靠性。
,只有当
时才更新。
在目标追踪的过程中,在预估的位置偏移量周围设置一个目标金字塔结构,并以此进行尺度估算。这有助于缓解规模估算不够精确的问题。
设P与Q分别代表目标的尺寸参数,在选定尺度层级数量为N的情况下,在集合S中依次选取每个样本点s(记为s∈S),生成以预测位置为中心、尺寸参数分别为s·P和s·Q的空间区域,并将这些区域进行调整至统一的空间维度(通常设定为空间分辨率一致),随后计算每个区域内的HOG(Histogram of Oriented Gradients)特征向量,并将这些向量按比例缩放后合并到同一空间维度上形成金字塔结构。
为Rt对Js的响应,
为最优尺度,如果相应的
,Rt才升级更新。


在线检测:
与之前的跟踪方法不同(每帧都进行重新检测),本文采用一个阈值
用于控制检测器的激活状态。为了保持算法的计算效率,我们选择替代地采用一种基于在线随机fern的分类器作为检测器,而不是使用回归模型Rt。当满足特定条件时...
当时间轴到达某一刻时,在应用滑动窗口到整个框架的过程中,在线随机fern检测器采用了更为稳妥的更新策略。
令
指示类别标签,
是一系列fern小集合的二进制特征,则每个fern特征的联合分布如下式:

其中

代表第k个fern, 每个fern
的条件概率可以表示为

,根据贝叶斯公式,最优类
被检测为:

整体算法流程:

输入:初始目标边界框
,
输出:目标估计状态
, 时间上下文回归模型Rc,目标外观回归模型Rt, 随机fern检测器Drf。
重复以下过程直到视频序列结束:
根据
从第t帧中裁剪搜索窗口并提取特征;
(1)平移估计
用Rc和相关滤波分数计算相关图
(correlation map)估计新的位置
;
(2)比例估算
在
周围构造目标金字塔,然后用Rt和相关滤波分数计算计算相关图
,
利用公式

估计出最优尺寸
,
得到
;
(3)目标重新检测
如果
, 那么 :
使用检测器Drf执行重新检测,找到可能的候选状态集合X;
细节:对 X 中的每个状态
,计算置信分数
, 如果
,则
; 否则,
结束
(4)模型更新
更新Rc ;
如果
,那么使用Js更新Rt ;
更新Drf ;
算法实现中的具体设置:
特征 :方式:特征向量由多通道的特征串联表示
训练Rc:HOG特征,31bins;灰度直方图特征,8bins (6*6) ;
亮度通道上添加非参局部秩变换特征,8bins;共47通道的特征。
训练Rt:HOG特征构建目标金字塔。
对随机 Ferns 模型进行训练后,在所有高质量的结果上将其设置为 15×15 的尺寸,并生成灰度特征向量
核函数 :高斯核函数
随机ferns: 其工作原理为将像素被视为相当于二进制特征并进行比较,在此基础上采用基于K-近邻算法构建分类器。
选择置信度最高的跟踪结果作正样本。检测时基于扫描窗口策略。
效果图(详见论文):

总结:
该文提出了一种长时视觉追踪算法... 通过应用相关滤波器来估算目标的位移及比例(尺度)变化... 基于时间序列的相关建模方法来推断目标的位移... 并构建外观特征金字塔模型来进行比例估计... 此外,在目标丢失的情况下,则采用在线随机 Fern 检测器重新定位... 一定程度地增强了对重度遮挡和超出视线范围情况下的鲁棒性
