论文笔记Understanding and Diagnosing Visual Tracking Systems
最近我在研究目标跟踪相关的论文,在阅读过程中发现王博士发布了一篇关于跟踪系统分析的文章。文中提到将系统分解为若干独立模块来进行详细分析,并对每个模块的作用进行了评估。我对该论文的核心内容进行了较为深入的解读,并在此分享我的理解过程。作为刚入门的读者,我的水平仍有待提升,请各位专家多多指正。此外,文章还参考了hjl240的一篇文章:《追踪系统分模块解析》,深入理解了Visual Tracking Systems的工作原理。
近年来已有若干关于跟踪系统评估标准的研究出现, 但这些标准能否有效地评估跟踪系统的优势与劣势仍是一个值得探讨的问题. 作者针对这一问题将研究对象划分为运动模型(Motion Model)、特征提取模块(Feature Extractor)、观测模型(Observation Model)、模型更新器(Model Updater)以及集成后处理器(Ensemble Post-processor)等五个关键组件, 并分别对各组件进行实验测试, 以考察每个模块对整体跟踪性能的具体影响. 实验结果显示, 特征提取模块在整体性能提升方面具有决定性作用, 而观测模块的作用相对较小. 此外, 在运动模型和模型更新器中的一些细节因素同样会对最终效果产生显著影响. 当研究对象包含多种不同类型的追踪算法时, 集成后处理器能够显著提高追踪精度.
一些benchmark
- Y.Wu及其团队在CVPR 2013上发表的论文《在线目标追踪:一种基准方法》中提出了一种新的目标追踪算法,并基于重合区域曲线下面积(AUC)以及中心像素距离曲线对其实验结果进行了评估。
 - 在ECCV Workshops 2014中举办的视觉物体追踪比赛(VOT)中,M.Kristan及其团队展示了其提出的追踪算法的表现。
 - L.Cehovin,A.Ledentis和M.Kristan在《视觉物体追踪性能衡量标准再审视》一文中对现有的视觉物体追踪性能评估指标进行了全面分析并提出了改进方案。
 

通常用准确性和鲁棒性这两个指标来评估跟踪算法的表现。
准确性衡量为预测的位置区域和真实位置区域的重合率。
鲁棒性则反映在跟踪过程中出现故障的频率上。
这篇文章并不是为了构建一个新的评估体系;而是将跟踪系统分解为若干独立的部分,并对每个部分实施逐一评估工作。
- 运动模型:在估计单帧图像时,在当前帧中生成一系列可能包含目标的目标候选区域。
 - 特征提取器:从每个候选区域内提取特征以表征该区域。
 - 观测模型:通过对候选区域的特征进行详细分析以确定该区域是否为目标区域。
 - 更新器模型:用于更新观测模型并制定更新策略以及确定何时执行更新。
 - 集成后处理器:在多目标跟踪系统中通过对多个跟踪器的结果进行综合分析以获得最终跟踪结果
 
跟踪系统的运作流程
初始化时给出初始帧图像及其上的目标区域;接着对下一帧图像运用运动模型生成一系列候选区域;从候选区域中提取特征;通过观察模型计算每个候选区域对应于目标位置的概率;具有最高概率的那个被确定为目标位置所在区域;同时通过观察模型的输出更新器评估是否需要更新观察模型;最后,在多目标跟踪系统中,还需要整合各跟踪器的输出结果以生成最终结果。

研究者采用了两种评估标准来进行性能测试。其中一种是重合率曲线(CC),通过设定不同的重合率阈值来区分成功的帧,并以此计算出不同阈值下的成功率曲线;另一种是中心像素位置误差曲线(CEP),该曲线通过计算估计位置与实际中心像素点的距离差,并据此生成成功率随距离阈值变化的关系曲线。实验中选取了基于最基本技术架构进行分析,并将粒子滤波器选作运动模型的核心组件;以灰度图像作为主要的图像特征提取依据,并以灰度信息为基础构建逻辑回归算法选作观察模型的基础;同时,在模型更新策略上进行了优化设计:当候选区域的最大预测概率低于设定阈值时,则更新观察模型的状态参数

分块分析
不同特征提取器的对比
常用的特征包括灰度特征、颜色特性和Haar-like特性的应用等。在基础模型中使用这些不同类型的特征求取方法进行了实验验证,并通过测试得到了相应的结果如图所示。

显示采用HOG+颜色特征带来了最佳的跟踪效果。准确率比基础模型提升了约20%。由此可见,在跟踪系统中进行合适的特征提取是一个核心环节,并且能明显改善系统的性能。
不同的观测模型的对比
主要采用逻辑回归等四种不同的机器学习模型,在基于最简原始灰度特性和最优HOG+色彩特性的基础上展开研究,并将其分别与上述四类观测器相结合实施追踪测试。实验结果如图所示

经观察可知,在应用灰度特征的情况下,“最高性能”的SO-SVM相比使用岭回归提升了约10%。“在应用HOG+色彩特征求取的情况下”,四个分类器间的最终性能差异较小。“这表明当所选特性较弱时”,不同观测器对追踪效果的影响显著;而如果选择较为强大的特性,“则不同分类器间的性能差距缩小。”
运动模型
基于以下三种算法进行设计:粒子滤波器、滑动窗口法以及径向滑动窗口法。这些算法在功能和实现上存在显著差异:当多个候选区域同时具有较高概率对应目标区域时,粒子滤波器能够有效保留每一帧的估计概率信息,并将这些信息传递至下一帧图像以辅助状态更新;而滑动窗口法则倾向于仅保留概率值最高的候选区域并剔除其余选项。进一步地,在处理目标物形变化特征方面,粒子滤波器具备较强的适应能力以应对尺度变换、长宽比变化等复杂情况;相比之下,在计算资源消耗方面由于需要持续更新和维护大量候选区域信息而显得相对笨重的滑动窗口法难以有效应对这类问题。具体而言,在实际应用中这两种算法的表现差异主要体现在以下几个方面:

通常情况下三种模型之间并无显著差异。

从实验结果来看,在面对尺度变化时粒子滤波展现出更为突出的性能而在快速移动场景中则稍逊一筹滑动窗口方法则在快速移动场景中表现出色但其在尺度变化方面的性能相对较低。如何实现两者的平衡呢?考虑到粒子滤波中的参数设置对性能的影响当搜索区域过于小时尤其是在快速移动的情况下容易导致目标追踪失败因为此时滤波机制对运动失准较为敏感;而当搜索区域过大时尽管能够更好地抑制背景干扰但仍可能存在因分辨率差异而导致定位漂移的问题。值得注意的是在实际应用中我们通常采用像素作为单位来设定搜索区域大小然而由于不同视频分辨率可能存在显著差异因此简单的使用绝对化的像素值作为参数可能会导致不同视频序列的表现存在较大差异。针对这一问题我们采用了标准化的方法将所有视频数据统一调整至相同的比例范围从而确保后续处理的有效性和一致性。

经实验结果表明,在调整尺寸后追踪效果优于未调整前,在目标快速移动时表现尤为突出。因此经过标准化处理后得到的粒子滤波算法在处理尺度变化和快速移动目标方面均表现出良好的处理能力。进一步研究表明,在通常情况下运动模型的影响相较于特征提取和观测模型的作用较小。然而,在目标出现尺度变化以及快速移动的情况下适当选择运动模型参数对于追踪性能同样至关重要。
后处理
在实验阶段,作者部署了六种不同的追踪系统,其中前四个采用的是经典的Logistic回归、岭回归、支持向量机(SVM)以及稀疏优化(SO-SVM)方法;随后又引入了DSST和TGPR两种新型算法模型;选择这些算法的主要原因在于它们在当前领域表现最为卓越;此外,通过引入不同类型的算法模型还可以有效提升整个追踪系统的鲁棒性
六种跟踪器单独的跟踪效果如下:

实验通过两种不同的方式实施后续处理步骤,其中一种源自文献4的方法,另一种源自文献37的方法。针对前四种跟踪器的实验设计采用了两组不同的融合策略,在此基础上与后三种单跟踪器的表现进行了对比分析。具体而言,在前四种跟踪器中分别采用了两组不同的融合策略

在经过ensemble post-processor处理后, 六种追踪器的表现与单一追踪器的对比情况如下所示. Basic和Online等方法属于文献4的研究成果, 及其它方法则是基于文献37的研究成果.

从对比实验的结果来看,在跟踪器多样性较高的情况下所获得的跟踪效果优于其在较低多样性的条件下所取得的效果;即使在所有轨迹追踪算法中选择数量最少的情况(即仅选择一个最佳的单个轨迹追踪算法),其总体性能也不会逊色于当轨迹追踪算法之间存在较大差异时的最佳方案。
当前框架的局限性
- 在某些方法中存在某些组件高度集成化的结构无法轻易解耦为独立的功能模块
 - 尽管精度在目标跟踪任务中扮演着重要角色但实际应用中效率同样不可或缺 然而 在作者所提出的框架中并未对速度进行优化 基于Matlab实现的最佳组合仍仅能达到每秒10帧的处理速度
 
结论
该文章通过拆解系统为多个独立模块来进行深入探讨,在分析各模块对追踪效果的关键作用时发现:即便采用课本上非常基础的各种组件组合,在经过精心优化后仍能达到最先进的追踪效果。研究表明:
追踪器体系的核心环节在于特征提取功能;
即使具备优异特征的情况下选择何种观测模型对最终追踪结果的影响并不突出;
模型驱动型追踪算法虽然在实际应用中发挥着重要作用但其相关研究领域仍处于相对早期阶段;
集成后处理器是一种广泛适用且高度可靠的解决方案。
值得注意的是优化运动模型及其相关细节能够显著提升追踪系统的性能。
启发:如何寻找低计算开销但同时具备高性能的特征表示方法?采用基于原则的设计以确保模型更新策略具有系统的优化能力?是否有必要探索更为创新的集成方案以提升整体性能?
