Multiple Object Tracking:多目标跟踪综述
多目标跟踪(Multiple Object Tracking, MOT)是一种复杂的计算机视觉任务,旨在同时跟踪视频中多个感兴趣的目标。与单目标跟踪相比,MOT需要处理遮挡、目标初始化与终止、目标ID管理等问题。近年来,基于深度学习的方法在MOT领域取得了显著进展,但仍然面临挑战,如场景理解、多摄像机配置和三维目标跟踪等。未来研究方向包括与场景理解的结合、目标关联的改进以及对其他计算机视觉任务的融合。
Multiple Object Tracking:多目标跟踪综述
多目标跟踪综述
摘要
本文专门针对多目标跟踪领域的最新研究进展进行了综述,旨在为读者提供一个全面的了解。文章结构主要包含以下三个部分:介绍部分概述了多目标跟踪的基本概念;算法知识模块深入探讨了各类主流算法的实现原理;实验分析部分则通过具体案例展示了算法的性能表现。
1. 介绍
多目标跟踪(Multiple Object Tracking or Multiple Target Tracking, MOT or MTT)旨在同时对视频中多个目标进行定位和跟踪,持续更新其轨迹信息,并记录其身份识别信息。在计算机视觉领域,多目标跟踪被视为一项基础性任务,其完成依赖于姿态估计、动作识别和行为分析等高级技术的支持。其应用领域广泛,包括视频监控、人机交互和虚拟现实等场景。与之相对的单目标跟踪(Single Object Tracking, SOT)则主要针对复杂的目标外观模型和运动模式,解决尺度变化、旋转以及光照条件变化等具有挑战性的问题。MOT相较于SOT多承担两个重要任务:一是目标数量的确定(数量会随着时间变化);二是目标ID的持续维护。
2. 算法知识
2.1基本知识(Formulation)
一般而言,多目标跟踪问题可被视为多变量估计问题,其目标是确定所有目标的"最优"状态序列。通常采用最大后验概率估计法来求解。
初始化方式 根据初始化方式的不同分为:基于检测的追踪(DBT)和无检测追踪(DFT)。

DBT: 如图1上层所示,首先定位目标,随后将其纳入轨迹。这种策略也被称为“目标追踪与检测结合”。给定一个序列,在每帧中进行特定类型的目标检测或运动检测(基于背景建模,得到目标假设,随后进行顺序或批量跟踪,将检测假设连接到轨迹中。值得注意的是,DBT主要专注于特定类型的目标,如行人、车辆或人脸。此外,DBT的性能高度依赖于目标检测器的性能。DFT: 如图1下层所示,在第一帧,需要手动初始化一定数量的目标,然后在后续帧中定位这些物体。相对来说,DBT更受欢迎,因为它能够自动识别新目标并终止消失的目标。而DFT无法处理新目标的出现,但其不需要预先训练目标探测器。表3列出了DBT与DFT的主要差异。

MOT主要包含两种处理模式:在线跟踪与离线跟踪。其中,其使用的帧信息涵盖从当前帧往后的所有帧,而其则可使用后续帧信息。

Online跟踪: 在在线跟踪中,图像序列是逐步处理的,因此该跟踪方式也可称为序列跟踪。如图2上层所示,a、b、c三个圈分别代表三个不同的目标,绿色箭头表示过去观测到的目标,其结果由目标的位置和ID进行表示。
Offline跟踪:在离线跟踪中,利用一组帧进行数据处理。如图2下层所示,来自所有帧的观测目标需要提前获取,然后经过分析计算组成最后的输出。需要注意的是,由于计算复杂度和内存限制,通常不会一次性处理所有帧,而是将数据分成几个较短的视频段,每组分层或按顺序处理得到结果。表4列出了两种处理模式的异同。

该标准依据输出的随机性将MOT方法划分为基于决策的和基于概率的两类。基于决策的跟踪输出无论运行多少次结果恒定,基于概率的跟踪每次运行的输出结果可能不同。
在设计MOT算法时,需要考虑两个关键问题:一是如何测量同一帧内目标之间的相似性,二是基于此相似性如何判断不同帧的目标是否为同一物体。前者主要涉及外观特征的建模,包括运动、交叉、排斥和碰撞等问题,后者则与数据关联机制密切相关。
Local feature: 光流法,许多MOT方法在进行数据关联前都会基于光流法生成短轨迹(tracklets)。由于光流法与运动有着密切的关系,它主要用来对运动信息进行编码。特别的是,在人群密集的场景中,光流法能够有效发现人群运动的规律,这是其他特征无法实现的。
Region feature: 被用来描述区域特性的包括颜色直方图、HOG(Histogram of Oriented Gradients)以及区域协方差矩阵等技术。
* -2.2.2 统计测量
单个特征;多个特征的结合。
一种常用的方法是:将整体目标(类似于一个Bounding box)划分为若干部分,随后对每个部分进行相似度计算。在遮挡区域,相似度权重有所降低;而在未被遮挡的区域,则相应提高相似度权重。
2.4预测2.4预测
概率预测方法通常将目标状态作为不确定的分布,而跟踪算法的目的是基于现有的观测目标,用多种概率学方法去估计那个概率分布。这类算法通常只需要过去或现在的观测目标,所以它也特别适合online跟踪。因为只有现存的观测目标才被用于估计。
多种多样的概率预测模型被用在多目标跟踪中,例如卡尔曼滤波和粒子滤波等。
卡尔曼滤波:适用于线性系统和服从高斯分布的目标状态。
扩展卡尔曼滤波:通过泰勒展开估计,进一步适用于非线性系统。
粒子滤波:基于蒙特卡罗采样的模型,用一组有权重的粒子来对分布建模,从而通过改变自己的分布得到任意的假设。
2.5测评2.5测评
-2.5.1 检测指标
准确度(Accuracy):主要使用召回率和精确度指标,以及每帧平均误报率(False Alarms per Image, FAF)作为多目标检测指标[1]。同时,False Positive Per Image(FPPI)也被用来评估检测性能。MODA,即多目标检测的准确性,作为一个全面的评估标准,综合考虑了误检与漏检的比例。
精度(Precision):MODP,即多目标检测精度,衡量了检测目标与ground truth之间的误差范围。
准确度(Accuracy):该指标衡量了算法对目标跟踪的准确性。多目标跟踪的MOTA(Multi-Object Tracking Accuracy)综合考虑了false alarm率、miss rate和配对率(matching rate)等因素,提供了一个全面评估跟踪性能的指标。尽管该方法仍存在一些局限性,但它是当前应用最广泛的MOT评估标准之一。
精确度(Precision):该指标由MOTP(Multi-Object Tracking Precision)、TDE(Tracking Distance Error)和OSPA(Optimal Semi-Assignment Problem)三个子指标组成。这些指标通过bounding box重叠和/或距离来评估目标跟踪的精确程度。
完整性(Completeness):该指标关注于ground truth trajectories的跟踪完整性。统计了MT(Mostly Tracked)、PT(Partly Tracked)、ML(Mostly Lost)和FM(Fragmentation)等状态的数量,反映了跟踪算法对真实轨迹的捕获能力。
鲁棒性(Robustness):该指标通过评估算法在遮挡情况下的恢复能力来衡量MOT算法的性能。具体包括从短期遮挡恢复(RS,Recopver from Short-term occlusion)和长期遮挡恢复(RL,Recopver from Long-term occlusion)两个方面进行评估。
3. 总结
即使已经研究了几十年的MOT问题,它仍然存在着许多发展的机会。
MOT结合视频自适应技术:在现有诸多MOT方案中,普遍采用的是依赖于离线训练的目标检测器,然而这一做法存在局限性,即导致无法在特定视频中获得理想检测结果。这种局限性往往降低多目标跟踪的性能。因此,需要对目标检测器进行重新优化配置,通过逐步优化通用行人检测器的参数配置,使其能够更好地适应特定视频场景。这既是改进MOT方法预处理阶段的重要方向之一,也是提升系统性能的关键所在。
Multi-View Tracking (MOT)配置多摄像头:多摄像头配置的核心技术是多视角跟踪系统。该系统主要分为两种工作模式:第一种模式是多个摄像头同时捕捉同一场景,形成多视角数据。核心挑战在于如何有效融合来自不同摄像头的实时数据,以实现信息的完整性与一致性。第二种模式是每个摄像头独立捕捉不同场景,形成独立的多摄像机网络。在这种情况下,多摄像头之间的数据关联问题需要通过再识别技术进行处理。
Multiple 3D object tracking addresses the challenge of accurately tracking multiple objects in a 3D space. Existing research primarily focuses on the 2D multi-object tracking problem, which operates within a single image plane and can be extended to scenarios involving multiple cameras. 3D tracking offers significant advantages by providing precise positional information, accurate size estimation, and effective handling of occlusions through advanced computer vision techniques. However, this approach heavily relies on camera calibration and requires overcoming additional challenges related to pose estimation and scene layout. Furthermore, the design of 3D models presents another critical aspect that must be carefully considered in this context.
MOT结合场景理解:场景理解,例如,在高峰时期,地铁车站和公共场所常发生的人群流动,如游行和示威活动。在这种情况下,大多数目标通常为较小的个体或被大量遮挡,导致跟踪变得困难。场景理解的分析结果能够提供场景上下文和结构信息,若能将其更有效地整合到MOT算法中,将有助于提升跟踪效果。
MOT结合深度学习:深度学习技术已成为处理多种视觉任务的强力框架,涵盖图像分类、目标检测、单目标跟踪等多个领域。在MOT问题中,深度学习技术提供的目标检测算法能够显著提升跟踪性能。尽管最近开始探索使用连续神经网络进行在线MOT,但如何通过深度神经网络建立目标关联的建模框架仍需进一步研究。
MOT与其他计算机视觉任务,虽然多目标跟踪通常服务于更高层次的计算机视觉任务,但也呈现出一种趋势:通过将互为补充的计算机视觉任务进行结合,以解决MOT问题。这些技术的结合可能包括目标分割、行人再识别、行人姿态估计以及动作识别。
除了上述提到的未来研究方向外,目前,MOT技术主要集中在监控场景中对多个行人进行目标跟踪。因此,探索其他类型的扩展研究也成为值得深入探讨的方向。例如,目标可以扩展至汽车、动物等,场景则可以扩展至交通场景、航拍等。由于在不同场景下,不同类型的目标跟踪问题的设置和难度可能呈现出显著差异。
4. 可学习的资源及代码
该GitHub资源[Multi-Object Tracking Paper List]收录了近年来MOT领域的最新研究文章。
便捷的实时在线多目标视频跟踪系统;
便捷的实时在线多目标视频跟踪系统;
多种MOT跟踪算法的深入分析与系统性研究github资源
本文参考:
<>
https://arxiv.org/abs/1409.7618
