Advertisement

《Simple Online and Realtime Tracking》SORT论文笔记

阅读量:

<《Simple Online and Realtime Tracking》>

<《Simple Online and Realtime Tracking》>

本文提出了一种实用的方法来应对MOT问题。研究的核心重点在于高效地将物体从一帧到下一帧关联起来,并支持在线处理和实时应用。为了实现这一目标,在检测质量方面取得了显著提升至关重要(优化检测器性能可使跟踪效果提升18.9%)。尽管仅采用了基于基本常规技术的组合(如卡尔曼滤波器和匈牙利算法),但该方法不仅达到了与当前在线跟踪最佳方案(SOTA)相当的效果,在速度上也更快了20倍(达到每秒260次更新)。

Computer Vision, Object检测与跟踪技术, 多目标跟踪算法, 数据关联方法


文章目录

  • 1 Introduction
    • 2 Literature Review

    • 3 Research Methodology Part

      • subsection: Detection Part
      • subsection: Estimation Model Part
    • 3.3 Data Association

    • 3.4 Creation and Deletion of Track Identities

    • 4 Experiments

    • 5 Conclusion

1 Introduction

本论文采用了基于tracking-by-detection的架构。该架构将其视为一种数据关联问题的核心内容:即通过分析视频中各帧之间的物体相互匹配关系来实现目标跟踪功能。各种跟踪器通常会通过多维度特征建模的方法来解决这一关键挑战,并以此为基础实现数据关联计算的过程。

通过查看图表可以看出,在现有较高精度的模型运行速度普遍较慢的状态下,无法满足实时处理的需求。本论文采用主流传统数据关联技术,并结合基于CNN的检测器,并研究表明这种方法具有极大的简化潜力。此外该方法的性能表现相当出色。

本模型基于最简化 设计策略,在忽略特殊情况的影响下主要处理frame-to-frame association问题,并且尽量降低复杂度以确保model能够realtime运行。

  • 未涉及长时间内可能产生的干扰因素以及重识别方面的考量。
    • 未采取任何改进措施来解决检测错误的问题,并直接采用了基于深度学习算法且具有更高准确率的CNN检测器。

该模型在跟踪任务中未考虑外观特征这一关键属性,在运动估计与检测框匹配的过程中仅依赖于目标的边界框位置及其尺寸信息来进行操作。具体流程可通过下图展示

在这里插入图片描述

2 Literature Review

基于传统MOT的方法,在速度方面有所优化,并且其主要缺陷在于决策过于迟缓而无法应用于在线跟踪系统。

该联合概率数据关联(JPDA)滤波器[1]用于解决多目标跟踪中的数据关联问题。该方法[2]最初由[3]于1987年提出作为原始算法,并在2015年ICCV会议上对其实现进行了改进[4]。

在线跟踪的常见手段是构建appearance和motion模型,并用于目标匹配。将该匹配问题视为二分图匹配问题,并采用全局优化策略 Hungarian algorithm(匈牙利算法)。这里提供两篇我觉得不错的匈牙利算法简单讲解的文章:基础匈牙利算法,以及带权值的匈牙利算法

2014年发表于PAMI期刊上的论文《3D Traffic Scene Understanding from Movable Platforms》中采用了匈牙利算法进行两阶段batch tracking技术的应用。具体而言,在第一部分实现了相邻帧之间的检测工作,在第二部分则通过连接tracklets来恢复因遮挡而断裂的轨迹路径。本文借鉴了上述研究的核心思路,在方法设计上有所创新:但作者简化处理策略为单阶段匹配以实现在线处理效果

3 Methodology

3.1 Detection

作者对多种检测器进行了检测效果比较分析,并发现检测效果对整个跟踪性能的影响非常显著。在本研究测试的三种检测器中,在VGG16作为主干网络的情况下,Faster R-CNN表现出最佳性能。

3.2 Estimation Model

作者将每个目标在帧间的运动变化表示为匀速直线运动模型(linear constant velocity model),不受其他物体或相机运动的影响。每个目标保存一个状态标记 target state :

其中uv分别表示目标中心在水平与垂直方向的像素位置。s被用来表示缩放因子;r则用于表示长宽比(Aspect Ratio)。需要注意的是,在这里长宽比被视为一个恒定值;而缩放因子和其他两个参数则是按线性规律变化的。最后三个符号各自代表速度量纲。

该图详细阐述了目标状态的更新机制。关于Kalman filter的基础知识,《讲解1》从通俗易懂的角度进行了介绍,《讲解2》则更为深入,并辅以详细的数学推导和分析。《讲解1》采用直观易懂的方式介绍了卡尔曼滤波的基本概念及其计算流程,《讲解2》则深入探讨了这一主题,并通过严谨的数学推导和逻辑分析进一步加深理解;同时,《讲解2》与本文所提出的方法具有高度契合度,值得深入研读。

在这里插入图片描述

3.3 Data Association

当对detection与estimated bbox进行配准时,将IOU视为距离度量,并设定一个最低限IOU_{min}作为判断基准(过滤掉那些低于该限值的结果),随后构建assignment cost matrix。针对此配准问题,则可采用加权匈牙利算法来求解。

作者注意到一种称为IOU的标准度量工具能够间接弥补短期遮挡问题。在目标A受目标B遮挡的情况下,在这种情况下仅有B能实现匹配;因为IoU距离偏好选择尺寸相近的bbox;而无法完成匹配的目标A则不参与配对过程。

3.4 Creation and Deletion of Track Identities

当物体进入和离开图像时,相应的identities需要被对应创建或销毁。

creation

  • 当一个检测框与所有估计框的IOU均低于设定阈值IOU_{min}时,则触发新目标的出现。
  • 为此目标设定初始状态参数,在检测框的基础上提取几何信息,并将速度设为零(即初速设为零),同时将卡尔曼滤波器的协方差矩阵初始化为较大的初始值。
  • 这一新目标将进入一段试用期/观察期,在此阶段需要成功匹配到检测框以积累足够的信心度(即信心度),从而有效防止误判false positives.

deletion

  • 当在T_{Lost}帧数内某个目标无法与任何检测匹配时,则表示该目标已消失。
    • 在本论文的研究中,在所有实验中将T_{Lost}设定为1。这是因为所采用的速度恒定模型仅作为一个简化的估计,并且本文不考虑重识别问题,在目标重新出现时,则会将其归类为新的identity。

4 Experiments

在这里插入图片描述
  • 在所有的在线追踪系统中, SORT表现出色, 在目标丢失数量(MLOST)方面表现最优。
    • SORT未被现有研究关注的问题包括ID切换和碎片化现象。
    • 在单核Intel i7-2.5GHz处理器配合16GB内存的情况下, SORT运算速度显著达到260Hz, 并始终保持着极高的跟踪精度。

5 Conclusion

SORT模型侧重于frame-to-frame预测与关联。它在速度和精度上均表现出色,在多数情况下无法兼顾两者中的一个。SORT作为基准方法具有一定的参考价值,并期待未来出现一种能够弥补现有不足的新方法。
表明检测质量显著影响跟踪质量。

全部评论 (0)

还没有任何评论哟~