ATOM视频目标跟踪论文笔记
文章目录
- 1. 论文的基本信息
- 2. 论文所探讨的核心问题
- 3. 研究的核心思路
- 4. 所提出的方法框架
-
4.1 目标估计模块(Target Estimation Module)
-
4.2 模型训练过程(Model Training Process)
-
4.3 目标识别阶段(Object Recognition Stage)
-
4.4 实时跟踪机制(Online Tracking Mechanism)
-
5. 总结
-
1. 论文基本信息
- 论文标题:ATOM: High-Performance Tracking via Overlap Optimization
- 论文作者:Martin Danelljan and Goutam Bhat (CVL, Linkoping University, Sweden) and others
- 论文出处:CVPR 2019
- 在线阅读:https://arxiv.org/pdf/1811.07628.pdf
- 源码链接:https://github.com/visionml/pytracking
2. 论文想要解决的问题
现有的多数目标跟踪算法主要依赖于多尺度搜索技术来定位物体的bounding-box区域,在此过程中仍存在一定的精度问题。研究表明,在估计目标位置时需要考虑与被追踪对象相关的丰富信息,并非仅依赖于当前应用中常用的多尺度搜索方法。
此外,在深入探讨相关滤波算法的同时, 研究者进一步探讨了近期出现的各种基于 RPN 的跟踪算法, 并对这两种主流方法进行了详细比较。他们分别指出了现有方法在以下两方面的不足: 其一是在尺度适应方面存在不足 (尤其是仅能适应单一方向的变化); 其二是现有基于 RPN 的跟踪算法在判别能力方面仍有待提升。例如, 在现有研究中提出了两种具有代表性的改进方案: 一种是基于 UPDT 的方法用于相关滤波; 另一种则是以 DaSiamRPN 方法为基础进行优化, 如图所示展示了这些改进方案的具体实现情况。

这里需要注意的是,在论文语境下,target estimation具体指对被追踪矩形框的估计问题。目前最具代表性的此类方法即为RPN系列跟踪方法中的目标回归技术。
3. 核心思想
该论文以IoUNet的研究成果为启发,在准确目标检测领域取得了重要进展的基础上,在目标检测领域取得了重要进展,并提出了基于重叠最大化的目标训练方法。该方法旨在使跟踪算法中的bounding box与 ground truth bounding box之间的重叠率达到最高水平,并在此过程中实现了对物体定位的更精确捕捉。
这里简单介绍一下IoUNet系统。最初是在2018年的ECCV会议上由旷视科技首次提出的一种目标检测算法。
该系统主要针对的是传统目标检测中分类得分与定位得分之间存在较大差异的问题。
如图所示:

在上图中, 黄色的矩形框标识ground-truth, 而红色与绿色的矩形框均源自FPN检测算法推导出的结果(两者在分类置信度上有别)。如第一幅图像所示, 绿色矩形框其分类置信度较红色较低, 因此通常会过滤掉它, 然而实际上该绿色矩形框与ground-truth更为贴合(体现在它的IoU指标表现更好)。
可见地看出, 仅凭图像分类得分无法充分反映物体检测的效果质量, 这便促使我们考虑采用IoU作为训练优化目标的问题。
然而,在应用领域中 IoUNet 主要服务于目标检测场景,并其本质属性上归属于类别特定范畴;相比之下,则适用于靶点特定的任务类型。因此该论文并未完全借鉴 IoUNet 在目标检测领域的理念
论文的总体网络结构如下图所示:

如图所示, 论文的网络架构主要包含两个核心部分: 目标估计部分(TE M)与目标分类部分(TC M), 分别对应图中的蓝色与绿色区域. 具体来说, 两者的分工如下: 目标估计部分负责从图像中提取目标信息, 而目标分类部分则根据提取的目标特征进行识别与分类.
- 该目标估计模块被用来计算IoU值,并且论文首先对该模块进行了offline training阶段的学习与优化,在测试过程中(testing stage),该模型就能够预测候选样本对应的IoU值。
- 该目标分类模块被用来评估每个候选样本是否为目标的概率(probability),即每个候选样本被判断为特定目标的概率是多少。
4. 提出的方法
在上文中已经提到,在该论文的研究架构中主要包含了两大部分:目标估计模块和目标分类模块。具体而言,在架构设计上, 这两个组件采用了相同的主干网络(如本研究中的ResNet-18). 其中第一个子系统采用离线学习策略, 而第二个子系统则采用在线学习策略.
目标估计模块对应的网络被称为IoU-predictor网络;该网络采用的是离线训练的方式;其输入端有四个
- 本帧图像的特征
- 本帧中所估计的边界框
- 参看帧图像的特征
- 参看帧中所估计的边界框
当接收四种相关信息时,IoU-predictor网络将生成预估的目标交并比值(IoU)分数。其主要职责即在于界定该模块的核心功能。
与目标分类相关的网络架构为Classifier模型。其训练采用在线学习策略,并专注于基于提取的CNN特征计算目标置信度评分。该系统主要功能在于实现对目标对象的有效识别,在线训练与测试过程中该模型均通过全卷积(fully convolutional)的方式实现以确保计算过程高效且全面覆盖所需信息。
4.1 目标估计(Target estimation)
作者指出IoUNet无法直接应用于视频目标跟踪中的目标估计过程,请问这是因为跟踪任务相较于目标检测任务存在两个主要区别:
- 在执行跟踪任务时, 该算法并未掌握目标的先验知识, 并不了解其所属类别.
- 所追踪的目标可能不属于该算法已学习识别的物体类别.
此外
针对视频跟踪任务中的挑战问题,在缺乏目标物体先验知识的前提下,则需要解决的问题是如何构建一个IoU预测架构使其能够有效地利用参考图象信息其中这里的参考图像是指第一帧的目标图象。此外,在论文中作者特别提到他们的实验结果表明仅通过将参考图象特征与当前帧图象特征进行简单的融合方式来提升跟踪性能是不够有效的。进一步分析发现这里的简单融合方式指的是仅采用固定学习率对特征数据进行加权融合的技术,在面对目标物体显著变形或受到严重干扰的情况下可能会引入噪声。基于这些观察和分析 在论文中作者提出了基于模调制网络结构的方法 该方法能够在给定初始帧的目标图象的基础上 对任意待测物体实现IoU值的有效预测
IoU-predictor网络的完整结构如下图所示:

通过观察上图可知,IoU-predictor网络主要由Reference分支和Test分支两个模块构成。其中Reference分支负责存储目标物体的外观模型,而Test分支则用于获取当前帧特征并计算IoU值。这两个模块在结构上呈现出明显的非对称特征:具体而言,在Reference分支中PrPool层之前仅接有1个Conv层,在Test分支中PrPool层之前则配备了2个Conv层。这种结构特点与孪生网络跟踪算法存在显著差异。
在Rederence模块中,在这些模块的基础上
在Test branch中, 网络从ResNet分别提取了第3层与第4层的特征, 经两个Conv层处理后, 分别得到对应的Block 3特征图与Block 4特征图. 基于输入区域, 在上述特征图上执行Pr pooling操作, 最终获得统一尺寸的局部特征图. 在这一过程中需特别关注的是通道加权运算(使用\otimes符号)这一关键步骤, 它将Test branch提取出的特征求助于Reference branch输出的支持向量进行调节(即对各通道进行加权分配). 其输出结果即为IoU得分
\operatorname{IoU}(B)=g\left(c\left(x_{0}, B_{0}\right) \cdot z(x, B)\right) \tag {1}
其中,在公式(1)中,c\left(x_{0}, B_{0}\right)由Reference分支最终输出的modulation vector进行表征;z(x, B)则由Test分支经过Pr Pooling处理后得到的特征数据所体现;而g则代表IoU预测模块及其内部的三个卷积层结构。

4.2 Training
基于公式(1),可以通过对网络进行全连接训练来实现IoU预测误差的最小化。其中,采样主要基于标注图像对。
论文在training过程中用到了如下三个数据集:
- LaSOT [1] https://cis.temple.edu/lasot/
- TrackingNet [2] https://tracking-net.org/
- CoC [3] http://cocodataset.org/#home
其中CoCo数据集主要用于补充训练数据,这一点与DaSiamRPN类似。
Video labelling is both time-consuming and costly. Consequently, within this study, we significantly enhance the number of positive pair categories through the introduction of large-scale ImageNet Detection [28] and COCO Detection [18] datasets.
在训练采样阶段中,每位样本会生成16个候选bounding-box;通过这种方式可以实现数据增强;具体采用的方法包括图像翻转、色彩抖动等技术手段。
在训练阶段基于Adam优化算法进行模型优化,并经过40个epoch的迭代达到最佳收敛效果;每个批次包含64对样本用于模型更新。
4.3 目标分类(Target classification)
该目标估计模块具备精确的矩形框生成能力;然而该模块的识别能力有待提升。为此,在此基础上作者增加了分类模块,并在博客中展示了第一张图。值得注意的是,在线学习而非离线训练被采用以优化分类器性能。
分类网络用到了两层卷积层,其公式如下所示:
f(x ; w)=\phi_{2}\left(w_{2} * \phi_{1}\left(w_{1} * x\right)\right) \tag {2}
在卷积层中,参数w_{1}和w_{2}代表卷积核的权重,在乘法操作(multi-channel convolutions)中引入了多个通道来增强计算能力。\phi则用于表示激活函数的行为模式。该研究借鉴了相关滤波与跟踪算法的核心理念,在此基础上构建了L^2优化目标函数,并通过实验验证其有效性。
L(w)=\sum_{j=1}^{m} \gamma_{j}\left\|f\left(x_{j} ; w\right)-y_{j}\right\|^{2}+\sum_{k} \lambda_{k}\left\|w_{k}\right\|^{2} \tag {3}
具体而言,在模型中使用y作为回归目标变量时,则引入了一个权重系数\gamma _j来衡量对应训练样本的重要性程度,并通过正则化项\lambda来控制模型复杂度以防止过拟合现象的出现。
作者在论文中特别强调了这一观点。传统深度学习中的梯度下降法或随机梯度下降法收敛速度较慢,在实际应用中不适于应用于在线深度学习训练过程。鉴于此,作者特意开发了一种较为复杂的优化策略。
These approaches can be readily integrated into modern deep learning frameworks, yet they fall short of being suitable for real-time applications due to their relatively slow training convergence.
首先定义误差项的残差为
r_{j}(w)=\sqrt{\gamma_{j}}\left(f\left(x_{j} ; w\right)-y_{j}\right) \tag {4}
其中,j \in\{1, \ldots, m\}。
接下来定义正则项的残差为
r_{m+k}(w)=\sqrt{\lambda_{k}} w_{k} \tag {5}
其中,k=1,2。
这样,关于目标函数(即公式(3))的Loss function就可以写成:
L(w)=\|r(w)\|^{2} \tag {6}
其中 r(w) 定义为所有残差r_{j}(w)的向量拼接,在论文中这种方法被采用作为二阶高斯-牛顿近似方法(quadratic Gauss-Newton approximation method)
\tilde{L}_{w}(\Delta w) \approx L(w+\Delta w) \tag {7}
然后根据在当前参数w处的一阶泰勒展开(first order Taylor expansion)
r(w+\Delta w) \approx r_{w}+J_{w} \Delta w \tag {8}
其中,J_{w}=\frac{\partial r}{\partial w},这样就有
\begin{aligned} {{\tilde L}_w}(Δ w) &≈ L(w+Δ w) \\ &= ||r(w+Δ w)||² \\ &≈ ||r_{_a}+J_{_a}(Δ w)||² \\ &= (Δ w)^T J_{_a}^T J_{_a}(Δ w) \\ &+ 2(Δ w)^T J_{_a}^T r_{_a} \\ &+ r_{_a}^T r_{_a} \\ &= Δ{wstring}\,J_{_a}\,矩阵乘法操作的展开形式 \\ &加上二次项的系数计算过程 \\ &最终得到完整的展开表达式 \\ \end{aligned} \tiny{(9)}
上述公式代表了一个正定二次函数(positive definite quadratic function),作者表明这类基于高斯-牛顿优化的问题可采用共轭梯度法(Conjugate Gradient (CG) method)进行求解。作者在论文中特别指出:该算法的核心思想适用于任何形如公式(3)的浅层学习模型。
为了检验作者所提出的优化方案的有效性,在实验部分对这一方案进行了详细比较,并如图所示展示了实验结果。

4.4 在线跟踪
在追踪过程中,在每一帧图像处理时首先以上一个跟踪帧中的目标位置信息为基础,在目标分类器的作用下生成一个confidence map(置信度图),并将该区域内置信度最高的点定义为目标对象在当前帧中的定位位置。结合上一个跟踪周期中获得的目标尺寸信息以及当前定位结果就可以确定出初始的目标边界框B。在此基础上系统会生成十个候选区域并通过目标估计模块计算每个候选区域与当前目标框的最大iou值(交并比)。选择iou值最高的三个候选框进行进一步优化融合从而得到最终的目标边界框实现物体在线追踪
5. 总结
在本文的研究中发现, 作者通过将目标估计技术与判别式模型相结合, 旨在开发一种更为鲁棒的跟踪系统。针对目标估计部分, 采用IoU最大化原则进行优化, 这使得检测到的目标边界能够更为接近真实位置;而对于目标分类任务, 创立了属于自己的优化方案, 这一创新性的发展路径加速了模型收敛速度。这种从问题出发寻求解决方案的思想具有重要的借鉴意义
参考资料:
小白笔记
