Advertisement

多目标追踪——【Transformer】MOTR: End-to-End Multiple-Object Tracking with TRansformer

阅读量:

目录

  • 文章的侧重点
    • 转换 Object QueryTrack Query 涉及的问题是什么?

    • 整体网络架构基于时序融合设计

    • QIM:查询交互模块

    • 训练逻辑

      • Tracklet-Aware Label Assignment
      • Collective Average Loss

论文链接:https://arxiv.org/abs/2105.03247

文章侧重点

tracklet-aware label assignment

受到Transformers基础研究领域的领先成果DERT的启发,在目标检测领域中的查询机制被成功引入到多目标追踪系统中。在此基础上发展出一种新的查询模式——Track Query,并采用与[DERT]相同的检测架构来显著提升Object Query在特征提取方面的性能。
当前许多基于检测的追踪方法存在以下共同特点:它们通常首先生成一组候选的目标候选框,并基于这些候选框提取物体外观特征和运动特性随后通过数据关联的方式完成目标跟踪过程。而本方法则是一个端到端的自监督学习系统。
为了保证时序建模的有效性[MOTR]提出了一种创新性的时间序列建模框架该框架通过引入基于轨迹的时间序列标签构建机制【tracklet-aware label assignment

Object Query 变成 Track Query需要解决的问题

一般来说,在计算机视觉领域中尽管目标检测与目标跟踪都属于该领域但在其核心任务上存在显著差异因此不能简单照搬该方案必须进行深入研究

tracklet-aware label assignment

通过一个单一的 $Track Query 进行统一的目标追踪操作。值得注意的是,在_DERT_架构中,默认采用的是基于单帧的目标识别方法,并没有直接关联到特定的目标与查询之间的对应关系(如图1所示)。然而,在多目标跟踪任务中,则需要对每个独立的目标生成其完整的跟踪轨迹(tracklet)。这种需求实际上意味着,在整个系统架构设计中必须采用统一的查询方式来进行特征提取和匹配过程(tracklet-aware label assignment)。这也正是整个系统设计的核心理念之一,并取消了传统的后续处理步骤(post-processing)以提高系统的实时性能。
此外,在模型优化部分我们引入了一种新的训练策略【tracklet-aware label assignment

在这里插入图片描述
  1. 处理新旧目标的问题 在多目标追踪过程中经常会遇到某个目标突然消失或突然出现的情况 因此传统的固定长度查询机制难以适应这一需求 本文提出了一种动态查询机制方案 通过引入两个变量集合即可变长度跟踪查询集和固定长度检测查询集 来有效应对新旧目标交替出现的情况 如图(b)所示 每一帧都需要进行迭代式的更新过程 首先对于消失的目标 将其对应的可变长度跟踪查询集进行移除 然后在每一帧中利用固定长度检测查询集对当前存在的目标数量进行检测 并通过检测结果将新识别出的目标加入到可变长度跟踪查询集中 这一过程的具体实现过程如图(b)所示
在这里插入图片描述

总体网络结构——时序融合网络

在这里插入图片描述

可以看到,上图的结构解析如下:

  1. Enc 代表特征提取阶段:基于Backbone网络+Deformable DERT构建的Encoder;
  2. Dec 则代表Deformable DERT所设计的Decoder模块。
    • 因为在初始帧中追踪目标尚未出现,所以输入为固定长度的目标编码器嵌入q_d以及空的目标跟踪编码器状态q_{tr}
    • 而从第二帧起,则采用上一帧的状态作为当前的状态信息传递给模块进行处理。
    • 该模块输出形成中间状态特征,并将其用于生成追踪预测结果及_QIM_ 的输入。

QIM——Query交互模块

在这里插入图片描述

此模块负责应对出现或消失的情况。在图中显示的分数值用于表示Head预测追踪系统中对目标进行分类区分的程度。

时序增强网络

训练逻辑

Tracklet-Aware Label Assignment

目的是为Track Query 对轨迹与目标的一对一关系建模。

主要目标是建立一个模型来描述轨迹与目标之间一对一的关系。

用于 Detect Query 的场景下,该检测策略被特意用于在追踪序列中每一帧新出现的目标上实施识别。训练过程则通过双向匹配机制与新增目标建立关联。

在这里插入图片描述

**针对 Track Query** :我们提出了一种基于目标一致性的训练策略。在当前帧中,其 Track Query 受上一帧 $Track Query 和 Detect Query 的影响。特别地,在初始帧中没有 Track 和 Detection 查询记录。

在这里插入图片描述

Collective Average Loss

目的是为Track Query 对时序信息的传递进行前后帧建模。

旨在实现对Track Query过程中时序信息传递关系建立前后帧模型。

在这里插入图片描述

与强同学。

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~