CVPR2022《MeMOT: Multi-Object Tracking with Memory》

论文:[[2203.16761] MeMOT: Multi-Object Tracking with Memory (arxiv.org)

参考链接:该论文采用绝对路径方式访问(arxiv.org)
一、摘要
我们开发了一种在线跟踪算法,在通用框架内实现了目标检测与数据关联的能力,并能够持续跟踪同一物体在整个时间轴上的运动轨迹。该方法通过构建一个大规模时空存储器来保存追踪对象的身份特征向量(Embedding),从而实现对已有信息的有效检索与更新机制。我们的模型命名为MeMOT(Memory-enhanced Object Tracking),它由三个关键模块构成:首先是一个假设生成模块(Hypothesis Generation),用于从当前视频帧中提取候选目标;其次是一个记忆编码模块(Memory Encoding),负责从存储器中提取并整合每个追踪对象的核心信息;最后是一个记忆解码模块(Memory Decoding),同时解决多目标追踪中的检测目标定位与数据关联问题。经过在MOT基准数据集上的广泛测试与验证,在多个复杂场景下均展现出优异的性能表现
二、Motivation
1、在线MOT范式:关联+检测
问题所在
2、MOT问题****:如何处理跟踪目标的外观、位置和形状的潜在不确定性********。****
解决办法
3、记忆网络的MOT上的广泛应用
在视频分析任务中通过外部存储器获取和管理长时间序列的时空索引特征 明显增强了网络捕捉历史信息的能力
三、创新点
借助强大的时空记忆机制来支撑多目标记忆在跨时间关联上的鲁棒性,并且能够实现有趣且高效的实时在线的多目标追踪。
(2)与大多数现有基于连续帧间传播跟踪对象状态的方法不同,在本文中我们开发了一个**统一存储所有跟踪对象的状态信息****时空存储器(Memory buffer)**的同时拥有一个基于编码-解码机制的架构,并且该机制能够快速检索链接对象所需的关键信息。
(3)在网络内关联求解器 的所有算法中达到了SOTA。
四、算法实现细节
1、网络架构
(1)整体架构

如图2所示MeMOT网络架构
(2)Memory Aggregator 结构

图3展示了记忆融合器(Memory Merger)的工作原理图示,该系统由三个注意力机制构成:第一组处理短时段内的去噪作用;第二组从长时域中捕获支撑性特征;第三组整合短时与长时信息的融合模块.在这一过程中,融合后的特征向量(Embedding)将被用于构建轨道嵌入体(Embedding),并在下一时间步更新DMAT(蓝红查询)中使用
2、实现细节
(1) MeMOT概念

图1MeMOT概念。时空记忆存储单元(Memory Buffer)存储所有跟踪对象的长时间状态,并随时间更新。内存缓冲区中的每一行都表示一个目标的活动tracklet。“person crops”****表示他们的历史状态保存在记忆中,空白框表示这个人当时没有出现在框架中,被遮挡或未被检测到。跟踪图显示,MeMOT可以保持活动轨迹(黄色和蓝色框),链接遮挡后重新出现的轨迹(红色框),并生成新的对象(绿色框)。
(2) 概述
MeMOT的工作过程可以分为三个步骤:
假设生成过程:基于输入图像提取的特征信息生成多个目标候选框,并将这些候选框作为特征向量(Embedding)进行后续处理(类似于RoI Pooling模块在RCNN中的设计)。
记忆编码机制:每个跟踪对象均与其相关联的空间-时间存储单元(spatial-temporal memory),并将其作为跟踪体征向量(Embedding)提取出来。
具体而言,在多头Cross-Attention机制中对长时记忆信息与短时记忆信息进行融合处理,在Self-Attention机制下生成被跟踪对象在当前时间步的运动轨迹特征向量(Embedding)。最终,在记忆解码模块中将目标建议及其运动轨迹特征与原始图像信息一起输入到系统中完成后续处理。
记忆解码: 根据输入的目标提议、之前的轨迹信息和目标的特征,完成检测目标与轨迹的匹配,即解决多目标跟踪的检测结果和数据关联任务。
在关联前会先判断输入的每一个目标提议的状态,即是否为新出现的目标或已跟踪的目标或单纯的就是一个背景区域。通过计算对象之间的关系更新编码器的输出,最后在通过提议目标的位置和置信度得分生成跟踪轨迹,并更新Memory Buffer。经过该步骤后网络能够直接输出跟踪结果而不需要进一步的后处理。
(3)Other
- 可在视频数据集上端到端训练
- 损失函数:检测损失+跟踪损失

用于跟踪的损失包括: Focal Loss(两项)+ 基于边界框的回归L1损失 + 交并比(IoU)损失。其中一项Focal Loss用于计算objectness score置信度;另一项则用于计算uniqueness score置信度

和


检测损失: 结构如跟踪损失类似。

五、缺点
目前基于视频数据集的监督学习方法中,
其应用依赖于具有跟踪标注的高质量视频数据源。
然而由于标注视频获取的成本较高,
现有的跟踪数据集在数量与多样性方面仍显不足。
(2)尽管该方法在提升目标一致性追踪效果方面表现出色,但它确实带来了GPU内存的额外消耗,从而导致了存储器有效运行时间的缩短。
