【论文笔记】Cyclic Refiner: Object-Aware Temporal Representation Learning for Multi-View 3D Detection and
循环精炼器:基于对象的感知时空表征学习多视图三维检测与跟踪
简介:本文提出了一种统一且基于物体感知的时序学习框架...用于实现多视图三维目标检测与跟踪。鉴于现有时序融合方法易受历史帧中的干扰物及背景噪声的影响...为此我们设计了一种循环学习机制以提升表达学习的鲁棒性...通过逆向修正过程...在历史帧中与目标无关区域的相关响应会被有效抑制从而显著提高时间融合阶段的目标感知能力。在此基础之上基于所设计的循环学习机制在跟踪任务中我们进一步建立了基于物体感知的目标关联策略。
0. 引言

传统方法主要依赖于"流程上"实现(具体来说就是"多视图图像经过一系列转换步骤最终完成'时间轴信息整合'"这一过程),其中涉及的关键节点包括'从多视图图像提取基础特征'、'构建时空关系模型'以及'生成目标预测结果'"等环节(如图所示)。这些特征不仅参与当前帧的信息提取过程还会延伸到下一帧的时间序列整合阶段。然而由于历史帧中的干扰物体和背景噪声可能会干扰后续帧的目标检测效果因此为了提高整体性能我们采取了一种新的解决方案:通过后验预测机制我们能够对现有特征进行优化调整从而消除历史残留的影响。(如图所示这种改进措施主要体现在'通过引入反向传播机制实现了对原始特性的精准修复'"这一技术路径上)
1. Cyclic Refiner
Cyclic Refiner's effectiveness primarily stems from its innovative 'inverse correction' mechanism, which operates in tandem with forward propagation to establish a cyclical relationship between image/BEV feature maps and model predictions.

首先基于预测物体O_i收集相关信息,并提取其表达特征。记图像空间中的三维深度表示为F_{img}\in\mathbb R^{H\times W\times C}, bird-eye视角空间中的三维深度表示为F_{bev}\in\mathbb R^{H'\times W'\times C}, 头部区域的深度表示(DETR方法中使用稀疏查询\mathbb R^{N\times C})以及其余方法中使用密集二维表示)为F_{head}. 然后根据预测物体的中心位置及其尺寸, 通过RoI池化模块获取相应的三维特征嵌入\{e_{img}, e_{bev}, e_{head} \in \mathbb{R}^{1 \times C}\}. 将这些嵌入结果融合生成综合表达向量e_{cat} \in \mathbb{R}^{1 \times 3C}, 并将其与位置信息p(由预测物体的位置与尺寸决定)一起定义为目标状态表示I_i = [e_c; p]
接下来, 通过O修正图像/BEV特征, 并将其经过处理后成为经过掩膜抑制与目标无关的响应
设置每个目标的2D权重掩膜,并使其位置与预测物体的中心相对应。
将e_{cat}作为决定空间范围内的独热向量进行对应,并将其分配给物体(超出范围的位置设为0权重)。
通过线性转换将e_{cat}分配为空间范围内各位置的权重值,并使具有判别能力的区域获得更高的权重。
在同一尺度层次上的物体将会整合其对应的权重掩膜信息来生成最终的整体掩膜M_l。
注意图像和BEV空间下的尺度等级数可以不一致。
本文将预测掩膜视为空间注意力机制,并通过逐元素相乘的方式分别作用于图像与BEV特征。随后利用不同尺度的卷积神经网络(DCN)来增强对尺度信息的感受能力。最后将修正后的多尺度特征与原始特征进行融合,并借助DCN模块生成物体感知相关的两个特征\hat F_{img}\in\mathbb R^{H\times W\times C}和\hat F_{bev}\in\mathbb R^{H'\times W'\times C}。
在t时刻对特征进行修正后,在其后将修正后的特征表达\hat F^t=\{\hat F_{img}^t,\hat F_{bev}^t\}传递至下一个帧以完成跨帧的时间融合。

时空注意力机制整合可变形核范式。基于物体感知的初始信息\hat F^t能够用于进一步优化和修正后续时刻的状态表示。具体而言,在当前时刻的状态表示\hat F^t与下一时刻的状态预测值F^{t+1}之间建立联系,并通过以下步骤生成物理解释能力:首先将当前状态与下一状态进行融合,并生成物体感知的关注权重矩阵A以及采样偏移量Δs;随后按照如下公式进行采样操作:
\text{DeformAttn}(A,p,\Delta p,F^{t+1})=\sum_{h=1}^H W_h\left[\sum_{k=1}^K A_{hk}\cdot W'_h F^{t+1}(s+\Delta s_{hk})\right]
其中h和k分别索引注意力头和采样特征点。
2. 物体感知的关联
本文不仅构建了统一的检测与跟踪框架,并开发了追踪相关的算法设计;该算法基于修正后的图像数据以及BEV特征提取方法进行设计。

如图所示,在t时刻采集到的目标检测结果集为\mathcal{D}_t, 现有目标运动轨迹集合为\mathcal{T}(初始帧时\mathcal{T}为空集)。本文提出的目标关联方法(OAA)旨在通过卡尔曼滤波算法对目标运动情况进行预估,并完成目标与轨迹之间的对应关系建立过程。该方法主要包含多特征匹配技术和按尺度信息逐步优化的方法两大部分。
多线索匹配:定义外观状态E=\{\hat e_{img},\hat e_{bev},e_{head}\}(即"多线索"),其中\hat e_{img},\hat e_{bev}是从修正后的图像与BEV特征中提取出的修正后的物体嵌入信息。基于现有轨迹T=\{T_j=\{E^{T_j},p\}\}_{j=1}^M与新检测结果D=\{D_i=\{E^{D_i},p\}\}_{i=1}^N的关系,在多线索匹配过程中会计算两组状态向量之间的归一化内积相似度值,并生成三个对应的相似度矩阵\{C_{img},C_{bev},C_{head}\}。将这三个相似度矩阵通过加权求和的方式构建匈牙利算法所需的代价矩阵,并对其进行二部图匹配处理。对于成功匹配的对象样本,则会更新相关联的状态序列;而对于未被匹配的对象样本D_{remain}以及原有轨迹序列中的对应对象T_{remain}则会被用于后续的小尺寸感知级联匹配过程
该算法采用级联尺度感知机制,在贝叶斯估计(BEV)的空间中进行目标检测与跟踪操作。值得注意的是,在贝叶斯估计(BEV)的空间中,在此研究中借鉴了基于改进的交并比(BIoU)的方法,并结合广域搜索算法实现目标定位与跟踪效果的有效融合:为了提高匹配效率与准确性,在此研究中借鉴了基于改进的交并比(BIoU)的方法,并结合广域搜索算法实现目标定位与跟踪效果的有效融合;为了提高匹配效率与准确性,
B_{buffer}=(1+r)\cdot B
其中,在低尺度级别的环境中(由上一节所述的Cyclic Refiner预测)存在较大的比例r值。此外,在贝叶斯估计视角下(BEV),经过卡尔曼滤波后的大型目标更容易遮蔽邻近的小目标;因此,在匹配过程中仅考虑尺寸相近的目标。具体而言,在贝叶斯估计视角下的缩放因子l的目标仅与{l-1, l, l+1}三个相邻缩放级别的轨迹计算IoU相似度。
最后阶段中剩余的未匹配轨迹T_{re-remain}将被彻底移除;而对于剩下的未匹配检测D_{re-remain}而言,在该检测的得分高于设定阈值\tau的情况下,则将其初始化为新的轨迹。
3. 统一的检测和跟踪框架

本研究构建了一个统一的时间表达学习框架,并对BEV检测与跟踪进行了系统性设计。如图所示,在时间序列处理过程中包括三个关键部分:输入端、时序表征模块以及追踪分支结构。在时间t阶段接收输入数据后,在图像主干中提取出目标区域的深层表征特性;随后引入视图转换器完成空间映射关系建立,并将其输出作为任务识别阶段的关键中间结果提供给后续网络模块使用。在时间步t+1之前进行反向传播时,在循环精炼层中结合t-1\rightarrow t-2\rightarrow \cdots \rightarrow t-n\rightarrow t-1\rightarrow t-2\cdots 的空间关系进行信息重建,并据此对时间域上的信息进行整合更新
