【论文笔记】Cyclic Refiner: Object-Aware Temporal Representation Learning for Multi-View 3D Detection and

阅读量：

循环精炼器：基于对象的感知时空表征学习多视图三维检测与跟踪

简介：本文提出了一种统一且基于物体感知的时序学习框架 $...$ 用于实现多视图三维目标检测与跟踪。鉴于现有时序融合方法易受历史帧中的干扰物及背景噪声的影响 $...$ 为此我们设计了一种循环学习机制以提升表达学习的鲁棒性 $...$ 通过逆向修正过程 $...$ 在历史帧中与目标无关区域的相关响应会被有效抑制从而显著提高时间融合阶段的目标感知能力。在此基础之上基于所设计的循环学习机制在跟踪任务中我们进一步建立了基于物体感知的目标关联策略。

0. 引言

传统方法主要依赖于"流程上"实现（具体来说就是"多视图图像经过一系列转换步骤最终完成'时间轴信息整合'"这一过程），其中涉及的关键节点包括'从多视图图像提取基础特征'、'构建时空关系模型'以及'生成目标预测结果'"等环节（如图所示）。这些特征不仅参与当前帧的信息提取过程还会延伸到下一帧的时间序列整合阶段。然而由于历史帧中的干扰物体和背景噪声可能会干扰后续帧的目标检测效果因此为了提高整体性能我们采取了一种新的解决方案：通过后验预测机制我们能够对现有特征进行优化调整从而消除历史残留的影响。（如图所示这种改进措施主要体现在'通过引入反向传播机制实现了对原始特性的精准修复'"这一技术路径上）

1. Cyclic Refiner

Cyclic Refiner's effectiveness primarily stems from its innovative 'inverse correction' mechanism, which operates in tandem with forward propagation to establish a cyclical relationship between image/BEV feature maps and model predictions.

首先基于预测物体 $O_i$ 收集相关信息，并提取其表达特征。记图像空间中的三维深度表示为 $F_{img}\in\mathbb R^{H\times W\times C}$ , bird-eye视角空间中的三维深度表示为 $F_{bev}\in\mathbb R^{H'\times W'\times C}$ , 头部区域的深度表示（DETR方法中使用稀疏查询 $\mathbb R^{N\times C}$ ）以及其余方法中使用密集二维表示）为 $F_{head}$ . 然后根据预测物体的中心位置及其尺寸, 通过RoI池化模块获取相应的三维特征嵌入 $\{e_{img}, e_{bev}, e_{head} \in \mathbb{R}^{1 \times C}\}$ . 将这些嵌入结果融合生成综合表达向量 $e_{cat} \in \mathbb{R}^{1 \times 3C}$ , 并将其与位置信息 $p$ (由预测物体的位置与尺寸决定)一起定义为目标状态表示 $I_i = [e_c; p]$

接下来, 通过 $O$ 修正图像/BEV特征, 并将其经过处理后成为经过掩膜抑制与目标无关的响应

设置每个目标的2D权重掩膜，并使其位置与预测物体的中心相对应。
将 $e_{cat}$ 作为决定空间范围内的独热向量进行对应，并将其分配给物体（超出范围的位置设为0权重）。
通过线性转换将 $e_{cat}$ 分配为空间范围内各位置的权重值，并使具有判别能力的区域获得更高的权重。
在同一尺度层次上的物体将会整合其对应的权重掩膜信息来生成最终的整体掩膜 $M_l$ 。

注意图像和BEV空间下的尺度等级数可以不一致。

本文将预测掩膜视为空间注意力机制，并通过逐元素相乘的方式分别作用于图像与BEV特征。随后利用不同尺度的卷积神经网络（DCN）来增强对尺度信息的感受能力。最后将修正后的多尺度特征与原始特征进行融合，并借助DCN模块生成物体感知相关的两个特征 $\hat F_{img}\in\mathbb R^{H\times W\times C}$ 和 $\hat F_{bev}\in\mathbb R^{H'\times W'\times C}$ 。

在 $t$ 时刻对特征进行修正后，在其后将修正后的特征表达 $\hat F^t=\{\hat F_{img}^t,\hat F_{bev}^t\}$ 传递至下一个帧以完成跨帧的时间融合。

时空注意力机制整合可变形核范式。基于物体感知的初始信息 $\hat F^t$ 能够用于进一步优化和修正后续时刻的状态表示。具体而言，在当前时刻的状态表示 $\hat F^t$ 与下一时刻的状态预测值 $F^{t+1}$ 之间建立联系，并通过以下步骤生成物理解释能力：首先将当前状态与下一状态进行融合，并生成物体感知的关注权重矩阵A以及采样偏移量Δs；随后按照如下公式进行采样操作：

\text{DeformAttn}(A,p,\Delta p,F^{t+1})=\sum_{h=1}^H W_h\left[\sum_{k=1}^K A_{hk}\cdot W'_h F^{t+1}(s+\Delta s_{hk})\right]

其中 $h$ 和 $k$ 分别索引注意力头和采样特征点。

2. 物体感知的关联

本文不仅构建了统一的检测与跟踪框架，并开发了追踪相关的算法设计；该算法基于修正后的图像数据以及BEV特征提取方法进行设计。

如图所示，在 $t$ 时刻采集到的目标检测结果集为 $\mathcal{D}_t$ , 现有目标运动轨迹集合为 $\mathcal{T}$ （初始帧时 $\mathcal{T}$ 为空集）。本文提出的目标关联方法（OAA）旨在通过卡尔曼滤波算法对目标运动情况进行预估，并完成目标与轨迹之间的对应关系建立过程。该方法主要包含多特征匹配技术和按尺度信息逐步优化的方法两大部分。

多线索匹配：定义外观状态 $E=\{\hat e_{img},\hat e_{bev},e_{head}\}$ （即"多线索"），其中 $\hat e_{img},\hat e_{bev}$ 是从修正后的图像与BEV特征中提取出的修正后的物体嵌入信息。基于现有轨迹 $T=\{T_j=\{E^{T_j},p\}\}_{j=1}^M$ 与新检测结果 $D=\{D_i=\{E^{D_i},p\}\}_{i=1}^N$ 的关系，在多线索匹配过程中会计算两组状态向量之间的归一化内积相似度值，并生成三个对应的相似度矩阵 $\{C_{img},C_{bev},C_{head}\}$ 。将这三个相似度矩阵通过加权求和的方式构建匈牙利算法所需的代价矩阵，并对其进行二部图匹配处理。对于成功匹配的对象样本，则会更新相关联的状态序列；而对于未被匹配的对象样本 $D_{remain}$ 以及原有轨迹序列中的对应对象 $T_{remain}$ 则会被用于后续的小尺寸感知级联匹配过程

该算法采用级联尺度感知机制，在贝叶斯估计（BEV）的空间中进行目标检测与跟踪操作。值得注意的是，在贝叶斯估计（BEV）的空间中，在此研究中借鉴了基于改进的交并比（BIoU）的方法，并结合广域搜索算法实现目标定位与跟踪效果的有效融合：为了提高匹配效率与准确性，在此研究中借鉴了基于改进的交并比（BIoU）的方法，并结合广域搜索算法实现目标定位与跟踪效果的有效融合；为了提高匹配效率与准确性，
$B_{buffer}=(1+r)\cdot B$

其中，在低尺度级别的环境中（由上一节所述的Cyclic Refiner预测）存在较大的比例r值。此外，在贝叶斯估计视角下（BEV），经过卡尔曼滤波后的大型目标更容易遮蔽邻近的小目标；因此，在匹配过程中仅考虑尺寸相近的目标。具体而言，在贝叶斯估计视角下的缩放因子l的目标仅与{l-1, l, l+1}三个相邻缩放级别的轨迹计算IoU相似度。

最后阶段中剩余的未匹配轨迹 $T_{re-remain}$ 将被彻底移除；而对于剩下的未匹配检测 $D_{re-remain}$ 而言，在该检测的得分高于设定阈值 $\tau$ 的情况下，则将其初始化为新的轨迹。

3. 统一的检测和跟踪框架

本研究构建了一个统一的时间表达学习框架，并对BEV检测与跟踪进行了系统性设计。如图所示，在时间序列处理过程中包括三个关键部分：输入端、时序表征模块以及追踪分支结构。在时间 $t$ 阶段接收输入数据后，在图像主干中提取出目标区域的深层表征特性；随后引入视图转换器完成空间映射关系建立，并将其输出作为任务识别阶段的关键中间结果提供给后续网络模块使用。在时间步 $t+1$ 之前进行反向传播时，在循环精炼层中结合 $t-1\rightarrow t-2\rightarrow \cdots \rightarrow t-n\rightarrow t-1\rightarrow t-2\cdots$ 的空间关系进行信息重建，并据此对时间域上的信息进行整合更新

全部评论 (0)

还没有任何评论哟~

【论文笔记】Cyclic Refiner: Object-Aware Temporal Representation Learning for Multi-View 3D Detection and

CyclicRefiner:ObjectAwareTemporalRepresentationLearningforMultiView3DDetectionandTracking 原文链接：<http...

Time Will Tell：New Outlooks and A Baseline for Temporal Multi-View 3D Object Detection——论文笔记

参考代码：SOLOFusion 1\.概述介绍：汽车的驾驶过程是时变的，则对该场景的处理方法最好也应该具有时间维度引入。这篇文章提出现有BEV感知算法中时序信息信息存在特征粒度较粗（特征图尺寸小）和...

STS：Surround-view Temporal Stereo for Multi-view 3D Detection——论文笔记

参考代码：[None] 1\.概述介绍：这篇文章提出的方法是对LSS中深度估计部分进行改进，其改进的点是在深度估计部分引入立体匹配去估计周视相机下的深度信息，其中立体匹配使用前后视频帧进行构建（可以...

【论文阅读】Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D Object Detection

论文：https://arxiv.org/pdf/2303.11926 Github：https://github.com/exiawsh/StreamPETR?tab=readmeovfile Q:...

[论文笔记]Multi-View 3D Object Detection Network for Autonomous Driving

MultiView3DObjectDetectionNetworkforAutonomousDriving 本文提出一种多模态的3D目标检测，融合了视觉和雷达点云信息。和以往基于voxel的方法不同，...

Exploring Object Centric Temporal Modeling for Efficient Multi View 3D Object Detection

全文摘要本文提出了一种名为StreamPETR的长序列建模框架，用于多视角三维物体检测。该模型基于PETR系列中的稀疏查询设计，并系统地开发了对象中心的时序机制。模型以在线方式运行，通过对象查询逐帧...

StreamPETR：Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D Object Detection

参考代码：StreamPETR 1\.概述介绍：在BEV感知中时序信息融合会为下游感知任务带来不小性能提升，但是在单帧基础上引入时序信息必然会带来额外开销，因而迫切需要一种高性能且代价小的融合方案。

BEVDistill：Cross-Modal BEV Distillation for Multi-View 3D Object Detection——论文笔记

参考代码：BEVDistill 1\.概述介绍：基于相机的BEV感知算法可以从周视图像中获取丰富语义信息，但是缺乏深度信息的，对此一些方法中通过深度估计的形式对这部分缺乏的深度信息进行补充，从而实现...

3DGS2024论文解析|Ray Denoising Depth-aware Hard Negative Sampling for Multi-view 3D Object Detection

论文标题 RayDenoising:DepthawareHardNegativeSamplingforMultiview3DObjectDetection射线去噪：基于深度感知的难负样本采样用于多视角...

论文笔记 - ：DIGGING INTO OUTPUT REPRESENTATION FOR MONOCULAR 3D OBJECT DETECTION

Title:深入研究单目3D物体检测的输出表示 Abstract 单目3D对象检测旨在从单个图像中识别和定位3D空间中的对象。最近的研究取得了显着的进展，而所有这些研究都遵循基于LiDAR的3D检测中...

是否确定退出登录?

【论文笔记】Cyclic Refiner: Object-Aware Temporal Representation Learning for Multi-View 3D Detection and

0. 引言

1. Cyclic Refiner

2. 物体感知的关联

3. 统一的检测和跟踪框架

全部评论 (0)

相关文章推荐

【论文笔记】Cyclic Refiner: Object-Aware Temporal Representation Learning for Multi-View 3D Detection and

Time Will Tell：New Outlooks and A Baseline for Temporal Multi-View 3D Object Detection——论文笔记

STS：Surround-view Temporal Stereo for Multi-view 3D Detection——论文笔记

【论文阅读】Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D Object Detection

[论文笔记]Multi-View 3D Object Detection Network for Autonomous Driving

Exploring Object Centric Temporal Modeling for Efficient Multi View 3D Object Detection

StreamPETR：Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D Object Detection

BEVDistill：Cross-Modal BEV Distillation for Multi-View 3D Object Detection——论文笔记

3DGS2024论文解析|Ray Denoising Depth-aware Hard Negative Sampling for Multi-view 3D Object Detection

论文笔记 - ：DIGGING INTO OUTPUT REPRESENTATION FOR MONOCULAR 3D OBJECT DETECTION