点云检测之TransCAR: Transformer-based Camera-And-Radar Fusion for 3D Object Detection

阅读量：

TransCAR是由密歇根州立大学于今年基于IROS发表的一篇论文

论文地址：TransCAR

文章目录

前言

五、Box Encoding and Loss Function
- Box Encoding
- Loss
总结

前言

DETR3D是一种基于三维目标检测的技术发展，在二维目标检测技术的基础上实现了空间维度的拓展。该系统通过相机内外参数获取将三维点投影至图像平面的能力，并结合输入图像提取相应的特征表示。为了进一步提升检测精度与鲁棒性，DETR3D采用了借鉴自Deformable DETR中的迭代边界框优化策略。相关技术细节可参考：DETR3D原理分析与代码解读、DETR3D：将DETR用于3D目标检测任务。

一、TransCAR

相机网络基于环视图像生成更新后的vision object queries, 雷达网络通过对点云实施特征提取和位置编码, 将更新后的vision object queries与点云特征结合以实现融合.该网络架构如图所示.

二、Camera Network

本文基于nuScenes数据集展开研究，在输入端采用六个摄像头收集主车周围360度环视图像，并结合初始3D物体查询信息后输出更新后的3D物体查询结果。该网络架构利用ResNet-101模型与特征金字塔网络（FPN）提取多尺度图像特征，并通过六层Transformer解码器模块生成更新后的3D物体查询信息。每一层解码器均基于前一层输出进行操作并传递信息以提升检测精度。

为了实现目标，在第一层Transformer解码器中初始化900个可学习的初始3D物体查询集合Q⁰={q₀₁,q₀₂,…,q₀_N}（其中N=900），并利用Transformer解码器层数对物体查询进行编码更新以获取空间分布信息

对于后续各层Transformer解码器模块，则采用上一层解码器输出结果作为输入并对其进行编码处理以获取目标三维位置坐标P_i

由于nuScenes数据集由六个独立传感器构成，在将三维位置点投影至各传感器图像时需要考虑不同视角下的成像特性

通过双线性插值方法对图像特征图进行采样并结合特征金字塔网络提取多尺度特征信息

为避免视角外区域无法捕获的问题在不可见区域采用零填充策略以保证系统完整性

每一层Transformer解码器模块均会将当前空间位置信息与提取到的目标特征相结合从而实现对三维物体状态的有效更新

最终经过多层解码器迭代更新后系统能够准确预测各目标对象对应的三维边界框及其类别标签

这种设计思路源于对比现有方法的优势分析即通过环视图像能够更全面地捕捉目标物环境从而提升检测性能

三、Radar Network

雷达网络系统致力于提取有效的雷达特征，并通过编码机制实现三维空间中的位置信息融合。该系统的网络架构如图所示。

随后对BEV空间中的雷达点云进行筛选处理，在整合最近5帧数据的基础上完成一系列预处理工作以增强信息密度，并将原始雷达数据扩展为36个特征通道

四、TransCAR Fusion

TransCAR Fusion 是一种通过之前步骤中的 vision-updated 立体物体查询及点云特征作为输入，并输出用于预测立体边界框的融合立体物体查询的方法。多个 Transformer decoder 在 TransCAR Fusion 模块中以迭代方式协同工作。提出了一种 query-radar 注意力掩码是为了帮助交叉注意力机制更好地理解和学习立体物体查询及点云特征之间的互动关系。

Query-Radar Attention Mask

当输入的K、Q、V规模较大时，此时计算量会显著增大。因此无需捕获各组之间的全部交互信息。对于每个查询向量 $q_i$ 而言，在其所在的局部区域内的点云特征才是具有检索意义的，并非全局所有区域都需要考虑关联关系。基于此我们只需关注这些局部区域内的点云特征进行交互即可，并无需让 $q_i$ 与其他区域的点云特征进行交互。为了实现这一目标，在TransCAR融合模块中采用了二进制化的 $N\timesM$ query-radar attention mask M机制，在两个位置(i,j)之间只有当第i个查询 $q_i$ 与第j个雷达特征 $f_j$ 之间的欧几里德距离小于设定阈值时才允许信息关注流动发生。该机制整合到TransCAR架构中后会生成三个不同的query-radar attention mask分别对应于三个Transformer decoder分支单元，并且这三个掩模分别具有2米、2米和1米的有效范围

Transformer Camera and Radar Cross-Attention

三个 Transformer 的交叉注意力解码器进行级联连接后处理信息，在 Trans-CAR 模型中融合了更新版的三维物体查询数据与点云特征间的关联关系。该架构的具体实现如上图所示

对于初始 decoder ，从相机网络输出的 vision-updated 3D object queries 作为输入 $Q_{img}$ ，点云特征作为K、V。query-radar attention mask M1 用于防止关注某些不必要的对。 decoder 内的交叉注意力层将输出注意力分数矩阵 $A_1$ 。对于 $A_1$ 第 i 行中的M个元素，它们代表第 i 个object queries与所有M个点云特征之间的注意力分数。输出结果为 $F^∗_{rad1} = (A_1 · F_{rad})$ ，将 $F^∗_{rad1}$ 通过前馈网络 $Φ_{FFN1}$ ，形成 initial fused 3D object queries $Q_{f1} = Φ_{FFN1}(Q_{img}+F^∗_{rad1})$ 。对应 TransCAR 网络架构图中的 $Q_{f1}$ 。
接下来的两层与第一层相似。但是这两层的输入为上一层生成的 fused 3D object queries，通过重新计算 query-radar attention mask $M_i$ ，同时对新生成的 object queries 重新在图像中采样对应的位置的图像特征 $f_{f_i}$ ，与初始解码器类似，注意力加权的点云特征为 $F^∗_{radi} = (A_i · F_{rad})$ ，通过前馈网络输出 fused object queries $Q_{fi} = Φ_{FFN_i}(Q_{f_{i-1} }+ F^*_{ rad_i} + f_{f_i})$ 。

五、Box Encoding and Loss Function

Box Encoding

我们将3D边界框 3D编码为11位向量 $b_{3D}$ ：

其中 $cls=\{c₁,…,cₙ\}$ 表示各分类类别；x、y和z分别代表物体的三维中心坐标；h、w和l分别表示物体在三维空间中的高度、宽度和长度；θ即为物体的姿态角；沿x轴和y轴的速度分量分别为 $v_x$ 和 $v_y$ 。针对每一个输出的目标查询q，请网络预测其类别分数 $c$ 以及对应的3D边界框参数$b：

其中∆x、∆y和∆z是预测值与上一层query positions之间的位移量。我们直接采用3D笛卡尔坐标中的位置偏移进行回归计算。DETR3D采用Sigmoid空间来限制输出范围[0,1]以保证查询位置位于有效区域。而TransCAR则从优化视角出发采用了视觉更新查询策略，并且其定位精度更高。因此，在这一过程中我们能够避免可能干扰学习过程的冗余非线性激活过程。

Loss

在方法中，我们遵循set-to-set Hungarian匹配框架对预测输出的多标签信息与ground truth进行匹配。其中，在回归任务中我们采用L1损失函数，在分类任务中采用Focal Loss作为损失函数。

θ 代表排列集合； $\widehat{p}_{σ(i)}(c_i)$ 对应于排列索引为σ(i)的类 $c_i$ 的概率；其中 $L_{box}$ 计算的是边界框之间的L1距离；而 $b_i$ 与 $\widehat{b}_{σ(i)}$ 分别代表ground truth框与预测框。

总结

本文提出了TransCAR系统，并通过视觉更新的摄像头获取了基于时间更新的三维物体查询（vision-updated 3D object queries）。研究发现，在雷达数据中提取并学习了点云特征及其与vision-updated 3D object queries之间的交互关系，并在此基础上构建了完整的模型框架。

本文是自己对论文的理解，如有不同见解，欢迎讨论、指正。

全部评论 (0)

还没有任何评论哟~

点云检测之TransCAR: Transformer-based Camera-And-Radar Fusion for 3D Object Detection

TransCAR是密歇根州立大学在2023年发表在IROS上的一篇论文论文地址：TransCAR 文章目录前言一、TransCAR 二、CameraNetwork 三、RadarNetwork ...

CenterFusion: Center-based Radar and Camera Fusion for 3D Object Detection

动机 Toexploittheradarinformationinthissetting,radarbasedfeaturesneedtobemappedtothecenteroftheircorre...

点云检测之LiRaFusion: Deep Adaptive LiDAR-Radar Fusion for 3D Object Detection

LiRaFusion是密歇根大学在2024年发表在ICRA上的一篇论文论文地址：LiRaFusion 文章目录前言一、Method EarlyFusion MiddleFusion 总结前言 ...

点云检测之CenterFormer: Center-based Transformer for 3D Object Detection

CenterFormer是中弗罗里达大学在2022年发表在ECCV上的一篇论文论文地址：CenterFormmer 文章目录前言一、Preliminaries Centerbased3DObje...

【论文笔记】DPFT: Dual Perspective Fusion Transformer for Camera-Radar-based Object Detection

原文链接：<https://arxiv.org/abs/2404.03015 简介：本文提出双视角融合Transformer（DPFT），利用低级的雷达数据（雷达张量）以保留更多信息，并使用4D雷达在...

【CVPR2024】RCBEVDet: Radar-camera Fusion in Bird’s Eye View for 3D Object Detection

原文链接：<https://arxiv.org/abs/2403.16440 简介：为减小成本，实践中往往使用多视角摄像头进行3D目标检测，但仅依赖摄像头难以达到高精度和鲁棒性。本文将毫米波雷达与摄像...

【论文笔记】BEVCar: Camera-Radar Fusion for BEV Map and Object Segmentation

原文链接：<https://arxiv.org/abs/2403.11761 0\.概述本文的BEVCar模型是基于环视图像和雷达融合的BEV目标检测和地图分割模型，如图所示。模型的图像分支利用可变...

TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers总结

标题TransFusion:RobustLiDARCameraFusionfor3DObjectDetectionwithTransformers 说明会议：CVPR2022 标题：TransFus...

DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection总结

DeepFusion:LidarCameraDeepFusionforMultiModal3DObjectDetection 说明会议：CVPR2022 标题：DeepFusion：用于多模式3D对...

【论文笔记】A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection

原文链接：<https://openaccess.thecvf.com/content/WACV2024/html/WuARobustDiffusionModelingFrameworkforRada...

是否确定退出登录?

点云检测之TransCAR: Transformer-based Camera-And-Radar Fusion for 3D Object Detection

文章目录

前言

一、TransCAR

二、Camera Network

三、Radar Network

四、TransCAR Fusion

Query-Radar Attention Mask

Transformer Camera and Radar Cross-Attention

五、Box Encoding and Loss Function

Box Encoding

Loss

总结

全部评论 (0)

相关文章推荐

点云检测之TransCAR: Transformer-based Camera-And-Radar Fusion for 3D Object Detection

CenterFusion: Center-based Radar and Camera Fusion for 3D Object Detection

点云检测之LiRaFusion: Deep Adaptive LiDAR-Radar Fusion for 3D Object Detection

点云检测之CenterFormer: Center-based Transformer for 3D Object Detection

【论文笔记】DPFT: Dual Perspective Fusion Transformer for Camera-Radar-based Object Detection

【CVPR2024】RCBEVDet: Radar-camera Fusion in Bird’s Eye View for 3D Object Detection

【论文笔记】BEVCar: Camera-Radar Fusion for BEV Map and Object Segmentation

TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers总结

DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection总结

【论文笔记】A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection