【论文笔记】BEVCar: Camera-Radar Fusion for BEV Map and Object Segmentation

阅读量：

0. 概述

本文提出了一种基于环视图像与雷达融合的贝索夫空间（BEV）目标检测及地图分割的新体系框架。如图所示，在该系统中，默认情况下，默认情况下，默认情况下，默认情况下，默认情况下，默认情况下，默认情况下，默认情况下，默认情况下，默认情况下，默认情况下，默认情况下，默认情况下，默认情况下，默认情况下，默认情况

1. 传感器数据编码

摄像头：采用冻结状态下的DINOv2 ViT-B/14架构（基于 learnable weights 的ViT adapter），生成多尺度图像特征。

雷达：类似于SparseFusion3D的方法，在本文中所使用的雷达点原始特征包含三维位置 $(x,y,z)$ 、未经过速度补偿的速度分量 $(v_x,v_y)$ 以及表征表面可检测程度的RCS值（即表面反射系数）。在对点云进行体素化处理后（即将连续空间中的点转换为离散的空间单元），经由下图所示的特征编码模块进行信息提取（其中FCN表示全连接层），其结构与PointNet相似。随后将各体素化的特征表达输入到体素编码器中，在此过程中对高度信息进行压缩处理以获取雷达BEV空间中的特征 $f_{rad}$ 。

2. 图像特征提升

借鉴了BEVFormer的思路，在此基础上提出了基于稀疏雷达点的初始化方法。

查询初始化：即基于雷达提供的3D信息对图像特征进行初步提升至BEV图。随后以前视摄像头为中心生成3D体素网格，并将每个体素与其相关联的一个或两个视图建立关联关系；接着通过射线投射技术将图像特征提升到3D空间（对于多个视图相关联的体素节点，则取其特征值的平均值作为最终表示）。

注：此步骤与LSS的方法不同，因其考虑了每个像素的大小（如图，射线经过区域的部分相邻区域也被标记为同一颜色）。因此，实际上该方法更接近Simple-BEV（其中双线性采样被替换为最近邻采样）。

最后经过深度卷积操作压缩高度信息，并提取出对应的空间特征矩阵 $\mathbf{Z}\in\mathbb{R}^{X\times Y\times F}$ 。随后通过基于雷达引导的空间可变形注意力机制生成对应的初始化查询矩阵 $\mathbf{Q}_{img}^L \in\mathbb{R}^{Y'\times F'}$ 。

提升过程：通过累加初始化查询 $Q_{img}^L$ 、可学习位置编码 $Q_{pos}^L$ 以及可学习查询 $Q_{bev}^L$ 生成综合查询信息 $Q^L$ 。随后利用可变形注意力机制从图像中提取特征采样点，并最终产出图像 BEV 特征。

如何确定变形注意力机制中的查询参考点？文中所述方法中提及需要重新构建 $X \times Y \times Z$ 的空间网格结构，请问在同一贝 V（Bird's Eye View）视角下但不同高度层次的空间单元所对应的查询关系是否一致（即与各自关联的具体贝 V 视角相对应），而其参考点则对应于该空间单元在图像平面上的具体投影位置？

3. 传感器融合

借鉴TransFusion的思路，在本研究中我们关注了雷达点周围的空间信息，并借助可变形注意力机制来提取具有语义特化的特征表示。具体而言，在实现这一目标的过程中，我们计算并融合了三个关键组件：其对应的可学习位置编码向量和可学习BEV查询向量；随后通过求和操作得到融合后的表示向量。在此基础上，在关注对象上应用交叉注意力机制以捕捉空间语义关联关系，并将最终的表示信息传递至BEV编码器进行进一步处理。

4. BEV分割头

本文采用多类BEV分割基于单一任务头的方法。具体来说,卷积网络输出一个物体类别以及M个地图元素类别, 输出的尺寸是(M+1)×X×Y (注意一个像素可能属于多个类别)。

目标检测 ：本文考虑所有车辆。使用二元交叉熵损失监督：

$L_{BCE}=-\frac1N\sum_{i=1}^N\log(p_{i,t})$

其中

$p_{i,t}=\begin{cases}p_i&若y_i=1\\ 1-p_i&否则\end{cases}$

$y_i\in\{0,1\}$ 表示像素 $i$ 是否属于车辆类别， $p_i$ 为预测 $y_i=1$ 的概率。

地图分割 ：本文使用 $\alpha$ 平衡的多类别focal损失：

$F_{FOC}=\sum_{c=1}^C-\frac1N\sum_{i=1}^N\alpha_{i,t}(1-p_{i,t})^\gamma\log(p_{i,t})$

其中 $c$ 为语义类别编号， $\gamma$ 为区分简单/困难样本的聚焦参数。 $\alpha_{i,t}$ 类似 $p_{i,t}$ 的定义：

$\alpha_{i,t}=\begin{cases}\alpha&若y_i=1\\ 1-\alpha&否则\end{cases}$

其中 $\alpha$ 处理前景/背景的不平衡性。

全部评论 (0)

还没有任何评论哟~

【论文笔记】BEVCar: Camera-Radar Fusion for BEV Map and Object Segmentation

原文链接：<https://arxiv.org/abs/2403.11761 0\.概述本文的BEVCar模型是基于环视图像和雷达融合的BEV目标检测和地图分割模型，如图所示。模型的图像分支利用可变...

【论文笔记】DPFT: Dual Perspective Fusion Transformer for Camera-Radar-based Object Detection

原文链接：<https://arxiv.org/abs/2404.03015 简介：本文提出双视角融合Transformer（DPFT），利用低级的雷达数据（雷达张量）以保留更多信息，并使用4D雷达在...

CenterFusion: Center-based Radar and Camera Fusion for 3D Object Detection

动机 Toexploittheradarinformationinthissetting,radarbasedfeaturesneedtobemappedtothecenteroftheircorre...

CFT：Multi-Camera Calibration Free BEV Representation for 3D Object Detection——论文笔记

参考代码：[暂无] 1\.概述介绍：在相机数据作为输入的BEV感知算法中很多是需要显式或是隐式使用相机内外参数的，但是相机的参数自标定之后并不是一直保持不变的，这就对依赖相机标定参数的算法带来了麻烦...

【论文笔记】A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection

原文链接：<https://openaccess.thecvf.com/content/WACV2024/html/WuARobustDiffusionModelingFrameworkforRada...

点云检测之TransCAR: Transformer-based Camera-And-Radar Fusion for 3D Object Detection

TransCAR是密歇根州立大学在2023年发表在IROS上的一篇论文论文地址：TransCAR 文章目录前言一、TransCAR 二、CameraNetwork 三、RadarNetwork ...

【论文笔记】BiCo-Fusion: Bidirectional Complementary LiDAR-Camera Fusion for Semantic- and Spatial-Aware 3

BiCoFusion:BidirectionalComplementaryLiDARCameraFusionforSemanticandSpatialAware3DObjectDetection 原文...

【论文笔记】Unleashing HyDRa: Hybrid Fusion, Depth Consistency and Radar for Unified 3D Perception

原文链接：<https://arxiv.org/abs/2403.07746 简介：低成本的、以视觉为中心的3D感知在自动驾驶中取得了极大的进展。其主要的挑战在于鲁棒的深度预测能力，且摄像头不利于在长...

【论文笔记】SparseLIF: High-Performance Sparse LiDAR-Camera Fusion for 3D Object Detection

原文链接：<https://arxiv.org/abs/2403.07284 简介：稀疏3D检测器因其无需密集BEV特征表达的低延迟特性受到了广泛关注，但其性能低于密集检测器。

论文笔记：Rich feature hierarchies for accurate object detection and semantic segmentation

Richfeaturehierarchiesforaccurateobjectdetectionandsemanticsegmentation 概要文章提出了一种目标检测算法，使得平均准确度相较于目...

是否确定退出登录?

【论文笔记】BEVCar: Camera-Radar Fusion for BEV Map and Object Segmentation

0. 概述

1. 传感器数据编码

2. 图像特征提升

3. 传感器融合

4. BEV分割头

全部评论 (0)

相关文章推荐

【论文笔记】BEVCar: Camera-Radar Fusion for BEV Map and Object Segmentation

【论文笔记】DPFT: Dual Perspective Fusion Transformer for Camera-Radar-based Object Detection

CenterFusion: Center-based Radar and Camera Fusion for 3D Object Detection

CFT：Multi-Camera Calibration Free BEV Representation for 3D Object Detection——论文笔记

【论文笔记】A Robust Diffusion Modeling Framework for Radar Camera 3D Object Detection

点云检测之TransCAR: Transformer-based Camera-And-Radar Fusion for 3D Object Detection

【论文笔记】BiCo-Fusion: Bidirectional Complementary LiDAR-Camera Fusion for Semantic- and Spatial-Aware 3

【论文笔记】Unleashing HyDRa: Hybrid Fusion, Depth Consistency and Radar for Unified 3D Perception

【论文笔记】SparseLIF: High-Performance Sparse LiDAR-Camera Fusion for 3D Object Detection

论文笔记：Rich feature hierarchies for accurate object detection and semantic segmentation