【论文笔记】MV2DFusion: Leveraging Modality-Specific Object Semantics for Multi-Modal 3D Detection

阅读量：

原文链接：https://arxiv.org/abs/2408.05945

简介：本文提出MV2DFusion，使用基于查询的融合机制。使用不确定性感知的图像查询生成器和点云查询生成器生成查询，并基于物体语义进行稀疏融合。

本文认为，特征级融合（密集特征图的融合，如BEVFusion）方法无法利用目标先验，甚至会损害模态的语义；而提案级融合（包含传统方法如F-PointNet和基于稀疏查询的融合如SparseFusion）方法则往往会偏向其中一种模态。

1. 概述

在这里插入图片描述
如图所示，首先使用模态检测器得到图像和点云的检测结果，并通过查询生成器生成各模态查询，输入融合解码器聚合模态特征并更新3D位置。

2. 利用模态目标语义

2.1 来自模态专家的目标提案

首先，各模态独立进行特征提取。图像主干和FPN提取多视图图像特征 $\{F_v^{img}|1\leq v\leq N^{img}\}$ ；激光雷达主干提取点云体素特征 $F^{pc}$ 。

基于模态特征，使用 模态专家 （可为任意检测器）生成提案。对于图像，2D检测器会在每个图像上生成 $M^{img}$ 个2D边界框，即 $\{b_v^{img}\in\mathbb R^{M^{img}\times4}|1\leq v\leq N^{img}\}$ ，其中每个边界框表达为 $(x_{\min},y_{\min},x_{\max},y_{\max})$ 。对于点云，可使用稀疏检测器节省时空消耗，生成 $M^{pc}$ 个3D边界框 $b^{pc}\in\mathbb R^{M^{pc}\times7}$ ，其中每个边界框表达为 $(x,y,z,w,l,h,rot)$ 。

2.2 从专家推导物体级语义

由于存在域间隙，各模态的检测结果难以直接融合。因此，本文使用查询来编码各模态的物体级语义。

2.3 点云物体查询生成

在这里插入图片描述
点云查询可表达为 $q^{pc}=(c^{pc},r^{pc})$ ，其中 $c^{pc}$ 为内容部分， $r^{pc}$ 为位置部分。使用物体中心点 $r^{pc}\in\mathbb R^{M^{pc}\times3}$ 作为查询的位置部分。查询的内容部分 $c^{pc}\in\mathbb R^{M^{pc}\times C}$ 包括外观特征 $o^{pc}$ 和几何特征，其中外观特征取决于检测器类型，如基于中心的检测器则是BEV网格的值，两阶段检测器则是RoI特征，稀疏检测器则是产生预测的体素特征。几何特征则是物体的大小和朝向等属性（表达于 $b^{pc}$ 中）。因此，查询的内容部分可如下计算：
$c^{pc}=MLP(o^{pc}+MLP(SinPos(b^{pc})))$

其中SinPos表示正弦位置编码，用于将低维向量转化为高维特征。

2.4 图像物体查询生成

在这里插入图片描述
由于深度估计的不适定问题，获取3D预测会产生大误差，影响查询质量。

本文提出不确定性感知的图像查询。查询的位置部分保留了深度估计的不确定性，即将查询位置视为概率分布。概率分布包括 $n_d$ 个采样位置 $s^{img}\in\mathbb R^{M^{img}\times n_d\times 3}$ 和相应的概率 $u^{img}\in\mathbb R^{M^{img}\times n_d}$ 。

$v$ 视图的图像查询表达为 $q_v^{img}=(c_v^{img},s_v^{img},u_v^{img})$ ；所有图像查询可表达为
$q^{img}=\{q_v^{img}|1\leq v\leq N^{img}\}$

查询的内容部分 $c^{img}_v\in\mathbb R^{M^{img}\times C}$ 为嵌入几何信息的RoI外观特征。给定2D检测结果 $b^{img}_v$ 和特征 $F_v^{img}$ ，首先通过RoI对齐，提取RoI外观特征 $o_v^{img}\in\mathbb R^{M^{img}\times H_r\times W_r \times C}$ ：
$o_v^{img}=\text{RoI-Align}(F_v^{img},b_v^{img})$

等效相机内参 $K^i_v$ 会用于补偿RoI对齐过程中的几何信息损失。设相机 $v$ 的原始内参矩阵为
$K^{ori}_v=\begin{bmatrix}f_x&0&o_x&0\\ 0&f_y&o_y&0\\ 0&0&1&0\\ 0&0&0&1\end{bmatrix}$

则 $K^i_v$ 定义了相机坐标系到第 $i$ 个2D边界框的投影：
$K^i_v=\begin{bmatrix}f_xr_x&0&(o_x-x_{\min}^i)r_x&0\\ 0&f_yr_y&(o_y-y_{\min}^i)r_y&0\\ 0&0&1&0\\ 0&0&0&1\end{bmatrix}$

其中 $r_x=W^r/(x^i_{\max}-x^i_{\min})$ ， $r_y=H^r/(y^i_{\max}-y^i_{\min})$ 。

此处应该还需考虑原始图像下采样到特征图大小时的内参变化。

因此，查询的内容部分 $c_v^{img}$ 可计算为：
$c_v^{img}=MLP([Pool(Conv(o_v^{img}));Flat(K_v)])$

其中 $[\cdot;\cdot]$ 表示拼接，Flat表示将矩阵拉直为向量。

$c_v^{img}$ 也可视为外观特征 $o_v^{img}$ 与几何特征 $Flat(K_v)$ 的组合，其中等效相机内参包含了边界框信息。

位置部分则在预定义深度范围 $[d_{\min},d_{\max}]$ 内均匀采样深度集合 $d\in\mathbb R^{n_d}$ ，并预测2D采样位置 $s^{2d}\in\mathbb R^{M^{img}\times n_d\times 2}$ 和概率 $u^{img}\in\mathbb R^{M^{img}\times n_d}$ （省略下标 $v$ ）：
$[s^{2d};u^{logit}]=MLP(c^{img})\\ u^{img}=\text{softmax}(u^{logit})$

这样可根据2D采样位置 $s^{2d}$ 和深度 $d$ 反投影得到3D采样位置 $s^{img}$ 。

需要注意与LSS不同，本文并未将查询分散到3D空间中，而是将概率分布作为查询的一部分。

3. 融合模态信息

本文使用类似DETR解码器的结构融合模态信息并预测最终结果。解码器包含 $L$ 层，每层包括自注意力，交叉注意力，层归一化，FFN和查询校准。解码器输入为点云查询和图像查询的组合 $q^0=(q^{pc},q^{img})$ 。

3.1 自注意力

由于各模态的查询位置部分表达不同，本文将位置部分转化为一致的表达。

首先，使用位置编码（PE）方法和不确定性感知的位置编码（U-PE）分别建立点云和图像的位置编码：
$p^{pc}=PE(r^{pc})\\ p^{img}=\text{U-PE}(s^{img},u^{img})$

其中
$PE(r^{pc})=MLP(SinPos(r^{pc}))$

在U-PE中，首先将 $s^{img}$ 转化为基础位置编码 $p^{base}$ ，然后将概率 $u^{img}$ 通过门控操作加入 $p^{base}$ ：
$s^{base}=MLP(Flat(s^{img}))\\ \text{U-PE}(s^{img},u^{img})=MLP(s^{base}\odot\sigma(MLP(u^{img})))$

其中 $\sigma$ 为sigmoid函数。

给定多头注意力 $MHA(Q,K,V)$ ，自注意力可写为
$SelfAttn=MHA(W^Q(c^{sa}+p^{sa}),W^K(c^{sa}+p^{sa}),W^Vc^{sa})$

其中 $p^{sa}$ 为 $p^{pc}$ 和 $p^{img}$ 的组合； $c^{sa}$ 类似。上式可简写为
$SelfAttn=MHA(W^Qq^{sa},W^Kq^{sa},W^Vq^{sa})$

3.2 交叉注意力

尽管自注意力足够带来较好的性能，本文发现使用交叉注意力聚合模态特征能带来提升。
在这里插入图片描述
对于图像特征，使用基于投影的可变形注意力。首先获取每个查询的锚点，点云查询的锚点 $a^{pc}$ 即其位置 $r^{pc}$ ，而图像查询的锚点是采样位置 $s^{img}$ 与概率分布 $u^{img}$ 的加权求和：
$a^{img}=(u^{img})^T\cdot s^{img}$

基于投影的可变形注意力为
$DFA(c^m,a^m,F^{img})=\sum_{v=1}^{N^{img}}\sum_{k=1}^KA_{vk}\cdot WF_v^{img}(Proj(a^m+\Delta a_k))$

其中 $A_{vk}$ 为注意力权重， $\Delta a_k$ 为偏移量，二者均由内容部分 $c^m$ 预测； $K$ 为采样点数，Proj表示投影到图像上， $m$ 为模态（点云或图像）。

对于点云特征 $F^{pc}$ ，若提取的是BEV特征，则可类似进行可变形注意力操作。本文使用稀疏体素表达，因此使用原始的多头注意力聚合点云特征。 $F^{pc}$ 被柱体化压缩（沿高度均值池化），产生内容部分 $c^{pillar}$ 。位置编码通过BEV位置 $r^{pillar}$ 生成：
$p^{pillar}=MLP(SinPos(r^{pillar}))$

3.3 查询校准

由于模态特点，本文认为来自图像的查询可靠性较低，而来自点云的查询相对更准确。因此，本文在每个解码层之后校准图像查询，细化位置并减小不确定性。此步骤仅细化 $u^{img}$ ，而 $s_{img}$ 保持不变。

新的 $u^{img}$ 通过与旧的 $u^{img}$ 进行残差相加，在logit空间中细化：
$u^{logit}=\log(u^{img})\\ u^{img}\leftarrow\text{softmax}(u^{logit}+MLP(c^{img}))$

查询校准会相应影响 $p^{img}$ 和锚点 $a^{img}$ 。

3.4 模型输出

获取最后一层解码层输出的查询 $q^L$ 后，使用分类头和回归头，从内容特征 $c^L$ 和锚点 $a^L$ 预测分类分数 $z^{cls}$ 和回归结果 $z^{reg}$ ：
$z^{cls}=MLP(c^L)\\ z^{reg}=MLP(c^L)+[a^L;0]$

3.5 时间信息利用

本文使用基于查询的时间融合方法。保留历史查询队列 $q^{hist}\in\mathbb R^{(K\times T)\times C}$ ，其中每一历史帧选取分数最高的 $K$ 个，共 $T$ 帧。

历史查询队列会输入解码层中的自注意力。首先使用时间滞后 $t\in\mathbb R^{(K\times T)}$ 、自车姿态 $P\in\mathbb R^{(K\times T)\times 4\times 4}$ 和历史查询的速度 $v\in\mathbb R^{(K\times T)\times 2}$ 进行转化：
$q^{trans}=\phi(q^{hist}|t,P,v)$

其中 $\phi$ 为小的编码网络。转化后的查询 $q^{trans}$ 作为自注意力中额外的键与值：
$SelfAttn=MHA(W^Qq^{sa},W^K[q^{sa};q^{trans}],W^V[q^{sa};q^{trans}])$

4. 损失函数

包括各模态的检测损失（ $L_{det2D}$ , $L_{det3D}$ ）和融合检测损失 $L_{out}$ ；此外，在图像查询生成器中添加辅助监督以促进深度估计。

给定2D真实边界框 $b^{img}_v$ 和3D真实边界框在图像上的投影 $\hat b^{proj}_v$ ，计算其逐对IoU： $U_{i,j}=IoU(b^{img}_{v,i},\hat b^{proj}_{v,j})$ 。若满足（1） $U_{ij}=\max_kU_{ik}$ ；（2） $U_{ij}=\max_kU_{kj}$ ；（3） $U_{ij}>\tau_{IoU}$ ，则边界框 $\hat b^{proj}_{v,i}$ 被分配给目标 $\hat b^{proj}_{v,j}$ 。此时深度估计 $d_{v,i}^{img}$ 由目标深度 $\hat d_{v,j}^{proj}$ 监督，损失为
$L_{aux}=CELoss(d_{v,i}^{img},\hat d_{v,j}^{proj})$

其中CELoss为交叉熵损失。

消融研究中提到，可以在训练时以一定概率丢弃某模态以达到更高的融合性能和对模态丢失的鲁棒性。

全部评论 (0)

还没有任何评论哟~

【论文笔记】MV2DFusion: Leveraging Modality-Specific Object Semantics for Multi-Modal 3D Detection

原文链接：<https://arxiv.org/abs/2408.05945 简介：本文提出MV2DFusion，使用基于查询的融合机制。使用不确定性感知的图像查询生成器和点云查询生成器生成查询，并基...

BEVDistill：Cross-Modal BEV Distillation for Multi-View 3D Object Detection——论文笔记

参考代码：BEVDistill 1\.概述介绍：基于相机的BEV感知算法可以从周视图像中获取丰富语义信息，但是缺乏深度信息的，对此一些方法中通过深度估计的形式对这部分缺乏的深度信息进行补充，从而实现...

PointAugmenting: Cross-Modal Augmentation for 3D Object Detection论文笔记

3.PointAugmenting 采用CenterPoint作为仅限LiDAR的baseline,并通过跨模式融合机制和有效的数据增强方案对其进行扩展。整体思路大概是把每个点云数据透过相机内外参数投...

[论文笔记]Multi-View 3D Object Detection Network for Autonomous Driving

MultiView3DObjectDetectionNetworkforAutonomousDriving 本文提出一种多模态的3D目标检测，融合了视觉和雷达点云信息。和以往基于voxel的方法不同，...

【论文阅读笔记】Multi-Modal Learning With Missing Modality via Shared-Specific Feature Modelling

本文的核心思想是提出一种名为“共享-特定特征建模（ShaSpec）”的方法，用于处理多模态学习中的缺失模态问题。该方法在训练和评估期间利用所有可用的输入模态，通过**学习共享和特定的特征**来更好地表...

Robust Multi-Modality Multi-Object Tracking 论文笔记

RobustMultiModalityMultiObjectTracking论文笔记为什么要做多模态融合的MOT? Motivation Method 问题构造: 下面是详细介绍: 单模态的feat...

BEVSimDet：Simulated Multi-modal Distillation in Bird’s-Eye View for Multi-view 3D Object Detection

参考代码：BEVSimDet 1\.概述介绍：在模型实际部署过程中由于实际传感器缺失、计算资源限制等因素，导致对实际部署的模型裁剪，自然性能也会存在下降。

DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection总结

DeepFusion:LidarCameraDeepFusionforMultiModal3DObjectDetection 说明会议：CVPR2022 标题：DeepFusion：用于多模式3D对...

论文笔记-MSFM: Multi-scale Fusion Module for Object Detection

论文阅读计划的第15天一、研究背景目标检测要求检测器使用边界框定位图像中的对象，并为每个对象分配正确的类别。目标检测的关键挑战之一是协调解决两个子任务，即定位和分类。定位要求网络准确捕捉对象的位置...

《A Baseline for 3D Multi-Object Tracking》论文笔记

论文名称：《ABaselinefor3DMultiObjectTracking》（AB3DT）论文地址：<https://arxiv.org/pdf/1907.03961.pdf Github项目地...

是否确定退出登录?

【论文笔记】MV2DFusion: Leveraging Modality-Specific Object Semantics for Multi-Modal 3D Detection

1. 概述

2. 利用模态目标语义

2.1 来自模态专家的目标提案

2.2 从专家推导物体级语义

2.3 点云物体查询生成

2.4 图像物体查询生成

3. 融合模态信息

3.1 自注意力

3.2 交叉注意力

3.3 查询校准

3.4 模型输出

3.5 时间信息利用

4. 损失函数

全部评论 (0)

相关文章推荐

【论文笔记】MV2DFusion: Leveraging Modality-Specific Object Semantics for Multi-Modal 3D Detection

BEVDistill：Cross-Modal BEV Distillation for Multi-View 3D Object Detection——论文笔记

PointAugmenting: Cross-Modal Augmentation for 3D Object Detection论文笔记

[论文笔记]Multi-View 3D Object Detection Network for Autonomous Driving

【论文阅读笔记】Multi-Modal Learning With Missing Modality via Shared-Specific Feature Modelling

Robust Multi-Modality Multi-Object Tracking 论文笔记

BEVSimDet：Simulated Multi-modal Distillation in Bird’s-Eye View for Multi-view 3D Object Detection

DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection总结

论文笔记-MSFM: Multi-scale Fusion Module for Object Detection

《A Baseline for 3D Multi-Object Tracking》论文笔记