【论文笔记】BiCo-Fusion: Bidirectional Complementary LiDAR-Camera Fusion for Semantic- and Spatial-Aware 3
BiCo-Fusion represents a two-way complementary fusion approach between LiDAR and camera data, specifically engineered for enhancing semantic and spatial understanding in 3D object detection tasks.
简介:现有的激光雷达-摄像头融合方法或忽视了激光雷达特性的稀疏性问题或因存在模态间隙而无法完整保留激光雷达原始的空间结构信息以及摄像头特征的语义密度。针对这些局限性本研究提出了一种基于双向互补机制的融合网络框架BiCo-Fusion 该方法能够实现鲁棒的人工智能辅助3D目标检测系统本文创新性地引入了预融合增强机制通过体素增强模块(VEM)与图像增强模块(IEM)实现了域间差异的有效降低其中体素增强模块(VEM)主要负责利用图像特征求升激光雷达数据的语义表达能力而图像增强模块(IEM)则通过三维体素特征求升图像的空间信息表达能力两者的协同工作不仅显著降低了域间差异还通过自适应加权策略实现了跨模态特征的有效融合从而构建了一个更加完善的统一3D表征体系。
1. 概述

首先通过编码器提取各模态特征。 激光雷达点云和图像分别采用VoxelNet和Swin Transformer用于编码器任务。
随后,在激光雷达体素特征F_L与摄像头特征F_C的基础上展开相互作用与整合过程。在预处理环节中分别采用VEM算法与IEM方法来提升激光雷达信息的空间信息处理能力以及摄像头信息的空间信息提取效果,在后续步骤中将经由上述两种方法处理后的空间信息量较高的图像特征F_{SpC}经过自适应优化后进行结合,并将其结果与经过语义分析优化后的激光雷达特征F_{SeL}进行高效整合以达成最终目标
在此时,在完成体素融合后对高度信息进行提取并生成BEV特征图
2. 预融合
预融合包含VEM和IEM两个模块,以双向互补的方式增强两模态的特征。
A. 体素增强模块

因为激光雷达生成的点云数据缺乏语义信息
通过线性变换和激活函数进行 learnable fusions, 生成语义感知体素特征 F_{SeL}:
F_{SeL} = \text{ReLU}\left(\text{Linear}(F_{\text{weighted}})\right) + F_L \tag{2}
B. 图像增强模块

鉴于图像缺乏三维空间信息,在本研究中我们提出了一种名为IEM的方法。首先将点云投影至图像平面以生成稀疏深度图D_{sparse};随后通过深度补全技术与特征提取模块相结合生成密集深度图D_{dense}\in\mathbb R^{H\times W\times C_{depth}};最后将密集深度图与包含二维特征的图像融合,并通过卷积操作整合空间感知特征F_C\times\mathbb R^{H\times W\times C_{2D}}以获得空间感知图像特征F_{SpC}:
F_{SpC}=\text{Conv}(\text{Concat}(F_C,D_{dense})) \tag{3}
这样,后续统一融合中能更精确地将图像特征提升到3D空间。
3. 统一融合
将图像特征提升为3D体素后,得到\hat F_{SpC}。
给定提升型激光雷达特征F_{SeL}\in\mathbb R^{X\times Y\times Z\times C_{3D}}以及三维图像特征F_{SpC}\in\mathbb R^{X\times Y\times Z\times C_{2D}}的基础上,在本文中我们采用了自适应加权策略来进行统一融合操作以获得融合后的体素特征表示F_f:
首先通过连续应用三维卷积操作将各输入空间特征进行深度聚合与增强;随后我们利用σ函数作为权重生成器来计算出最优权重参数α;最后通过线性插值的方式将原始激光雷达特征与估计三维空间信息相结合从而得到最终的体素级目标表征
其中\sigma为Sigmoid函数。
统一融合将导致显著的性能提升。这是因为(1)通过减少域间隙使用VEM技术;(2)体素融合填补了空隙区域,并从而弥补了激光雷达在测距精度方面的不足。
实施细节为:在训练过程中,在第一步中先对单模态激光雷达进行特定参数的优化,在随后一步中引入图像分支微调算法,并采用CBGS方案进行模型优化
