点云检测之LiRaFusion: Deep Adaptive LiDAR-Radar Fusion for 3D Object Detection
由密歇根大学于2024年在ICRA期刊上发表的一篇名为LiRaFusion的论文
论文地址:LiRaFusion
文章目录
- 
前言
 - 
一、Method
 - 
- Early Fusion
 - Middle Fusion
 
 - 
总结
 
前言
在3D检测系统中(原文段落1),由于Lidar探测对不断变化的天气和照明条件高度敏感(原文段落1),因此引入了成本低、具备较长探测距离及捕捉多普勒效应信息的雷达装置(原文段落1)。

一、Method
该方法的设计旨在对 Lidar 和 Radar 数据进行更加高效地特征提取与融合,并以此为基础完成特征提取任务。网络架构如图所示:

从对多点云数据的处理中提取每个体素的特征信息,并借助 PointPillar 模块对雷达回波数据进行特征提取。Middle Fusion模块中的门控网络能够根据输入数据自动调整并学习两个特征图之间的关联性。随后将这两个预处理后的特征图进行深度整合,并通过门控网络的学习机制生成一个新的综合特征表示。该过程为后续的任务推演提供了基础支持。
Early Fusion
为实现Lidar与Radar的有效融合,在Early Fusion框架中提取了每个体素单元的关键特征。该研究保留了LiDAR信号强度、雷达回波截面积(RCS)以及各分量的速度信息作为核心观测指标。研究者认为LiDAR信号强度与雷达回波截面积能够有效辅助物体分类任务的完成,并且这些特性对于区分静止或运动状态的对象具有重要意义。同时,速度分量不仅有助于区分静止与运动物体,在预测运动物体的速度变化及其旋转姿态方面也具有重要意义。
we maintain these features because LiDAR intensity and radar cross-section (RCS) measurements aid in object classification, while velocity data serves crucially in distinguishing static from dynamic objects as well as projecting their velocities and rotational movements.
对于 Lidar 点保留了点的强度和 captured time offset (∆t_l),对于 Radar 点则保留了RCS和补偿速度 (V_{x_{comp}} 、 V_{y_{comp}} ) 和时间偏移 (Δt_r)。由于两种模态对应的维度不同,则采取零填充的方法来对齐二者之间的维度,用于后续的特征融合。
将堆叠之后的 Lidar 和 Radar 点云进行体素化。通过 VoxelNet Encoder 提取每个体素单元的特征。本文保持了输出的维度和输入的维度相同。前三个维度表示了该单元内的质心坐标(体素单元内所有点的平均位置),接下来两个维度表示 Lidar 的特征(对所有的 Lidar 点求平均),最后四个维度对应着 Radar 的特征,(将 Radar 特征的平均值送入到一个 4 × 4 的线性层,使得网络学习处理 Radar 的方法,由于 Radar 具有稀疏性,只针对非空体素进行处理,对于空体素将最后四个维度保留为0)。在获得体素特征之后,通过稀疏卷积、VoxelNet 进行进一步处理。网络具体架构如图所示:

Middle Fusion
然而,在 Early Fusion 阶段已经实现了 Lidar 和 Radar 数据的有效融合后  ,鉴于 Radar 数据采样率较低导致体素编码特性中大部分信息仍源自 Lidar ,本文提出采用 Middle Fusion 方案进一步结合 Radar 信息 。
通过引入门控网络以自适应地调整各通道的空间权重 。此前该权重仅呈现为 B×1×H×W 格式 ,即假设所有位置均采用相同的空间权重 ,未能充分考虑不同通道间的差异性 。本研究将其优化为 B×C×H×W 格式 ,其中 C 表示多维空间通道数量 。
分别作为 LiDAR 和 Radar 模式的特征输入单元,在通道维度上展开连接 。随后经过一个卷积操作生成新的特征表示 。最终获得的融合特征图尺寸与原始输入保持一致 。

总结
这篇论文探讨了一种创新性方法用于从 Lidar 和 Radar 网络中提取特征,并利用门控网络动态调节不同模态特征的权重以实现有效整合的技术架构。
本文是自己对论文的理解,如有不同见解,欢迎讨论、指正。
