【自动驾驶】《BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird’s-Eye View Representation》论文阅读笔记
论文地址:[https://arxiv.org/pdf/2205.13542.pdf

https://arxiv.org/pdf/2205.13542.pdf](https://arxiv.org/pdf/2205.13542.pdf "https://arxiv.org/pdf/2205.13542.pdf")
代码地址:GitHub - mit-han-lab/bevfusion

GitHub - MIT-HAN-LAB/bevfusion:\ \ \ \ \ \ \ \ \ \ \ \ $$BEVFusion:\$ multi-task, multi-sensor fusion with a unified bird's-eye view representation.
1.摘要
多传感器融合在实现自动驾驶系统的高精度和稳定性中扮演着关键角色。近期的研究主要通过点级融合的方法来提升LiDAR性能:通过将相机捕捉到的三维信息与LiDAR提供的高密度二维数据相结合来增强其效果。然而,在将相机数据转换为激光雷达信号的过程中存在信息丢失的问题:这种丢失尤其影响了针对语义理解的任务(如三维场景分割)的效果。
在本文中采用
2.介绍
在自动驾驶场景中通常配备多种先进的传感器系统。例如像谷歌Waymo等公司采用了许多先进的技术设备,在当前的测试阶段已经展示了其技术实力。这些设备包括采用了26台摄像头、6台雷达和5台激光雷达。这些摄像头能够捕获大量语义数据;而激光雷达则能提供精确的空间位置信息;此外雷达则能实时监测车辆的瞬时速度。
相机信息主要集中在可视平面这一区域中,而LiDAR信息则分布在三维空间中。由于存在显著的差异性, 因此作者希望将这两种信息整合到同一个平面上进行处理。

图a,这种LiDAR-to-camera的投影引入了 严重的几何失真。
图b,只有5%的相机特征会被匹配到LiDAR点上,而其他的都会被放弃。
在图c中开发了一种名为BEVFusion的技术,在同一个综合视图中整合多种模态特征(BEV),不仅保留了良好的几何结构与丰富的语义信息,并且能够广泛应用于多种3D感知场景。

BEVFusion在精度方面显著超越了单独使用 camera 或者 LiDARs 的方案,在计算开销上显著降低的同时,运行效率得到了显著提升。
3.相关工作
该系统通过LiDAR技术实现的三维感知信息、相机获取端实现的三维感知信息以及多种传感器数据的有效整合,并结合多任务学习机制进行优化
4.本文方法

该系统支持多种传感器的输入接口,在数据处理流程中首先利用编码器模块提取各传感器输出的特征向量,并将这些特征向量映射到基于视平图(BEV)的空间中进行处理;随后通过贝叶斯估计视觉(BEV)编码器进一步整合所有贝叶斯估计视觉(BEV)特征完成数据融合工作
4.1 统一的表征
确定一种统一的表征方法至关重要,在本研究中我们选择贝叶斯估计量作为融合框架的核心表征方案。该方法具有两个显著的优势:(1) 容易将来自不同传感器的数据轻松整合到该表征中,并保证数据转换过程中的完整性;(2) 其表征形式能够有效适应多种不同任务需求。
4.2 camera-to-BEV的高效转换

估计图像中每个像素的离散深度分布,并在相机光线方向上将各特征像素分散至D个离散位置。随后,在相机光线方向上将各特征像素分散至D个离散位置,并根据其对应深度概率对相关特征进行重新分配。最终生成的三维 camera 特征点云大小为 NHWD(N为相机数量)。

通过BEV pooling所有的特征被拉平了。结合预计算技术和区间缩减方法提升BEV pooling的计算效率。
我们提前计算了每个点的三维位置信息以及对应的BEV(Bird's Eye View)网格索引值。随后按照预设的网格索引对所有点进行排序,并为每个点赋予相应的优先级。在推理阶段,我们通过已知的优先级对所有特征点重新排列。这种优化策略使得在推理过程中无需额外开销即可实现网格关联关系的有效管理,并且显著提升了系统性能表现。具体而言,在推理阶段我们成功将17ms的时间消耗降到了4ms的关键性优化。
Interval Reduction:通过提升特征聚合的速度,我们开发了一个专用的GPU内核,在BEV网格上实现了高效的并行计算:为每个网格分配一个独立的GPU线程,并对其区间进行求和后立即写入结果。这种设计去除了数据间的依赖关系(无需多级树结构的数据缩减),从而优化了存储操作,并将特征聚合过程的时间复杂度从500ms缩短至2ms。
4.3 全卷积融合
A convolutional BEV encoder (equipped with a few residual blocks) is designed to address these local misalignment issues.
通过基于卷积的BEV编码器,来补偿camera与LiDAR BEV空间不匹配。
4.4 多任务HEAD
为了适应不同的感知任务,BEV feature map可以接多种任务的HEAD。
检测:a class-specific center heatmap head
采用多标签 semantic segmentation技术对各类别分别对应的技术进行优化
5.实验
BEV 3D检测任务:

该页面提供了一种基于对象检测的方法来分析和理解复杂的交通场景。通过设置外部数据、地图数据以及多模态数据均为"all"(即全部),您可以全面获取关于场景的信息和分析结果。
您可以在此页面上访问相关资源并下载完整的报告。



6.分析
消融实验,具体看论文吧。

7.结论
(1)BEVFusion统一camera与LiDAR到BEV空间;
(2)并且能够适用于一些其他的3D感知任务的接入;
(3)进行了40x的加速优化,能够更容易的部署到实际生产环境。
