毫米波雷达与视觉融合综述
原文地址:https://arxiv.org/pdf/2108.03004.pdf
一、背景介绍
自动驾驶系统的目标检测面临的主要挑战在于(1)其感知范围内存在多样化的障碍体形状及尺寸比例。
(2)障碍物之间可能存在不同程度的遮挡
(3)由于暴雨、大雪和大雾等极端天气,障碍物的外观可能会模糊
毫米波雷达的优缺点:优点:(1)检测性能受极端天气的影响较小
除了测量距离之外, 还可以通过运动物体反射信号所产生 的多普勒效应来测定速度矢量
缺点:(1)无法提供目标的轮廓信息
(2)难以区分相对静止的目标
毫米波雷达与视觉融合过程:传感器选择、传感器标定和传感器融合
需要解决以下挑战:(1)同一时间和空间的标定校准;
(2)融合不同传感器的数据以实现最优性能的目标检测;

二、检测任务
二维目标探测技术主要通过在车辆视觉图像中利用二维框(2D box)来识别并提取出潜在的障碍物体,并对这些物体进行分类与初步确定位置。需要注意的是,在上述过程中涉及的位置确定属于图像空间内的绝对定位,并非基于真实世界的相对位置关系。
3D目标检测:通过3D bounding boxes定位并识别物体,在图像平面上定位物体中心位置的同时,在三维空间中准确估计物体的姿态及其所在的位置坐标。
三、评价标准
精度(AP)、召回率(Recall)、平均精度(mAP)
通过将召回值和精度值分别设置为水平轴和垂直轴的操作即可绘制出精度召回(PR)曲线;平均精度(mAP)则衡量了检测模型的整体表现能力,并即通过计算所有类别中每个类别的平均AP值得到。
以KITTI数据集为例,在2D目标检测中,通过比较检测边界框与ground truth边界框之间的IoU值是否高于设定阈值来判断目标定位的准确性;而在3D目标检测方面,则对车辆设定较高的标准要求其预测的三维 bounding box与真实三维 bounding box需达到或超过70%的空间重叠率;而行人与自行车则规定其预测的三维 bounding box与真实三维 bounding box需达到50%及以上的重叠率。
四、相关数据集
相关数据集列表包括:Apolloscape、KITTI、Cityscapes、Waymo Open Dataset、nuScenes等。

表1.自动驾驶数据集
(‘Y’标识该数据集中存在此传感器信息,‘N’标识该数据集中不存在此传感器信息)
(1)Apolloscape
该系统采用Reigl激光雷达收集点云数据,并生成具有更高精度和密集度的三维点云图象
(2)KITTI
KITTI数据集目前已成为自动驾驶领域中被广泛采用的数据集之一。每个序列的数据集中包含原始图像信息、精确的三维坐标标注以及各类别标签。主要涵盖汽车类、面包车类、卡车类等
(3)Cityscapes
该数据集专注于语义理解的城市街道场景,在全球不同城市中拥有丰富的训练样本库(总计约6千余幅)。其中训练集包含约3千幅真实拍摄的城市驾驶场景图件(Training Set),验证集约有6百多幅(Validation Set),测试集则有1千余幅(Test Set)。此外还有数百张粗略标注样本作为补充资源。
(4)Waymo Open Dataset
其由Waymo自动驾驶汽车在不同环境条件下的标定数据集合构成,这些数据涵盖覆盖25个城市总计约1亿英里的自动驾驶行驶里程.其中包含了激光雷达生成的点云数据以及视觉摄像头捕捉到的图像.这些主体与其相关标志均经过细致标注,该团队成功完成了超过1.2亿条三维空间中的物体标注任务,并达成了约120万张二维图像的标注目标.
(5)nuScenes
nuScenes数据集是全球规模最大的自动驾驶相关数据集合,在该领域具有独特地位。作为首个实现全自动化车辆感知系统的基础数据库集合,它不仅包含了来自摄像头和激光雷达的数据,并且还特意包括了用于实时环境感知的雷达探测器数据。值得注意的是,在当前技术条件下,目前尚无其他集合能够实现这一点
(Nuscenes数据集提供的数据已通过帧同步处理,因此不需要时间同步。)
五、传感器部署
采用毫米波雷达与视觉融合的多模态感知方案作为当前自主驾驶领域障碍物检测的主要研究方向,其主要原因在于该技术组合能够实现精准的环境感知.

表2.部分厂商的自动驾驶传感器解决方案
激光雷达、毫米波雷达、摄像机三类传感器性能对比:

表3.毫米波雷达、激光雷达、摄像机的对比。“1”-“6”表示从“极低”到“极高”的级别。
毫米波雷达的优点:(1)自身:远距离探测、低成本和动态目标可探测性
(2)与激光雷达相比:具有良好的应对恶劣天气的能力,在价格上更为低廉的同时覆盖范围也更为广泛(毫米波雷达能够探测到250米范围内所有的障碍物;相比之下激光雷达仅能测距150米;该系统还利用多普勒效应测定目标车辆相对于测距仪的速度变化其分辨率达到每秒0.1米)
激光雷达的优点:
激光雷达相较于毫米波雷达而言,在角度分辨率和检测精度上具有相对较高的性能表现。此外,在实际应用中,则会体现出其独特的优势特征
激光雷达的测量包含语义信息,而毫米波雷达缺乏这一点;
无法从毫米波雷达测量中完全滤除杂波,导致雷达信号处理中出现错误。
由于雷达设备在色彩辨识方面存在局限性,在目标识别方面表现欠佳;该设备在色彩识别和分类识别方面均表现出色,并且其成像清晰度与激光雷达相当甚至更高
图像处理主要由车载芯片的计算能力支撑,在此过程中无需依赖毫米波雷达的数据辅助。通过有效利用雷达感应数据能够显著减少计算资源的需求。
六、传感器标定
(1)为什么需要标定?
各传感器在空间布局及采样频率上存在差异;对于同一目标而言,不同传感器获取的信息可能存在不一致的情况。毫米波雷达返回的数据表现为独立的雷达点(radar point),而摄像头捕获的是视觉图像(image)数据。每个雷达点中的RGB值是通过横向速度、纵向速度以及距离这三个物理量进行计算得到的;其颜色特征反映了对应物体所具有的物理特性
传感器校准包括坐标标定、雷达点滤波、和误差校准。
(2)坐标系标定
目的:将雷达点与图像中的目标进行匹配
该方法属于一种创新性的技术方案,在雷达与视觉数据融合领域具有重要应用价值。其核心思想是通过矩阵运算将同一坐标系下的雷达信息和视觉信息整合为统一的整体,并在此基础上建立相应的数据处理模型。具体而言,则包括以下几种实现途径:

基于毫米波雷达与视觉传感器的位置坐标信息,并利用坐标转换手段完成空间校准工作;为了解决不同采样率传感器导致的时间一致性问题,在图像帧采集与毫米波雷达数据处理之间建立线程同步机制以实现同时采集。

该系统采用了基于伪逆运算的点对齐方法。通过最小二乘法计算得到坐标变换矩阵。

在无需专用工具及雷达回波特性的前提下,在不考虑真实坐标投射至雷达探测图的情况下,从而降低了校准误差的影响程度。
传感器验证方法:通过同一个体上多种传感器的互相校准来实现对各个传感器的检测数据进行统一校准和处理。具体来说,这种方法包括以下步骤:首先对每个传感器进行单独测试以获取基准数据;然后将这些基准数据与其他传感器的数据进行对比和分析;最后根据分析结果对各传感器进行相应的调整和优化。

首先通过雷达生成目标列表,然后通过视觉信息对列表进行验证。

基于radar坐标系进行转换后,在后续步骤中首先对图像进行初步扫描,并将其与雷达数据对比分析。通过对比分析的结果将被检测的目标分为两类:符合预期的目标以及不符合预期的目标。

Streubel等人开发了一种时空整合技术,在相同的时隙范围内实现对雷达与视觉系统同一时间段内检测到的目标的同步识别
③基于视觉的方法:具体方法有:

使用运动立体技术实现雷达目标和图像目标的匹配。

黄 et al. 采用了自适应背景减法方法来进行运动目标的识别,并在此基础上生成了相应的候选区域范围;随后通过检测被识别的目标是否存在来确认其雷达特征点是否落入提取出的候选区域内
(3)雷达点滤波
目的:滤除噪声和无用的检测结果,以避免这些雷达点造成的误判。
本节介绍一种基于帧内聚类与帧间跟踪信息的去噪与目标检测方法。
利用毫米波雷达测得的速度与角度数据对被测点实施去噪处理。随后再次去除那些无效的数据点,以减弱树木、桥梁等静态物体对毫米波雷达测量结果的干扰
(4)误差校准
在[50]中提出了基于交互式微调的方案,并对视觉图像中的雷达点进行了最终校正。
[51]中的作者开发了一种优化的扩展卡尔曼滤波(EKF)算法,并将其用于对多种传感器的测量噪声进行建模。
在文献[49]中,探讨了不同坐标系对目标检测效果的影响,并提出了新的半积分笛卡尔坐标表示方法,在此方法下实现了将所有检测到的信息转换为与宿主车辆同步运动的坐标系.
通常情况下,在使用开源数据集时无需进行误差校准。然而,在数据集为自建的情况下,则需要实施雷达处理与错误修正作为必要的技术环节。
七、基于传感器融合的检测任务
毫米波雷达和视觉融合:分为三个层次,包括数据层、决策层和特征层。
表4.三个融合水平的总结 | 融合水平| 优势| 缺点 |
| --- | --- | --- |
|---|---|---|
| 决策级 | 充分利用传感器信息 | 传感器的联合概率密度函数建模是难点 |
| 特征级 | 充分利用特征信息,实现最佳检测性能 | 计算复杂,雷达信息转换的开销大 |
(1)数据级融合
定义为毫米波雷达与摄像头采集的数据进行融合,并且这种融合方式能够保证最少的数据丢失和最佳的可靠性
过程:首先基于雷达点生成感兴趣区域(ROI)。随后根据ROI被用于提取视觉图像的对应区域。最后通过特征提取器与分类器对这些图像执行目标检测。如图4所示。

图4.数据级融合

ROI 生成过程:在对比传统纯图像处理方法的基础上 ,数据级融合方案通过引入雷达采样点 来实现 ROI 的提取 ,这种方法较之传统方法能显著提升 ROI 生成效率 。此外 ,初始 ROI 的规模直接取决于障碍物与毫米波雷达之间的相对距离

目标检测涵盖图像预处理、特征提取以及对象分类这三个核心环节。考虑到图像中目标位置及尺寸的不确定性特点,在基于视觉的目标检测中通常依赖于滑动窗口法与多尺度分析技术相结合的方式进行操作, 这种做法会产生大量候选框, 从而导致整体检测效率较低的问题出现。而毫米波雷达与视觉信息融合的技术方案则无需依赖滑动窗口方法, 可以有效降低计算开销, 同时显著提升了检测效能
表5.数据级融合总结 | | 参考| 贡献 |
| --- | --- | --- | |
|---|---|---|---|
| [45] | 提出了距离决定ROI初始大小的理论 | ||
| [54] | 将ROI应用于超车检测 | ||
| 目标检测 | 图像预处理 | [56] [45] [61] | 采用直方图均衡化、灰度方差化和对比度归一化对图像进行预处理 |
| [53] [61] [57] | 以雷达点为参考中心的图像分割预处理 | ||
| 特征提取 | [58] [63] [84] [57] [55] [59] | 利用对称性和阴影等特征提取车辆轮廓 | |
| [64] [56] | 采用Haar-like模型进行特征提取 | ||
| 对象分类 | [56] | Adaboost目标分类算法 | |
| [60] [47] | 用于对象分类的SVM | ||
| [62] [61] | 基于神经网络的目标分类器 |
优缺点:在数据级融合过程中,有效雷达点的数量直接关系到最终检测结果的质量表现。当图像某一区域缺乏雷达探测到的数据时,则可能导致对该区域信息的完全无法被探测。该方案通过缩减目标检测的空间范围从而降低了计算负担的同时也留下了潜在的安全隐患风险。
(2)决策级融合
①定义:决策级融合涉及毫米波传感器与视觉传感器数据结果的整合工作。在纵向测距方面具有显著优势的毫米波传感器与具备广视域特性的视觉传感器之间存在互补性特征。通过构建决策级融合系统能够有效整合这两类感知设备的优点并充分挖掘传感信息的价值。
②具体流程:决策级融合主要包含两个步骤:传感器数据处理与综合判断的结合。具体流程如表格所示:
表6.决策级融合总结 | | | 参考| 贡献 |
| --- | --- | --- | --- |
|---|---|---|---|
| 图像目标检测 | [66] | 使用特征提取与分类器相结合的行人检测 | |
| [67] | 基于MeanShift算法的深度图像目标检测 | ||
| [68] | [67]的升级版本,使用MaskRCNN进行目标检测 | ||
| [69] [70] [71] | 利用单级目标检测算法YOLO进行雷达视觉融合目标检测任务 | ||
| 决策融合 | 基于贝叶斯理论 | [72] | 提出贝叶斯规划方法,通过概率推理解决多传感器数据融合问题 |
| [73] | 为了方便新传感器的加入,提出了一种基于贝叶斯网络的动态融合方法 | ||
| 基于卡尔曼滤波 | [74] | 提出了一种基于EKF框架的决策级融合滤波器 | |
| [75] | 所提出的融合方法可以在三维空间和二维平面上同时跟踪目标 | ||
| [76] | 证明了集中和分散信息融合方案的功能等价性 | ||
| 基于Dempster Shafer理论 | [66] | 提出了一种基于Dempster Shafer的决策级传感器融合方法 | |
| 基于Radar验证 | [77] | 使用雷达检测结果来验证视觉效果 | |
| [78] | 利用雷达信息实时修正车辆位置信息,实现目标跟踪 |

传感信息处理领域:传感信息处理涵盖雷达信号与视觉图像数据两大类。具体而言,在雷达探测中得到的结果会形成一个物体清单,并记录其速度、距离等参数;在视觉数据处理中,则通过对图像应用目标检测算法来实现二维位置确定。

决策融合:通过整合不同传感器的探测数据进行决策级融合;主要采用贝叶斯理论、卡尔曼滤波框架以及Dempster-Shafer方法对多源信息进行最优估计与推断;此外,在一些文献中使用雷达探测目标列表作为视觉检测结果的验证依据;参考文献[84]还提出了一种运动立体算法以进一步优化并精确最终检测结果

基于贝叶斯理论的融合方法
参考文献[72]引入了一种贝叶斯理论为基础的解决方案,该解决方案通过概率推理方法解决了多传感器数据融合的问题,被称为贝叶斯规划方案。随着新增传感器的应用,传统的多传感器融合算法在这种情况下不再适用。在[73]中实现了模块化设计并扩展了传统方法,并提出了基于贝叶斯网络的动态融合方案以提升可重用性。

基于卡尔曼滤波的融合方法
基于李群构建的有效框架中提出了一个采用特殊的欧几里得群的数据融合滤波器

基于Dempster-Shafer理论的融合方法
[66]开发了一种基于Dempster-Shafer理论的决策级融合方法,并将其应用于多传感器数据处理系统。该系统通过将来自多个传感器的数据列表作为输入源,并将其中一个网格用于临时证据存储,在当前证据网格的基础上进行信息整合与更新。随后通过聚类分析,在证据网格中识别出目标对象并完成分类任务。

基于雷达验证的融合方法
[77]首先将基于视觉检测与雷达检测生成的目标列表进行重叠处理,从而得到唯一且精确的车辆目标列表.随后,利用雷达数据对视觉检测结果进行验证.当 radar 数据中存在与视觉检测结果匹配的目标时,则蓝色框将被标记为强假设;否则,在没有匹配目标的情况下(即未发现任何目标),则会标记一个弱假设.参考文献[78]中提出了一种多目标跟踪算法(MTT),该算法通过评估各 radar 散射中心的跟踪分数来进行实时校正.最后,利用立体视觉信息来拟合并确定目标车辆的形状特征,并根据匹配到的目标车辆进行位置校准.
③困难:基于决策级的融合滤波算法面临的挑战是建立模型来描述两种检测信息的联合概率密度分布函数。
(3)特征级融合
定义:特征级融合涉及提取雷达特有的数据并将其与其他视觉数据进行整合;通过将雷达探测所得的数据转换为可视觉化的形式与其他视觉数据协同作用;从而实现两者的深度结合
②过程:特征级融合过程如下图所示:

表7.特征级融合总结 | | 参考| 技术特性 |
| --- | --- | --- |
|---|---|---|
| [80] | 提出了一种类似于YOLO结构的融合框架RVNet | |
| [81] | 提出了在VGG骨干网和RetinaNet基础上构建的CRF-Net,并对雷达输入分支进行了扩展 | |
| [82] | 基于FCOS检测框架和嵌入式SAF模块加入雷达分支 | |
| 雷达特征提取 | [83] | 提出了一种能够生成环境图像的CMGGAN网络 |
| [80] [82] | 采用一种新的雷达特征描述方法——雷达稀疏图像,将被探测目标以雷达点的形式表现出来 | |
| [81] | 对雷达稀疏图像中的雷达点进行垂直拉伸,补充高度信息 | |
| 特征融合 | [79] [80] [81] | 采用了拼接和逐元素相加的融合方法 |
| [82] | 提出了一种利用注意机制的特征融合块——空间注意融合 |
基于特征级融合技术框架[79]至[83]的研究表明,在补充性的雷达输入分支下构建目标检测网络是一种有效的实现途径。

为了实现对雷达数据的转换目的, 由于无法直接将雷达数据与图像数据整合, 雷达特征提取主要采用将 radar 点转换至图像平面生成 radar 图像的方法. 经过多通道处理后得到的 radar 图像包含了探测到的所有环境参数.
参考文献[83]报道了一种新型的条件多生成器生成对抗网络模型(CMGGAN),该模型基于雷达传感器采集的数据进行处理并生成与相机图像相似的画面内容;其中系统能够完整地包含雷达传感器探测的所有环境特征信息
该系统开发了一种新型的雷达特征描述方案称为基于稀疏表示的雷达特征编码器该编码器包含了关于雷达回波点速度与深度信息的关键特征其设计实现了对动态目标场景中复杂回波信号的有效建模从而提升了目标识别与跟踪性能
在文献[82]中
具体说明
在[81]的研究中发现,在常规雷达检测结果中缺乏足够的高度分辨率信息这一限制因素下,Nobis等研究者采取了一种创新的解决方案:他们将原始雷达信号在垂直方向上进行投影放大处理,并将其与图像处理框架进行深度整合。这种处理方式不仅保留了原始雷达信号的关键特征信息(如空间分布、反射强度等),还能有效提升整体感知效果。随后,在这一改进基础上,进一步设计了一种基于地面真实场景的去噪滤波器,在保持高精度的同时显著提升了系统的抗干扰能力。

在特征融合方面的主要方法分为两种类型:级联与逐元素求和。前者则是通过拼接雷达特性和图像特性形成一个多通道的特征空间;而后者则是直接将这两个输入的二维数组进行组合运算得到一个统一的结果。
79
在文献[82]中提出了一种称为空间注意融合模块(SAF)的新结构用于传感器特征的整合。通过 SAF模块生成注意力权重矩阵以便整合雷达信号与视觉信息。对比分析了逐元素加法、乘法以及级联连接这三种操作方案实验结果表明 SAF结构表现出最佳性能水平并且在 Faster R-CNN框架下进行泛化能力测试 SAFe模型显著提升了检测性能
八、挑战和未来趋势
(1)挑战
在目标检测领域内已取得显著的技术水平,在实际应用中仍主要局限于二维平面目标识别技术。然而,在复杂的自动驾驶场景下,则需要依赖三维空间中的对象感知才能获得更为精确的环境信息反馈。就目前而言,在处理复杂交通场景下(complex traffic scenarios)的实际应用效果尚不理想(inefficient),现有三维技术仍显不足(deficiency)。因此可以说:提升三维目标识别精度既是自动驾驶领域的关键挑战也是整个目标识别技术体系中的重要课题(key challenge)
毫米波雷达与视觉数据的有效融合仍面临诸多挑战,这是本文的核心问题。其主要缺陷在于特征分布过于稀疏,相较于视觉图像而言,毫米波雷达所获取的信息量极为有限,从而导致性能提升受限。此外,关于毫米波雷达与视觉系统是否存在可进一步整合的可能性,以及它们之间的相关互信息是否已经充分挖掘,目前仍需深入探讨。由此可见,基于毫米波雷达与视觉结合的技术依然面临着两大关键难题:一是如何有效处理稀疏感知信息,二是如何实现更高效的融合机制;这些同样构成了多传感器协同工作的两大难题!
(2)未来趋势
学者指出存在三大关键方向:其中一项是三维物体识别技术:在这一领域的发展方向在于提升三维目标检测精度;另外两项研究方向均围绕雷达与视觉数据融合展开;具体而言包括引入更多类型的传感器设备以整合各类新型传感器;同时研究者们也在探索新型数据融合方法以优化自动驾驶系统中的感知能力
基于多传感器融合的三维目标检测还在现有视觉感知网络的基础上引入了雷达数据处理模块以及信息整合组件。研究[91]借鉴了特征级别数据融合的方法框架。首先,在二维检测阶段将雷达探测到的点转化为矩形区域进行定位。得益于激光雷达提供的高精度空间信息。针对这一技术特点的研究工作相对集中于三维物体重建与定位领域
随着激光雷达成本的下降,具备激光雷达功能的自动驾驶车辆已逐渐成为行业关注的重点之一.然而,激光雷达并非完全替代毫米波雷达,因为后者具有独特的优势.就探测精度而言,激光雷达表现更为出色.从功能特性来看,二者虽有所区别但却相互补充,其结合应用已在自动驾驶领域展现出显著价值.无论是基于哪种传感器平台进行感知,在特定模式下所获取的信息本质上是相同的环境表征.将传感器信号与视觉感知相结合的方式可视为一种多模态信号融合的技术路线.值得注意的是,即便采用多模态融合方法,原始传感器信号与视觉图像所承载的信息依然存在本质差异.从这个意义上讲,'将两种不同的传感模式进行有效结合'或许能带来更好的解决方案.此外,就自动驾驶系统而言,使用的训练数据集中的毫米波雷达数据属于后续处理阶段的数据.但从信息安全的角度出发,这类后处理数据中所包含的有效信息量必须严格低于原始观测数据量;如果能够实现原始传感器检测结果与视觉图像的有效融合,则可能进一步提升系统的感知能力.多模态信号融合面临的主要挑战在于如何实现不同类型信号的有效整合以及如何充分挖掘各传感器之间存在的关联性以促进对同一场景的理解与解析.
