毫米波雷达:感知算法(二)
1. 前言
本专栏的第一篇推文详细阐述了毫米波雷达技术的数据处理流程,并以点云和DataCube为基础探讨了感知算法。
基于毫米波雷达的感知算法研究
近年来, 随着深度学习技术在自动驾驶领域的广泛应用, 其在毫米波雷达感知中的作用愈发显著。主要关注点在于探索如何借助底层数据(如DateCube)构建完整的毫米波雷达感知系统。在此基础上, 该文章进一步归纳总结并深入探讨了当前深度学习技术在毫米波雷达感知领域的最新应用和发展趋势。
毫米波雷达的数据形式主要包含两种类型:具体包括点云数据和基础层数据。由此可见,在本文中还是基于此来对不同的感知手段进行分类。
2. 基于点云的方法
点云是毫米波雷达主要采用的数据表示形式。尽管其数据密度较低(例如每帧仅包含64个数据点),所能获取的信息内容相对有限;然而这正是其在处理过程中所需的计算资源较为有限的重要原因,在低算力系统中具有良好的适用性。
在实际应用中广泛使用的两种主要方式:第一种是直接采用原始点数据进行分析;第二种则是将原始的点云数据转化为网格形式进行处理。这种方法与激光雷达生成的点云处理方法具有相似性。从技术特性来看,尽管点云作为一种离散的数据形式存在一定的局限性;尤其是在面对现有的主流卷积神经网络架构时显得不够理想。因此,在实际应用中希望能够利用成熟的卷积神经网络架构来进行处理工作变得尤为重要。为了实现这一目标;研究者们通常会将复杂的三维信息转化成二维或一维的形式以便模型进行有效的学习和理解。然而;这也并非唯一的选择路径;另外一些研究者则开发了如PointNet、GraphNN等特殊类型的神经网络来直接处理点云数据。
Radar-PointGNN: A Graph-Based Approach to Object Recognition in Unorganized Radar Point-Cloud Data (2021)
这项研究起源于TUDelft,并采用图神经网络(GraphNN)直接处理LiDAR point cloud数据。该研究的主要思路是通过GraphConv层提取每个点及其周围环境(即上下文信息)。如图所示,在这一过程中,Radar point cloud中的每个样本都是独立地对每个样本进行特征编码,因此被称作非上下文依赖的嵌入表示.经过上述步骤后得到的新特征向量将用于进一步分析,这些特征向量能够反映各个体素之间的关系,从而生成对应的物体建议框.

标题Radar-PointGNN的总体结构
HARadNet: Anchore-free Target Detection in Radar Point Cloud Data employing a Hierarchical Attention Mechanism and a Multi-task Learning Framework (2022)
这项工作源自于Infineon的研究团队。其核心方法在于利用经典的PointNet++架构来提取局部区域特征,并通过该网络结构实现对点云语义分割与速度方向预测的任务(其中原始Doppler信息基于雷达相对运动特性)。通过point-wise注意力机制整合这两部分输出后,随后完成后续处理步骤。

标题HARadNet的总体结构
NVRadarNet: Real-Time Radar-Based Obstacle and Free Space Detection for Autonomous Driving Systems (2023)
这项工作起源于NVIDIA。主要方法在于将连续五帧的点云数据进行融合处理(其中涉及车辆运动补偿技术)。随后生成网格化的特征表示。为了提高计算效率,在每个网格区域内计算所有点特征求平均值作为该区域的特征向量。网络架构简洁明了,并由一个U-Net编码器模块后跟三个解码器分支组成。这三个解码器分支分别用于目标分类、物体边界框预测以及自由空间分割三项任务。算法设计思路清晰明了,并可作为该类点云处理方法的基础基准方案。

标题NVRadarNet的总体结构
Enhanced Point Cloud Representations Through Multi-Resolution Grid Processing in the Context of Radar Object-Detection Frameworks (2023)
这个 workflows起源于Bosch公司。其核心步骤包括将原始的三维点云数据转换为一种稀疏化的网格表示形式。随后通过应用KPConv算法可以从这些稀疏网格中提取出具有特色的表征信息。特别之处在于它能够有效地增强单个点的局部特征。值得注意的是这种方法不仅实现了多尺度特征提取这一技术要点;而且这种策略与深度学习中的常见模块化设计理念相契合。

算法框架(左)和KPConv示意(右)标题
Analyzing Temporal Dependencies in Radar-Based Perception for Autonomous Vehicle Technology (2022)
该系列工作源自MERL实验室的研究成果

标算法总体结构题
RadarDistill: This method aims to improve the performance of radar-based object detection through knowledge distillation using data from LiDAR features. (2024)
该系统采用了激光雷达数据作为知识蒸馏的基础,并通过这种方式辅助毫米波雷达神经网络的学习过程。值得注意的是,在nuScenes数据库实验中,该方法不仅显著提升了关键指标的表现,在mAP指标上实现了15.5%的提升,在NDS指标上则实现了29.8%的提升。

RadarDistill的总体结构标题
RadarDistill系统采用了基于PillarNet架构的设计方案其整体架构工作原理如图所示。其中激光雷达和毫米波雷达分支均采用了相同的网络结构毫米波雷达通过CMA模块对pillar特征进行预处理以提高其在知识蒸馏过程中的稠密化程度。随后系统分别对底层特征(AFD模块)与高层特征(PFD模块)实施知识蒸馏以实现跨模态信息的有效融合。
在底层特征提取过程中,“active”与"Inactive"区域间的划分实际上等同于将具有响应与无响应的区域区分开来。
知识蒸馏着重在于促进激光雷达与毫米波雷达均呈现响应的区域(两者的特征应尽可能相似),同时也会处理那些仅毫米波雷达显示响应而激光雷达未显示响应的情况(以使毫米波端捕捉到的独特特征得以去除)。
在高层特征蒸馏环节中,“target information”的引入能够引导模型聚焦于含有目标的数据点;在此阶段,“steered”的操作仅限于存在目标的区域,并以此指导毫米波雷达网络去学习并提取激光雷达数据中的目标信息。

nuScenes数据库上的对比标题
SIRA: Scalable inter-frame relations and associations in Radar Perception (2024)
毫米波雷达在单帧数据中的噪声水平显著较高。因此,在实际应用中传统的方法都依赖于tracking技术以充分利用多帧信息资源。这一发现同样适用于基于深度学习的场景。在SIRA算法中,雷达点云被转换为网格数据的形式,并设计了两个关键模块来处理多帧网格数据:首先是通过交叉注意力机制构建的ETR模块能够有效提取多帧间的关联信息;其次是MCTrack模块则通过并行处理多帧数据来预测目标在当前帧的位置,并且这一过程能够帮助提升跟踪过程中的关联质量。

标题SIRA的整体结构
充分运用了时序信息后,在Radiate数据库上运行的结果表现超过了目前最优的SOTA水平。
3. 基于底层数据的方法
毫米波雷达生成的点云数据极为稀疏,在信号处理阶段滤除了大量无关的信息(例如CFAR滤波技术)。其中大部分属于噪声性质的数据但仍包含一些有价值的信息(如多普勒频谱特征)。传统信号处理手段在面对海量杂 noise时难以有效提取所需特征(即有效信息),而这一挑战恰恰是深度学习技术展现卓越能力的关键所在(即深度学习技术在这种复杂场景下表现出色)。基于数据驱动的方法(即基于训练样本的学习方式)能够从大量训练数据中学习如何有效地去除 noise,并从中提取出对后续任务具有帮助的关键特征(即有价值的信息)。因此,在当前研究领域内大多数新型毫米波雷达感知算法都采用了基于深度学习的技术架构(即采用预处理CFAR滤波后的原始观测数据作为输入)
原始的ADC数据以3D Tensor的形式呈现,在本研究中分别对应Sample、Chirp和Antenna三个维度。传统的信号处理方法通过FFT对该数据进行分解,依次得到Range(距离)、Doppler(速度)和Arzimuth(角度)参数,并采用CFAR算法进行稀疏化处理以降低计算量。在距离和速度参数解析完毕后,在RD维度上进行CFAR处理,并将角度参数的解析限定在稀疏化的数据集上。理论上而言,深度神经网络能够替代传统的3次FFT运算及CFAR操作。然而,在降低网络学习难度的前提下仍会保留部分FFT操作作为辅助手段,例如Range FFT运算。当前深度学习领域最常用的方法是经过三次FFT处理后的稠密RAD数据矩阵,并在此基础上实现速度和角度参数的提取。此外,也有多种基于深度学习的方法可直接对速度与角度参数进行建模分析。
该系统基于范围、方位及多普勒频偏雷达实现的目标识别用于动态道路用户检测(2021)。
这项工作源自于加拿大滑铁卢大学以及Sensorcortek公司合作开发。该系统接收的数据格式为Range-Azimuth-Doppler(RAD)块,在这种格式中通过将range维与azimuth维作为空间维度,并将doppler维则被视为特征维度进行编码处理后即可实现将RAD信号直接映射成为二维图像形式的生成过程。在实际应用中这一方法已经被证明是最有效的经典方案之一,在其架构上采用了经典的ResNet模块构造方式进行设计,在此基础上经过深度学习模型处理后的特征图随后连接了两个基于YOLO的目标检测头:一个是基于range-arzimuth的空间信息头(Polar Head),另一个则是XY笛卡尔坐标系下的位置信息头(Cartesian Head)。

RADDet的总体结构标题
类似地,在2021年的研究中(PolarNet),研究人员基于RAD的数据表示框架进行了深入研究,并将doppler信号作为特征维度进行提取。具体而言,在该框架下不仅可以通过卷积层进行特征提取来获取多尺度信息(虽然这可能超出了当前讨论的范围),还可以通过平均池化操作将其压缩至一维空间。
Multi-View Radar Semantic Segmentation (2021)
该系统任务由Valeo公司开发完成。前面所述的两种方法均基于RA视图进行数据处理,并以doppler作为特征维度进行分析。然而我们还可以采取其他策略,在RD视图下进行数据处理时将azimuth作为特征维度,在AD视图下则以range作为特征维度进行分析。通过不同视图分别对数据进行独立分析后再统一至RA或RD视图框架内完成后续处理工作。这正是multi-view学习的基本思路之一也是RAD处理中常用的一种实现方式

Multi-View的处理流程标题
该方法在毫米波雷达:感知算法(一)中被详细阐述为基于多视图的方法。
ERASE-Net: Highly Efficient Segmentation Modules for Automotive Radar Signals (2023)
这项工作源自于NXP,并被设计为一个分段操作流程。具体而言,在第一个阶段中,在雷达信号处理过程中采用了RA视角表示,并利用CenterNet架构精确识别并定位潜在的目标中心位置。随后,在第二个阶段中,在原始RAD(雷达图像)的基础上进行领域扩展,在此过程中仅考虑那些响应值超过设定阈值的位置信息以确保准确性。通过这种方法生成的该点云数据则被用于执行后续的语义分割任务。

标题ERASE-Net的总体结构
A recurrent CNN for online object detection on raw radar frames (2023)
该工作同样源自NXP公司,在其研究中采用基于LSTM的多帧雷达数据处理方法来提取时序信息。研究中使用了RA视图来表示雷达数据,并且这种表示方法也可以扩展到多视图场景。整个网络架构采用了U-Net模式,在不同下采样阶段引入了LSTM机制以提取时序特征。

标题算法总体结构
RadarFormer: Efficient and Precise Real-Time Radar Target Detection Framework (2023)
该工作起源于阿联酋穆罕默德·本·扎耶德人工智能大学,并划分为两大模块。其中一部分负责生成RA视图的特征图。与传统方法不同的是,在提取doppler维度特征时,并非使用常见的FFT算法而是采用了RODNet中的M-Net处理chirp维度。生成后,另一部分则采用了MaXViT这一改进型Vision Transformer架构来进行进一步特征提取。

标题RadarFormer的RA视图生成(上)和ViT特征提取(下)模块
PeakConv网络: 用于雷达语义分割的大范围感受野学习机制 (2023)
此 workflow 来自于 CASIC 机构的核心技术研究团队。其核心技术在于提出了一种特殊的卷积(PeakConv)以模拟 CFAR 操作。在这一传统雷达信号处理体系中,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下,默认情况下 getDefault
在提取局部极值的过程中,在目标点附近设置一个较小的排他区域(如图蓝色标注部分),并将其定义为"保护单元"。其原因在于,在极值点周围的潜在位置很可能也是实际存在的目标体而非背景噪声干扰。因此,在模拟CFAR过程中所采用的关键手段就是实现这一技术步骤。由此可见,在PeakConv的设计中,默认的感受野呈现空心正方形结构,在此结构中被特意移除的部分即为"保护单元"所在位置

标CFAR(左)和PeakConv(右)题
Self-Bootstrap Process for Training Autonomous Vehicle Radar Systems Using Self-Supervised Learning Approach, published in 2024
该研究探讨了神经网络模型在训练过程中的挑战问题。毫米波雷达的数据标注较为复杂,在实际操作中通常都是采用同步配置的激光雷达或者摄像头来进行辅助标注工作。然而这些传感器具有的覆盖范围FOV(视场角)存在差异 各自生成的数据模式也存在明显区别 因此将一种传感器的数据作为标注直接应用于训练另一种传感器的数据模型可能会引发一些不协调的问题 例如激光雷达可能捕捉到一个物体 但在毫米波雷达的工作范围内该物体并不在其监测范围内 或者该物体表面反射的能量过弱 从而在训练毫米波雷达神经网络时就无法将其作为有效的正样本进行合理训练
为了解决标注数据获取困难的问题,在研究中提出了两种解决方案:一种方法是基于自监督的学习技术;另一种则是结合同步更新的图像信息,并作为自监督学习的重要补充手段。

标题自监督学习的算法框架
本方法提出了一种自监督学习方案,并通过对比损失函数(Contrastive Loss)进行优化。具体而言,在每个雷达数据(RA视图)经过特定的数据增强手段生成两个不同的样本后,在经过雷达主干网络提取特征的过程中计算对应的对比损失值。为了最小化这种对比损失以减少同类样本之间的距离的同时提升异类样本之间的距离,并从图像特征的角度来看与雷达特征一起计算对比损失的过程。值得注意的是,在这一过程中我们建议优先考虑使用BEV视图的图像特征以确保 radar 特征与 image 特征在坐标系统上达到一致以促进网络的整体训练效果
围绕数据增强策略展开讨论,并详细说明其应用场景
