Advertisement

论文速览 | Arxiv,2024 | Human Detection from 4D Radar Data in Low-Visibility Field Conditions | 利用4D雷达数据

阅读量:

Arxiv, 2024 | Human detection using four-dimensional radar data within challenging field conditions of low visibility | Applying four-dimensional radar data to detect human figures within challenging visibility environments

论文速览 | Arxiv综述, 2024年 | 基于四维雷达数据的人体检测在低能见度场域中的应用 | 基于四维雷达数据,在低能见度场域中进行人体检测

在这里插入图片描述

论文链接

1 引言

在自动驾驶技术日益普及于公共道路及工业环境(如矿场)当下,在复杂恶劣的现场环境下传统传感器(如相机与激光雷达)的性能会显著受到影响。相比之下,在自动驾驶领域具有广阔前景的雷达作为一种重要的传感模态。它能较为有效地抵御诸如灰尘、烟雾等恶劣气象条件的影响。特别地,在4D成像雷达方面现代技术能够提供距离、垂直角度以及水平角度等多个维度的信息。

在本文中,作者设计了一种名为TMVA4D的卷积神经网络架构,并将其应用于四维雷达模式以实现语义分割功能。

2 动机

在复杂环境中自动驾驶汽车必须能够识别其周围的环境并在内部描绘出这些信息才能实现安全导航。特别是在与人类共处的空间中精确识别人体行为对其安全至关重要。为此基于视觉系统的车辆应具备捕捉高质量数据的能力以确保场景完整性。然而现有技术在恶劣天气条件下的数据捕捉能力仍有待提升

在这里插入图片描述

相较于相机和激光雷达,在雨天或被灰尘等微粒遮挡时,并非完全失效而是仍可捕获环境中的部分区域数据;但其角分辨率较低且易受噪声影响。

采矿业正迅速地采用着自动驾驶汽车;地下作业常存在严重的伤害或死亡风险;重型机械(例如自卸卡车或钻机)在人员周围进行作业时会产生巨大的危险风险。由于空气中存在的烟雾、尘埃等微粒可能导致相机和激光雷达无法捕捉到隐藏于其后的个体;因此,在低能见度环境下进行个人探测时,使用雷达系统被认为是一种非常可靠的方案。

在这里插入图片描述

3 方法

3.1 数据表示

在每个点云中,为五个不同的视图生成对应的热图。这些视图及其维度如下:

  • 仰角-方位角(EA)– 128 × 128
  • 仰角-距离(ER)– 128 × 256
  • 仰角-多普勒(ED)– 128 × 256
  • 距离-方位角(RA)– 256 × 128
  • 多普勒-方位角(DA)– 256 × 128

在EA视图中每一个热图都可以被想象成占据相机帧的一个均匀网格。为了详细分析各个维度的情况, 我们将各个方向上的角度参数——即方位角和仰角——各自占据一个值范围, 这些范围对应于相机所感知的图像宽度或高度的不同位置区域。我们把每个角度范围划分成了128个小区间, 同样地, 在距离和多普勒这两个维度上进行离散化处理时, 则需要将各自的参数范围分割成256个小单元格。

对于给定视图中的热图而言,在垂直方向上选取任意一点P,在水平方向上选取任意一点Q,在给定视图下进行投影后,则会确定这两个坐标分别位于垂直维度上的第i个箱体以及水平维度上的第j个箱体之内。随后,在这种情况下(即当两个坐标分别位于各自的箱子范围内),那么该点P,Q将位于由该热图对应的网格划分所形成的第i行及第j列交叉处所形成的单元格中。其中每个单元格内的数值则基于其对应位置的最大功率计算得出。

3.2 TMVA4D架构

在这里插入图片描述

本研究开发了一种名为TMVA4D的时间多视图卷积神经网络架构(用于处理四维雷达数据)。该架构以TMVA-Net [12]为基础,并通过分组处理热图像数据流来实现目标识别任务。其中仅利用EA视角下的标注信息(采用背景与人两类的分割掩码形式),由此可知,在处理过程中系统主要关注的是前向视角下的目标识别任务。

该模型的参数规模为770万(TMVA4D),对比层具有560万参数结构(TMVA-Net)。每个编码器均接收单通道输入(时空特征矩阵),包含时间t和平移q帧(之前q帧)的热图信息(时空特征矩阵),通过深度堆叠的方式进行处理。编码器输入的高度与宽度等于视图的高度与宽度(时空特征矩阵)。每个三维卷积操作将特征图的深度减少两层通道数(TMVA编码器)。dilated卷积模块未采用初始池化操作(EA编码器)。dilated卷积模块在不同膨胀率下执行并行计算(ASPP [3])。其中K代表类别数量,在本研究中取值为2。

4 实验和结果

4.1 数据集

本文所使用的数据集是在四个不同的环境下利用车载传感器系统采集多段数据形成的:包括地下矿井、大型重型机械洗车场、工业帐篷以及户外林区等场景。

其中两种关键设备是热成像相机(FLIR AX5)以及4D固态雷达(Sensrad Hugin A3-Sample),它们均用于本研究的数据采集工作。热成像相机获取的温度分布图像被用来对后续产生的雷达数据进行注释。四维雷达系统收集到的数据被转换为三维点云形式。通过ROS平台系统实现了对所收集数据的实时记录与存储管理,并将结果输出为带有时间戳标记的图片文件以及三维点云格式文件。

4.2 标注过程

数据集的准备通常涉及一系列步骤。首先,在将热图像从原始分辨率640×512调整为统一的512×512分辨率后,在缩小后的图像中选择一部分样本进行人工标注工作。随后,在缩小后的图像中选择一部分进行人工标注。这些样本构成了包含共计102,966张图片的数据集中约4.8%的部分。具体而言,在被标记的人像中将其归类为person类别,并与背景区域区分开来。通过Computer Vision Annotation Tool(CVAT)应用多边形注框技术对所选图片进行人工标注工作。

人工标注的手幅图被用于训练YOLOv5s模型的过程中,请注意针对所有尺寸调整后的图像执行语义分割操作。随后将所标记的数据集随机划分为两部分作为训练集和验证集,并设置其比例为9:1的比例关系。为了加速YOLOv5s模型的收敛速度并增强其泛化能力,在基于预处理分割任务设计的YOLOv5s-seg预训练权重基础上设置置信度阈值为0.1来进行优化处理步骤

基于验证集实验结果表明

YOLOv8模型被应用于对所有调整尺寸后的图像执行person类语义分割任务。通过将置信度阈值设定得非常低(0.10),该方法能够显著提高真实检测数量的同时使误检率维持在最低水平。该模型生成的分割掩码尺寸为512×512像素矩阵。若采用原始尺寸的掩码,则需在不必要的高分辨率下进行训练与评估以支持TMVA4D架构的工作流程。为了减少TMVA4D架构的空间占用并缩短推理时间,在不影响性能的前提下将其空间维度缩减至128×128像素矩阵。

4.3 实验结果

在这里插入图片描述

作者在数据集上进行了TMVA4D的训练与测试,并通过实验结果表明,在应用基于热图表示的分割方法处理雷达数据时,在人体检测领域展现出有效性与可靠性。无论是在某些特定传感器模态受空气颗粒影响导致失效的情形下还是常规情况下(如果有的话),该方法均表现优异。

具体而言,在数据集上使用TMVA4D达成了78.2%的mIoU得分以及86.1%的mDice得分(分别对背景与人体两个类别进行了评估)。该方法验证了在低能见度环境中基于四维雷达数据实现人体探测的有效性。

在这里插入图片描述

5 不足和未来展望

虽然TMVA4D在低能见度条件下利用4D雷达数据进行人体检测方面取得了令人鼓舞的结果, 但其应用范围仍然存在局限性, 在精度和可靠性方面也需要进一步提升:

现有标注数据量相对较小,在实际应用中存在一定的局限性。为了提升系统性能在各种测试条件下的表现稳定性和通用性,在未来研究中应持续探索并积累更具代表性的标注样本。

TMVA4D目前主要支持EA视图的预测功能。研究团队建议未来可以通过开发潜力来实现同时预测多个视图(如RA、ED等)的方法,并进一步挖掘4D雷达数据的信息资源。

在恶劣环境下运行时,在复杂环境中运行时,
【在复杂环境中运行时,
【在复杂的雷达回波数据质量较低的情况下,
【可能导致目标识别效果受限,
【而未来的改进方向则在于
【通过不断优化算法
【并探索新型的数据增强技术和噪声抑制算法
【以显著提升模型在噪声环境下的识别能力

TMVA4D的推理速度仍有提升余地,并未达到实时性要求。可以通过模型压缩、剪枝等手段来提高运行效率。

除了人体检测外,未来有望将该方法扩展至包括车辆、障碍物等关键物体的物体检测及语义分割任务中。

总体而言,在低能见度场景下利用4D雷达进行环境感知方面开展了一系列研究工作,并开创了创新性的思路。该研究不仅展现出显著的应用前景,并留下了许多值得深入研究的方向。

6 总结

本文开发了TMVA4D——一种基于低能见度场景下的4D雷达数据应用的CNN架构。研究者们基于新采集的一组具有高度挑战性的工业场景数据集进行了训练与评估,并发现该模型达到了78.2%的mIoU及86.1%的mDice(分别针对背景与人两类),从而验证了该方法的有效性。

具体而言,本文的主要贡献包括:

开发了一种名为TMVA4D的新架构,在处理多维度4D雷达数据时实现了高效性,并从EA视角生成了人体语义分割的结果。

详细描述了工业环境中部署车载4D雷达系统以收集数据集的过程,并借助热成像技术实现了对数据的自动化的标注流程。

基于这一新型的低可见度工业场景数据集,在该平台上获得了令人满意的体姿检测效果,并凸显了该方案的实际应用价值。

虽然实现了预期目标但本文的方法仍存在一些不足之处包括数据集规模的限制多视角预测的复杂性以及对噪声鲁棒性的不足这些成为未来研究工作的若干方向

综上所述,在低能见度场景中应用4D雷达进行人体检测是一项极具挑战性的研究课题。本研究成功开发出一种创新性的CNN架构TMVA4D,并在其新构建的数据集上进行了全面验证。这一研究对于该领域的发展提供了重要的参考价值。展望未来,在智能交通、智慧矿山以及工业安全等多个领域中,预期通过将4D雷达感知技术与自动驾驶系统进行更为紧密的集成应用会产生重要影响。

全部评论 (0)

还没有任何评论哟~