Advertisement

多模态感知论文阅读笔记 | CVPR 2023, Depth Estimation from Camera Image and mmWave Radar Point Cloud

阅读量:

原文链接:https://mp.weixin.qq.com/s?__biz=Mzg4MjgxMjgyMg==&mid=2247486213&idx=1&sn=c9680e0c959a6862bc92fea58029cb4c&chksm=cf51b9fcf82630ea7cc727665bbab30178e7652d74edc046f794111819948c5a21480172a50d#rd

CVPR 2023 | Depth Estimation from Camera Image and mmWave Radar Point Cloud

多模态感知论文阅读笔记:CVPR 2023, Depth Estimation from Camera Image and mmWave Radar Point Cloud

picture 0

Abstract

背景 *

提出一种从摄像机图像和稀疏雷达点云推断密集深度图的方法

Challenge: 毫米波雷达系统中点云生成过程所面临的难题,例如由于信号模糊以及噪声干扰 \Rightarrow 未能准确地将数据转换为相机图像空间

✅ existing works: overlook the above challenge

开发一种系统 * 将每个雷达探测到的目标位置映射至图像平面中的潜在表面
我们采用的方法不同于现有技术,在于我们不直接处理原始雷达数据集;相反地,在图像中为每个原始雷达点寻找对应的像素位置。
通过引入门控融合机制,在确保数据可靠性的前提下灵活整合多源感知信息。

Experiments 基于NuScenes基准测试的结果表明,在评估该方法时发现平均绝对误差上升了10.3%,均方根误差上升了9.1%。

1 Introduction

picture 1

P1: 基于雷达 + 相机 的 深度估计

  • 掌握3D场景的空间布局有助于执行导航和操作等空间任务
  • 相机捕捉的每像素强度虽能提供二维信息,但遮挡或光圈限制使得三维重建难以精确完成
  • 测距传感器的数据通常较为稀疏,在实际应用中可能只能捕获部分场景中的三维坐标信息(如点云数据)
  • 研究目标:通过结合相机图像与雷达生成的数据(即点云数据),实现对密集三维场景的重建(如相机雷达深度估计)
  • 毫米波雷达具有成本低、重量轻且功耗较低的特点

P2: 挑战

  • 毫米波雷达:具有高度稀疏性且易受噪声干扰的高分辨率方向-of-arrival(DOA)测量值具有模糊性 *

  • \Rightarrow 由于上述因素的影响,在理论计算中所得结果与实际相机捕获的图像之间难以建立直接关联

    • 已有方法:直接处理原始雷达点云,忽略上述挑战

P3: Proposed method

  • 目前研究者们正在探索如何仅基于单一雷达信号和单帧图像来推断深度信息。
    • 每一个雷达点都通过建立与可能归属的表面的一一对应关系来学习相应的空间位置。
    • 通过基于区域对齐的方法,在图像中找到对应的区域,并生成半密集型雷达深度图。
    • 雷达深度图中的信息由门控融合机制处理,并根据分析出错误模式自适应地调整其在后续融合过程中的重要性。
    • 这些结果被用来提升图像的质量,并进一步解码成高密度深度数据。

P4: Contributions

  • 首个提出基于单个雷达扫描与单个相机图像学习雷达到相机对应关系的方法

  • 该方法能够将任意数量的模糊与噪声雷达点映射至物体表面

    • 引入映射的置信分数

      • 用于融合雷达和图像模态
    • 提出门控融合机制

      • 在雷达深度和图像信息之间自适应调节权衡
  • 显著的实验性能表现 *

  • 尽管仅依赖单一图像及雷达帧的数据 \Rightarrow * 其在平均绝对误差(MAE)方面优于采用多图像及多雷达帧方法10.3%,同时均方根误差(RMSE)亦高出9.1%。 *

2.1 Camera-lidar depth estimation
  • 基于RGB图像作为关键指导来提升稀疏激光雷达点云的密度 *

    • 激光雷达昂贵、能耗高,在实际应用中受限
2.2 Single image depth
  • 毫米波雷达的推广受到限制,因为它们依赖于较为强大的先验条件。
  • 毫米波雷达因其经济实用且易于获取的特点而广泛应用于各个领域;通过将其预测数据与公制尺度相结合,确保了测量结果的一致性和准确性。
2.3 Camera-radar depth estimation
  • 基于稀疏性特性的毫米波雷达系统与相机图像结合

    • 相较于基于传统相机和激光雷达深度估计的方法而言,该方法面临着独特的挑战
      • 由于数据特性中的稀疏性和噪声污染,这带来了新的挑战
  • 现有关注

    • [30]基于多幅图像和扫描数据建立从雷达信号到图像像素对应关系
    • [26]提出了一种两阶段编码解码架构以降低噪声影响,并利用后续帧信息辅助恢复
    • [28]开发了一种高分辨率雷达特征表示方法,并将其与相机获取的画面数据相结合以提升深度估计精度
    • [13]在训练阶段利用稀疏点云信息作为弱监督信号进行模型优化,并在推理过程中将其作为补充输入以提高鲁棒性
  • 这些工作要么未考虑噪声与错误的影响,要么通过多幅图像及扫描获得更为密集的数据点

    • 与之相比,本文仅需单一图像与雷达扫描即可生成较为密集的空间深度信息

3 mmWave PCD Geneartion

picture 2
  • 镜面反射

    • 导致稀疏性
  • 天线阵列

    • 导致角度,特别是俯仰角度分辨能力差

已有研究 [13,26,28,29]均未关注该问题的研究者,并将错误的投影视作维持现状并随后采取措施进行调整

  • 本文
    • 学习将雷达点映射到场景中的可能表面,以恢复更密集的雷达点云

4 Proposed Approach

4.1 Overview & Formulation
  • 目标 * 从单张RGB图像 和 点云 恢复 3D场景

  • 分为两个子问题 *

在充满噪声的雷达点云数据中确定每个采样点与其二维图像空间潜在投影之间的对应关系,从而生成具有部分密度特性的雷达深度图

RadarNet该模型以RGB图像与雷达反射点作为输入,在此过程中生成一个置信度图矩阵(Confidence Matrix),其中每个元素对应于每个点在图像中可能对应的真实表面。针对包含K个反射点的目标体素群,在此过程中生成K张置信度图,并构建出一个半密集的雷达深度图(Radar Depth Map)。

✅ ROIAlign进行高效推理

(ii) 融合半密集的雷达图和相机图像以输出密集深度图

🚀 FusionNet :整合图像数据与雷达深度信息,并根据各对应关系的信任度生成密集深度图

门控机制:调节一组参数以传递至解码器的信息量,并优化雷达深度图与置信度分数的异常值特征

picture 4
4.2 RadarNet
  • 数据源:RGB图像、雷达点云、真实激光雷达深度图
    • 编码模块:基于ResNet18的标准图像编码模块;基于5层全连接神经网络的雷达特征提取模块
    • 通过融合各向异性扩散生成的空间特征与二维图像特征信息...随后解码得到响应图(包含置信度分数)
    • 在二分类框架下...高响应区域对应可能存在的物体表面
    • 利用区域对齐机制确定目标真实位置...并在此基础上构建分类标签
    • 通过自适应学习策略提升时空分辨率...生成具有较高密度的空间分布预测结果

The binary cross-entropy (BCE) loss function is computed by taking the average of the negative logarithmic probabilities across all elements in the sample set Ω. Specifically, this involves summing over each element x in Ω, and for each x, calculating the term consisting of y_gt(x) multiplied by log(y(x)) plus (1 - y_gt(x)) multiplied by log(1 - y(x)). The entire sum is then divided by the total number of elements in Ω to obtain the final BCE loss value.

4.3 FusionNet
  • 本研究采用了两个ResNet-18网络架构来分别处理不同任务:一个是用于输入图像特征提取,另一个是用于融合置信度信息生成的深层特征。
  • 我们采用了门控融合机制来协调各分支间的特征表示:通过学习可调参数调节各分支间的信息传递路径,并将加权后的深层表示整合进主干网络。
  • 为了提高模型鲁棒性,在实验中我们假设真实激光雷达测得的深度数据与其累积估计结果之间存在差异,并引入L1损失函数作为正则项进行优化。

该损失函数由两部分组成:
第一部分为基于ground truth数据集的归一化绝对差分总和,
\frac{1}{|\Omega_{gt}|}\sum\limits_{x\in{\Omega}_{gt}} |d^{pre}_{gt}(x) - d(x)|
第二部分则为加权后的基于accuracy数据集的绝对差分总和,
\lambda\cdot\frac{1}{|\Omega_{acc}|}\sum\limits_{x\in{\Omega}_{acc}} |d^{pre}_{acc}(x) - d(x)|
两者相加得到最终的目标函数值。

5 Implementation Details

5.1 Dataset
  • nuScenes数据集包含1995年至2015年间共1千个真实驾驶场景,并包含lidar、毫米波雷达、摄像头和IMU等传感器数据;

  • 系统生成了具有物体边界框标注的约4千个关键帧。

    • 700/150/150 scenes for train/val/test
5.2 Data preprocessing
  • Aggregate earlier and later lidar scans to produce dacc; based on dacc, interpolate an interpolated depth map and corresponding labels YGT.
    • For RadarNet, YGT is used as the supervision signal.

    • for FusionNet:

      • dacc, dgt and interpolated depth map as supervision

Only solely rely on cumulative lidar points to train; apply lidar depth maps and DGT to assess.

5.3 RadarNet (Stage 1)
  • Input image size: 900×1600

    • ROIs of size H = 900 and w = 288
  • Adaptive moment estimation (Adam) optimizer with learning rate = 2 \times 10^{-4}; trained for 75 epochs; data augmentation techniques including horizontal flip, saturation, brightness adjustment, and contrast enhancement (each applied with a probability of 50%)

  • Any radar point within a distance of 0.4m from the z-component of a corresponding dacc point is labeled as a positive training example; the weight assigned to the positive class is set to 2; batch size is configured as 6

  • The model was trained for a total of 36 hours utilizing an NVIDIA RTX A5000 GPU

5.4 FusionNet (Stage 2)
  • Adam优化器的学习率依次调整为1e-3(持续400个epoch)→5e-4(随后5个epoch)→1e-4(持续5个epoch);数据增强措施包括水平翻转、亮度、饱和度及对比度(每个操作有50%的概率)
  • 批量大小设置为16;随机裁剪设置为448×448
  • 在NVIDIA RTX A5000 GPU上连续训练了36小时

6 Experiments and Results

6.1 Baselines
  • [25,28,30] 使用预训练模型
  • [13,26,32,41]:结果取自论文
6.2 Depth range
  • Lidar sensor max range: 80-100m; usable range: 70-80m
  • Evaluate all models at 0-50m, 0-70m, 0-80m
6.3 Quantitative results
  • RadarNet significantly outperforms RC-PDA [30] in terms of mean absolute error (MAE) by 22.3%-41.3% and root mean square error (RMSE) by 9.8%-36.3%, specifically within the range from 0-50 meters to 0-80 meters.
  • RadarNet significantly outperforms RC-PDA+HG [30] in terms of MAE by 25.3%-43.8% and RMSE by 13.3%-38.8%, particularly in the range from certain distances.
  • RadarNet significantly outperforms DORN [28] in terms of MAE by 10.3%-13% and RMSE by 9.1%-12.6%, specifically within the range from particular distances.
  • Overall, RadarNet demonstrates significantly superior performance compared to the best baseline, achieving an improvement of up to approximately MAE reduction of up to X.XX%, with a corresponding RMSE reduction.
  • The success stems from the accurate correspondence between RadarNet's radar points and scene objects, resulting in enhanced detection accuracy.
picture 5
6.4 Efficacy of RadarNet
  • Our approach (without incorporating RadarNet) achieves better performance than some existing methods, though it fails to effectively capture the 3D structure of objects.
    • RadarNet acquires knowledge about the shapes of metallic surfaces, which serves as foundational information that enables FusionNet to reconstruct the scene's geometry.
6.5 Qualitative results
picture 6
  • Analyze the high-resolution 3D structure of the method and reference approaches on the nuScenes test dataset.

    • Two scenes:
      • Busy intersections with heavy traffic flow;
      • Pedestrians crossing roads under overcast conditions.
  • 完全依赖天空没有任何想象;我们的方法仅用于捕获公交车变道和前方白色的汽车

  • 该方法展示了建筑平滑深度的增加;而基线方法却出现了突然变化

  • 该方法成功捕捉到了交通灯的位置;然而基线方法却未能实现这一目标

  • 该方法不仅识别到了树冠还发现了整棵树;相比之下RC-PDA的方法未能识别到树冠而DORN虽然识别到了树冠但却未能发现整棵树

  • 该方法并未过度平滑地处理卡车;相反地RC-PDA将卡车后方的深度值映射为2-3个值是因为靠近暗背景区域的缘故

picture 7

Qual comp involving RadarNet: the absence of RadarNet fails to effectively capture object shapes; RadarNet leverages metallic surface shape priors to enhance geometric understanding.

7 Discussion

Whenever the camera-radar system is either miscalibrated or misaligned, it tends to assign bad radar values and thus relies exclusively on the camera for data.

Softmax activations that are not properly calibrated, instead of uncertainty-based substitutes, can lead to erroneous overconfident correspondences.

8 Conclusion

  • Introduce a two-step methodology:
  • RadarNet is based on the understanding of radar point generation.
  • FusionNet aligns noisy and ambiguous radar points with image regions through a data-driven approach.

Despite allowing for incorrect matching (overestimation), improve by 10.3% MAE and 9.1% RMSE over other radar-camera depth completion approaches.

全部评论 (0)

还没有任何评论哟~