论文速览 | CVPR, 2024 | DART: Implicit Doppler Tomography for Radar Novel View Synthesis | DART: 基于多普勒辅助
论文速览 | CVPR, 2024 | DART: Implicit Doppler Tomography for Radar Novel View Synthesis | DART: 基于多普勒辅助的雷达断层成像技术

Project Page: https://wiselabcmu.github.io/dart/
1 引言
在计算机视觉和感知领域,雷达技术 一直扮演着举足轻重的角色。然而,传统的雷达模拟方法往往需要手动建模环境,这不仅耗时耗力,而且难以准确捕捉复杂场景中的电磁特性。本文介绍的DART(Doppler Aided Radar Tomography)技术,巧妙地结合了神经辐射场(NeRF) 的隐式表示方法与雷达物理学 ,为我们打开了一扇通向高效、精准雷达模拟的大门。
2 动机
如果我们能够像拍摄照片一样轻松地"拍摄"雷达场景,并在任意视角下重建雷达图像(准确地说,是雷达的Range-Doppler Map),这对雷达技术将会产生深远的影响。这正是DART技术的核心动机。

传统的雷达模拟方法面临着以下挑战:
- 手动建模困难 :需要精确描述环境几何结构和材料属性。
- 计算复杂度高 :基于物理的模拟方法计算量巨大。
- 缺乏灵活性 :难以适应动态变化的环境。
DART技术的提出,正是为了应对这些挑战。它巧妙地将数据驱动 的方法与物理模型 相结合,开创了雷达场景建模的新范式。

3 方法
DART方法的核心在于其独特的世界表示和渲染方式。让我们深入探讨其关键组成部分。

3.1 范围-多普勒表示

范围-多普勒表示 是DART的基础。传统的毫米波雷达在方位角和仰角上分辨率较低(通常>15°),这限制了其空间分辨能力。DART巧妙地利用了多普勒效应 来提高角度分辨率。
在静态场景中,相对速度不仅取决于雷达与物体之间的相对速度,还与它们之间的方位角和仰角有关。每个多普勒值对应空间中的一个锥体,而每个范围值对应一个球面。两者的交集形成了一个薄环,大大减少了空间模糊性。
数学表示如下:
d_j = ⟨w, v⟩
其中,d_j是多普勒速度,w是单位方向向量,v是雷达速度。
3.2 雷达预处理
DART采用了一系列预处理步骤来优化雷达信号:
- 汉宁窗 :应用于范围和多普勒轴,以减少不必要的旁瓣效应。
- 多天线处理 :对每个发射-接收对进行单独的范围-多普勒处理,然后在渲染过程中应用天线增益和阵列因子。
3.3 世界模型
DART的世界模型考虑了两个关键属性:反射率(σ) 和透射率(α) 。这两个属性都是位置和入射角的函数:
σ : R^6 → R
α : R^6 → [0, 1]
为了有效地表示这些属性,DART使用了基于Instant Neural Graphics Primitive 的网络架构。该架构输出"基础"反射率\bar{σ}和透射率\bar{α},以及共享的球谐系数。
网络的输出激活函数也经过精心设计:
- 对于σ,使用线性激活函数。
- 对于α,使用自定义激活函数:f(α) = exp(max(0, α))
3.4 雷达渲染
DART的渲染过程是其核心创新之一。考虑从位置x和方向A发射的单个"射线",在入射角w下,渲染方程可表示为:
C(i, k, w) = g_k(A^{-1}w) \frac{σ(x + r_iw)}{r_i^2} \prod_{i'=1}^{i-1} α(t_{i'})^2
其中,g_k(A^{-1}w)是天线k在角度w处的波束成形增益。
为了生成范围-多普勒图像,我们需要沿着每个bin对应的薄环积分:
Y(r_i, d_j, k) \propto \frac{r_i^2}{M ||v||_2} \sum_{m=1}^M C(i, k, w_m)
这里,M是随机方向的数量,满足⟨w, v⟩ = d_j。
3.5 优化渲染
为了提高计算效率,DART采用了一种巧妙的采样策略:
- 样本重用 :对具有相同多普勒值的所有bin同时渲染。
- 自适应采样 :根据距离雷达的远近调整采样密度。
3.6 训练过程
DART使用随机梯度下降 和Adam优化器 进行训练,采用l1(平均绝对误差)损失函数。训练过程中还采用了一些技巧,如学习率调度和梯度裁剪,以确保稳定收敛。
4 实验和结果
4.1 数据集和实验设置
研究团队构建了一个手持数据采集平台,包括:
- 毫米波雷达 :用于采集范围-多普勒图像
- 激光雷达 :用于精确定位和速度估计
他们在多种环境中收集了12个轨迹,包括:
- 实验室空间
- 联排别墅
- 高层公寓
- 20世纪初的房屋
每个轨迹长度在5到15分钟不等,提供了丰富多样的场景数据。

4.2 基线方法
DART与三种基线方法进行了比较:
- 基于激光雷达的模拟器 :使用激光雷达扫描创建占用网格,然后用射线追踪模拟雷达。
- 最近邻方法 :找到训练集中最接近目标视点的数据点。
- CFAR点云聚合 :使用常用的CFAR算法检测雷达反射目标,然后进行3D投影。
4.3 评估指标
主要使用结构相似性(SSIM) 作为评估指标,同时计算了有效样本大小校正的标准误差(SE)。为了更好地量化SSIM值,还计算了25/30/35dB等效高斯噪声的SSIM值作为参考。
4.4 实验结果
4.4.1 图像合成质量
DART在所有数据集上都显著优于基线方法:
- 平均SSIM :DART达到0.636 ± 0.012,远高于其他方法。
- SSIM改进 :相比最佳基线(CFAR),DART提高了0.091 ± 0.006。
具体来说:
- 相比激光雷达基线 ,DART提高了0.174 ± 0.013。
- 相比最近邻方法 ,DART提高了0.168 ± 0.012。

4.4.2 断层成像能力
DART不仅能合成高质量雷达图像,还能生成详细的断层图像:
- 材料属性捕捉 :在一个包含5个不同材料盒子的场景中,DART成功学习并可视化了每种材料的独特反射率和透射率特性。
- 密度和精度 :与CFAR点云相比,DART生成的地图更加密集和准确。
- 复杂场景建模 :在室内外各种复杂环境中,DART都表现出色,能够清晰地重建场景结构。


4.4.3 消融实验
研究团队还进行了详细的消融实验,证明了DART各组成部分的重要性:
- 视角依赖性 :移除视角依赖会导致SSIM下降到0.614 ± 0.015。
- 网格分辨率 :使用20cm固定网格而非自适应网格会使SSIM降至0.591 ± 0.015。
这些结果表明,DART的每个设计决策都对其性能有显著贡献。

4.4.4 计算效率
尽管DART的计算复杂度较高,但其训练时间仍然相当可观:
- 在RTX 4090 GPU上,DART的训练时间约为数据采集时间的1-2倍。
- 对于10分钟左右的数据集,训练时间在10-20分钟之间。
这表明DART有潜力在未来实现实时或近实时的训练和渲染。
4.5 定性分析
通过可视化比较,DART在多个方面展现出优势:
- 细节保留 :DART能够捕捉到微小的雷达反射,而其他方法往往会忽略这些细节。
- 噪声抑制 :与CFAR等方法相比,DART生成的图像噪声更少,更加清晰。
- 材料特性 :DART能够准确重现不同材料的雷达特性,如金属的高反射率和塑料的部分透射性。
- 视角一致性 :在不同视角下,DART生成的图像保持高度一致性,而其他方法可能出现不连续或不自然的变化。
总的来说,DART在雷达图像合成和场景重建方面都展现出了显著的优势,为未来的雷达技术发展开辟了新的道路。
5 不足和未来展望
尽管DART取得了令人瞩目的成果,但它仍存在一些局限性:
- 静态场景假设 :当前版本的DART仅适用于静态场景,无法处理动态物体。
- 精确速度估计依赖 :DART需要准确的速度估计,这在实际应用中可能面临挑战。
- 计算复杂度 :尽管DART的训练时间已经接近数据采集时间,但实时训练仍然面临挑战。
未来的研究方向可能包括:
- 动态场景建模 :扩展DART以处理移动物体和变化的环境。
- 多模态融合 :结合其他传感器数据(如视觉、激光雷达)以提高建模精度。
- 实时性能优化 :探索更高效的网络架构和训练策略,实现实时训练和渲染。
- 自监督学习 :减少对精确位姿估计的依赖,实现更加自主的场景建模。
6 总结
DART技术揭示了雷达感知的新世界。它巧妙地结合了神经辐射场的隐式表示能力和雷达物理学的专业知识,创造出一种强大而灵活的雷达场景建模工具。DART不仅能够生成高质量的雷达图像,还为我们提供了一种新的断层成像方法,有望在自动驾驶、机器人导航、环境感知等领域带来革命性的突破。
尽管DART仍有改进的空间,但它无疑为雷达技术的未来发展指明了方向。随着算法的不断优化和硬件的持续进步,我们有理由相信,DART及其衍生技术将在不久的将来彻底改变我们感知和理解世界的方式。
