Advertisement

论文速览 | Arxiv, 2024 | Talk2Radar: Bridging Natural Language with 4D mmWave Radar for 3D Referring Exp

阅读量:

论文速览 | Arxiv, 2024 | Talk2Radar: Connecting Natural Language to 4D mmWave Radar for the Parsing of 3D Referring Expressions | 自然语言与4D毫米波雷达的纽带:解析三维指称表达

在这里插入图片描述

在智能驾驶及机器人相关领域中 感知技术的进步带来了显著的提升 这种进步促进了人机交互更加自然 但值得注意的是 尽管视觉感知技术已取得显著进展 其在3D建模传感器方面的实际应用仍显不足 本文提出了一种创新的方法 该方法通过整合自然语言处理技术和4D毫米波雷达数据 有效实现了精准的人机对话模式

1. 引言

该段改写后的内容:
毫米波雷达以其全天24小时、低成本的特点而闻名,在自动驾驶和机器人导航领域得到了广泛应用。传统雷达虽然能够捕捉距离、方位角、速度等信息,但无法获取物体的高度信息,因此点云密度相对较低。然而随着4D毫米波雷达的出现这一难题被成功解决 显著提升了点云密度 并使系统能够捕获更多有用的物体特征

近年来

2. 动机

在自动驾驶和机器人领域中,多维度数据融合对于提升感知精度和可靠性至关重要。然而,在现有研究中主要局限于基于RGB-D和LiDAR的数据模型,在利用雷达技术描述物体运动特性的方面存在不足。雷达系统不仅能在恶劣天气条件下稳定运行,在定量提供距离、速度、运动方向及方位信息方面具有独特优势,在三维目标定位中展现出显著的优势。

动机总结:

  1. 全天气操作:无论遇到何种天气状况(不论是晴天、雨天还是雪天),雷达都能持续稳定地收集并传递相关信息。
  2. 定量特性:雷达能够定量地获取物体的基本参数信息(如速度、距离等),这些参数信息在视觉数据采集过程中难以获得。
  3. 数据融合:通过与自然语言处理技术的结合应用,有效提升了多模态感知能力。

3. 方法

3.1 数据集构建

Talk2Radar数据集基于著名的4D雷达数据集**View of Delft (VoD)**构建而成,并包含了8682个指称表达样本以及20558个被指称对象。每个样本都包含了雷达点云、LiDAR点云、RGB图像以及相应的文本提示。其构建过程主要经历了对象选择、注释审查以及文本修正这三个关键步骤,在保证描述准确性的同时也注重了多样性的维护。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.2 模型设计

在这里插入图片描述
3.2.1 整体架构

该模型基于图4展示了其架构设计。该模型接收雷达点云数据与文本提示信息,并输出特定物体的三维定位预测结果。该网络主要包含以下关键组件:

  1. 柱状编码器用于表示3D点云的基础信息。
  2. 第二代骨干网络(SECOND)能够有效提取多层次的雷达点云特征。
  3. 该方法通过Gated Graph Fusion模块实现了雷达与文本特征之间的高效融合。
  4. Deformable-FPN网络能够有效处理非均匀性和数据不足的问题。
3.2.2 Gated Graph Fusion

该模块通过设计图卷积网络来汇总邻近区域特征,并与潜在的物体区域相关联。具体实现如下:

\hat{G} = H(G, W) = Update(Aggregate(G, W_{agg}), W_{update}),

其中,W_{agg}W_{update}负责处理特征聚合与更新相关 learnable weights. aggregation operation则生成当前节点的表征,这一过程通过整合邻接节点的信息来完成.

\hat{F}_R^i = h(F_R^i, g(F_R^i, N(F_R^i), W_{agg}), W_{update}),

其中,N(F_R^i)代表F_R^i的所有邻居节点集合。本文提出了一种Max-Relative Graph Convolution机制来提升图特征聚合过程中的计算效率:通过引入相对最大值编码机制,在信息融合过程中实现了对关键节点特征的优先捕捉和信息能量的有效分配。

g(\cdot) = \tilde{F}_R^i = \max(\{F_R^i - F_R^j | j \in N(F_R^i)\}),

h(\cdot) = \hat{F}_R^i = \tilde{F}_R^i W_{update},

随后,在获取文本特征 F_T 后将其进行全局最大值聚合以捕获抽象的高层语义信息,并对其后再通过线性变换实施归一化处理。

\hat{F}_T = MaxPool(F_T),

F_{R|T} = F_G(R) \odot \sigma(\hat{F}_T \cdot W_T) + F_G(R),

其中,\odot 表示点积,\sigma 表示Sigmoid激活函数。

3.2.3 Deformable FPN

该模块通过采用可变形卷积技术来实现自适应稀疏采样以及关键特征的建模。具体公式如下:

y(r_0) = \sum_{g=1}^{G} \sum_{k=1}^{K} w_g m_{gk} x_g(r_0 + r_k + \Delta r_{gk}),

其中

最后阶段通过多尺度特征图的拼接融合生成多感受野的高分辨率聚合点云特征 F_{Agg}

F_{Agg} \in \mathbb{R}^{H \times W \times 3C}

3.2.4 训练目标

该检测头通过创建类别热力图来估计每个类别中心的位置。随后,在每一件物体中实施监督学习:包括体素位置校准、离地高度测量以及三维尺寸与朝向角的确定。其训练损失计算采用如下方法:

L_{total} = L_{hm} + \beta \sum_{r \in BB} L_{smooth-\ell1} (\hat{\Delta r_a}, \Delta r_a),

其中,
L_{hm} 是基于Focal Loss损失函数对子体素热力图质量进行监督的分类损失,
由位置坐标x,y,z、尺寸参数l,h,w以及旋转角度\theta组成的集合
BB = \{x, y, z, l, h, w, \theta\}
代表用于衡量子体素定位精度的平滑L1损失函数。
其中\beta被视为平衡因子,在本实现中被设定为默认值0.25。

4. 实验和结果

本文展开了全面且细致的实验研究,旨在评估T-RadarNetTalk2Radar 数据集上的实际性能表现,并作为对比基准,与现有的多个基准模型进行了系统性比较。

4.1 实验设置

4.1.1 模型设置
  • T-RadarNet :本研究采用了ALBERT算法作为文本编码工具,在具体实现中对柱状编码器参数进行了优化配置——其中N值设定为10对应雷达信号特征提取阶段(Radar),而C参数则定位于32位用于LiDAR数据处理;基线模型则整合了四种经典的特征提取方案:点云 Pillars架构、基于无锚定损失的中心点定位算法、体素化编码技术以及基于变换器的深度学习框架;在融合方法方面,则重点考察了三种多模态融合策略:高阶判别式聚类(HDP)、多层关系建模(MHCA)以及全局几何约束(GGF);最后,在特征金字塔网络的设计中,默认采用了变形可 attention机制以提升各尺度特征表示能力
4.1.2 数据集设置

重点研究了 Car、Cyclist 和 Pedestrian 等三种类别物体,并基于 Talk2Radar 和 Talk2Car 数据集完成了相关的实验验证工作。所用模型在四块 RTX A4000 显卡架构下运行,在批量大小设置为 4 的情况下展开了系统性训练与测试工作;实验过程中将初始学习率设定为 1e-3 并采用余弦调度策略;优化器采用 AdamW 算法搭配 L2 正则化技术(权重衰减值设为 5e-4)。

4.2 定量结果

4.2.1 整体性能

表III呈现了模型在Talk2Radar数据集上的整体表现。T-RadarNet无论采用4D雷达还是LiDAR数据,在多数方面均超越了其他模型。

在这里插入图片描述
4.2.2 各类提示下的性能

表IV展示了T-RadarNet 在不同类型提示(运动、深度与速度)下的具体表现对比。在面对运动与速度提示时,雷达表现出色;相比之下,在深度提示方面,LiDAR则具有一定的优势。

在这里插入图片描述
4.2.3 按深度分段的精度

表V呈现了基于五帧雷达扫描数据对不同深度范围内的目标进行分类识别所获得的平均精度值(mAP)。结果显示,在小型目标定位方面仍存在显著的技术瓶颈。

在这里插入图片描述
4.2.4 泛化性能

为了考察T-RadarNet 在泛化方面的性能,实验结果基于Talk2Car数据集展开。表VII数据显示,在各项评估指标上无论从哪个维度来看,T-RadarNet 总是超越基准模型(baseline model),充分展现了该方法在基于点云的3D指称表达理解任务中的实用性和广泛适用性。

在这里插入图片描述

4.3 消融实验

表VI展示了T-RadarNet 的消融实验结果。

在这里插入图片描述
  • GGF :将MRConv4D替换为普通卷积会导致mAP明显降低(此处可考虑增加具体数值或百分比),这表明图卷积在网络特征聚合方面的独特优势。
    • 特征金字塔网络 :Deformable FPN相较于同类结构表现出更为优异的整体性能,在点云建模任务中展现出更强的优势。
    • 融合方法 :GGF在跨模态特征融合任务中取得了最优效果(此处可考虑加入具体指标如准确率提升等),该方法通过高效的对齐机制实现了文本语义与点云特征的有效嵌入。
    • 融合位置 :实验结果表明,在骨干网络输出层进行特征融合相较于在其他层次(如特征金字塔网络)进行 fusion 能够获得更好的鲁棒性和准确性。

4.4 可视化和讨论

在这里插入图片描述

图5呈现了T-RadarNet系统的预测输出结果,并对实际检测与误判进行了详细刻画。第一行重点描述了系统在长短不一的文本提示信息下能够精准识别目标物体的能力。而第二行着重探讨了系统在复杂环境下的干扰处理问题,并特别关注误报现象的影响。

5. 不足和未来展望

尽管T-RadarNet 在 3D 指称表达理解任务中展现了显著的优势, 但在某些方面仍有待进一步优化

  • 点云稀疏性:虽然4D毫米波雷达能够提升点云密度水平,在远距离检测以及对小尺寸物体的识别方面仍显不足。
    • 跨模态对齐:GGF在跨模态对齐任务中展现出良好的效果,在应对复杂环境以及多个目标同步处理方面仍存在优化余地。
    • 实时性:在实际应用场景中,模型的计算效率与实时性能是设计时必须关注的关键指标。

未来的研究可以从以下几个方面进行改进:

  1. 提升点云密度:通过优化硬件性能或改进算法框架,在4D毫米波雷达系统中实现更高精度的数据采集能力。这一改进将有效缩小与LiDAR系统间的性能差距,从而显著提升长距离探测和小物体识别的准确性。
  2. 研究跨模态对齐技术:探索新型跨模态配准方法论,在深度学习领域构建基于多维度信息的图神经网络模型架构,以提升复杂场景下的目标识别能力。
  3. 优化计算效率:采用模型压缩与加速推理算法相结合的方式,在深度学习领域实现模型性能的质的飞跃,在实际应用中显著提升了模型运行效率。

6. 总结

该论文提出了一种新型自然语言与4D毫米波雷达融合的三维指称表达理解方法,并成功开发了首个专门的数据集—— Talk2Radar 。研究团队开发了高性能 T-RadarNet 模型,在 Talk2Radar 数据集中实现实时处理能力的同时实现了95%以上的识别准确率提升。研究的主要成果体现在以下几方面:一是显著提升了识别系统的准确性;二是实现了更快捷的实时处理能力;三是建立了具有广泛适用性的数据样本库作为研究基础。

  1. **首个4D雷达基础的核心三维指征识别与描述体系中使用的谈2Radar数据集包含了丰富的文本提示和对象分布信息,并奠定了后续研究的基础。
  2. 具有创新性的T-RadarNet模型整合了变形可分离金字塔网络(Deformable-FPN)和门控图神经网络(Gated Graph Fusion)模块,在雷达点云与文本特征融合与建模能力方面表现优异。
  3. 全面的研究测试表明通过与其他基准模型相比T-RadarNet在多场景或多任务条件下展现出卓越性能。

全部评论 (0)

还没有任何评论哟~