Advertisement

【论文笔记】Unleashing HyDRa: Hybrid Fusion, Depth Consistency and Radar for Unified 3D Perception

阅读量:

原文链接:https://arxiv.org/abs/2403.07746

简介:低成本的、以视觉为中心的3D感知在自动驾驶中取得了极大的进展。其主要的挑战在于鲁棒的深度预测能力,且摄像头不利于在长距离和极端光照/天气条件下检测。本文提出HyDRa,一种摄像头-雷达融合的、基于密集BEV的、可适用于多任务的模型。HyDRa使用混合融合方法,在不同的表达空间中组合两互补模态的优势。本文的高度关联Transformer模块使用透视图雷达特征产生更准确的深度预测;在BEV下,使用雷达加权的深度一致性修正初始的稀疏表达。HyDRa能在nuScenes数据集上达到Sota性能。

0. HyDRa结构概述

在这里插入图片描述
模型包含5个组件:

  • 模态编码器 :图像使用2D编码器,雷达点云使用PointPillars的柱体化编码。
  • 统一深度预测 :高度关联Transformer使用交叉注意力关联柱体特征(缺乏高度)和图像列(缺乏深度),得到几何感知的特征,并转化为深度分布。
  • BEV融合 :使用前向投影生成初始BEV表达,与雷达柱体特征拼接,并使用SE结构(见此文第三部分)融合。还可使用缓存的历史特征。
  • 雷达指导的反向投影 :细化初始稀疏特征,由雷达加权的深度一致性(使用雷达BEV特征、隐式编码的位置和雷达感知的深度分布计算得到)指导。
  • 下游任务头 :融合的BEV表达被残差块编码并输入相应的任务头。

本文把BEVDet系列基于LSS的视图变换(PV到BEV)方法称为前向投影;而BEVFormer这类初始化BEV网格查询,使用可变形注意力进行视图变换(BEV到PV)的方法被称为反向投影。

1. 以视觉为中心的基础

本文基于BEVDet系列和BEV融合。上下文网络、深度网络和BEV编码器的结构均与BEVDet系列一致。

2. 高度关联Transformer(HAT)

利用雷达柱体的互补特征进行图像深度估计的难点在于关联雷达特征R和相应的图像PV特征F

消融实验——PV视图融合的作用 :本文提出基准方案,即将雷达点云投影到图像上得到伪图像,编码后与原始图像特征拼接。实验表明该方案比CRN有更高的性能。但这一方案使用2D卷积处理稀疏雷达特征,既不高效也不有效。因此本文提出HAT。

在这里插入图片描述

注意此处的雷达特征在图像视锥坐标系的BEV下,应为点在图像上的投影柱体化的结果(类似CRN)。

F\in\mathbb R^{B\times N\times H\times W\times C}为2D图像主干输出,R\in\mathbb R^{B\times N\times W\times D\times C}为图像视锥内的雷达柱体特征。B为批量大小,N为图像视图数,H,W为特征图尺寸,D为深度区间数,C为通道数。本文将图像列w特征(高度序列)F_{bnw}\in\mathbb R^{H\times 1\times C}作为查询,相应的雷达特征(深度序列)R_{bnw}\in\mathbb R^{1\times D\times C}作为键与值。因此本文将特征张量reshape为批量大小为B'=B\times N\times W的张量,并应用可学习的位置编码。接着,将图像列特征进行自注意力编码,并通过交叉注意力与雷达特征融合。雷达深度与图像高度比较,可在注意力中编码几何关系,从而为密集特征空间提供稀疏而强大的度量线索。

为稳定训练,本文为融合特征引入零初始化的层归一化,与原始图像特征进行残差连接,得到F',作为深度网络和上下文网络的输入,以产生更鲁棒的深度分布。

3. 雷达加权深度一致性

从多个传感器整合深度信息时,需要处理空间不对齐和投影不一致的问题。本文提出将视图变换后的初始BEV特征与雷达柱体特征拼接,并使用雷达加权的反向投影细化。这样,可保证两个投影空间的一致性。
在这里插入图片描述
轻量级雷达指导网络(RGN,由3\times3卷积和sigmoid函数组成)将雷达BEV特征编码为注意力权重r

注意图中的雷达注意力表达在标准的BEV下,说明雷达BEV特征也是标准BEV特征;结合上节,说明图1雷达主干的两个输出分别是视锥BEV特征和标准BEV特征?

每个BEV位置Q_{x,y}隐式地编码了图像投影的深度值d_Q;使用预测深度分布d_P的一致性w_C加权交叉注意力,并隐式地查询深度值d_Q(转化为分布),本文丰富了稀疏、不对齐和不匹配的单模态特征。
w_c=d_P\cdot d_Q

文章没有提到d_Q具体是如何获取的,以及w_C和d_Q的形状。

P为投影矩阵,则3D点(x,y,z)与2D图像坐标(u,v)的关系为
d[u,v,1]^T=P[x,y,z,1]^T

HAT模块增强显式深度(上式左侧),而BEV融合增强了Q_{x,y}(上式右侧),交叉注意力使等式两侧接近,并保证深度一致性:
SCA(Q_{x,y},F)=\sum_{i=1}^{N_c}\sum_{j=1}^{N_{ref}}\mathcal F_d(Q_{x,y},\mathcal P_i(x,y,z_j),F_i)\cdot w_c^{ij}\cdot r_{x,y}

其中\mathcal F_d为可变形注意力,\mathcal P_i(x,y,z_j)为视图i上的投影点,结果根据深度一致性w_c和雷达注意力r加权。

最后,重新排列模块顺序,将反向投影移动到时间融合后,以利用雷达反射和历史特征揭露遮挡物体。

4. 下游任务

本文使用基于CenterPoint的目标检测和跟踪方法。

对于语义占用预测任务,使用一层1\times 1卷积,将通道维度转化为高度维度。设最终BEV特征为F\in\mathbb R^{B\times X\times Y\times C},则卷积输出的通道维度为C'=C\times Z,并变形为F'\in\mathbb R^{B\times X\times Y\times Z\times C},输入占用预测头。

全部评论 (0)

还没有任何评论哟~