【论文笔记】BEVNeXt: Reviving Dense BEV Frameworks for 3D Object Detection
原文链接:https://arxiv.org/pdf/2312.01696
摘要:最近的研究表明,在摄像头3D目标检测任务中,基于Transformer架构的设计策略逐渐超过了基于密集感知机的传统方法。然而,传统密集BEV框架凭借其卓越的深度估计能力和精准的目标定位能力,在三维空间中能够提供高度精确的场景描述。为了弥补现有方法的技术局限性,在本文中我们提出了一种增强型密集BEV框架——BEVNeXt。该框架通过引入三部分改进组件来解决现有密集BEV方法的关键缺陷:首先是一个经由条件随机场(CRF)调制的深度估计模块(确保物体级别的一致性),其次是一个结合了具有扩展感受野机制的长程聚合模块,并最后采用了两阶段式的目标解码架构(整合透视线素感知与经由条件随机场(CRF)调制后的深度信息)。经过一系列实验验证,在NuScenes数据集上的表现优于现有方法,并达到了当前领域的最佳水平SotA性能
对于目前的密集BEV方法弱于基于查询的方法,本文将原因总结如下:
- 2D建模不足 。基于稀疏查询的方法证明了2D建模对检测性能的影响。现有的提高2D建模能力的方法包括引入激光雷达监督的深度估计辅助任务,但激光雷达分辨率较低,会导致不精确的深度感知。
- 时间建模不合适 。由于自车与目标运动,增大时间融合时的感受野很关键。基于查询的方法可以通过全局注意力提高时间融合时的感受野,而密集BEV方法受限于卷积的局部性。
- 提升时的特征失真 。基于稀疏查询的方法从2D空间采样图像特征,避免了视图变换时带来的特征失真。
0. 概述

本文的BEVNeXt基于LSS框架,关键组件有三:
- BEV生成:基于多视角图像集合\{I^i\}_{i=1}^6,主干网络提取不同尺度的特征集合\{F^i_{1/n}\}(其中n \in \{4,8,16,32\}),并通过深度网络推算出各视角的深度概率值\{d^i\}_{i=1}^6。随后将这些深度概率值经由CRF层进行颜色信息域上的调制处理后得到物体级别的一致化深度表示\{\tilde d^i\}_{i=1}^6。
- BEV编码器:基于历史连续k帧的BEV编码器输出统一表示\tilde B。该模块设计充分考虑了聚合过程中的空间感知需求。
- 检测头:以中心点为基础设计的3D检测模块接收并解析BEV编码器输出的结果\tilde B。通过CRF层对各视角深度概率进行调制处理后得到的一致化深度表示\{\tilde d^i\}_{i=1}^6被引入到检测模块中,并增强了模型对关键二维特征的关注能力。
1. CRF调制的深度估计
密集BEV方法中,深度估计作为2D辅助任务,可提高2D建模能力并减小视图变换时的失真。由于深度估计可视为分割任务(类别表示特定深度范围),本文使用条件随机场(CRF)增强深度估计质量。CRF调制通过利用色彩平滑性先验,保证物体级别的深度一致性。令\{X_1,\cdots,X_N\}表示降采样特征图F^i_{1/n}中的N个像素,\{D_1,\cdots,D_k\}表示k个离散深度区间。深度网络的目标是为每个像素分配一个深度区间:d=\{x_1,\cdots,x_N|x_i\in\{D_1,\cdots,D_k\}\}。给定分配d,目标是最小化相应的能量代价E(d|I):
E(d|I)=\sum_i\psi_u(x_i)+\sum_{i\neq j}\psi_p(x_i,x_j)
其中\sum_i\psi_u(x_i)表示单个势函数的结果值集总和;成对势函数定义为:
\psi_p(x_i,x_j)=\sum_ww\exp(-\frac{|\bar I_i-\bar I_j|^2}{2\theta})|x_i-x_j|
其中\bar{I}_i对应于降采样特征图中对应像素位置的图像patch内的平均RGB值;而|x_i - x_j|则表示两个深度区间之间的标签相容性(即中心距离)。基于此结构设计的CRF模型位于整个深度网络之后,并最终输出结果表示为\tilde{d}。
多采用基于激光雷达点云的深度监督方法,在低分辨率图像特征图上实施深度估计以确保标签覆盖范围。实验结果表明,在图像特征图分辨率提升的情况下,CRF调节后的性能优势更为明显。
2. Res2Fusion

在时间融合过程中,显著增加卷积的感受野规模会带来额外的计算开销且容易出现过拟合问题。本研究提出了一种名为Res2Fusion的方法,在BEV特征提取中实现了感知域的扩展效果。具体而言,在每一帧的历史BEV特征\{B_{t-k+1},\cdots,B_t\}中进行处理时:首先将这些特征划分为g=k/w组(其中w为固定的窗口大小),然后对每一组分别应用1×1卷积操作\{K_i^{1\times1}\}_{i=1}^g以实现通道维度的缩减:
对于第i组数据,则有
B'_i = K_i^{1\times1}([B_{t-(i+1)\times w};\cdots;B_{t-i\times w}])
其中[\cdot;\cdot]被定义为拼接操作。随后采用多尺度卷积技术:
B''_i=\begin{cases}K_i^{3×3}(B’_i),当变量等于g时;\\ K_i^{3×3}(B’_i + B’_{i+1})\quad ,当条件满足时。\end{cases}
模型被允许不考虑跨历史BEV中的车辆自身运动,并为了减少运动对齐问题的影响而采用该方法。最后,Res2Fusion的输出为 \tilde B=K^{1\times1}_{final}([B''_g;\cdots;B''_0])
该输出会通过带步长的层并使用FPN获取多尺度信息。
3. 带透视细化的目标检测器
由于前向投影(如LSS)会导致特征失真,本文提出补偿措施。
使用CenterPoint方法计算物体热图H后,并从该热图中采样出特征集合B_center={~B_{x,y}|H_{x,y}>τ}其中τ表示热图中的阈值参数
其中\mathcal F_d被定义为一种可变形注意力机制,并且与位置相关的参考点之间存在特定的空间关系特性;对于每一个参考点\mathcal P_i(x,y,z_j)而言,在该位置(x,y)处的高度值所对应的参考点都具有独特的空间分布特征;为了构建深度指导项并将其融入相似性计算模块中以提高模型性能目标,在此我们引入了一种新的深度概率表示方法;该方法通过多层感知机将局部特征与全局特征进行融合,并结合空间关系特性构建了完整的相似性计算框架
最后,使用CenterPoint的回归头从\tilde B^{roi}预测物体。
