论文阅读:GaussianBeV : 3D Gaussian Representation meets Perception Models for BeV Segmentation
本研究提出了一种融合三维高斯表示与感知模型的新方法:GaussianBeV;该方法特别适用于bev分割任务。
Abstract
BEV(Bird's Eye View)表示法在多个领域中得到广泛应用,并被用来实现多视角摄像头图像中的三维感知任务。该方法允许将不同摄像头捕获到的特征信息整合到一个公共空间中,并能呈现3D场景的统一表征。其核心组件是视图转换器(:view transformer),它能将图像信息转换为BEV表示形式。然而,在实际应用中基于几何或交叉注意力的传统视图转换方法无法充分捕捉环境细节这一事实表明:由于它们采用的是3D空间采样策略这一特点限制了对环境精细结构建模的有效性。为了改进这一不足,在本文中我们提出了一种新的图像特征转BEV方法——GaussianBeV(Gaussian-based BEV)。该方法通过在3D空间中定位一组具有位置信息的三维高斯核来精确表征场景细节并结合基于高斯流溅最新进展实现了对这些高斯核进行适应性渲染从而生成BEV特征图[12]。值得注意的是这种方法不是针对特定场景优化而是直接集成到单阶段BEV语义理解模型中以实现高效计算效果[1]。实验结果表明这种方法不仅提高了效率而且在nuScenes数据集上的Bev语义分割任务中取得了最新成果[2].

3. GaussianBeV
3.1. Overview

图2呈现了GaussianBeV的概念概述。该模型接收一组多角度图像作为输入 I(其中I\in\mathbb{R}^{N\times H\times W\times 3}),其中N代表摄像头的数量;H和W分别表示图像的高度与宽度)。这些图像顺序经过四个模块进行编码指导以实现贝叶斯估计分割(即BeV分割)。
第一模块基于图像主干和颈部提取图像特征以生成特征图谱 其中变量 C_F 表示通道数量 而变量 H_F 和 W_F 分别代表特征图的高度与宽度
第二个模块是用于生成3D高斯分布的模块(见第3.2节)。该模块通过分析特征图中的每个像素位置,在世界坐标系中预测出相应的三维高斯分布参数。其输出结果是一组包含位置、尺度、旋转四元数、不透明度以及嵌入信息的参数集合 G \in \mathbb{R}^{NH_{F}W_{F}\times(C+11)}。具体来说:
- 该模块首先在自身的相机坐标系中对每个像素预测一组独立的三维高斯分布。
- 然后通过应用相机外部参数将这些局部坐标转换到全局世界坐标系中。
- 最终将所有预测得到的高斯分布整合到同一个参数集合 G 中作为最终输出。
本模块为第3.3节中的BeV网格化器,在对其应用了 BeV 渲染技术后生成了特征图 {B} \in \mathbb{R}^{H_{B} \times W_{B} \times C} ,其中维度由变量 H_B 和 W_B 表示。
在最后一个模块中,在该模块内部
3.2. 3D Gaussian generator

基于输入特征图 F ,三维高斯生成器通过多组预测支路实现对场景三维高斯表征的估计。如图所示,在处理过程中
Gaussian centers are estimated in the scene. Scene-level 3D positions of Gaussians are estimated through application of depth heads and 3D bias heads in F. First, the initial position of the 3D center is predicted along the light ray. Second, this approach is refined by adding small 3D displacements to further optimize their positioning, allowing for greater flexibility in Gaussian localization by not constraining them along optical rays.
更准确地说,对于具有坐标 (u_{n,i},v_{n,i}) 的相机 n 的特征地图中的像素 i ,深度头预测差异 d_{n,i}\in[0,1] ,正如处理单目深度图估计的先前作品中一样[6,26]。为了补偿从一个相机到另一个相机的焦距多样性对深度预测的影响,如[23]中提出的,在参考焦距 f 中预测差异高达一定比例因子。知道与摄像机 n 相关的真实焦距 f_n ,然后对度量深度 z_{n,i} 进行如下解码:
z_{n,i}=\frac{f_n}f(\frac1{d_{n,i}}-1)
然后使用第 n 个相机的内参矩阵 K_n 来推导相机参考系中相应的3D点 p^c_{n,i}:
p_{n,i}^c=K_n^{-1}\begin{bmatrix}z_{n,i}u_{n,i}\\ z_{n,i}v_{n,i}\\ z_{n,i}\end{bmatrix}
产生的3D点被限制为沿着穿过所考虑像素的光线。(The resulting 3D points are constrained to lie along the optical ray passing through the pixel under consideration.)由于这种限制,他们的定位不一定是最佳的。为了克服这个问题,我们建议使用3D补偿预测头。它的目标是提供小位移 \Delta_{n,i}=(\Delta x_{n,i},\Delta y_{n,i},\Delta z_{n,i})^T ,应用于高斯 p_{n,i}^{c} 的3D中心,以细化其在所有三个方向上的位置。细化的3D点 p_{n,i}^{c} 简单地通过以下方式获得:
\overline{p}_{n,i}^c=p_{n,i}^c+\Delta_{n,i}
在此阶段,为每个相机计算的3D高斯中心在相应的相机参考系中表达。为了在世界参考系中表达这些点,外部参数矩阵 [R_n|t_n] 被应用,允许相机到世界的转变:
p_{n,i}^w=[R_n|t_n]\overline{p}_{n,i}^c
结果是高斯中心集 P = \{p_{n,i}^w\} \in \mathbb{R}^{NH_FW_F\times3}。
Gaussian rotation. In the scene, three-dimensional rotations are estimated by applying the rotation head to F. For a given pixel in the feature map of camera n, it outputs an allocentric rotation (q_{n,i}^a) in the form of a unit quaternion. This allocentric rotation corresponds to a rotational transformation relative to the 3D ray passing through the pixel. Such a modeling approach facilitates learning for the rotation head, as it is unaware of the specific ray corresponding to the pixel being processed. For instance, two objects placed at different positions in the scene and having distinct absolute (self-centered) rotations with respect to their camera reference frames may appear identical in an image. In such cases, the predicted allocentric rotations for these objects would be equivalent. Subsequently, by leveraging the camera's intrinsic parameters, self-centered rotational information can be retrieved from these predicted values.
这里的改动:
- 调整了句子结构
- 替换了部分词汇如"计算"→"表示"
- 调整了语序
- 增加了一些描述性语言
- 确保所有数学符号和术语都保持一致
最后三个高斯参数的位置和性质不受光学属性和相机定位的影响;它们主要编码语义属性。进而,在预测过程中,三个头部简单地用于生成目标集合 S、O 和 E。
3.3. BeV rasterizer(看不懂 感觉藏东西了)
基于3D高斯生成器预测的高斯 G 集合生成BeV特征地图 B \in \mathbb{R}^{H_B\times W_B\times C} 。为此,借鉴了高斯飞溅[12]中提出的可微网格化方法以执行该过程。第一种改进已在其他离线语义重建任务中实现[19](包括对 C 维特征而非颜色的渲染)。第二种调整则关注于投影类型的优化选择
3.4. GaussianBeV training
我们的模型基于[3, 7, 8]所提出的损失函数进行端到端训练。在这些先前的研究中
Gaussian-based regularization losses. 虽然该方法能够在上述损失框架下实现有效的训练效果, 但通过引入直接作用于高斯表示的正规化机制不仅能够提升其表示能力, 并且在实验中观察到显著的效果. 不可忽视的是, 在整个训练过程中新增了两个独立的正则化项
在本节中,我们探讨了深度损失函数的设计与实现。该损失函数基于LiDART成像过程,在图像中投影提供的深度信息上施加约束条件以优化高斯位置的预测精度。通过施加约束条件优化深度预测头的定位精度,并进一步利用3D偏移量进行精确定位。该损失函数计算的是对数深度值之间的绝对差值:L_{depth}(z,z^*)=|log(z)-log(z^*)|。此外,在语义分割任务中采用分段式辅助头以提升模型性能
