Advertisement

【GaussianBeV : 3D Gaussian Representation meets Perception Models for BeV Segmentation】阅读笔记

阅读量:

【GaussianBeV : 3D Gaussian Representation meets Perception Models for BeV Segmentation】阅读笔记

  • 1. 论文原文
    • Abstract

    • 1. Introduction

    • 2. Related work

    • 3. GaussianBeV

      • 3.1. Overview
      • 3.2. 3D Gaussian generator
      • 3.3. BeV rasterizer
      • 3.4. GaussianBeV training
    • 4. Experiments

1. 论文原文

Abstract

鸟瞰图 (BeV) 表示法广泛用于多视图相机图像的 3D 感知。它允许将不同相机的功能合并到一个公共空间中,提供 3D 场景的统一表示。关键组件是视图转换器,它将图像视图转换为 BeV。然而,基于几何或交叉注意力的实际视图变换器方法不能提供足够详细的场景表示,因为它们使用 3D 空间的子采样,这对于建模环境的精细结构来说不是最佳的。

在本文中,我们提出了 GaussianBeV,这是一种通过使用一组位于 3D 空间中定位和定向的 3D 高斯来精细地表示场景,将图像特征转换为 BeV 的新颖方法。然后,通过采用基于高斯泼溅 [12] 的 3D 表示渲染的最新进展,对该表示进行泼溅以生成 BeV 特征图。

GaussianBeV 是第一个在线使用这种 3D 高斯建模和 3D 场景渲染过程的方法,即无需在特定场景上对其进行优化,而是直接集成到单阶段模型中以实现 BeV 场景理解。实验表明,所提出的表示非常有效,并将 GaussianBeV 视为 nuScenes 数据集上 BeV 语义分割任务的最新技术 [2]。

1. Introduction

多摄像头 3D 感知任务(例如语义分割)对于自主导航应用至关重要。一种常见的策略是将不同摄像头的特征投影并合并为鸟瞰图 (BeV) 表示形式,然后由感知头进行分析。这些方法的主要挑战在于解决将物理世界投影到相机图像期间的 3D 信息丢失问题,从而解决将图像视图转换为 BeV 的逆问题。

最近的文献确定了图像到 BeV 转换方法的三个主要子集。首先,基于深度的方法 [8,10,13,18] 通过用从图像中提取的特征填充 3D 网格来实现几何视图变换基于离散深度分布的预测。关键思想是粗略定位每个图像特征的 3D 位置,然后通过体素化步骤累积它们。然而,在这些方法中,3D 特征定位取决于深度离散化粒度,并且不是最优的,因为特征被放置在对象可见面的级别。其次,基于投影的方法 [3, 7] 也使用几何方法,将 3D 网格点投影到相机中并从中收集相应的特征。虽然简单,但这些方法不能产生准确的 2D 到 3D 背投影,因为沿同一相机射线的所有网格点都接收相同的特征。第三,基于变压器的方法[15,17,27]利用交叉注意力来合并多视图特征。虽然对于 3D 对象检测有效,但它们在 BeV 语义分割等密集任务中的应用会产生很高的计算成本,因为注意过程中 BeV 表示需要密集的空间查询。一些工作 [17, 27] 通过降低 BeV 分辨率来解决这个问题,从而导致不可避免的信息丢失。

在本文中,我们提出了一种称为 GaussianBeV 的新颖视图变换方法,它可以实现场景的精细 3D 建模。借鉴基于高斯分布 (GS) [12] 渲染新颖视图的显式 3D 表示的最新进展,我们的方法使用一组 3D 高斯表示场景,每个高斯均由中心、比例、旋转、不透明度和语义特征参数化(而不是 GS 中的颜色)。此外,与原始 GS 方法使用特定场景的离线优化来确定 3D 高斯表示不同,我们建议训练神经网络直接从一组多视图图像生成场景的在线 3D 高斯表示 。然后将该表示呈现为 BeV 特征图,然后由语义分割头进行分析。

基于深度 。一系列模型是建立在像素级深度估计和图像特征的显式预测的基础上的。结合相机校准参数,这可以将 2D 特征反投影到 3D 特征点云中,最终聚合在 BeV 网格中。为了适应深度估计的不确定性,这些特征实际上沿着穿过其像素的光线传播,并通过离散深度概率估计进行调制[8,10,18]。为了改进深度预测,在模型训练期间使用 LiDAR 数据提出了一种显式深度监督方案 [13]。然而,基于深度的方法对光线采样策略很敏感,通常沿光线和物体表面反投影特征(见图 1a)。

基于投影 。通过彻底的比较研究,[7] 提出放弃深度估计,转而采用更简单的投影方案:使用一组预定义的 3D 点来描述场景,并通过使用校准将点投影到相机特征图上来探测相机特征数据。此投影忽略实际对象和背景位置,但返回更密集的场景表示,而不会超出对象表面深度的空白。通过选择稀疏网格表示,可以减少生成 BeV 网格的计算和内存开销 [3]。基于投影的视图变换方法很简单,但会导致粗糙的 BeV 表示,因为沿光线的所有体素都接收相同的特征(见图 1b)。

以注意力为基础 。利用 Transformer 模型的最新进展,深度估计被基于注意力的特征调制方案取代[15-17,22,27]。提出了几种优化方案来解决图像和 BeV 网格标记之间成对匹配的计算复杂性:空间和时间注意力的分解、可变形注意力[15]、校准和时间戳先验的注入[17]。对于分割任务,由于需要定义密集的查询图 [15],基于注意力的视图变换是计算密集型和内存密集型的。这就是为什么一些方法 [17,27] 预测低分辨率 BeV(见图 1c),然后通过连续的反卷积进行上采样。

高斯泼溅 。高斯泼溅 (GS) [12] 是一种 3D 场景渲染技术,它使用 3D 高斯来描述场景。每个高斯都通过其位置、比例、旋转、不透明度和球谐函数颜色模型进行参数化。整个渲染管道是可微分的,允许基于一组图像优化特定场景的高斯参数。 GS 既快速又并行,允许在 GPU 上进行实时操作。此外,可以通过修剪更小且透明的高斯来权衡细节以换取渲染速度。与稀疏体素网格相比,高斯网格提供了更高的效率场景的表示,因为单个高斯可以描述大体积,而较小的高斯可以以任意分辨率准确编码更精细的细节。细节和光栅化分辨率是渲染管道的参数,不是场景描述。已经提出了几种扩展,允许管理动态对象 [14, 25] 或从表示中的基础模型中提取语义特征 [19, 20, 29]。在所有情况下,高斯表示都是特定于场景的。

在我们的工作中,我们建议使用高斯表示来克服以前的视图转换器方法的缺点。与之前离线学习高斯表示的高斯泼溅作品不同,我们建议学习能够提供场景在线高斯表示的神经网络。

3. GaussianBeV

3.1. Overview

图 2 展示了 GaussianBeV 的概述。该模型将一组多视图图像 I ∈ RN×H×W ×3 作为输入,其中 N 是摄像机的数量,H 和 W 是图像的尺寸。这些图像依次通过四个模块,从而进行 BeV 分割。

3.2. 3D Gaussian generator

3.3. BeV rasterizer

3.4. GaussianBeV training

4. Experiments

全部评论 (0)

还没有任何评论哟~