Advertisement

【OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments】阅读笔记

阅读量:

OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments

OccNeRF: Improving 3D Occupancy Prediction Techniques in LiDAR-free environments

OccNeRF: Improving 3D occupancy prediction techniques in LiDAR-free environments

  • 1. 论文综述

      • Abstract(摘要)
      • 1. 研究背景(Research Background)
      • 2. 相关研究综述(Related Work Review)
        • 2.1 三维物体存在性预测模型(Three-Dimensional Object Existence Prediction Model)
        • 2.2 基于神经网络的光线追踪方法(Light Tracing Method Based on Neural Network)
        • 2.3 深度估计技术(Depth Estimation Technology)
  • 3. Method,

  • 3.1 Parameterized Occupied Fields,

  • 3.2 Multi-Frame Depth Estimation,

  • 3.3 Semantic Supervision

1. 论文概述

Abstract

  1. 现有的基于Occupancy的方法在重建环境时对LiDAR点云的高度依赖,在纯视觉系统中无法实现。
  2. 本文所提出的OccNeRF是一种用于无3D监督条件下的占用网络构建方法。
  3. 相比于以往关注有界场景的研究工作,OccNeRF采用了参数化重建的方法来构建占用地域,并重新优化采样策略以满足相机无限感知范围的需求。
  4. 通过神经渲染技术将占用地域转换为多摄像头深度图,并利用多帧光度一致性作为监督信号。
  5. 在语义占用地域预测任务中,OccNeRF设计了多种策略来优化提示信息并过滤掉预训练开放词汇中的噪声内容(Open-Vocabulary)。
  6. 在nuScenes和SemanticKITTI两个数据集上进行了系统性实验验证。

1. Introduction

近年来自动驾驶技术发展迅速。然而激光雷达虽然能够直接获取几何数据但它因高昂的成本以及数据采集中存在的不足而受限于实际应用。因此基于视觉的方法受到了广泛关注。在三维场景解析任务中多摄像头三维目标识别技术在自动化的应用中扮演了重要角色然而这种技术却面临来自无限类别以及长尾分布的问题

OCC预测可被视为三维目标检测的一种辅助手段,并通过直接重构周围场景的几何结构来缓解相关问题。一些研究者认为该技术在恢复被遮挡区域方面具有潜力。现有主流方法通常依赖于带有监督信号的数据或激光雷达设备,在本文的研究工作中主要聚焦于不依赖激光雷达和无监督学习的方法进行探讨与优化。

OccNeRF方法旨在在一个无3D监督的情境下训练一个多摄像机占用网络。该网络架构包含两个主要组件:第一部分是基于二维特征提取模块;第二部分则负责三维特征映射与重建任务。为了实现高效的资源利用,在第二阶段中我们采用了一种更为简便的方式:通过线性插值二维特征从而生成三维体积特征层面上的数据表示而非传统上采用耗时耗力的空间关系建模机制(即传统的跨视图注意力机制)。相较于现有研究中的基于有界占用地表征方法(例如限定在50米范围内),我们的方法采用了更为灵活的空间划分策略:在无LiDAR场景下实现了对无限远处环境的有效建模与捕捉能力提升工作)。为此,在模型设计中我们引入了一种参数化空间场的方法:将整个三维空间划分为内部区域与外部区域;内部区域遵循标准笛卡尔坐标系;而外部区域则采用了压缩后的坐标系表示法以减少计算复杂度同时又能维持足够的精度要求。此外,在具体的实现过程中我们还设计了一种特殊的采样策略结合深度渲染算法实现了参数化场到深度图的有效映射过程

在这里插入图片描述

为了估计场景中的物体占用率,在渲染过程中引入监督信号是一种直接有效的实现方式。这种监督信号的设计与生成对抗网络(Generative Adversarial Networks, GANs)[17]中所采用的损失函数具有高度一致性。然而,在实际应用中发现该方法存在明显局限性:由于环境复杂性导致的视图稀疏性使得这种方法无法充分提取有效几何信息。基于此观察,在本研究中我们提出了一种全新的监督学习框架:通过多帧渲染序列并利用相邻帧之间的光照一致性作为主要监督信号来充分挖掘时间维度的信息资源。对于语义分割任务,在这一框架下我们实现了高效的语义目标检测性能:具体而言,在针对场景语义分割问题上取得的结果优于现有方法;同时,在对3D重建问题上的性能表现也得到了验证:通过引入额外的语义分支模块来生成更高层次的语义分割结果,并在此基础上构建了完整的监督学习体系以提升模型泛化能力。

总之,我们的主要贡献包括:

  • 我们设计了一个无需激光雷达数据即可生成占用网络的系统。
    该系统能够利用时间信息推导出更多关于物体几何的信息。
    我们提出了参数化的占用场模型,并构建了一个pipeline流程框架。
    该框架得以有效地表示无界场景。
    此外,
    我们结合了相机广泛覆盖的感知能力,
    并采用三种提示策略来提升分类准确率。

本节旨在探讨计算机视觉领域的三个紧密相关的研究方向:3D物体占用估计、神经活动场建模以及自监督深度学习方法。我们系统性地总结了现有技术的发展现状,并明确当前研究中存在的主要不足,并对未来的研究方向进行了深入探讨。

2.1 3D Occupancy Prediction

基于视觉的自动驾驶系统因其重要性而受到越来越多研究人员的关注[16]、[22]、[3]、[13]、[23]、[14]、[15]、[24]、[25]、[26]、[27]、[28 ]、[29]]。在行业界中将3D占用视为LiDAR感知的替代方案具有重要意义。其中一项开创性工作是MonoScene [16]通过视线投影生成体素特征以从单一图像重建场景。TPVFormer [22]在此基础上进一步扩展其方法以引入三视角视图表示多摄像头场景。除了TPVFormer之外SurroundOcc [3]还设计了一种管道用于生成密集的占用标签而非依赖稀疏的LiDAR点作为地面基准。此外研究者们还提出了基于跨视图注意机制的二维到三维UNet架构以预测密集型占用分布RenderOcc [30]则通过利用二维深度图与语义标签训练模型从而降低了对高质量三维占用标注数据的需求与现有方法相比我们的方法无需依赖任何带注释的三维或二维标签数据Occ3D [13]则构建了一个用于评估三维占用预测性能的标准基准并提出了自底向上逐步精细地构建 occupancy 网络的方法SimpleOccupancy [31则提出了一种简单有效的 occupancy 估计框架尽管SimpleOccupancy [31与SelfOcc ?的研究都聚焦于基于视觉的方法但他们未考虑相机无限感知范围所带来的挑战

2.2 Neural Radiance Fields

在3D领域处于前沿地位的神经辐射场(NeRF)[17]近年来取得了显著进展。该技术通过多视图图像对场景函数进行优化以实现几何形状的学习,并利用体素渲染将辐射场转换为RGB图像以生成新的观察视角。从这一基础研究出发,mip-NeRF [32]引入连续值表示法并采用抗锯齿截头圆锥体来替代光线路径,从而实现了更快捷的训练与更高的视觉质量。此外,Zip-NeRF [33]则整合了基于网格模型的优势,进一步提升了性能表现。原始NeRF体系经过扩展后涵盖了广泛的技术方向,包括动态场景建模[34]-[45],模型加速技术[46]-[51],以及无界场景描述相关研究[54]-[55].其中一项重要创新是NeRF++ [54],该方法将三维空间划分为内部单位球体与外部区域,并提出了倒置球体参数化方法来精确描述外部区域特征.在此基础上,mip-NeRF 360 [55]进一步发展了这一思路,引入了平滑参数化策略以提升体积渲染效果.受上述研究启发,我们在此基础上设计了一种新型参数化方案,旨在有效建模无界场景下的预测任务.

2.3 Self-supervised Depth Estimation

尽管早期作品[56-60]均需密集深度注释,在近期深度估计领域中出现了一系列创新性研究[61-73]。这些研究大多采用自我监督学习策略,在连续帧间光度约束的基础上构建损失函数以指导深度估计模型训练。其中最具代表性的工作是Monodepth2[76]提出的多尺度特征融合框架及自适应掩膜损失方法,在提升深度预测精度方面取得了显著成效。值得注意的是,在多摄像头自监督深度估计这一新兴方向上也取得了一系列突破性进展: FSM [77]首次将时空一致性约束引入单目深度估计;SurroundDepth [78]则通过Structure-from-Motion技术生成尺度感知伪深度图实现预训练;此外还发展了基于交叉视图变换器的联合姿态估计方法以整合多摄像头信息;R3D3 [79]则创新性地将特征相关性与捆绑调整算子相结合实现稳健的深度与姿态联合估计;与现有方法相比我们提出了一种直接从3D空间中提取特征的新方法框架它不仅实现了多视角的一致性约束还能显著提升重置质量

3. Method

该流程图展示了OccNeRF的工作原理。具体而言,在输入端使用多摄像头图像序列 {I_i}{i=1}^N 的基础上,在第一层模块中我们首先通过二维主干网络提取来自 N 个摄像头的空间特征集合 {X_i}{i=1}^N。随后将这些二维特征进行三维空间插值处理以生成对应内外参数 {K_i}{i=1}^N 和外参数变换矩阵{T_i}{i=1}^N 的体素特征表示。正如第 III-A 节所述,在表示无界场景时我们采用了坐标参数化方法将其映射至有限的空间区域中。接着通过体积渲染技术将占位场转换为多帧深度图序列并采用光度损失函数作为监督信号进行优化训练。第 III-B 节详细阐述了这一模块的具体实现过程而在第 III-C 节中则展示如何基于预训练的开放领域分割模型获取高质量的二维语义标签信息

在这里插入图片描述

3.1 Parameterized Occupancy Fields

不同于先前的研究[3]和[14],本研究需要应对无激光雷达设置下的无界场景。具体而言,在内部区域方面(例如[-40m, -40m, -1m, 40m, 40m, 5.4m]),我们应保留较高分辨率的数据以覆盖大部分研究关注的区域。至于外部区域,则虽必要但信息量有限,在实现时需将其表示在收缩的空间中以节省内存资源。借鉴了文献[55]中的方法后,在每个体素网格中引入可调节的兴趣区域扩展因子以及收缩阈值参数,并对每个体素网格坐标r=(x,y,z)进行变换:r = (x,y,z)

在这里插入图片描述

其中 α ∈ [0, 1] 表示在参数化空间中感兴趣区域所占的比例。当α值越高时,我们采用更大的空间范围来描绘内部区域的细节。r′ = r/rb 是通过将输入值 r 标准化为基于预设内部边界 rb 的坐标表示。为了确保一阶导数在其定义域内保持连续性而不出现突变现象,我们引入了参数 a 和 b 来优化模型结构。

这些参数的确定是通过求解以下方程来实现的:

请添加图片描述

导出的解决方案表示为:

在这里插入图片描述

通过从二维视图中提取三维体素特征的目的在于...

在这里插入图片描述

在这里插入图片描述

其中 proj 表示将三维点 P 投射到由相机外参数 Ti 和内参数 Ki 所定义的二维图像平面。双线性插值运算符 ⟨⟩ 用于计算插值结果 Fi。为了简化特征融合过程并减少计算开销,我们直接将多摄像头采集到的二维特征取平均以生成体素级别的特征。这与文献[31]和[83]中的方法一致。通过应用三维卷积网络[84]来提取空间信息并预测占位情况。

3.2 Multi-frame Depth Estimation

将占空区域投射至多摄像头深度图中进行显示,并参考文献献[17, 54, 32]所述的方法进行处理。具体而言,在相机中心点o沿着指定像素方向d发射一条射线v(t),其参数方程表示为v(t) = o + td(其中t∈[tn, tf])。随后,在该射线上选取L个均匀分布的正交采样点{tk}L k=1,并获取每个采样点处的空间密度值σ(tk)。针对所选L个正交采样点对应的每个像素位置p,则其深度计算公式如下:

在这里插入图片描述

其中 T (tk) = exp − Pk−1 k′=1 σ(tk)δk 和 δk = tk+1 − tk 是采样点之间的间隔。

该问题的关键在于如何在所提出的坐标系中进行采样操作。该方法的特点是采用均匀采样的策略,在深度空间或视差空间中生成分布不均的参数化网格点集。这种不均衡会导致优化效果显著降低。为此我们假设原点o位于坐标系中心位置,并从参数域U=[0,1]^d中等间距选取L个样本点随后通过反函数计算得到对应的三维空间坐标值t_k = f^{-1}(v_k)其中v_k ∈ U_k=1^d为第k个样本的位置坐标

在这里插入图片描述

其中i,j,k分别代表x,y,z方向的单位向量,lx,ly,lz分别表示内部区域沿x,y,z轴的方向长度,dv是体素尺寸。基于此,在适应占位表示的过程中,我们直接预测的是渲染权重而非密度。

传统的监督方法通过比较生成的渲染图像与真实图像之间的视觉差异来评估性能;该方法被应用在了NeRF [17]的研究中;但经过实验验证发现该方法的效果并不理想;较大的场景范围以及较少的视图数据限制了该方法的学习效率;为了有效捕捉时间维度中的运动信息;我们采用了[76]、[74]中提出的光度损失这一改进方案;具体而言;通过结合渲染深度信息与当前帧的相对姿态信息将相邻帧的数据映射至当前视角下;计算映射后的预测深度与实际观测值之间的误差

在这里插入图片描述

其中 \hat{I}_i 表示投影图像, 取值为 β=0.85。此外, 我们参考文献[76]所描述的技术, 其中每像素的最小重投影损失(PSNR)和自动掩蔽固定像素的方法。针对每个相机视角, 我们生成多个连续帧的短序列而非单独的帧渲染, 并执行多帧光度损失。

3.3 Semantic Supervision

为增强占用体素信息的丰富性并便于对比现有方案, 我们采用了2D标签这一手段来提供语义监督. 在先前研究 [13,86] 中, 基于带有分割标签的三维LiDar点云被投影至图像空间, 这一过程旨在避免对密集注释三维占用数据进行高成本计算. 然而, 我们的初衷是构建一个完全基于视觉的信息处理系统, 并仅依赖二维数据来进行语义占用车数据预测. 因此, 我们采用了预先训练好的开放词汇模型Grounded-SAM [18-19,87] 来生成二维语义分割标签. 即使没有提供任何二维或三维地面实况数据支持, 预训练后的开放词汇模型依然能够生成与给定类别名称高度匹配的二维标签. 这一方案具有良好的扩展性特点, 可使其在所有数据集上均能轻松实现高效可靠运行

具体来说,在处理 c 类别时

在这里插入图片描述

其中ψ(·)是一个基于特定规则实现li索引值与类标对应关系的重要函数。当某个像素未被任何类覆盖并得到M个零logits的结果时,则会将其标记为"不确定"类标。如图4所示的是生成的检测边界框与语义标注示例

基于二维语义监督的学习框架中,在生成过程中首次引入了一个包含c个输出通道的语义分支(semantic stream),该分支能够将提取的空间特征通过c个分支映射至语义表示S(x)。在第III.B节所述的技术方案的基础上,在后续重建过程中又采用了类似的策略,并结合了以下数学表达式来进行三维重建过程:

在这里插入图片描述

其中 Spix 每像素语义渲染输出标识为...。在内存占用和计算效率方面均进行了优化以减少资源消耗的同时,则对分配有"不确定性"标记的所有像素单元格选择性地跳过其渲染过程以避免不必要的计算开销这一策略能够有效提升整体性能并降低能耗这一改进措施不仅简化了算法流程还能显著提升系统的运行效率

在这里插入图片描述

其中 Lsem 是交叉熵损失函数,λ 是语义损失权重。

全部评论 (0)

还没有任何评论哟~