Advertisement

【论文笔记】3DOPFormer: 3D Occupancy Perception from Multi-Camera Images with Directional and Distance Enh

阅读量:

论文笔记

论文笔记

I. 引言

本文提出的3DOPFormer通过空间交叉注意力机制及反卷积操作实现对三维占据信息的重建,并进而基于激光雷达测得的射线方向特征设计了一种新型的三维占据感知优化算法。采用神经网络渲染技术构建了激光雷达射线方向对应的空间距离表示,并通过最小化生成的空间距离与原始点云间的几何差异度量使得所提取的空间占据信息能够准确地反映实际场景特征。进而通过对中间采样点进行插值运算获得目标空间中任意位置处的空间特征描述

III. 方法

A. 准备知识

此节阐述了NeRF的体积渲染公式,请参考神经辐射场的简单介绍

基于粗粒化取样的框架中,在此基础之上实施进一步的细分取样策略。该损失函数由两部分组成:粗粒化取样的渲染光度平均值和细分取样的渲染光度平均值。

在激光雷达距离合成过程中,在该渲染公式的RGB值替换成实际测量的距离数据即可实现深度估计目标;因为每个点的实际距离都是通过采样获得的;仅需预测深度参数σ;因此我们可以直接推导出深度估计函数;其中F为3D占用感知模型(见后文)。

B. 概述

在这里插入图片描述

如图所示,在处理流程中首先通过主干网络提取图像特征,并通过空间注意力将图像特征提升至3D空间以获得V_i\in\mathbb{R}^{H\times W\times Z\times C}这一高维表示。随后,在此基础上运用三维反卷积操作生成高分辨率的三维体素特征。最终阶段利用多层感知机(MLP)预测三维占用结果。

C. 3D占用感知查询

我们定义可训练参数Q\in\mathbb{R}^{H\times W\times Z\times C}(其维度与初始3D体素V_i相同)。在网格p=(x,y,z)处的查询被表示为Q_p\in\mathbb{R}^C

D. 空间占用交叉注意力

本文采用可变形注意力机制以降低计算量,在处理过程中涉及三维体素采样与二维图像特征之间的对应区域交互。

首先将查询Q_p投影至图像平面,并提取附近区域的图像特征后,通过以下式子计算得到目标向量V_i

SOCA(Q_p,F)=\frac{1}{|\mathcal{V}_{hit}|}\sum_{i\in\mathcal{V}_{hit}}DA(Q_p, \mathcal{P}(p,i), F^i)

其中,

DA(q,p,x)=\sum_{i'=1}^{N_{head}} W' \cdot A_{i'j'} W \cdot x(p + \Delta p_{i'j'})

其中\mathcal{V}_{hit}表示查询所属视图的数量,并且该值决定了后续操作的基础参数设置。投影函数\mathcal{P}(p,i)用于将空间中的一个点p_i'映射到对应的二维平面坐标系中。每个视图i'都有其特定的空间分辨率设置参数(w_i',h_i'), 这些参数由其自身的属性决定并被动态计算出来以适应当前场景的需求。在构建二维空间时, 首先根据当前场景的关键信息提取特征向量v_i', 然后通过自适应的方式构建对应的二维空间坐标系, 使得各个空间元素之间的几何关系能够被精确地描述出来

下面介绍的是投影函数\mathcal{P}(p,i)。首先,在体素索引(x, y, z)的基础上计算出查询的真实世界坐标(x_w, y_w, z_w)
x_w = \frac{x + 0.5}{W} (X_{\text{max}} - X_{\text{min}}) + X_{\text{min}},\\ y_w = \frac{x + 0.5}{H} (Y_{\text{max}} - Y_{\text{min}}) + Y_{\text{min}},\\ z_w = \frac{x + 0.5}{Z} (Z_{\text{max}} - Z_{\text{min}}) + Z_{\text{min}}

通过将投影矩阵应用于图像来进行投影。\n其中(x,y)= (x_0, y_0, z_0)\in \mathbb R^3。\n其中z = \frac{x}{w}。\n其中 camera matrix \mathcal P = K[R|T][I|s]。\n展开后有:

(x,y,z)= K \left[ R | T \right] *

\left[ X,Y,Z,1 \right]^T

其中 camera intrinsic parameters K, rotation R, translation T, disparity Z, image coordinates (X,Y)以及 depth d= Z / D(D为 camera 到 scene 的距离)。\n该过程实现了从世界坐标系到相机坐标系的转换。\n该方法在计算机视觉领域具有重要应用价值

其中K,R,T分别为相机内参、外参旋转矩阵与外参平移矩阵,z_i为深度。

E. 模型优化

除了交叉熵损失和lovasz-softmax损失之外,在以点云方向特征为基础的方向体素损失以及基于神经渲染的距离损失等方面也进行了探索

1) 方向体素损失

如图1所示,激光雷达发射的射线从起始点开始延伸,并穿过未被占用的空间单元到达被占用的空间单元处。假设穿过的空间单元数量为m个,则方向空间单元损失计算公式为:

\mathcal{L}_{dirvoxel}=\frac{1}{n}\sum L_{smooth}^1(m\cdot \ln p_c + \sum_{i=1}^{m-1}(m-i)\cdot \ln(1-p_i)), 0) \\ 其中, L_{smooth}^1(x,y)= \begin{cases} 0.5(x-y)^2 & \text{若 } |x-y| < \epsilon, \\ |x-y| - 0.5\epsilon & \text{否则}. \end{cases}

在本研究中,在分析过程中我们使用了n表示激光雷达发射的射线计数,在计算过程中引入了两个重要的概率值:预测占用概率p_i(针对中间点)以及真实类别预测的概率值p_c。为了实现有效的体素损失计算,在公式推导中我们采用了加权对数函数\log(m-i)来构建损失函数框架:权重由(m-i)乘以\log构成,并根据各射线相对于原点至激光雷达点的距离递减而赋予不同的权重系数。

2) 距离损失

在右图中, 通过将激光雷达射线段均匀划分为N等分来进行采样. 在细化过程中依据粗糙阶段各采样点的权重分布, 进一步采用相同数量(即N个)进行重新采样. 为了得到具有代表性的特征信息, 我们通过从体素特征中进行插值计算得到这些特征, 并将这些特征输入多层感知机模型以预测物体表面的透明度, 最后完成渲染处理. 在此过程中, 我们采用了加权平均的方式对每个像素的距离损失进行了评估

其中\mathcal{R}为射线集合。

IV. 实验

C. 评估指标

采用IoU(不考虑类别)和mIoU来评估性能表现;值得注意的是,在实际应用中我们仅对激光雷达射线穿过的体素进行评估。

D. 主要结果

1) nuScenes数据集上的3D语义占用预测

通过实验结果表明:本文所提出的方法较对比方案表现出更为显著的性能优势。在激光雷达扫描经过的像素区域上,则展现出更为明显的性能优势。

通过可视化可以看出, 本文的方法有助于更精确地表达物体的结构, 并且能够成功预测远处的大物体或较小的小物体。

E. 消融研究

研究表明,在本文中方向素损失与距离损失都能够提升模型性能能力,并且前者起着更为重要的作用。

全部评论 (0)

还没有任何评论哟~