Advertisement

【论文笔记】Towards Generalizable Multi-Camera 3D Object Detection via Perspective Debiasing

阅读量:

原文链接:https://arxiv.org/abs/2310.11346

1. 引言

最近,在进行多摄像头三维目标检测系统时,研究团队主要依赖贝叶斯估计法来实现不同摄像头之间数据的有效融合。然而,在实际应用中的工作场景与训练条件存在较大差异时,这些方法可能会导致系统性能显著下降。

两种主要途径是Domain Generalization (DG) 和Unsupervised Domain Adaptation (UDA)。DG方法通常通过解耦并去除领域特有的特征来提高在未见过领域的泛化能力。UDA主要通过生成伪标签或对齐隐式特征来实现领域适应。然而,在缺乏来自多角度观察、不同相机参数以及不同环境下的训练数据的情况下,学习到与视角和环境无关的特征变得困难。因此,在仅依赖视觉信息的情况下进行纯粹基于视觉的信息处理也面临挑战。

鉴于单一视图的二维(2D)检测具有较强的泛化能力,在MC3D-Det框架内已有研究探索了如何将二维检测模块集成至该架构中。具体而言,在三维(3D)目标检测任务中结合了二维信息,并促进了三维与二维之间的协同一致。值得注意的是,在此过程中,默认情况下仅依赖于三维数据可能会带来域迁移问题;而通过将三维结果映射至二维空间来促进一致性,则能提升整体效果但受限于特定类型的二维探测器设计。

该框架基于视图去偏设计了MC3D-Det模型,并通过连接不同平面实现域偏移学习中与视角及上下文无关的特征提取。本方法包含两个关键步骤:第一阶段利用隐式前景体素(IFV)将相机与BEV平面关联起来,并支持不同相机参数下的图像生成;第二阶段则在源域中通过多姿态监督IFV生成增强图像来辅助优化与视角及上下文无关的特征。在目标域上,则依赖于预训练的二维检测器来辅助优化BEV特征。值得注意的是,在此过程中我们保留了原始模型结构的同时保证推理时间不受增加影响,并通过多维度整合提升了各模型协同工作的效率。这一特性对于提升实时应用性能以及大规模部署能力具有重要意义。

本文在此研究中构建了基于MC3D-Det的UDA基准体系,并验证了其中基于BEVDepth的方法已在DG协议和UDA协议环境下展现出良好的性能。通过在虚拟数据集上的训练实验表明,在真实世界环境中的三维感知任务同样可被有效完成。

3. 准备知识

3.1 问题设置

本文旨在提升MC3D-Det的通用能力。本文采用两种方法:领域推广(Domain Generalization, DG)与无监督领域适应性(UDA)。

  • DG:仅限于利用源域标注数据集 D_S = \{X_s^i, Y_s^i, K_s^i, E_s^i\} 来增强模型的泛化能力。每个样本由 N 个多视图图像 X_i = \{I_1, I_2, \cdots, I_N\} 构成,并伴随相应的相机内参数 K_i 和外参数 E_i. 源域标注信息 Y_s^i 包括空间位置、尺寸以及朝向等关键属性。
  • UDA:在此基础上,并通过引入额外的无监督目标域数据集 D_T = \{X_t^j, K_t^j, E_t^j\} 来进一步提升模型性能。

3.2 视图偏差

为了在BEV框架下确定物体的空间位置, 其中物体的空间坐标表示为L=[x,y,z], 对应的二维图像坐标则表示为[u,v]. 大部分现有方法通常采用以下两个主要步骤进行处理: 第一步是利用图像编码器E_{img}提取各个视角下的图像特征; 第二步则是将这些特征映射到BEV空间中, 并结合BEV编码器E_{bev}进行融合计算.

其中L_{gt}\Delta L_{img}\Delta L_{bev}分别代表真实位置、图像编码器的偏差以及BEV编码器的偏差。\Delta L_{img}\Delta L_{bev}主要源于有限视角、相机参数以及相似环境所导致的过拟合现象,在无目标域下的额外监督条件下难以有效减小。本文提出了一种将空间偏差转化为单一视图偏差的方法。在图像平面中,视图偏差[\Delta u,\Delta v]可表示为:

[\Delta u,\Delta v]=\left[\frac{k_u(u-c_u)+b_u}{d(u,v)},\frac{k_v(v-c_v)+b_v}{d(u,v)}\right]

其中参数组k_u, b_u, k_v, b_v与基于BEV编码器计算得到的域偏差量\Delta L_{bev}具有直接关联关系。函数d(u,v)被定义为模型预测的深度值,在视觉感知系统中扮演着关键角色。变量c_u, c_v分别代表相机在图像平面中的中心点坐标位置,并且这些参数会直接影响到最终的三维重建精度。有关视图偏差的具体推导过程及其数学表达式,请参考附录部分。由此可得以下结论:第一部分指出位置预测误差会引起视图偏差现象;通过优化该误差项可以有效减少编码器域间的偏离程度;第二部分分析表明,在图像空间中沿着主视线方向上各点的实际投影位置可能会出现偏离

从直观上看,在贝叶斯估计(BEBV)中出现的数据分布不一致现象会导致域偏移效应出现,并从而影响特征的位置信息及其数值特征。鉴于此,在实际应用中必须考虑到这一点,并采取相应的措施以缓解这种现象的影响。本文通过多角度渲染图像的方法来解决这一问题,并有效提升模型在不同场景下的适应能力。

4. 方法

本文的视图去偏如下图所示。

在这里插入图片描述

4.1 语义渲染

由于大多数现有方法采用基于二维投影(BEV)的表示而不考虑三维深度信息,在本研究中我们提出了一种基于隐式前景体素的新视角渲染方法。具体而言,在处理过程中我们首先通过一个具有几何感知能力的解码器模块D_{geo}对输入的BEV特征f_{bev} \in \mathbb{R}^{C \times X \times Y}进行处理并分解为两个部分:一是中间特征矩阵f'_{bev} \in \mathbb{R}^{C \times 1 \times X \times Y};二是高度信息编码f_{height} \in \mathbb{R}^{1 \times Z \times X \times Y};随后我们将这两部分结合生成了一个完整的隐式前景体素表示v_{ifv} = sigmoid(f_{height}) * f'_{bev} ∈ ℝ^{C × Z × X × Y}

改写说明

为了从不同视角提取语义特征的研究问题,在本论文中提出了多视图语义渲染方法(Multi-View Semantic Rendering, MVSR)。该方法首先通过随机扰动生成多套相机参数:包括位置(x + \Delta x, y + \Delta y, z + \Delta z)和平移量(Δθ_{yaw}, Δθ_{pitch}, Δθ_{roll});随后基于隐式体素网格采样n条射线,并基于此计算得到图像特征:

F(w,h)_{render} = \sum_{i=1}^n V_{ifv}(x_i^{w,h}, y_i^{w,h}, z_i^{w,h})

然后,在RenderNet R(一种基于2D卷积的操作;详细信息参见附录)中将图像特征输入后会生成一个属于类别数为N_{cls}的热图h_{render}\in\mathbb R^{N_{cls}\times W\times H}以及一个属性向量a_{render}\in\mathbb R^{N_{cls}\times W\times H}。这些语义热图及其属性能够在源域和目标域上施加约束条件以消除视差量\Delta u,\Delta v

4.2 源域上的视图去偏

源域中的三维边界框被用于检测新视图中的热图及其属性参数,并通过归一化深度信息降低视觉偏差的影响。同时,在图像编码器中融入归一化深度信息有助于其更好地理解和重建三维几何结构。

4.2.1 视图语义监督

本文针对不同视角下的渲染热图及属性实施正则化处理以消除视图偏差。具体而言 首先将边界框被投影至渲染图像平面 \hat P_j=(ud,vd,d)=K'_jE'_jP 其中 \hat P_j 代表2.5D图像坐标 P 为3D坐标坐标 d 则表示物体至视图光学中心的深度距离。基于物体在图像平面上的位置 可按照CenterPoint的方法生成类别热图 h_{gt}\in\mathbb R^{N_{cls}\times W\times H} 同时物体尺寸参数 a_{gt}\in\mathbb R^{N_{cls}\times W\times H}也被投影至图像平面。在源域训练过程中 我们采用focal损失函数结合L1损失函数对类别热图与尺寸参数进行监督学习:

L_{render}=Focal(h_{render},h_{gt})+L1(a_{render},a_{gt})

此外还用来训练一个二维检测器将三维边界框投影到原始图像上并计算对应的损失值(L_{ps})。该二维检测器还可以用于目标域的几何校正工作

4.2.2 视图几何监督

利用明确的深度信息能够显著提升检测性能;然而深度预测模型在相机内参的过度拟合是一个值得注意的问题。本文通过强制训练网络DepthNet来学习归一化虚拟深度D_{virtual}
定义为二元交叉熵损失函数的重建损失项L_{pg}=BCE(D_{pre},D_{virtual});其中虚拟深度D_{virtual}被计算为\frac{\sqrt{\frac{1}{f_u^2} + \frac{1}{f_v^2}}}{U D}

在其中使用的二元交叉熵损失函数中包含三个关键参数:BCE()表示二元交叉熵损失;而D_pre则代表预测得到的深度值;另外两个参数f_u和f_v分别对应于u方向和v方向上的焦距计算结果;U则是一个全局常数值。值得注意的是,在这种情况下计算出的真实深度值是由三维边界框提供的前景区域内的深度信息所决定的;而不是依赖于原始点云数据中的分布情况;因此在这种情况下网络架构设计会选择性地增强对这些物体表面细节的关注程度;通过这种方式,在处理场景时DepthNet会优先考虑这些物体及其_depth_信息并据此进行分类或分割任务;最后经过归一化处理后将预测得到的深度值与语义特征结合在一起,并将其提升至贝格视图(BEV)空间中

4.3 目标域上的视图去偏

由于无标注数据集无法直接获取L_{render}值,在目标域上应用现有2D检测器能够生成修正后的几何BEV特征。通过隐式前景体素对原始图像进行热图h_{render}的渲染,并结合Focal损失约束条件下的伪标签与渲染图的一致性关系建立损失函数:
L_{con}=Focal(h_{render},h_{pseudo})\\ h_{pseudo}=\left\{ \begin{matrix} 1 & h>\tau \\ h & 否则 \end{matrix} \right.

这样,L_{con}可以充分利用精确的2D检测来校正前景目标在BEV下的位置,并归类于目标域上的无监督正则化。为提高2D预测的修正能力,在本文中采用伪方法来提升预测热图的置信度。

4.4 整体框架

虽然本文在训练阶段增加了若干网络结构,在测试阶段可以去除这些网络。特别需要注意的是,在DG协议下进行3D检测损失计算时所使用的L_{render}, L_{pg}, L_{ps}等损失函数仅为源域数据集上的应用;而L_{con}这类损失函数则仅限于目标域的数据集使用(当DG协议下没有目标域数据时)。

5. 实验

5.1 域泛化基准

本文的方法能够在目标领域实现显著提升,并由此可看出基于视图不变特征的IFV框架有助于缓解域间差异的问题。此外,在源领域保持原有精度水平的同时,在大多数情况下本文提出的方法还能够进一步提高性能表现

5.2 无监督域自适应基准

基于视图去偏原理,在线学习框架下提出的方法具有显著提升效果。其优势主要源于基于泛化性能更优的2D检测器能够有效修正3D检测器误判造成的几何偏差。与现有方案相比,在源领域通常会呈现较大的性能下降问题,在目标领域的性能损失程度更为有限。

5.3 消融研究

实验研究表明,在DG协议框架下引入了基于2D检测器的预训练策略(DPT),同时结合了源域去偏方法均能有效提升性能(SDB);而在UDA协议下引入的目标域去偏方法(TDB)同样具有提升性能的作用。值得注意的是,在上述指标中,SDB与TDB的表现提升更为显著,这是因为前者能够捕获视图不变的关键特征,而后者则能够利用泛化性较好的2D检测技术来修正目标域中存在的几何特性问题.此外,DPT策略通过基于图像特征的监督学习机制,使得网络模型得以掌握更加鲁棒且稳定的特征表示能力.

5.4 进一步讨论

该方法具备即时接入能力:所有具备图像特征识别能力和BEV特征提取能力的模型均可应用本文算法,并将有助于提升目标领域的性能。

通过可视化分析可以看出,在目标域上采用的二维检测器能够精准地定位物体的中心位置。然而,在使用基于IFV(Inverse Function Visualization)的方法生成的热图时,观察结果却不够清晰。尽管如此,在改进二维检测器的技术方案后,在一定程度上能够提升基于IFV方法生成的热图质量。

可视化:可视化结果表明, 本文算法具有更高的精度, 并且较少存在重复框. 这是因为二维检测器能够修正三维检测器的错误几何关系, 并因此提高了置信度. 进一步而言, 由于该方法具备良好的泛化能力, 它不仅能够在现有数据集上表现优异, 而且还能探测到一部分在目标领域并未被标注的对象.


附录

A. 视图偏差的推导细节

BEV融合前,图像编码器提取的物体的深度d(u,v)_{img}:=d(u,v)_{gt}+\Delta L(u,v)_{img}会导致图像编码器的域偏差\Delta L(u,v)_{img}。基于d(u,v)_{img},物体可根据相机内外参被提升到BEV空间:
[x',y',z']=E^{-1}K^{-1}[ud(u,v)_{img},vd(u,v)_{img},d(u,v)_{img}]

并通过BEV编码器修正位置:
[x,y,z]=[x',y',z']+\Delta L_{bev}(x,y,z)

为了定量分析单目视图中域偏差的表现,在图像处理过程中,物体通过预测深度信息及相机内外参参数将空间点映射至图像平面

然后计算视图偏差[\Delta u,\Delta v]=[u'-u,v'-v]。具体过程及结果见原文。

  • 图像编码器偏差主要源于相机内参数矩阵及有限视角的过拟合现象。其中前者的存在会导致深度估计精度受到影响;而后者的出现则反映了网络对车辆、地面以及背景元素之间相互关系的理解能力,并且难以实现模块间的独立性。跨域测试实验表明,在相机内外参数变化及不同视角下的信息分布差异下所引发的问题会显著放大。
    • BEV编码器在实际应用中受到一定程度的影响。在不同场景下观察到的现象差异性较强。

总体而言

B. 数据集与实施

B.3 实施细节

使用随机翻转、随机缩放、随机旋转数据增广。

B.4 网络结构

2D探测器、后方视图解码模块以及渲染网络模块均基于卷积神经网络架构设计。其中用于定位目标的主分支单元被称为CenterHead。

C. 讨论

C.1 语义渲染的讨论

除了方向变化幅度之外,在实验设置中还涉及到了分辨率设置。从实验结果来看,在方向变化幅度Δθ_yaw和分辨率设置Z上表现出了较大的影响。

C.2 不同深度监督的比较

实验证明,在应用带有表面深度标签的方法处理激光雷达点云时,在对比测试中表现不如无此类监督的学习方式(即无depth supervision)。原因在于物体表面的真实几何信息会导致其预测结果被错误地标记为背景区域。当模型缺乏这些表面depth信息时(即未施加surface depth supervision),它依赖于BEV编码器来推断物体之间的关系,在这种情况下能够更好地避免误判问题并表现出更为稳健的表现。若采用真实边界框进行depth supervision,则能显著提升模型性能

全部评论 (0)

还没有任何评论哟~