PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images
全文摘要
该研究提出了一种名为PETRv2的统一架构,旨在实现从多视角图像数据中完成三维感知任务。该架构以先前提出的PETR框架为基础,在深入分析其局限性后展开系统性改进。具体而言,在时间建模方面重点探讨了其有效性,并在此基础上进一步开发了具有自适应能力的时间位置编码模块(TPE)。研究者在此基础上进一步开发了具有自适应能力的时间位置编码模块(TPE),以提升模型对不同场景数据的适应能力。特别关注于多目标优化问题,并成功应用于基于场景的任务划分策略设计。通过引入一种特征导向的时间位置编码器(FTE),该方法显著提升了模型对复杂场景的理解能力。实验评估结果显示,在多个关键指标上,该方法均优于现有竞品方案。此外,在具体应用层面也进行了详细验证与分析,并提出了若干未来改进方向与应用前景展望
论文方法
方法描述
本文提出了一种新型自动驾驶感知框架PETRv2作为基于多视角图像的技术手段,在完成目标包括识别场景中的物体及其车道线方面展现出良好的性能特征。该框架以先前的PETR模型为基础发展出了新的功能模块包括时空建模与并行视觉分割技术。
在处理每张图像时(段落首字母大写),我们通过预训练的ResNet-50提取出相应的二维特征图(此处应保留数学公式...原样)。随后,在相机坐标系下生成三维坐标数据。基于车辆运动的影响因素(避免直译),我们将前一帧的三维坐标数据经过姿态变换运算转换至当前帧的空间参考体系中。接着(注意动词时态变化),我们将相邻两帧之间的二维特征图与对应的三维坐标数据分别建立连接关系,并经由特征引导位置编码器(FPE)处理后得到关键值向量及对应的值组件(避免直译),这些信息被传递给目标架构中的Transformer解码器模块进行后续处理工作。最后(注意时间状语从句),我们将在空间维度上对目标检测结果、图像分割结果以及车道线探测结果进行初始化设置,并将其整合进Transformer解码器系统中运行。经过模型更新优化后(避免直译),系统输出的结果将被投射至专门的任务头单元中完成最终预测计算过程。
方法改进
与原始的PETR模型相比,PETRv2引入了以下改进:
- 引入了时序建模:基于计算两个连续帧间的三维点对之间的距离,在线完成跨帧目标定位以及速度估算。
2. 集成了一种基于深度学习的BEV分割技术:根据预设的分割标签对空间区域进行分类处理,并生成具有较高分辨率的空间布局信息。
3. 新增了一个基于感知层的车道检测算法模块:利用预定义的车道特征进行匹配识别,并以实现三维空间中的道路结构解析。
此外,本文进一步说明开发了特征引导位置编码器(FPE),以便将其2D特征作为视觉辅助信息使用
解决的问题
PETRv2主要解决了以下问题:
跨帧目标定位与速度估计:基于计算不同三维坐标的间距,在完成跨帧的目标定位与速度估计中发挥作用。
在生成对应的高分辨率BEV地图时,在每个指定区域分配一个seg查询以促进高分辨率BEV地图的生成。
通过引入lane查询以提升多维数据处理能力,在完成对场景中所有车道线的支持下实现三维车道检测。
这些优化措施促使PETRv2能够在场景中实现对物体与车道线的精准探测与划分,并成功分割车道线以提升自动驾驶系统的性能水平
论文实验
本文详细阐述了基于PETR模型的三维目标多帧检测技术PETRv2,并系统性地开展了多项对比实验来全面评估该方法的技术性能。
在nuScenes和OpenLane两个数据集上进行实验对比分析后发现,在3D物体检测任务中PETRv2相较于现有的公开方法表现出更强的优势。研究者通过大量测试发现,在nuScenes测试集中该算法能达到39.8%的平均精度和49.4%的平均距离指标(NDS),相比之前的PETR模型有明显的提升效果。此外,在贝格视图分割任务中也取得了显著成果,在这一领域中算法的表现尤为突出
其次,在不同参数设置下进行对比实验后发现,在使用不同的摄像头旋转幅度时取得了显著效果。实验证明了通过增加锚点数量能够进一步提升模型性能,并且引入FPE模块有助于增强模型的鲁棒性。
最后,作者进一步探讨了模型在相机时间延迟和相机丢失等常见问题下的性能表现。实验结果表明,在存在相机时间延迟的情况下,模型的性能受到显著影响;而相机丢失则会导致明显的性能下降。
综上所述,在经过全面评估后可以确定PETRv2这一模型在多维度的数据集与各类应用场景中展现出了卓越的表现能力。该模型不仅能够高效地完成预期的任务目标,并且其设计理念充分考虑了系统的稳定性和灵活性特点,在实际应用中展现出极高的适应性和泛化能力。
论文总结
文章优点
本文提出了一种命名为PETRv2的统一架构,在深度感知领域取得重要进展。该架构旨在通过多摄像头图像数据进行三维感知,并在此基础之上增添了时空序列建模与多目标协同学习能力。特别地,在传统三维位置编码机制的基础上,本研究创新性地引入了特征引导位置编码(FPE),从而优化了原始的3D位置嵌入(3D PE)。实验研究表明,在涉及三维目标识别、鸟瞰图分割及道路车道检测等多个关键指标方面均实现了最佳水平的表现。
方法创新点
该论文的主要贡献体现在以下几个方面:第一部分中探讨了如何将位置嵌入变换扩展至时序表示学习领域,并利用相机参数将三维空间中的点位信息转换为前后帧间的相对坐标表示;第二部分中开发了一种针对各类任务定制化的查询机制;第三部分中提出了特征引导的位置编码(FPE)方案。通过对2D图像特征进行注入并运用sigmoid激活函数对三维位置编码进行加权调整后发现,在此过程中所提取的空间关系得以更加准确地表征,并能提供更为精准的查询指导;此外,在这一过程中还实现了对不同任务解码器的有效共享机制构建
全文翻译
摘要
本文提出了一种名为PETRv2的新方法用于多视图图像的三维感知统一框架构建。基于先前的研究成果PETR[24]作为基础模块,PETRv2深入探讨了时间建模的有效性,并通过引入前一帧的时间信息来显著提升三维物体检测性能。具体而言,我们扩展了原模型中的3D位置嵌入(3D PE)机制,使其能够更好地捕捉时间序列特征。该机制通过在不同帧之间实现精确的时间对齐,增强了模型对复杂场景的理解能力。此外,我们还设计了一个特征引导的位置编码器(FG-PC)来提升3D PE模块的数据适应性,从而进一步改善模型的整体性能表现。为了支持多任务学习任务(如贝叶斯边缘分割和三维车道识别),PETRv2采用了任务特定查询机制提供了一种简洁有效的解决方案,这些查询信息被预先初始化在不同的空间区域中以促进跨任务信息共享与协同学习过程。经过一系列实验验证,PETRv2在三维物体检测、贝叶斯边缘分割以及三维车道检测等关键指标上均取得了超越现有方法的最佳性能记录。同时,我们进行了全面的鲁棒性评估以确保模型在复杂环境下的稳定性和可靠性表现能力。我们相信该框架将为三维感知领域提供一个强大的基准模型参考价值,相关的代码实现可以在以下GitHub仓库中获取:https://github.com/megvii-research/PETR
1.介绍
最近,自动驾驶系统中的多摄像头三维感知技术受到了广泛关注。其中一种基于BEV(Bird's Eye View)的多摄像头三维目标检测方法可划分为BEV基[11、12]和DETR基[20、24、39]两类方法。采用BEV基的方法(例如BEVDet [12])通过LSS [33]显式地将多视图特征转换为鸟瞰图(BEV)表示。与这些基于BEV的部分不同,在DETR基方法中[39]每个3D对象被建模为一个独立的对象查询,并利用匈牙利算法[16]实现了端到端的目标建模过程。在现有研究中PETR [24]通过引入基于DETR [4]的改进方案,在多视图2D特征的基础上添加了3D位置嵌入(3D PE),从而实现了对具有位置意识特征的转换。这种改进使得从3D空间初始化的对象查询可以直接
利用生成的3D位置感知特征与之融合的方式去识别3D物体信息。在本文研究中我们主要致力于通过增强版PETR结合时间建模与多任务学习的支持来构建一个功能更为全面的知识表示体系。
对于时间建模而言,核心挑战在于如何在三维空间中实现不同帧对象位置的精准对齐。现有研究[11, 20]主要聚焦于基于特征对准的方法来解决这一问题。具体而言,在BEVDet4D[11]中作者明确地通过姿态变换将前一帧的BEV特征与当前帧进行了对准处理;而PETR则采用了隐式的3D位置编码方式将3D坐标映射至二维图像特征,并实现了无需显式特征转换的任务目标。尽管PETR已证实其在3D视觉感知方面的有效性[38](即证明了3D PE的有效性),但我们仍有必要探究其是否同样适用于时间对准任务。在PETR机制中相机投影空间中的网格点被用于不同视图间的共享信息传递过程,并由相机参数进行转码得到相应的3D坐标表示;随后将这些3D坐标输入到简单的多层感知器(MLP)中生成最终的3D PE表示值。经过我们在实际应用中的测试发现:仅通过实现前一帧与当前帧之间的3D坐标对准操作即可使PETR方法在时间条件下展现出良好的性能表现
对于多任务学习而言,BEVFormer [20] 提出了一种统一的解决方案。该方法将BEV地图上的每个点定义为一个BEV查询点,并因此实现了3D物体检测与BEV分割功能的结合应用。然而,在高分辨率场景下(例如256×256),由于BEV图中的查询点数量显著增加(例如超过6万点),这会带来计算负担的剧增。这种基于物体定位定义查询的方式显然不适合PETR框架中的全局注意力机制需求。为了提升效率并满足多任务需求,在本文中我们提出了一种适用于多任务学习的统一稀疏查询方案。通过在不同空间尺度上分别定义不同类型的稀疏任务特定查询点来实现这一目标:具体而言,在执行3D车道检测任务时,默认采用锚定车道风格的空间坐标系来定义相关查询;而对于需要进行BEV分割的任务,则初始化对应的seg查询位于全局BEV空间中完成设置。所有这些稀疏的任务特定查询均被输入到相同的transformer解码器模块中进行特征更新,并最终通过各自对应的分支结构输出相应的高质量预测结果
此外,在进一步优化 PETR 中的三维 PE 生成流程的同时,并对 PETRv2 进行深入稳健性评估。如上所述,在 PETR 中,则是以相机投影空间内的固定网格点为基础构建三维 PE 架构。值得注意的是,在此论文中我们则采用特征引导的位置编码器(FPE)作为改进方案。具体而言,在经过处理后注入到小规模多层感知机网络并结合 Sigmoid 激活函数后产生了注意力权重系数矩阵,并以此指导三维 PE 的构建过程。值得注意的是,在此过程中所设计出的 FPE 是数据依赖性的创新架构模式,并可为后续研究提供参考依据。为了全面系统地考察其性能表现特点,在本文实验部分我们将其与传统方法进行了广泛的对比分析,并针对不同光照条件下的重建效果展开了详细讨论
总结起来,我们的贡献是:
我们开发了一种概念简单的扩展位置嵌入变换方案,在时间表示领域进行了应用研究。姿态变换操作在三维PE上执行后可实现时间同步。进一步提出了一种基于特征引导的新型位置编码器,并利用来自二维图像特征的信息对三维PE进行动态调整优化
基于PETR实施多任务学习,并开发出一种简洁且高效的解决方案。通过采用任务专门化的查询机制来实现BEV分割以及三维车道检测。
研究结果表明,在多个关键指标上所提出的框架表现出色,并且展现了卓越的能力。进一步说明,在这些领域的具体应用中取得了显著的效果,并通过全面评估证实了其鲁棒性特征。
相关工作
2.1 多视图三维对象检测
先前的研究工作主要集中在单视图设置下的三维物体检测问题上[2,6,13-15,29,35,37,38]。近期基于多视图图像的三维物体检测成为研究热点[12]。ImVoxelNet[34]和BEVDet[12]将多视图图像特征映射到BEV表示中,并在此基础上提出了改进方案[42]。DETR3D[39]和PETR[24]借鉴了端到端DETR方法[4,23,28,46]的思想框架,在此基础上发展出新的三维物体检测算法。通过在三维空间中进行对象查询操作,并结合多视图图像特征信息,在变压器解码器中实现特征融合与解码过程。进一步的研究工作引入了时间信息到基于视觉的三维物体检测模型中,并通过空间交叉注意力机制提取并融合图像特征,在自注意力机制的基础上实现了历史BEV特征的有效融合与更新。基于BEVDet[12]框架开发出性能更优的BEVDet4D算法。
时域建模并达成了良好的速度估计效果。BEVFormer [20] 和 BEVDet4D [11] 通过在贝 Vor 空间中实施多帧特征的精确配准来提升检测性能。不同于这些方法,我们采用了基于三维位置嵌入(3D PE)的方法扩展了 PETR 的时间维度,并完成了时间同步处理。
2.2. BEV分割
BEV分割专注于BEV视图中的感知。它将多视图图像作为输入,并将其输出栅格化到地图视图中。VPN [30] 在模拟环境中提出了一种视图解析网络,然后将其转移到真实世界环境中进行跨视图语义分割。LSS [33] 通过隐式估计深度并将二维特征转换为三维空间来转换二维特征,并使用不同的头执行BEV分割和规划。M2BEV [40] 进一步使用相机参数投影从主干提取的特征到三维自我汽车坐标系以生成BEV表示。然后使用多个任务头进行三维检测和分割。BEVFormer [20] 使用预定义的网格状BEV查询与二维图像特征交互以生成BEV特征。CVT [43] 使用交叉视图变压器学习几何变换。HDMapNet [19] 将多视图图像转换为BEV视图并产生矢量化局部语义地图。BEVSegFormer [32] 提出多摄像头可变形注意力构建语义地图。
2.3. 三维车道检测
BEV分割能够构建局部地图的元素信息但无法捕捉不同实例间的空间关联性近期三维车道检测任务愈益受到关注其中3D-LaneNet[7]首次实现了基于三维空间的车道线检测它通过逆透视映射(IPM)将特征从正面视图投影至BEV空间Gen-LaneNet[8]则采用了新型车道线表示方法以对齐视角锚定点与BEV特征信息而Persformer[5]则基于可变形注意力机制能够根据参考点周围局部上下文生成BEV空间中的特征描述Curve-Former[1]则整合了曲线交叉注意力模块用于计算曲线查询与图像特征间的相似度度量最终完成对应于参考点的目标提取
方法
3.1 总体架构
如图1所示,在这种架构下(或基于这种架构),PETRv2不仅继承了原有的功能(或采用了现有的技术),还进一步发展了时序建模和BEV分割能力(或进行了相应的扩展)。通过从多视图图像中提取特征得到了二维图像特征。

如图1所示
二维主干(如ResNet-50模型),并从相机投影空间推导出三维坐标系中的点位信息[24]。随后,在考虑自身的运动情况下,将上一时间帧t-1的空间中的三维点位信息转换至当前时间帧t所在的坐标系中,并对该变换过程采用姿态变换矩阵进行处理。接着,在获取相邻两个时间帧之间的二维特征表示与三维空间中的点位信息后进行连接操作,并将这些组合后的结果作为输入传递给特征引导位置编码器(FPE)。随后通过FPE模块生成了目标变压器解码器中的关键与值向量集合。在此过程中,“任务特定”的查询信息包括两类:检测类型查询(det queries)与分割类型查询(seg queries),它们分别来源于不同的空间区域,并在经过上述处理后被注入到目标解码器中与多视角图像特征展开交互作用。最后,在任务特定头中使用更新后的查询信息以完成最终预测目标。
3.2 时间建模
PETR [24] 基于图像视觉特征和空间中的投影视图构建了多视角3D检测的隐式的3D特征。在本节中,我们进行了改进,并采用更为精确的空间定位与实时速度计算相结合的方法以达到时间建模的目的。
三维坐标的对准过程中,在时间对齐的过程中(如图2所示),我们将帧t-1的三维空间中的点转换至当前时间点t所在的坐标系统中。为了便于理解这一过程的具体实现细节,在后续章节我们会详细阐述各个关键步骤。为此我们需要明确几个关键的空间框架:相机空间记为c(t),激光雷达空间标记为l(t),而本体空间则记作e(t);此外还需要定义全局参考框架标记为g。在此基础上我们引入了从源空间到目标空间的变换矩阵T_dst_src

图2。坐标系从坐标系t - 1变换到坐标系t的图示。
将l(t)设定为空间模型的基础框架,并以提取各空间点的位置信息为目标。其数学表达式可表示为:对于第i台摄像机而言,在观察某一点P时会将其坐标转换至全局坐标系中,并可表示为:
\text{Global}(P_i^{(t)}) = \text{CameraProjection}(P_i^{(t)})
其中\text{Global}(P_i^{(t)})代表该点在全局坐标系中的位置信息,
\text{CameraProjection}则代表摄像机观测过程。

其中P_m(t)代表相机投影空间中的网格点集合。K_i ∈ ℝ^{4×4}表示第i个相机的内参数矩阵。基于辅助帧t−1的信息,在第i个相机视角下完成对三维点框架T中各点坐标的确定。
以全局坐标空间作为帧t-1和帧t之间的桥梁,T l(t)l(t−1)可以很容易计算:
将对齐的点集 [P l(t) i (t-1),P l(t) i (t)] 用于生成三维PE,如第3.4节所述。

3.3 多任务学习
在本节内容中,我们的目标是针对PETR [24]设计segmentation query和lane detection query以优化高精度的BEV分割与三维空间中的车道识别。

图3。多任务学习中三种查询的定义。detection查询在全局三维空间中被定义为基于锚框的概念表示;segmentation查询在BEV空间中被初始化为基于像素的空间分割;lane tracking query则通过anchor lines进行定义,在此过程中每个anchor line都由300个独立的anchor points构成
基于BEV分割的方法被提出后,在实际应用中发现该算法具有良好的鲁棒性
在本研究中,在PETR系统中增加了车道查询功能 旨在实现三维车道检测功能(见图3 ©)。为此 我们建立了一个基于锚定点的空间模型 用于描述多条平行且连续分布的道路线条。每个锚定点对应一组有序的三维坐标参数 l = { (x₁,y₁,z₁)、(x₂,y₂,z₂)、···、(xn,yn,zn) } 其中n代表每条道路样本点的数量。为了提升复杂场景下的预测准确性 我们沿Y轴方向均匀分布地选取固定数量的关键点集合 该方法与现有的Transformer架构设计相似 但相比传统的Transformer架构 在特征提取阶段引入了空间关系建模机制
基于此,在本研究中所采用的锚定点线与Y轴方向平行。值得注意的是,在此过程中,Transformer模型预定义了不同斜率以区分各条锚定点线。通过更新解码器中的神经网络权重参数后得到的新查询向量能够有效提取潜在的道路几何信息。本模块首先利用深度学习算法对输入图像进行特征提取,并基于提取到的三维特征信息推断出目标车辆所在的类别C。鉴于实际道路场景中车辆行驶长度往往呈现可变性,则在此基础上我们进一步推导出目标车辆在X轴和Z轴方向上的相对位移情况(Δx, Δz)。为了提升分类准确性并减少估计误差的影响程度,在训练阶段我们采用了交叉熵损失函数作为优化目标;同时为了更好地捕捉空间位置关系带来的偏差信息,在损失函数计算中引入了L1范数作为辅助项。
3.4 特征引导位置编码器
该系统实现了将输入空间中的点映射到一个高维向量空间中,并将其标记为3D位置编码(3D PE)。 生成的三维位置嵌入可以用以下数学公式来表达:

其中ψ(\cdot)作为一个简单的多层感知器(MLP)的基础单元存在.PETR模型中所定义的三维位置编码 PE 与输入图像之间不存在直接关联.我们主张基于图像特征所提取的信息能够提供具有指导意义的信息源(例如深度信息),从而使得三维 PE 应该依赖于二维特征来生成更为合理的表示形式.在本文中我们提出了一种基于特征引导的位置编码器 它隐式地引入了视觉先验知识 从而使得模型能够在不依赖外部监督的情况下自动学习到有效的表征空间中的几何关系.其生成过程可被形式化地表示为:
f_{i}^{c}(x)=\sum_{k=1}^{K} w_{k}^{c}\cdot f_{i}^{k}(x)

其中ξ是一个小型多层感知机(MLP)网络之一。Fi(t)代表第i个相机采集的二维图像特征。如图4所示,在经过一个1×1卷积投影后得到的二维图像特征会被输入到两个不同的小型MLP网络ξ和Sigmoid函数中以计算出对应的注意力权重。随后,三维坐标通过另一个MLP网络ψ进行转换,并与注意力权重相乘生成三维位置编码(PE)。将三维PE与原始的二维特征相加得到Transformer解码器的关键值表示。最后,在完成上述操作后,投影所得的二维特征会被用作Transformer解码器的价值组件构建。

图4展示了特征导向位置编码器的架构。相较于PETR[24],PETRv2中的三维位置编码单元(PE)基于数据依赖的方式来生成,并且以图像特征为导向。
3.5.稳健性分析
值得注意的是,在自动驾驶系统领域的最新研究成果中(段落:尽管最近有很多关于自动驾驶系统的论文),LSS [33] 方法通过模拟外部噪声和相机脱落等极端条件下的运行表现验证了其稳定性(段落:然而,在对所提出方法的鲁棒性展开深入研究方面仍存在一定的局限性),而BEVFormer通过分析模型在不同相机外参数设置下的性能表现证明了其适应能力(段落:同样地)。在实际应用中(段落:同样地),传感器误差和系统偏差的影响因素多种多样(段落:同样地)。为了确保系统的安全性和可靠性(段落:同样地)——即安全性与可靠性均为关键考量——我们在实验设计阶段需充分考虑这些因素的重要性(段落:同样地)。为了全面评估我们的方法的优势与局限性(段落:同样地),我们计划进行一系列系统的实验研究(段落:同样地)。如图 5 所示(段落:同样地),我们关注以下三种常见的传感器错误类型:
外在干扰因素:在现实中,外部干扰因素显著存在。例如汽车颠簸或环境力所导致的相机晃动和偏移都会影响系统提供的外部信息准确性,并最终会影响感知结果
相机失效:当一个相机出现故障或受到遮挡时,则会出现相机图像的缺失现象。通过多幅图像可以获得全局视觉信息,在这种情况下可能存在一些无法在真实世界中观察到的情况。为了确保数据完整性需对这些图像的重要程度进行评估,并预先制定相应的冗余传感器策略以应对可能出现的情况
相机延迟为由于相机曝光时间设置限制所导致的一个重要问题,在特定条件下尤其会成为一个挑战。当设备处于夜间环境下时,较长的曝光时间会使系统捕获前帧图像并由此产生明显的输出偏移。
4 实验
4.1 数据集和指标
评估我们的方法已在nuScenes基准测试[3]及OpenLane基准测试[5]上进行。该数据集NuScenes[3]为多个领域提供了广泛的数据支持。该数据集具体分为训练集、验证集及测试集三个互斥类别,在训练集中包含700个场景,在验证集中包含150个场景,在测试集中同样包含150个场景。我们重点研究了三维物体检测与BEV分割两个核心问题。同时,在对该系统性能进行评估的过程中,我们还进行了OpenLane基准测试[5]上的三维车道检测实验分析。其中包含了20万帧图像,并具有超过88万个精确标注的道路车道实例。该数据集采用了14种不同的车道类别来涵盖各种典型的交通场景
在三维物体检测中,在每20秒的视频持续时间下设置了约40个关键帧用于标记。我们报告了以下官方评估指标:nuScenes检测得分NDS、均值精度mAP以及五个关键TP指标——分别是均值位移误差mATE、均值尺度误差mASE、均值方向误差mAOE、均值速度误差mAVE和均值属性误差maAE。其中nuScenes检测得分NDS被视为综合评估该检测性能的标准。
对于BEV分割,在文献[33]中被采用,并以IoU分数作为评估指标。我们将地面真实划分为可行驶区域;车道;车辆三个类别;其中车道类群由以下两个地图层构成:车道分隔线以及道路分隔线;而对于车辆分割部分,则通过将3D边界框投影至BEV平面以获取ground truth instances[33];而车辆分割中的ground truth instances特指所有属于自行车;公共汽车;汽车;建筑;摩托车;拖车以及卡车等类别的meta类别的边界框。
在三维车道检测领域中, 我们参考了Persformer [5]的方法, 并采用F1分数与分类准确度作为评价标准. 当预测出的车道实例有75%的空间点其到点欧几里得距离小于1.5米时, 则认为该车道实例被成功预测. 此外, 在模型评估方面, 我们采用了近处X轴、远处X轴、近处Z轴以及远处Z轴等四个指标. 这些指标则用于在特定范围内计算结果的平均偏差程度.
4.2 实施细节
在本研究中采用的方法中,
具有1/16分辨率的空间金字塔特征P4用于二维特征提取,
其中融合自主干网络C4和C5输出的信息。
该三维坐标的生成过程与PETR[24]中的方法一致。
基于BEVDet4D的设计框架,
我们在训练阶段随机选取一个连续帧作为前一帧,
其时间范围限定于3T至27T之间,
而在推理阶段则每隔约0.083秒(即T≈ 0.083秒)采集一个样本帧。
基于AdamW优化器设计的模型架构中采用了L2正则化系数为1\text{e-}4的正则化策略,并结合余弦退火学习率调节方法[26]进行参数优化。实验系统配置包括8个高性能GPU(每台配备Tesla A100架构),所有实验任务均在配备8个GPU并运行两倍调度策略下完成总共24轮训练周期(其中一半为消融研究任务)。在推理阶段未采用测试数据增强技术以保证结果的一致性与可重复性。
在三维空间领域中开展研究时
为了对外界噪声进行模拟并评估系统性能,并采取一种方法对相机的外参数进行随机三维旋转作为最常见的几何变换之一。忽略其他类型的干扰因素,并以防止多因素干扰的方式对该过程进行优化处理。具体而言,在实验过程中通过从多个摄像头中随机选择一个来进行外参数优化,并将R_max = M表示为α_max = β_max = γ_max = M的形式。
4.3. 最新状态比较

表1展示了nuScenes val集上的近期作品比较情况。经过对FCOS3D与PGD结果的微调优化及持续测试,并将测试周期延长至标准流程之外。基于CBGS[45]框架训练的是DETR3D、BEVDet以及PETR模型注脚①表明初始化模块来源于FCOS3D主干网络
表1对比了我们方法与nuScenes验证集上近期研究工作。在公共基准上实现了最佳性能,在测试集上的平均精度(mAP)达39.8%,平均时间延迟(NDS)达49.4%。表2展示了nuScenes测试集上的性能对比结果。得益于时间建模技术的支持,在此场景下,mAVE算法可实现每秒 hundred thirty-four point three米的平均速度, 而传统的PETR算法则表现更为稳健, 达到了每秒 eight hundred point eight米的速度水平。值得注意的是, 由于其高效的特征对齐机制,PETRv2模型不仅具有较高的计算效率, 而且能够方便地应用于实际生产环境。
此外,在nuScenes数据集上对PETRv2的BEV分割性能进行了对比研究。参考表3的数据,本研究采用了ResNet-101和VoV-99两个模块作为主干网络结构进行实验分析。考虑到PETRv2是基于时空扩展设计而来,因此我们将注意力集中在与BEVFormer的有效比较上。实验结果表明,在IoU-lane和IoU-Drive两个评估指标上,我们的模型表现显著优于后者;同时,在IoU-Vehicle评估方面也展现出不俗的表现。当采用预训练的VoV-99模块时,则进一步验证了该方法的优势所在
如表4所示,在对三维车道检测方法的性能评估中
对比分析表明,在采用相同的EfficientNet主干架构时,我们的方法较Performers实现了更高的F1分数(51.9%)。通过采用强大的预训练VoV-99主干架构作为基础模型,在实验结果中我们观察到该方法表现出了显著提升。此外,在实验部分中我们采用了400个锚点来详细描述每条车道的状态,并通过实验验证发现随着锚点数量的增加对该方法的整体性能有明显提升。经过深入分析后发现,在当前系统设计下仅使用10个锚点就无法有效建模相对复杂的三维车道结构这一挑战性问题存在严重缺陷。值得注意的是,在我们的方法中虽然新增锚点带来了性能上的改善但这种改善的空间却相对有限因为这些新增锚点主要集中在车辆尾部区域其对整体预测效果的影响较为有限
4.4 消融研究
在本节中,我们采用了VoVNet-99作为主体网络进行融合实验。该主体网络基于DDAM15M数据集[31]和Nuscenes的数据集分别进行了预训练,并将输入图像尺寸设定为800×320像素。经过持续优化过程达到了24个 epoch 后的模型性能指标达到预期效果。检测查询的数量被设定为900次
在本研究中,我们对设计中的两个核心组件进行了深入研究:三维坐标对齐(CA)与特征引导位置编码器(FPE)。通过精心规划的消融实验设计,在不引入其他改进措施的情况下单独进行了3D检测分支的训练以观察基准效果的变化趋势。实验结果表明,在未引入CA的情况下(如表5 (a)所示),PETRv2系统仅实现了NDS指标提升2.7%以及mAP提升0.5%;而成功引入CA后则将两项指标分别提高至2.1% NDS与0.9% mAP水平。值得注意的是,在测试指标方面出现了例外现象:mAVE值反而降至0.429米/秒左右,在一定程度上低于原始PETR基准表现;这一现象可能与模型架构设计相关联。随后我们进一步验证了FPE的有效性:通过将PETR中的3D位置编码器替换为FPE架构,在其他条件不变的情况下观察到了显著性能提升效果:其中NDS指标增长幅度达到了1.5%,而mAP却仅增加了0.2%左右
在PETRv2中采用FPE技术后,mAP取得了明显的提升(0.8%)。这进一步证明了FPE模块对于提升PETR系统的时序性能同样具有重要意义。
4.5 稳定性分析
表6汇总了在nuScenes数据集上推理过程中的定量评估结果。对比实验中包含了PETRv2、PETR以及改进型版本PETR+FPE(其中FPE代表特征引导的位置编码器)。当外界干扰程度逐渐增强时,在本研究中采用的三种模型(包括基础版本与改进型)均呈现出性能下降的趋势。具体而言,在极端噪声设置下(即当Rmax被设定为8时),基础模型的表现出现了显著退化:相比而言,PETRv2出现了4.12%在mAP指标上的降幅以及2.85%在NDS指标上的降幅; 同样地,PETR+FPE则分别录得4.68% mAP与3.42% NDS的损失; 而基础版 PETR 则遭遇了更为严峻的考验,其mAP与NDS分别下降达6.33%与4.54%。值得注意的是,FPE机制在此处展现出了一定的优势,但纯粹基于多帧的时间扩展策略并未能带来实质性的抗干扰能力提升效果
此外,在图6中展示了当随机丢弃一个摄像头时模型的表现情况。其中,在nuScenes数据集中共有六个摄像头布局:前向和后向摄像头是最关键的部分。它们的缺失分别导致mAP值下降了5.05%和13.19%。由于其广角覆盖范围(120度),后向摄像头在整体监控中扮演着特别重要的角色。其他摄像头的缺失同样带来了平均性能降低2.93% mAP和1.93% NDS的结果表现。值得注意的是,在nuScenes数据集中各摄像头之间的重叠区域非常有限,因此任何单一镜头失效的情况都难以通过相邻镜头进行有效补偿。实践中,在紧急情况下传感器冗余是必要的前提条件;而相机间的视觉感知能力则需要更为深入的研究来进一步提升系统的可靠性与稳定性
相机时间延迟的效果如表7所示,在nuScenes数据集中表现突出;其中关键帧的真实值被明确标记,并且我们还充分利用了那些没有标记的中间帧。
将连续帧作为输入图像来模拟时间延迟效果。实验结果表明,在持续时间为0.083秒的时间延遲下, 检测精度指标mAP值下降了3.19%, NDS指标下降了8.4%;当延遲持续时间超过0.3秒时, 检测精度出现了明显的退化, 其中mAP值降至26.08%, NDS值降至36.54%。考虑到实际系统中难以避免的时间延遲会对检测性能产生显著影响, 因此必须予以高度关注
结论
综上所述
