Advertisement

【3D目标检测】Enhancing 3D Object Detection with 2D Detection-Guided Query Anchors

阅读量:

论文链接:该文提出了一种通过二维检测引导查询锚点增强三维物体检测的方法

代码链接:暂无

作者:Haoxuanye Ji,Pengpeng Liang,Erkang Cheng

发表单位:郑州大学、Nullmax

会议/期刊:CVPR2024

一、研究背景

实验动机:

通过多角度图像采集技术实现的3D物体检测在自动驾驶系统中扮演着关键角色。相比于利用LIDAR进行定位的方案,在实际应用中采用摄像头技术的成本显著降低。即便近年来在这一领域取得了显著进展,在运用多个摄像头进行三维物体探测时依然面临诸多挑战:缺乏深度信息以及小尺寸物体难以被准确识别。

作者注意到,在特定场景下(如远程区域),现有的二维目标检测技术在可靠度上超越了当前最先进三维目标检测方案。为了增强基于查询的三维目标探测系统的效能,在所提出的QAF2D方法中采用了创新性的二维特征辅助策略。该方法的核心理念在于通过二维探测技术的高度可靠性能来辅助三维探测任务,并最终提升三维目标探测的整体效果。

论文贡献:

开发出一种基于二维边界框设计三维查询锚的方法

基于视觉提示,在3D与2D检测器之间实现图像特征提取主干的共享,并成功地将网络分为两个阶段进行训练。

(3)所提出的QAF2D整合到三个基于查询的3D对象检测器中时,在nuScenes数据集上带来了统一的性能提升。

在StreamPETR平台上整合了QAF2D算法,并按顺序展示了相关图像信息。从左至右排列的第一幅图展示了原始图像,在其下方依次呈现了真实标注边界框(第二幅图)。随后,在第三幅图中显示了一系列随机产生的候选锚框位置。第四幅图展示了基于基准方法产生的随机候选锚框集合。第五幅图则标记出了通过QAF2D算法确定的目标锚点位置。最后一幅图综合运用了基于基准的方法与QAF2D算法优化后的结果展示

二、整体框架

QAF2D结合3D检测模型的整体框架

该论文引入了一种命名为 QAF2D 的技术方案。通过从二维边界框检测中生成三维查询锚点,该方案旨在提升基于查询的三维对象检测系统的效能。

由于物体在三维空间中中心点的投影落在二维框区域内,在二维框区域内均匀地选取一组投影中心点,并对每一个这样的中心点将其与其对应的深度信息、潜在的三维尺寸以及旋转角度参数关联起来以生成三维锚定点。接着根据目标物体所属类别给定检测到的目标二维框区域分配相应的三维尺寸参数。随后将原始三维锚定点映射回对应的二维图像空间中,并计算这两个区域之间的交并比(IoU)值。只考虑IoU超过设定阈值的情况来构建三维查询索引集合。

整体框架采用2阶段训练网络:

(1)多相机图像输入到特征提取主干(ResNet或VovNet)提取特征;

(2)再输入给2D检测分支得到2D边界框;

通过3D锚点生成器为每一个2D边界框输出一组3D锚点及其对应的相机内外参数与类别信息的结合

(4)随后采用了基于查询的三维检测技术,并将其二维图像特征与生成的三维锚点一起作为输入来进行三维边界框预测。

三、核心方法

3.1 3D Query Anchor Generation

通过2D检测器可以对图像生成对应的2D检测边界框

B=eft eft ight_{i=1}^{N}

,这里的N是在图像中检测到的2D边界框的数量,其中

b_{i}=

b_{i}

具体来说,在该系统中B_i表示第i个被检测到的二维边界框;其中四个参数分别表示边界框中心坐标的x和y分量、宽度以及高度。

g_{i}

代表和

b_{i}

类别信息对应于每个边界框内的采样点应与哪些3D尺寸深度和偏航角候选相关联

对于3D锚点候选者而言,在图像平面上任意物体的三维中心点都会被其投影所覆盖,并且这些投影总是在能够包含该物体所有特征的最小非旋转矩形之内。进而得出,在这种情况下处理二维边界框时能够实现精确的目标定位。

b_{i}=

内均匀采样一组2D中心点:

C_{2D}=eft eft ight

s代表步长,

x = floor x_{i} m w_{i} iv 2 floor

,y同理,以及预设定深度候选集合

D=eft d_{0}, ... ,d_{N_{D}-1} ight

,并将

C_{2D}

中的每个点与深度候选关联起来(用笛卡尔积),得到:

接着将 C'2D每个点转换到3D坐标系,获得3D对象中心集

C_{3D}=eft  ight

,是利用相机内参K和外参R进行变换得到的:

对于3D anchor size candidates(3D 锚点尺寸候选),考虑到不同物体类别在3D空间中的尺度可能存在显著差异,在同类物体中尺度变化通常较小的情况下,则倾向于选择基于该类别的3D 尺寸参数作为初始值设定。针对类别g的所有物体实例,在系统中将逐一计算并确定每个实例的宽度、高度以及它们的范围。

,得到构造宽度、高度和长度的集合如下:

通过上面3个集合就得到了生成g类的3D对象大小候选结合 :

基于偏航角候选的Yaw angle candidates(Y轴角候选),通过等间距采样来构建偏航角候选集合:

对于Generating 3D query anchors(生成3D查询锚点),基于每个类g的2D边界框b所对应的三维中心候选集合、尺寸候选集合以及偏航角候选集合等信息,在三个候选集合的基础上采用笛卡尔积的方式生成初始三维锚定点集合即:

然后计算它和b之间的IoU,仅保留大于阈值u的 ,最终的查询锚点集:

3.2 Two-stage Optimization with Visual Prompts

为了解决如何使 2D 检测分支(基于 DAB-DETR 的默认设置)能够与 3D 检测分支共同利用图像特征提取主干而不过度影响 3D 检测器性能的问题,在作者的研究中采用了分两个阶段训练网络的方式,并将视觉 prompt 整合到 2D 检测分支中去使用。

在本研究的第一阶段中进行3D检测分支的训练。在该过程中,避免利用二维检测分支产生的结果,而是将真实的三维边界框投射至二维图像中以提取相应的二维边界框。随后,采用我们提出的方法来生成相应的三维查询锚点,这些三维查询锚点将作为基于查询式的三维对象检测器解码器使用的输入数据

在计算涉及预测与实际界的2D边界的集合间差异时,在于利用匈牙利算法对齐各维度坐标差值绝对值之和以衡量位置及尺寸偏差程度

第二阶段:通过引入视觉提示来优化2D检测分支性能。在第一阶段完成后,在线提取特征的工作已经完成并固定权重;此时针对2D目标检测设计好的特征提取网络已经完成并无法调整权重。为了使2D检测分支能够更好地利用这些已有的图像特征提取器所获得的知识点进行后续的任务处理工作,在这一阶段中我们引入了一组特殊的视觉提示参数(visual prompts)。这些参数被直接注入到特征图中,并能够引导网络学习更适合当前目标检测任务的表现形式和特性;这种设计使得在现有知识体系基础上实现对新任务的有效学习成为可能。

在第二阶段中仅限于视觉提示模块及其相关的2D检测头参数将进行参数更新其余网络组件均不发生变化从而使得模型能够在保留之前从3D任务中获得的关键特征基础上通过精细调节视觉提示来进一步提升其二维检测性能

第一部分主要是通过backbone技术实现对3D检测的映射;第二部分则专注于将backbone技术应用于2D检测领域。

Visual Prompt:类似于在图像顶部和底部增加边缘填充;对于具有形状C×W×H的特征图,在其顶部和底部添加两个形状为C×(a×H)×W的patch块。在二维检测分支训练过程中仅更新参数a以及与二维检测相关的头部模块(Head),其中a是一个可调节的关键超参数。

该研究者借鉴了这篇论文中的视觉提示方法来实现大规模模型的适应性提升策略。

3.3 Integrating into Query-based 3D Detectors

在基于Query的空间三维检测系统中, Query(Q)代表一组从数据中学习得到的向量,用于定位目标物体的位置及识别其存在状态.这些检测系统通常采用Transformer架构,其中包含编码器与解码器两个主要组件:编码器负责从输入数据中提取关键特征并生成高层次表示;解码器则利用这些编码结果进行预测,最终完成对三维边界框或其他相关参数的信息推断.

在查询替换机制中:针对现有的基于二维的目标定位系统中的三维目标检测问题,在该框架下提出了一种名为QAF2D的新方法。该方法首先采用了一种新的初始化策略来替代原有的初始化方式,并通过从二维检测结果推导出三维锚框,并将其作为新的查询向量输入到系统中。

解码器输入:作为解码器输入的一组新生成查询向量被用作解码器的输入来源,在这个过程中解码器负责将这些查询转换成最终结果:3D边界框预测

在训练阶段, 这些新型的查询锚点将通过协同优化, 增强模型对真实场景的理解能力。

作者演示了3种模型的集成方法:

1. StreamPETR:

StreamPETR 是一种使用历史查询和实时查询相结合的3D检测方法。

QAF2D创建的3D锚点替换成StreamPETR中原有的随机生成或通过学习获得的查询点

这些基于QAF2D的三维锚点直接作为解码器的输入,在三维物体检测任务中用于初始化空间位置信息

2. SparseBEV:

SparseBEV利用稀疏表示和自适应采样技术来提高性能。

QAF2D支持的3D锚点能够替代SparseBEV中的查询点,并通过这种方式使检测器能够更准确地识别和定位物体在三维空间中。

3. BEVFormer:

BEVFormer构建鸟瞰视图(BEV)特征来检测3D对象。

在构建BEV特征的过程中采用基于QAF2D生成的锚点能够提升3D物体检测的准确性

四、实验结果

nuScenes 验证集结果

nuScene 测试结果

组件时间消耗和速度比较

在2-D探测器间的对比分析中可以看出,DAB3D是一种基于自研技术开发的三维检测头.而基于BEVFormer的方法仅专注于二维特征提取,其无法提取三维信息

额外随机锚点 (RA) 的影响

视觉提示中超参数的影响

左边展示的是多机位图像的结果, 右边则对应鸟瞰图的相关结果. 尽管 StreamPETR-8DQuery 未能成功运行, 但其 QAF2D 增强版通过了三个具有代表性的案例, 这些案例均以带数字的紫色椭圆形式呈现.

五、结论和局限性

在本文中, 开发了一种方法用于从二维框生成三维查询锚, 这是为了使得三维检测器能够充分利用二维检测中的可靠信息。为了实现二维与三维探测器之间的高效特征共享, 而不影响三维探测器本身的性能水平, 提出了一个结合视觉提示的分步优化方案。该方法被整合到三个基于查询的应用程序中, 并通过nuScenes数据集进行了全面测试, 其有效性得到了充分验证。

该方法的一个局限性在于其三维检测效果受二维检测器性能的影响(虽然对其不敏感)。当二维检测器未能检测到某个物体时,在基于查询的三维检测系统中难以恢复未被检测到的对象。此外,在直接将本方法生成的三维锚定点与随机锚定点融合并未带来显著提升。作者将在未来的工作中研究如何实现两种锚点之间的协同作用。

全部评论 (0)

还没有任何评论哟~