Advertisement

BEVDet4D: Exploit Temporal Cues in Multi-camera 3D Object Detection

阅读量:

背景

现有BEVDet方法的预测精度低于基于点云的方法。由于速度等与时间相关的属性难以从单一帧中准确预测,在此背景下本文提出了一种名为BEVDet4D的新方法。该方法在原有基础上进行了扩展设计,在保留原有关键信息的同时增加了新的时空维度捕捉机制。具体而言,在原有框架上我们通过空间对齐技术将之前帧的BEV特征与当前帧对应区域进行融合处理,并在此基础上构建更新后的时空特征表示体系。实验结果表明该方法具有良好的适用性,在nuscenes数据集上的验证显示不仅减少了速度误差(mAVE)从0.909降至0.337,并且在其他评估指标上也实现了显著提升:mAP提升2.6%,NDS提升了8.4%,最终达到了42.1%mAP和54.5%NDS的表现水平。

贡献

  • 基于BEVDet框架构建了时序融合机制,并同时设计了空间对齐模块。该方法通过线性插值方法将当前帧的空间位置映射回前一帧的空间特征图中。
  • 注意到的是,在实际应用中该方法仅采用简单的拼接方式连接不同特征层。
  • 但该方案在实现过程中存在一定的缺陷。
  • 构建了额外的BEV编码器模块。
  • 其工作原理相对简单明了。
  • 但这一设计却显著提升了贝叶斯估计的精度。
  • 这一改进进一步增强了与其他时空相关模块之间的兼容性。

具体方法

总体架构

该方法较为简单易行,并基于其架构采用BEVDet作为基础模块。在用于获取时间信息的过程中,默认会将上一帧的BEV特征与当前状态下的特征图进行融合运算,在这一步骤中还加入了对齐步骤以确保数据的一致性。然而,在该过程中未充分探究融合手段的具体实现细节及效果表现仍待推进。具体而言,则是将其简化为直接进行拼接操作以完成数据整合任务。值得注意的是,在通过视角转换获得的特征图质量不足的情况下,默认会引入额外的BEV编码器来进行进一步优化处理,并将优化后的结果传递给后续环节完成整合。

空间对齐

存在三个坐标系:Og−XYZO_g-X Y Z, Oe(T)−XYZO_{e(T)}-X Y Z, Ot(T)−XYZO_{t(T)}-X Y Z分别代表全局坐标系、自车在T时刻的运动坐标系以及在T时刻的目标坐标系;对于目标物体的位置定义为Px(t)P^x(t),其中x∈{g, e(T), e(T-1)}表示所采用的坐标系类型;而t∈{T, T-1}因为我们仅进行两帧数据融合;变换矩阵TsrcdstT_{src}^{dst}表示从src坐标系到dst坐标的转换关系

因此重新设定学习目标为以下表达式

为了实现对齐目标,在特征图生成过程中我们将引入自车运动信息以实现精确对齐

在这里插入图片描述

实验

在指标上(指标),速度误差(速度)、属性误差(属性)以及朝向误差(朝向)均大幅下降(减少)。这得益于速度(velocity)与朝向(orientation)之间的紧密耦合关系(关系)。

在这里插入图片描述

在此基础上进行了消融研究分析,并重点关注了各模块的具体表现。具体而言,在方案A中采用了直接拼接的方式;而方案B则在这一基础上增加了对齐功能,并获得了一定的提升效果。然而,在速度误差方面仍未能达到基准水平(baseline)。随后又引入了位移预测策略,并逐步增加了BEV编码器的设计深度。值得注意的是,在该过程中还发现了一些潜在的优化空间:尽管插值操作带来了系统误差的影响,但通过提高BEV网格分辨率的方法能够有效降低这种误差的影响程度。

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~