BEVDet4D: Exploit Temporal Cues in Multi-camera 3D Object Detection

阅读量：

背景

现有BEVDet方法的预测精度低于基于点云的方法。由于速度等与时间相关的属性难以从单一帧中准确预测，在此背景下本文提出了一种名为BEVDet4D的新方法。该方法在原有基础上进行了扩展设计，在保留原有关键信息的同时增加了新的时空维度捕捉机制。具体而言，在原有框架上我们通过空间对齐技术将之前帧的BEV特征与当前帧对应区域进行融合处理，并在此基础上构建更新后的时空特征表示体系。实验结果表明该方法具有良好的适用性，在nuscenes数据集上的验证显示不仅减少了速度误差（mAVE）从0.909降至0.337，并且在其他评估指标上也实现了显著提升：mAP提升2.6%，NDS提升了8.4%，最终达到了42.1%mAP和54.5%NDS的表现水平。

贡献

基于BEVDet框架构建了时序融合机制，并同时设计了空间对齐模块。该方法通过线性插值方法将当前帧的空间位置映射回前一帧的空间特征图中。
注意到的是，在实际应用中该方法仅采用简单的拼接方式连接不同特征层。
但该方案在实现过程中存在一定的缺陷。
构建了额外的BEV编码器模块。
其工作原理相对简单明了。
但这一设计却显著提升了贝叶斯估计的精度。
这一改进进一步增强了与其他时空相关模块之间的兼容性。

具体方法

总体架构

该方法较为简单易行，并基于其架构采用BEVDet作为基础模块。在用于获取时间信息的过程中，默认会将上一帧的BEV特征与当前状态下的特征图进行融合运算，在这一步骤中还加入了对齐步骤以确保数据的一致性。然而，在该过程中未充分探究融合手段的具体实现细节及效果表现仍待推进。具体而言，则是将其简化为直接进行拼接操作以完成数据整合任务。值得注意的是，在通过视角转换获得的特征图质量不足的情况下，默认会引入额外的BEV编码器来进行进一步优化处理，并将优化后的结果传递给后续环节完成整合。

空间对齐

存在三个坐标系：Og−XYZO_g-X Y Z, Oe(T)−XYZO_{e(T)}-X Y Z, Ot(T)−XYZO_{t(T)}-X Y Z分别代表全局坐标系、自车在T时刻的运动坐标系以及在T时刻的目标坐标系；对于目标物体的位置定义为Px(t)P^x(t)，其中x∈{g, e(T), e(T-1)}表示所采用的坐标系类型；而t∈{T, T-1}因为我们仅进行两帧数据融合；变换矩阵TsrcdstT_{src}^{dst}表示从src坐标系到dst坐标的转换关系

因此重新设定学习目标为以下表达式

为了实现对齐目标，在特征图生成过程中我们将引入自车运动信息以实现精确对齐

实验

在指标上（指标），速度误差（速度）、属性误差（属性）以及朝向误差（朝向）均大幅下降（减少）。这得益于速度（velocity）与朝向（orientation）之间的紧密耦合关系（关系）。

在此基础上进行了消融研究分析，并重点关注了各模块的具体表现。具体而言，在方案A中采用了直接拼接的方式；而方案B则在这一基础上增加了对齐功能，并获得了一定的提升效果。然而，在速度误差方面仍未能达到基准水平（baseline）。随后又引入了位移预测策略，并逐步增加了BEV编码器的设计深度。值得注意的是，在该过程中还发现了一些潜在的优化空间：尽管插值操作带来了系统误差的影响，但通过提高BEV网格分辨率的方法能够有效降低这种误差的影响程度。

全部评论 (0)

还没有任何评论哟~

BEVDet4D: Exploit Temporal Cues in Multi-camera 3D Object Detection

背景对于现有的BEVDet方法，它对于速度的预测误差要高于基于点云的方法，对于像速度这种与时间有关的属性，仅靠单帧数据很难预测好。因此本文提出了BEVDet4D，旨在获取时间维度上的丰富信息。

51-23 BEVDet4D: Exploit Temporal Cues in Multi-camera 3D Object Detection 论文精读

BEVDet是基于LSS的自底向上建立BEV的方法，今天要读的BEVdet4D这篇论文，把BEVDet的3D研究范式提升到时空4D空间中。首先咱们简要回顾一下BEVDet框架。

Exploring Object Centric Temporal Modeling for Efficient Multi View 3D Object Detection

全文摘要本文提出了一种名为StreamPETR的长序列建模框架，用于多视角三维物体检测。该模型基于PETR系列中的稀疏查询设计，并系统地开发了对象中心的时序机制。模型以在线方式运行，通过对象查询逐帧...

StreamPETR：Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D Object Detection

参考代码：StreamPETR 1\.概述介绍：在BEV感知中时序信息融合会为下游感知任务带来不小性能提升，但是在单帧基础上引入时序信息必然会带来额外开销，因而迫切需要一种高性能且代价小的融合方案。

Sparse4D: Multi-view 3D Object Detection with Sparse Spatial-Temporal Fusion

一、研究背景 Sparse4D概述。对于每个候选锚点实例，对多个关键点的多时间戳/视图/缩放特征进行稀疏采样，然后将这些特征分层融合为实例特征，以实现精确的锚点细化。现有基于多模态融合的方法存在2个...

【论文速读】BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View

文章目录概要整体架构流程创新点模型性能概要 BEVDet，提出了一种在鸟瞰图（BEV）中执行3D目标检测的新范式，以应对这一挑战。BEVDet能够高效地处理多相机数据，并直接在BEV空间中进...

【论文阅读】Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D Object Detection

论文：https://arxiv.org/pdf/2303.11926 Github：https://github.com/exiawsh/StreamPETR?tab=readmeovfile Q:...

【3D目标检测】Sparse4D: Multi-view 3D Object Detection with Sparse Spatial-Temporal Fusion

论文链接：Sparse4D:Multiview3DObjectDetectionwithSparseSpatialTemporalFusion 代码链接：GitHublinxuewu/Sparse4D...

BEVSimDet：Simulated Multi-modal Distillation in Bird’s-Eye View for Multi-view 3D Object Detection

参考代码：BEVSimDet 1\.概述介绍：在模型实际部署过程中由于实际传感器缺失、计算资源限制等因素，导致对实际部署的模型裁剪，自然性能也会存在下降。

DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection总结

DeepFusion:LidarCameraDeepFusionforMultiModal3DObjectDetection 说明会议：CVPR2022 标题：DeepFusion：用于多模式3D对...

是否确定退出登录?

BEVDet4D: Exploit Temporal Cues in Multi-camera 3D Object Detection

背景

贡献

具体方法

总体架构

空间对齐

实验

全部评论 (0)

相关文章推荐

BEVDet4D: Exploit Temporal Cues in Multi-camera 3D Object Detection

51-23 BEVDet4D: Exploit Temporal Cues in Multi-camera 3D Object Detection 论文精读

Exploring Object Centric Temporal Modeling for Efficient Multi View 3D Object Detection

StreamPETR：Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D Object Detection

Sparse4D: Multi-view 3D Object Detection with Sparse Spatial-Temporal Fusion

【论文速读】BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View

【论文阅读】Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D Object Detection

【3D目标检测】Sparse4D: Multi-view 3D Object Detection with Sparse Spatial-Temporal Fusion

BEVSimDet：Simulated Multi-modal Distillation in Bird’s-Eye View for Multi-view 3D Object Detection

DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection总结