Fast-BEV：A Fast and Strong Bird’s-Eye View Perception Baseline——论文笔记

阅读量：

参考代码：Fast-BEV
一稿多投的另一篇：Fast-BEV: Towards Real-time On-vehicle Bird’s-Eye View Perception

1. 概述

介绍：这篇文章提供了一种可实际部署的BEV感知方案，能够在当今车端主流计算单元上（Nvidia Orin）实现不错的帧率。从camera到BEV的转换思想来自于M2BEV，但是对这个转换方法中使用查找表和映射方法改进，使得整体视角转换效率得到提升。同时，在一些细节上增加了多帧数据融合、图像编码器使用FPN优化特征、camera和BEV下的数据增广等操作提升网络性能。

这篇文章是在M2BEV的基础上改进来的，这里顺带提一下M2BEV中对于BEV特征图上分割Loss权重分布的设计，也就是BEV Centerness：
$BEV\ Centerness=1+\sqrt{\frac{(x_i-x_c)^2+(y_i-y_c)^2}{(max(x_i)-x_c)^2+(max(y_i)-y_c)^2}}$
其中， $(x_c,y_c)$ 代表BEV特征图的中心。其原理就是距离中心越远的区域会被设置更大的损失权重。下图体现了添加这个trick之后带来的性能影响：
在这里插入图片描述

2. 方法设计

文章的整体pipeline见下图所示：
在这里插入图片描述
在上图中可知文章主要的工作集中于如下几点：

1）图像编码部分：输出多尺度图像特征
2）2D转3D部分：使用查找表和基于camera ray实现2D到一个统一3D空间的转换
3）数据增广：在图像和BEV空间下实现数据增广，其实就是相机的内外参数进行调整
4）时序数据融合：借鉴BEVDet4D中时域数据融合策略，增加了参与数据融合的帧数

2.2 图像编码

对于backbone输出特征使用下图中的FPN结构实现多尺度输出：
在这里插入图片描述

2.3 2D到3D视角转换

在M2BEV中camera为光心射出的射线是以单个camera为基准的，之后这些camera生成的BEV特征再进行融合，这显然有效信息是比较稀疏的，如下图所示：
在这里插入图片描述
对此，这里建立一个统一的3D映射空间使得每个camera都向其中投影，从而实现2D到3D的视角转换。同时上述的投影过程可通过预先设置查找表的形式进行加速。将文章的方法于query-based、depth-based方法进行比较，见下图所示：
在这里插入图片描述

2.4 数据增广

这里的数据增广包含了2D图像空间和3D BEV空间下的增广，其实对于2D空间下的增广修改的是相机的内参矩阵，对于3D空间的增广修改的是相机的外参矩阵。这里使用到的增广操作包含：翻转、剪裁和旋转。
在这里插入图片描述

2.5 时序融合

在BEVDet4D的基础上增加更多帧数据输入（将前3帧的数据concat起来）用以增强网络性能（这里特征对齐使用了帧间pose）：
在这里插入图片描述

2.6 消融实验

对于上述各个模块其中一些超参数对于整体网络性能的影响见下表所示：
在这里插入图片描述

3. 实验结果

全部评论 (0)

还没有任何评论哟~

Fast-BEV：A Fast and Strong Bird’s-Eye View Perception Baseline——论文笔记

参考代码：FastBEV 一稿多投的另一篇：FastBEV:TowardsRealtimeOnvehicleBird’sEyeViewPerception 1\.概述介绍：这篇文章提供了一种可实际部...

论文阅读——Fast-BEV: A Fast and Strong Bird’s-Eye ViewPerception Baseline

该论文是商汤科技在BEVBird’sEyeView方面做的一个又快又准的一个baseline，并实现了在车载芯片，GPU，CPU上均可进行部署。并取得了不错的效果。

论文笔记：Panoptic-DeepLab: A Simple, Strong, and Fast Baseline for Bottom-Up Panoptic Segmentation

论文链接：https://arxiv.org/pdf/1911.10194.pdf 核心思想： 1.一种高效的bottomup全景分割方法，比twostage更快 2.一个统一的backbone，分出...

【论文笔记】Lift-Attend-Splat: Bird’s-eye-view camera-lidar fusion using transformers

原文链接：<https://arxiv.org/abs/2312.14919 1\.引言多模态融合时，由于不同模态有不同的过拟合和泛化能力，联合训练不同模态可能会导致弱模态的不充分利用，甚至会导致比...

BEVFusion：Multi-Task Multi-Sensor Fusion with Unified Bird’s-Eye View Representation——论文笔记

参考代码：bevfusion 1\.概述介绍：在这篇文章中提出一种Lidar和Camera在BEV空间下实现特征融合的方法，有效利用了图像丰富语义信息和雷达深度信息，构建一个不同模态数据融合的范式。

【论文笔记】FIERY: Future Instance Prediction in Bird’s-Eye View from Surround Monocular Cameras

原文链接：<https://openaccess.thecvf.com/content/ICCV2021/papers/HuFIERYFutureInstancePredictioninBirdsEy...

Fast R-CNN论文笔记《Fast R-CNN》

1.Introduction 在之前介绍的RCNN中，训练是分多阶段进行的（multistagepipeline），基本上都要分为4步extractingfeatures、finetuninganet...

论文笔记:SaccadeNet: A Fast and Accurate Object Detector

作者称，人眼通过扫描informativeparts来理解目标定位也是很常见的说法了。这样的眼睛快速扫描称为Saccade。以快”为优势，超越了YOLO和RetinaNet。

Fast single shot detection and pose estimation 论文笔记

论文实在SSD论文的基础了，做了简单的改动。主要观点是建立了一个卷积网络以提供检测和视角（pose）估计。数据集使用的数据集有两个，一个是Pascal3D+Dataset,数据下载链接<http:...

论文笔记《Fast RCNN》

FastRCNN是加强版的SPPnet，SPPnet的细节可以参考这里，FastRCNN相比于RCNN在时间和性能上都做了改进。它避免对一幅图片的多个proposal分别计算CNN特征（大量的重复计算...

是否确定退出登录?

Fast-BEV：A Fast and Strong Bird’s-Eye View Perception Baseline——论文笔记

1. 概述

2. 方法设计

2.2 图像编码

2.3 2D到3D视角转换

2.4 数据增广

2.5 时序融合

2.6 消融实验

3. 实验结果

全部评论 (0)

相关文章推荐

Fast-BEV：A Fast and Strong Bird’s-Eye View Perception Baseline——论文笔记

论文阅读——Fast-BEV: A Fast and Strong Bird’s-Eye ViewPerception Baseline

论文笔记：Panoptic-DeepLab: A Simple, Strong, and Fast Baseline for Bottom-Up Panoptic Segmentation

【论文笔记】Lift-Attend-Splat: Bird’s-eye-view camera-lidar fusion using transformers

BEVFusion：Multi-Task Multi-Sensor Fusion with Unified Bird’s-Eye View Representation——论文笔记

【论文笔记】FIERY: Future Instance Prediction in Bird’s-Eye View from Surround Monocular Cameras

Fast R-CNN论文笔记《Fast R-CNN》

论文笔记:SaccadeNet: A Fast and Accurate Object Detector

Fast single shot detection and pose estimation 论文笔记

论文笔记《Fast RCNN》