Advertisement

论文阅读——Fast-BEV: A Fast and Strong Bird’s-Eye ViewPerception Baseline

阅读量:

这篇论文主要涉及商汤科技基于鸟瞰图(BEV)的这一基准线性框架具有较高的效率和准确性。研究者通过优化算法设计实现了能够在车载芯片、GPU以及CPU上进行高效部署的能力,并在此方案下达到了良好的应用效果。

论文地址:https://arxiv.org/pdf/2301.12511v1.pdf

代码地址:https://github.com/sense-gvt/fast-bev

一、摘要:

近年来基于鸟瞰(BEV)表示的感知任务逐渐受到越来越多人的关注。

二、主要网络模型:

其主要提出了5点重要的改进:

1)轻量级视图转换;

2)多尺度图像编码;

3)高效BEV编码;

4)原始图像增强和BEV空间增强;

5)利用时间信息多帧融合。

其中,
fast-bev

快速实现
主要依赖于模块(1)

模块(3)
的支持;
通过高效的转换与编码技术可显著降低计算开销。
此外(2)、(4)

(5)
模块则通过多尺度特征提取与优化策略的应用实现了性能提升。
下图为网络框架图:

三、五大模块介绍:

1,快速视图转换

此处作者将其定义为Fast-Ray转换方案。经阅读其他相关贝叶斯估计论文可知,在图像空间向体素空间进行投影运算会导致延迟问题严重,在现有技术中尚未得到理想解决方案。为此我们提出了一种快速射线转换方法,在多视图二维图像特征沿着各摄像头投射方向进行三维体素空间变换的基础上实现了高效运算流程设计。(1)在推理阶段我们采用了预先计算固定不变的投影索引并存储于静态查询表中的方式极大提升了计算效率。(2)我们创新性地实现了所有摄像头均投射至同一体素空间中避免了基于提升采样-平滑-渲染的方法所带来的昂贵体素聚合计算问题(即多视图到单体素)这一瓶颈问题我们的方案采用了一种不同于现有改进型视图转换算法的独特思路即无需离散化处理深度信息进而避免复杂深度估计运算在GPU运行时可忽略时间开销而CPU端则展现出显著性能优势使得整体部署过程极为简便且易于实施

此处作者假定深度沿射线均匀分布。这种方式的好处在于,在获取了相机的内外参数后即可轻松确定2D到3D空间点的位置关系。由于此处未采用可学习参数模型,则能够简便地计算出图像特征图中的点与BEV特征图之间的对应关系矩阵。其中在此处采用了查找表(look-up-table)以及多视图到单一像素转换技术(Multi-View to One-Voxel)。

(1)查找表通过创建 bev 空间与各个视图的对应关系以及引入投影索引来实现多视图数据的关联。投影索引作为从二维图像空间到三维体素空间的一一映射关系,在 GKT 方法中已有类似的实现。

基于构建感知系统的考虑,在该系统中摄像机位置及其内外参数是固定不变的;而该论文所提出的方法则避免依赖深度预测器(depth predicate)以及Transformer架构,在处理每个输入时各个摄像头的投影指数均保持恒定。因此无需为每一次迭代计算相同的索引值;相反,则应预先计算并存储固定不变的投影索引列表作为静态查找表(lookup table, LUT)。在推理过程中可以通过查询该查找表快速获取所需投影索引值,并且这一操作在边缘设备上非常高效。此外,在将单个帧扩展至多帧处理时也能够轻松地预先计算出内外参数并将它们同步至当前处理的帧中;具体而言如图所示我们通过摄像机参数矩阵将其映射至与输出三维体素空间维数一致的查找表LUT中;随后遍历每一个体素单元通过其对应的二维像素坐标建立与数据无关的索引映射关系从而实现高效的空间定位操作

(2)多视图转一体素

2,多尺度图像编码器

基于二维检测任务的经验,在Yolov5框架下进行多尺度设计能够显著提升模型性能。我们通过探索快 ray变换所带来的速度优势,在研究领域开发了一种基于多尺度感知的BEV架构,并旨在通过多尺度信息整合实现感知能力的提升。具体而言,在Fast-BEV架构中,图像编码器借助三层FPN输出结构实现了从统一单尺度输入到多尺度特征输出的有效转换过程。

3,高效BEV编码器:

通过实验证明,在耗时急剧增长的场景下,3D编码器中的大量块与高分辨率未能带来显著性能提升。借助‘空间到信道’(space-to - channel, S2C)技术手段,在BEV编码器设计中仅引入一层多尺度级联融合(MSCF)与多帧级联融合(MFCF)模块从而有效减少剩余结构大幅降低了时间消耗未对精度造成任何损害。

这里着重讲述了三个关键算子:S2C(Space-to-Channel)、MSCP(Multi-Scale Concatenation Fusion)以及MFCF(Multi-Frame Concatenation Fusion)。其中S2C其功能是将一个四维张量(X,Y,Z,C)转换为三维张量(X,Y,Z×C),以便于后续卷积操作而不必采用三维卷积方式来提高计算效率。在应用MFCF算子之前,在X和Y维度上对多尺度BEV特征进行了相同大小的采样操作,具体而言就是以200×200的采样尺寸进行采样处理。随后又利用mscf和mfcf这两个算子,在信道维度上对多尺度多帧特征进行了拼接融合。

4,数据增强:

基于经验分析得出,在基于BEV(Bird's Eye View)的基本框架进行训练时,模型在后期阶段出现了严重的过拟合现象。这一问题的根本原因在于该框架中缺乏数据增强技术的支持。基于对bevdet等技术的关注与研究,在图像与BEV空间均进行了强化的数据增强措施,“如随机翻转、旋转等操作”。这些强化措施涵盖了图像 enhancement技术和BEV(Bird's Eye View)特定的数据 enhancement方法的具体实施步骤,请参考后续详细说明部分以获得完整的操作流程图解信息

(1)图像增强** 。因为三维场景中的图像与三维相机坐标之间存在直接联系,在进行数据增强时相比二维情况更具挑战性。若要对图像进行数据增强,则需调整相机的固有矩阵。对于增强操作而言,在实际应用中通常遵循一系列常见的操作程序:例如镜像翻转、裁剪调整以及角度旋转等技术手段。这些技术手段的具体实现可以通过下图中的实例直观地体现出来

(2)bev增强

5,时间融合:

在真实的城市自动驾驶环境中,在时间维度上呈现连续输入,并且每一段时间段都提供了丰富的互补信息。例如,在当前帧被部分遮挡的人行道可能在过去的几帧中完全可见。因此,我们引入了时空特征融合模块来改进原始框架的空间表示方法。

基于BEVDet4D和BEVFormer的设计理念,在现有框架基础上进一步整合了历史模块以实现时间特征的深度融合。通过空间对齐与特征拼接的方法将历史帧的信息与当前帧的数据进行统一结合,并且在时间维度上形成了一种级别的信息整合相当于一种级别的特征强化,在长时序数据下能够显著提升模型性能

基于三个历史关键帧对当前帧进行采样;各相隔0.5秒。采用基于BEVDet4D的多帧特征对齐方案。如图所示,在获取四个对齐的BEV特征后,将这些特征直接连接后输入到BEV编码器中。在训练阶段中,通过图像编码器实时提取历史帧特征。在测试阶段中,则可离线保存历史帧特性供快速调用以提升效率。

四、损失函数:

借鉴PointPillars的技术框架,在本研究中我们通过三层并行设计实现特征提取,并针对贝叶斯估计(BEV)特征图实施三维目标检测。该方法不仅能够识别各类物体类别信息,并能精确估计其尺寸与运动方向。其损失函数设计与现有方法PointPillars保持一致:

五、效果对比

1,速度:

2,效果:

六、消融实验:

为了适配不同的设备做了5种不同配置的网络:

七、效果:

八、代码

还没复现,大家多交流哦 。

全部评论 (0)

还没有任何评论哟~