《BEVSegFormer:Bird’s Eye View Semantic Segmentation From Arbitrary Camera Rigs》论文笔记
参考代码:None
1. 概述
介绍:该文章将bev网格作为查询构建了bev特征,并通过transformer机制完成这一过程。同时为了降低计算复杂度而采用了变形注意力机制。值得注意的是,在方法论上与现有技术存在显著差异。本文的方法完全摒弃了传统的相机标定信息依赖,并全部采用基于数据驱动的方式进行参数优化。这种做法带来的问题是收敛速度相对较低。此外,在CNN网络部分采用自变形注意力机制来优化特征表示,并从而能够生成具有更强表达能力的bev特征。
下图展示的是bev query如何映射到图像特征的:

先前的方法通常依赖于相机内外参数来建立BEV网格与图像特征图上参考点之间的映射关系。相比之下,本文采用了全连接学习的形式其优点在于无需依赖于相机内外参数这使得我们能够避免对相机参数产生依赖并使训练过程中的性能表现更加稳定同时需要注意的是在这种改进下可能会导致模型对训练数据高度依赖并且训练所需的时间也会相应增加
文章方法收敛曲线:

2. 方法设计
2.1 pipeline
文章方法的pipeline见下图所示:

在上图中已经清晰地绘制了网络整体架构及其pipeline流程。除了熟悉的人工神经网络中的CNN特征提取网络外,在本系统中还引入了两个关键组件:即transformer编码器模块以及基于BEV的解码器模块。
- 1)位于transformer编码器架构中,在提升基于CNN网络对语境感知的能力方面采取了自变形注意力机制以优化特征表征,并具体而言,在图中的虚线连接区域可见这一技术的应用。
- 2)基于BEV(Bird's Eye View)的Transformer解码器,在获得图像级别的特征表示后将构建BEV网格,并利用交叉变形注意力机制来进行BEV特征求解与表征。
2.2 transformer encoder中特征优化
基于CNN网络提取图像特征后,在此采用多尺度变形注意力机制来改进特征图,在此过程中显著增强了模型对空间细节的关注,并进一步提升了模型对关键信息的表征能力
2.3 bev transformer decoder
在本部分中主要采用了多层次尺度CNN的不同尺度特征(stride=32),随后,在多视图特征框架下通过多层全连接模型实现了BEV(Bird's Eye View)特征求取。具体关联关系可参考下图所示。

这里是在Bev网格的基础上加入Bev位置编码作为Bev查询输入的一部分,在此基础上通过全连接层分别对图像特征中的参考点位置、基于四个参考点的位置偏移向量以及由这四个位置向量决定的特征加权系数进行预测。将这些预测结果整合用于后续的变形注意力机制计算中以构建原始Bev特征
2.4 head decoder
在获取原始BEV特征后,还需对其上采样以预测出满足相应分辨率需求的特征图。针对这部分内容的架构安排如下:

上述文中一些变量对于最后性能的影响见下表所示:

3. 实验结果
nuScenes数据集下性能表现:

