线性RNN+3D检测!LION: Linear Group RNN for 3D Object Detection in Point Clouds(论文笔记)
论文链接——https://arxiv.org/abs/2407.18232
项目代码地址在上一个博客里
摘要
Transformer在3D点云检测中的优势受限于建模远程关系时的二次计算成本带来的限制。相比之下,在处理长程建模方面具有优势的是计算复杂度较低的线性RNN模型。为此我们提出了一种基于窗口框架的新方法称为LION其核心在于允许在比基于Transformer的方法更大的组中进行充分特征交互这一特性显著提升了模型的表现能力然而由于线性群RNN在空间建模方面的局限性将其直接应用于高度稀疏的点云场景下的3D目标检测并非易事为此我们需要采取新的解决方案以克服这一挑战为此我们引入了3D空间特征描述符将其整合到线性群RNN算子中从而增强了模型的空间感知能力而不是盲目增加体素特征扫描阶数为了进一步提升模型对高度稀疏点云的支持效果我们提出了一种创新的空间体素生成策略该策略充分利用了线性群RNN作为自回归模型所带来的前景特征生成能力大量实验结果表明所提出的组件不仅具有良好的独立性能而且在不同线性群RNN算子(包括MambaRWKV和RetNet)上表现出很强的泛化能力其中LION-Mamba模型在WaymonuScenesArgoverse V2以及相关数据集上实现了最新的水平同时支持包括RetNetRWKVMamba及其变体在内的多种流行的小型但高效的线性RNN算子(如TTT)
引言
现在,在3D检测领域中,Transformer技术已被广泛应用。然而受限于计算能力限制,在建模远程关系时它们主要依赖于小批量处理柱或体素之间的特征交互。这一局限性凸显了Transformer在长距离关系建模方面的潜力;尽管如此,在序列长度方面Transformer仍面临挑战。值得注意的是已有某些线性RNN架构(如Mamba)已展示了与Transformer在性能上具有竞争性;特别是在处理长序列时表现尤为突出。基于此研究者们正致力于探索低计算代价的大规模远距特征交互机制;以期在未来实现更高的效率与效果

在对比中,他们所提出的LION(右侧)与现有的DSVT(左侧)存在显著差异。具体而言:第一部分:开发了一种基于窗口机制的高效3D主干网络;第二部分:构建了一个基本但功能强大的3D空间特征描述符;第三部分:提出了一种创新的体素生成策略;第四部分:通过采用多种先进的线性组RNN机制(如Mamba、RWKV、RetNet)对模型进行了全面验证
方法
该网络架构整合了三维主干、鸟瞰图主干以及检测模块,在三维空间中对关键点进行高效捕捉。如图所示, 其主体结构由多个独立的LION模块构成(实现跨尺度特征融合)。通过连续迭代每个LION块, 完成局部区域特征提取(强化关键点描述), 然后通过系统性降维处理对各层提取的高度信息进行整体优化

1. 3D稀疏窗口分区
随后将原始点云划分为总数为L的体素颗粒。接着将这些体素按照 (Tx, Ty, Tz) 的尺寸划分成为互不重叠的三维窗口区域。随后分别按照X轴和Y轴方向对这些体素进行排序处理。最后,在优化计算效率的前提下,我们将排序后的体素按照每组K个元素的方式分组,并非按照相同形状的窗口结构来实现特征交互
2. LION Block
LION模块构成系统的核心部分,在其功能设计中包含三个关键模块:一是远距离特征交互机制中的LION层;二是基于局部三维空间信息构建的三维空间特征描述子;三是分别负责体素融合过程以及反向传播时的空间扩展操作。此外,在实际应用中发现因三维物体尺寸差异显著性地影响着LION块的工作特性,在这种情况下采用多层次架构设计以实现多尺度特征的有效提取。


2.1 LION 层
该层包含两个线性群RNN组件:第一个组件负责基于X轴窗口区间进行远程特征交互操作;第二个组件则负责基于Y轴窗口区间提取远程特征信息任务。通过采用不同维度的窗口划分策略,在该结构中实现了更为全面的特征交互,并最终形成了更具区分度的关键特征表征。

2.2 3D空间特征描述符
当输入体素的特征被展成了一个一维序列时...

2.3 体素合并和体素拓展
为了捕获多尺度特征, 构建了一个分层特征提取架构. 通过体素融合实现降维过程, 同时结合体素延展完成升维操作. 具体制定如下: 在处理体素融合时, 我们收集并存储每类单元格的相关属性信息, 并基于此执行降维操作; 在展开阶段, 利用之前存储的索引信息反向推导完成升维操作.

3. 体素生成
针对高度稀疏的点云数据中特征表示所面临的难题以及体素合并过程中可能产生的信息损失问题,在现有技术的基础上, 他们提出了一种新的体素生成策略. 通过线性递归神经网络模型(RNN) 的自回归机制有效地解决了这些问题.
3.1 无监督的情况下区分前景体素
首先需明确需提取哪些区域以生成体素特征,在3D主干结构沿通道方向上呈现较高数值的位置通常被认为是前景区域。通过计算第i个LION模块其输出特性Fi及其对应的通道平均响应值Fi*(即各通道上特性的均值),随后按照降序排列这些通道响应值,并将这些特异性挑选出来的前m个体素标记为前景区域(其中设定参数r为前景占比比例),进而获取对应 foreground 特征以用于后续体素生成过程中的应用即是选择具有最高特异性程度的空间位置进行标记
3.2 具有自回归特性的体素生成
先前的方法依赖于K近邻方法获取生成的体素特徵,并存在冗余特徵及有限的感受野问题。我们采用了线性RNN模型自身具有的自回归特性,并将其与其他體素特徵交互以有效生成新的體素特徵。如图所示,在此过程中首先使用四个不同的偏移量([-1,-1, 0]、[1,1,0]、[1,-1,0] 和 [-1,1,0])分别沿X轴及Y轴方向扩散所选 foreground voxels 从而获得擴散voxels集合。随后將擴散voxels集合中各 voxels 的相應 feature 初始化為全零向量。接着將第i個 LION区块输出 feature Fi 與 初始化後之 voxels feature 接收並將其传递至下一个第i+1個 LION区块作為输入 feature序列。最後由于 LION区块具有的自回歸特性能够在此次传递过程中基於大group中的other voxels feature有效生成擴散後 voxels feature。

