Advertisement

【论文解读】V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision Transformer

阅读量:

V2X-ViT

摘要
引言
方法

  • V2X metadata sharing

  • 特征提取过程

  • 数据压缩与共享机制

  • V2X-ViT系统

  • 检测模块

  • V2X

    • Heterogeneous multi-agent self-attention机制

      • 多尺度窗口注意力机制
      • 基于延迟的位置编码
    • 实验

    • 结论

摘要

在本文中

引言

单智能体感知系统在较远的距离上容易受到遮挡和传感器观测稀疏的影响,这可能导致灾难性的后果,为此,研究者们通过研究车对车(V2V)协作,利用各辆自动驾驶汽车共享来自其周围区域的视觉信息,以解决这一问题

在这里插入图片描述

我们的贡献:

  • 我们开发了一个创新性的基于Transformer的V2X感知统一模型(V2X-vit),该模型能够有效识别其异质性特征并表现出良好的抗干扰能力。此外,在复杂协同检测任务中展示了卓越的表现。
  • 我们设计了一个新型的异构多智能体注意力机制(HMSA),实现了各类型智能体间的自适应信息交互。同时开发了一个多层次的空间关系建模组件(MSwin),能够系统性地反映了现实世界的潜在缺陷与局限性。
  • 我们推出了一个大型公开的数据集库(V2XSet),该库系统性地反映了现实世界的潜在缺陷与局限性。

方法

在模拟真实场景的过程中,在模拟真实场景的过程中,在模拟真实场景的过程中,在模拟真实场景的过程中,在模拟真实场景的过程中,在模拟真实场景的过程中,在模拟真实场景的过程中,在模拟真实场景的过程中,在模拟真实场景的过程中,在模拟真实场景的过程中,在模拟真实场景的过程中,在模拟真实的场景中进行假设并进行假设并进行假设并进行假设并进行假设并进行假设并进行假设并进行假设并进行假设并进行假设并进行假设并进行假设的情况下

V2X metadata sharing

在协作初期阶段(启动阶段),系统中的各个agent(智能体)通过建立交互式共享机制,在通信网络支持下同步获取并交换元数据信息包(元数据包)。这些元数据包括各智能体自身的位置姿态信息(x)、周围环境感知特征(L)以及所属代理类型标识符c_i(取值为I类基础设施或V类车辆)。在此基础之上,我们选择一个连接的自动驾驶汽车作为基准车体(e),并在此基础上构建一个V2X通信图谱(V2X communication graph),其中节点代表自动驾驶汽车或基础设施设施;边则表征双向V2X通信通道连接关系。具体而言,在接收到基准车体自体姿态信息后(x_e),所有邻近联结的相关智能体会完成以下操作:首先利用各自的LiDAR设备获取环境空间信息,并将所得点云数据转换至基准车体坐标系中进行特征提取;随后基于此生成的目标识别结果向相关感知节点进行反馈更新;最后完成与周边智能体之间的状态更新与同步机制初始化工作

Feature extraction.

PointPillar~~~

Compression and sharing

通过减少传输所需的带宽来优化通信效率,在信道维度上应用了一系列1×1卷积以逐步压缩特征映射。压缩后的尺寸为(H, W, C′),其中C′远小于原始通道数C,并被传输至 ego 车辆 (e),并在 ego 车辆 (e) 上使用 1 × 1 的卷积将特征投影回原始分辨率 (H, W, C) 的分辨率水平。LiDAR 数据从连接的代理获取后与自动驾驶车辆接收提取特征之间不可避免地存在时间差。为了纠正由此产生的全局空间错位问题,请参考文献[19]中的时空校正模块 STCM(Space-Time Correction Module)。该模块采用微分变换和采样算子 Γξ 对 feature 图进行空间扭曲处理,并计算 ROI 遮罩以防止网络注意因空间畸变导致填充零的问题。

V2X-ViT

将被连接的代理所聚合的中间特征输入至我们的核心组件——V2X-ViT——以便利用自注意力机制实现跨代与内部特征间的迭代融合过程。在整个Transformer架构设计中,默认维持各层输出图像均保持相同的空间分辨率。由于我们在实验研究中发现...(后续内容将在下文中详细阐述)

Detection head

在获得融合特征图后执行两次1×1卷积操作以实现盒回归与分类任务。盒回归输出参数(x,y,z,w,l,h,θ)分别代表预定义锚框的位置、尺寸及偏航角;而分类输出则作为每个锚框对应的目标类别或背景的置信度分数估计结果。盒回归采用光滑L1损失函数优化目标定位误差;分类任务则采用Focal Loss[28]方法提升类别预测性能

V2X

主要目标是设计一个定制化的视觉转换器以应对常见的V2X挑战。首先我们开发了一个关键性的异构多智能体自关注模块(Heterogeneous multi-agent self-attention)用于捕捉基础设施与自动驾驶汽车之间的异构图表示。该模块可以根据节点类型和边类型学习不同关系。此外我们还开发了一种新的空间注意机制即多尺度窗口注意力(MSwin)。这种机制通过使用多个不同尺寸的窗口来聚合空间信息从而增强了定位错误检测的能力。我们将一系列V2X-ViT块堆叠起来以便逐步学习智能体间的交互关系以及每个智能体的空间注意从而生成可靠聚合特征表示。

Heterogeneous multi-agent self-attention

基础设施与自动驾驶汽车系统获取的传感器数据可能存在显著差异。固定于较高位置的激光雷达通常呈现较少遮挡且角度分布有所差异。考虑到维护频率、硬件质量等因素,可能导致不同水平的传感器噪声影响。为此需建立一种新的异构多智能体自关注(HMSA),其中我们将类型附加到有向图中的节点和边上。为简化拓扑结构起见,我们假设同一类别智能体间的传感器配置一致。如图3b所示,在该模型中存在两种节点类型ci∈{I, V}以及四种边类型φ (eij)∈{V−V, V−I, I−V, I−I}。值得注意的是,在本研究中与传统神经网络仅基于节点向量进行注意力机制不同,在此方案中我们专注于来自不同代理但空间位置相同的特征交互以保留空间线索特性。

在这里插入图片描述

HSMA:

在这里插入图片描述

该系统包含了三个关键组件:包括线性聚合器 DenseCI、注意力权重估计器 ATT 以及消息聚合器 MSG。
其中 Dense 是一组通过索引节点类型 ci 的线性投影仪构成。
而 ATT 则用于计算基于关联节点及其连接关系的节点对之间的相对重要性程度。

在这里插入图片描述

其中符号∥代表拼接操作,并记当前头数为m,则总共有h个头参与运算过程;值得注意的是,在这里Dense层是根据节点类型ci/j以及当前头数m进行定义的;在K与Q线性变换中采用了不同的参数设置以区分两者的语义信息;为了整合边上的语义信息,在计算过程中我们引入了加权机制;同样地,在处理来自相邻代理的消息时(即∑_{j∈N(i)}),我们通过Dense的方式分别将基础设施和服务车辆的功能进行了嵌入;最后采用矩阵Wm以及MSGφ变换来提取源节点与目标节点间基于边特性的特征表示

在这里插入图片描述

Dense

Multi-scale window attention

我们开发了一种新型的多尺度窗口注意力机制MSwin用于增强高分辨率检测中的长程空间交互该机制通过金字塔形滑动窗实现了不同尺度的关注范围如图3c所示灵活调节窗口大小显著提升了V2X-ViT在定位误差检测上的稳健性(参考图5b消融实验结果)。在较大尺寸窗口内的注意力计算能够捕获长程视觉特征以弥补较大的定位误差而较小尺寸分支则专注于精细尺度信息以保持局部上下文细节随后采用分割注意力模块split-attention[56]对来自各分支的信息进行了自适应融合从而实现了对系列姿势误差的有效处理值得注意的是MSwin采用了代理级独立设计不考虑跨代理信息融合以简化模型架构因此省略了本节中对应的agent下标

Window-based self-attention

split-attention

在这里插入图片描述

Delay-aware positional encoding

然而全局错位被空间扭曲矩阵Γξ所捕捉的同时我们还需关注一种不同类型的局部错位这种局部失配源自于延迟阶段物体运动的影响为此我们需要对这些时间信息进行有效的编码为此我们采用了自适应延迟感知位置编码(DPE)这一独特的编码方案该方案由线性投影层与可学习嵌入模块共同构建实现了对时空关系的有效刻画

在这里插入图片描述
在这里插入图片描述

该线性变换函数f:RC→ RC将通过扭曲可学习嵌入来实现更好的泛化能力;从而使其能够更有效地推广至不可见的时间延迟[18]。在进入Transformer处理前,我们将此嵌入叠加至每个代理的特征Hi上;以便预先对齐这些特征的时间维度。

实验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

结论

在本文中,我们开发了一种新型视觉转换器用于V2X感知(V2X-ViT)。其核心组件包括两个创新性注意力模块——HMSA和MSwin——它们能够有效识别不同主体间的互动关系以及多尺度空间中的相互作用。为了全面评估该方法的效果,在数据集构建方面我们引入了新的大型V2X感知数据集V2XSet。通过大量实验发现,在理想环境及噪声环境下该方案均能显著提升了协同三维对象检测的性能。本文主要聚焦基于激光雷达的协同三维车辆检测技术,并且仅限于单一传感器模式下的车辆检测任务。未来的研究工作将重点扩展至多传感器融合场景,在此基础之上推进联合V2X感知与预测系统的建设

全部评论 (0)

还没有任何评论哟~