自动驾驶感知中多模态融合方法
在当前多学科交叉的研究背景下

基于模态信息间的关联程度, 我们可以将这些融合方法划分为强关联与弱关联两大类. 具体而言, 强关联的方法又可被划分为早期整合、全面整合、后期整合以及不对称整合四个具体种别.

浅层融合 是指该类方法中具体而言,在数据层面与特征层面进行融合的具体方式均被归类为此类方法中

该系统通过多维度特征图实现高维数据的多子分支模态深度融合,并基于一系列下游交互模块对两组分支模态进行更深层次的融合优化[2]。该系统采用了一种通用语义分割架构设计策略,在编码器结构中运用多层次Segformer网络模型持续提取高层次特征信息,并通过注意力机制持续更新各层模态之间的交互关系和增强效应

后续融合过程是指两个不同的感知模态分别通过各自的网络结构进行处理以获取决策级特征随后由一个集成模块对其进行整合文献[3]采用了三个独立的网络架构分别对RGB图像雷达点云数据以及它们之间的融合关系进行了建模在这一过程中该方法能够有效整合各模态信息以实现快速且准确的目标检测

不对称融合 指的是两个模态分支在融合层级上存在差异的一种模式。如数据级与特征级之间、特征级与决策级之间的关系等。文献[4]提出了一种不对称双分支架构方案,在该架构中包含了一个RGB主分支以及一个整合多种数据模态的互补分支。其中RGB信息通过Transformer网络完成特征提取并实现增强作用;而另一支分则能够从多种输入中自动识别并筛选出具有有效性的信息内容,并在此基础上完成后续的融合工作。该方法主要得益于各模态间的互补特性,在极端天气环境下以及部分数据失效的情况下实现了有效的语义分割任务;同时该方案也具备良好的扩展性特点,并非局限于特定数量的数据类型组合

在weak fusion方法中,并非直接从多模态分支提取数据特征或对象进行融合操作。基于弱融合的方法通常会利用一种模态的数据来辅助另一种模态的分析或作为监督信号。具体而言,在文献[5]中提出了一种改进方案:首先利用语义分割网络对图像进行处理,并获取像素级别的置信度分数;随后将激光雷达生成的点云投影至分割图上,并依据置信度进行精炼和平滑处理;最后,在经过精炼和平滑处理后,激光雷达的目标探测器能够在此基础上实现三维空间的精确检测

Zhao et al.提出了一种名为Cddfuse的方法用于多模态图像融合的具体技术:该方法基于相关性的双分支特征分解策略。
[2]Zhang, Jiaming, et al. 'CMX: multi-modal integration for RGB-D semantic segmentation with transformer-based models.' IEEE Transactions on Intelligent Transportation Systems (2023).
[3] Pang, Su, Daniel Morris, and Hayder Radha.贡献了一种高效的融合方案用于快速捕获三维物体。该研究发表于IEEE/CVF冬季会议Proceedings上。
[4]Zhang, Jiaming, et al. "Delivering Arbitrary-Modal Semantic Segmentation." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.
This paper introduces PointPainting, a 3D scene painting framework, which employs a sequential fusing process to enhance the accuracy of 3D object detection in the field of computer vision.
