【综述研读】深度学习多模态图像语义分割前沿进展
摘要:本文针对深度学习在多模态图像语义分割领域的发展现状进行了综述性分析,并探讨了当前技术面临的关键挑战及未来可能的研究方向和发展趋势。
摘要
图像语义分割旨在将视觉场景分解为不同的语义类别实体,实现对图像中每一个像素的类别预测。多模态图像语义分割通过联合利用不同模态图像(即通过基于不同成像机理的传感器获取的图像)间的互补特性,能够全面且准确地实现复杂场景信息的学习与推理。目前基于深度学习的多模态图像语义分割前沿成果较多,但缺少系统且全面的调研与分析。本文首先总结并分析了目前主流的基于深度学习的可见光—热红外(red-green-bluethermal,RGB-T)图像语义分割算法和可见光—深度(red-green-blue-depth,RGB-D)图像语义分割算法。依据算法侧重点不同,将基于深度学习的RGB-T图像语义分割算法划分为基于图像特征增强的方法、基于多模态图像特征融合的方法和基于多层级图像特征交互的方法;依据算法对深度信息的利用方式,将基于深度学习的RGB-D图像语义分割算法划分为基于深度信息提取的方法和基于深度信息引导的方法。然后,介绍了多模态图像语义分割算法常用的客观评测指标以及数据集,并在常用数据集上对上述算法进行对比。对于RGB-T图像语义分割,在MFNet(multi-spectral fusion network)数据集上,GMNet(graded-feature multilabel-learning network)和MFFENet(multiscale feature fusion and enhancement network)分别取得了最优的类平均交并比(mean intersection-over-union per class,mIoU)(57.3%)和类平均精度(mean accuracy per class,mAcc)(74.3%)值。在PST900(PENN subterranean thermal 900)数据集上,GMNet仍然取得了最优的mIoU(84.12%)值,而EGFNet取得了最优的mAcc(94.02%)值。对于RGB-D图像语义分割,在NYUD v2(New York University depth dataset v2)数据集上,GLPNet(global-local propagation network)的mIoU和mAcc分别达到了54.6%和66.6%,取得最优性能。而在SUN-RGBD(scene understanding-RGB-D)数据集上,Zig-Zag的mIoU为51.8%,GLPNet的mAcc为63.3%,均为最优性能。最后,本文还指出了多模态图像语义分割领域未来可能的发展方向。
前言
现有的基于深度学习的图像语义分割技术主要依赖于红绿蓝(RGB)图像来感知场景内容。然而,这种可见光相机在面对环境光照变化时表现出较差的适应性,并且无法有效穿透雾霾、降雨等常见天气现象中的障碍物。受其成像原理限制,在复杂天气条件下难以获取足够的有效场景信息;此外,在不具备空间结构信息和三维布局数据的情况下,则难以应对具有相似外观目标但区域分布复杂的实际场景。
热红外成像仪以及深度相机等图像传感器在对比RGB图像时虽然无法提供完整的色彩与纹理细节信息,但能够补充其他更加精确的目标轮廓描述以及语义解析功能。通过结合不同模态图像的独特特性进行整合利用,在进一步强化场景感知能力的同时也有助于提升学习和推理过程的质量。
1.深度学习RGB-T图像语义分割模型
RGB-T 图像 由 可见光传感器获取 的 RGB 数据 和 热成像传感器采集 的 温度信息 融合而成。在复杂环境中的各种条件下(如低光、雾霾及夜间等),热成像技术能够提供额外的信息以辅助分析或决策,并从而弥补了 RGB 图像在这些条件下的缺陷。
"编码器-解码器"架构中, 编码器负责提取图像特征, 而解码器则专注于实现图像特征还原和分割结果预测. 在基于深度学习框架下的RGB-T图像语义分割处理流程:

已有的基于深度学习的RGB-T图像语义分割方法可以划分为3类:
- 利用图像特征增强的方法
- 一种利用多模态图像特征融合的方法
- 一种基于多层级图像特征交互的方法
1.1基于图像特征增强的方法
针对图像特征增强的策略,多采用注意力机制和辅助信息嵌入等手段,在直接或间接的方式下进而提升单模态图像特性和多模态图像融合特性
1.1.1 PSTNet
PSTNet网络:
- 首先引入RGB图像的语义分割置信度图作为辅助信息,并将其与原始RGB图像以及热红外图像进行融合处理,从而有效提升输入数据的信息含量。
- 利用预训练分类网络对融合处理后的数据进行特征提取,并生成相应的特征向量。

根据网络结构图,我们可以把整个流程看作是两个阶段:
在第一阶段中,在编码器-解码器架构中输入RGB图像以获得基于该颜色空间的语义分割置信图。
随后,在第二阶段中,在预训练高效残差分解卷积网络(ERFNet)的基础上融合多源感知信息并进行结果预测。
其中具体来说ERFNet网络如图所示

优缺点:主要体现在算法运行速度较快、分割精度相对较低的原因在于这种数据增强方法无法直接提升单模态图像特征或多模态图像融合特征。
1.1.2 FEANet
特征增强注意力网络(feature-enhanced attention network, FEANet) 直接实现了单模态图像特征或多模态图像融合特征的有效增强。具体而言,则通过综合运用基于空间位置和通道信息的注意机制,在多层RGB图像特性和热红外图像特性之间建立了有效的关联与提升关系。
该网络引入了一种基于特征增强机制的注意力机制模块(Feature-enhanced Attention Module, FEAM)。
首先, 该网络模块借助全局最大池化运算生成通道注意向量, 从而筛选出包含高鉴别能力特征的单模态图像信道. 接着, 经过通道注意机制处理后的单模态图像特征采用沿通道维度进行全局最大池化运算以生成空间注意图, 并在此基础上深入挖掘全局区域中的有效信息线索.
1.1.3 EGFNet
基于边缘引导的融合网络(edge-aware guidance fusion network, EGFNet) ,通过将边缘信息作为辅助信息直接用于多模态图像融合特征的提升。

第一步通过多模态融合结构(MFM)实现了对多种图像特征的有效整合。
接着对于整合后的多模态图像特征该方法采用了基于RGB热红外混合生成的先验边缘图来提取场景细节与纹理信息
然后将这些预先提取的边缘信息与多层次的多模态图像融合特征进行乘积运算从而实现了辅助边缘信息的有效嵌入。
优缺点:基于先验边缘信息的方法有助于缓解物体边界判别性较弱的问题,并且有效地修正了预测结果中目标边界模糊的部分;从而使得目标边缘更加精细、高质量的结果得以生成。然而该方法的效果高度依赖于先验边缘图的质量;具体而言,边缘图是否完整且准确将直接影响最终的语义分割结果
1.2 基于多模态图像特征融合的方法
重点研究如何充分利用RGB图像特征与热红外图像特征间的相互补充的特性,在此基础上实现多模态图像优势的最大化发挥。以往针对多模态图像的融合工作主要采用了简单的融合手段如加法或串接等方法来构建融合特征。
1.2.1 MFNet
multi-spectral fusing network (MFNet) 是首个利用深度学习进行 RGB-T 图像语义分割工作的模型. 它没有采用预训练分类网络来提取图像特征, 因此分割精度相对较低. 结构图如下:

比较简单,过程如下:
首先, 该工作主要利用两个基础编码器结构分别获取RGB图像特征和热红外图像特征. 通过级联机制整合两种不同模态的特征信息, 实现跨模态数据的有效融合. 最后, 通过一个解码器结构依次恢复融合后的特征分辨率, 并同时完成语义分割结果预测.
1.2.2 GMNet(效果最好)
该网络对编码器提取的多层级图像特征进行了分级处理。其中,在浅层部分中将这些特征求得较低层次特性,并主要包含细节信息(如空间、纹理及边缘)。而在更深的部分则求得高阶特性,并主要用来指导像素级别的分类标记。

浅层特征融合模块(shallow feature fusion module, SFFM)基于浅层热红外图像特征对浅层RGB图像特征实施矫正,并通过通道注意力机制进一步强化矫正后的RGB图像特征
深层特征融合模块(DFFM)首先采用了逐元素相乘以及求和的方式来进行多模态图像高阶特征的整合,并随后通过一系列串行展开且具有不同膨胀率的空洞卷积来深入挖掘其中所蕴含的丰富上下文语义信息
1.2.3 其他模型
RTFNet 和 FuseSeg 分别采用了预训练的 ResNet 和 DenseNet(Huang 等, 2017)作为编码器模块, 旨在更好地提取 RGB 图像的空间信息以及热红外图像的热特征信息, 并通过逐元素求和的方式实现了多模态图像特征的融合过程。在解码阶段, RTFNet 提出了基于残差结构设计的 Upception 模块以恢复解码过程中因降采样导致的特征图分辨率丢失问题, 而 FuseSeg 则借鉴了 U-Net(Ronneberger 等, 2015)类似的跳跃连接机制, 通过模块间的跨尺度信息补充实现了编码器与解码器之间的特征互补重建。
该研究提出了一种 novel 的注意力融合网络框架(AFNet)。该框架首先通过深度洞卷积改进后的ResNet-50模型作为编码器分别提取RGB彩色图像与热红外多光谱成像中的特征信息;随后,在编码器最深层获取到的多模态原始特征数据基础上提出了一种基于交互式注意力机制构建的关注度融合模块(AFM),用于实现多源感知信息的有效整合与优化处理。
多模态多层级网络(multi-modal multi-stage network, MMNet) 通过弥合编码器与解码器之间的语义鸿沟来增强单模态图像特征。该方法主要分为两个独立的阶段来处理问题。
- 第1阶段包含两个相互独立的“编码器—解码器”结构,分别用来提取不同模态的图像特征。同时,为了缓解编码器特征和解码器特征之间存在的语义差异,本文利用一种基于残差结构的高效特征增 强 模 块(efficient feature enhancement module,EFEM)来连接编码器和解码器。
- 通过简单的求和方式融合了第 1 阶段获得的RGB图像信息和热红外图像信息,并通过设计一个轻量级的迷你精细化块(mini refinement block,MRB)逐渐精细化细节信息,以获得最终的语义分割结果。
1.3 基于多层级图像特征交互的方法
多种尺度的感受野均具备提取场景中不同尺寸目标信息的能力,在图像理解任务中通过多层级图像特征之间的相互作用来获取丰富的多尺度上下文信息,并从而有效地提升了目标检测模型在复杂场景下的性能表现。
1.3.1 MLFNet
该体系基于多层级融合网络(MLFNet)设计
首先,该方法基于ESANet(efficient scene analysis network)所提出的融合模块,在多模态图像特征融合方面表现出色。
对于多层级的多模态图像融合特征这一复杂问题,在该方法中提出了一种提取层(extraction layer),用于在每一层级整合所有层级的多模态图像融合特征,并将其结构设计为模仿ResNet中的残差块。
最后,在这一过程中,包含丰富多尺度上下文信息的特征通过辅助解码模块(auxiliary decoding module, ADM)进行进一步整合,并采用上采样与级联的方式相结合的方式实现最终语义分割结果的预测。
1.3.2 MFFENet
多层次特征整合与提升网络(Multiscale Feature Integration and Enhancement Network, MFFENet)

该方法基于 ASPP 结构进行了优化设计以提高目标检测性能 通过采用多组不同膨胀率的空间金字塔池化模块 从而能显著扩展卷积核的有效覆盖范围 这种设计不仅能在不增加额外计算负担的情况下 提高模型对复杂场景的理解能力 还能有效降低模型对显存的需求 从而进一步提升推理效率
级联操作即为此类不同膨胀率的卷积(每个卷积所提取的特征具有独特性)依次连接起来,并且能够分阶段地从不同尺度的上下文信息中提取特征。
- 采用加法运算的方法获取多层次的多模态图像融合特性。
- 最深层特征求解后作为输入至简化的洞卷积金字塔结构中,在此过程中经过级联处理,并结合三个尺寸相同而膨胀率各异的深度可分离卷积操作以进一步提取空间信息。
- 多层次图像特征求解后经双线性插值上采样至统一分辨率,在此过程中随后利用级联操作促进多层次图像特性间的相互作用。
- 将多层次聚合后的特征求解结果输入至经典的时空注意力机制中,在此过程中得以完成对语义分割结果的准确预测。
2.深度学习RGB-D图像语义分割模型
相较于热红外图像(Infrared Image)与彩色RGB图像(Color RGB Image),深度图像是能提供丰富的场景三维空间信息的一种重要视觉手段,在前景与背景混合度较高的场景中表现出良好的适应性。根据其对深度图象信息的应用方式进行分类,则大致可分为两大类:
- 基于深度图像信息的提取: 将深度图象与RGB图象分别作为独立的输入数据源,在"单模态特征提取"的基础上发展出"多模态特征融合"的技术路径。这种技术路径能够结合RGB图像是主要来源的特点,并通过"互补特性"生成更加有鉴别性的多模态融合特征,从而提高算法在场景感知方面的性能水平。
- 基于深度信息引导的方式: 将深度图象视为一种监督或先验知识的基础,在这一过程中不需要从深度图象中提取特定特征信息。
2.1 基于深度信息提取的方法
2.1.1 基于多模态图像特征融合的方法
FuseNet(2017):该网络采用逐层加法操作来整合RGB与深度特征以实现特征的多级融合过程。其核心机制包括为RGB图像与深度图像各自独立配置解码器并完成后续的特征融合过程以实现最终的解码输出

LDFNet(luminance and depth information by a fusion-based network)(2019):通过两个编码器分别提取RGB图像的特征信息以及深度图素特征。其主要区别在于将RGB图中的亮度信息融合到深度图中以进一步增强其表征能力。
**Wang等人(2016)**研究团队开发了一种基于RGB-D的语义分割技术,在现有方法的基础上实现了创新性突破。相较于现有的FuseNet和LDFNet,在该方案中采用了包含独立编码和解码组件的完整架构。其核心技术在于强化多模态图像共有的表征。
首先通过4个相互独立的全连接层实现两种模态图像共有特征与特有特征之间的分离,并获得RGB图像特有的信息Fr_s、RGB图像共有的信息Fr_c、深度图像特有的信息Fd_s以及深度图像共有的信息Fd_c。
接着令某一模态下的共有点与其他模态的信息被融合处理即对Fr_c、Fr_s和Fd_c实施融合运算并对Fr_d、Fd_c以及Fd_s展开融合操作。
最后将上述所得的所有融合特征依次输入至两个独立设定的解码器以完成对语义分割结果的数据预测工作。
RGB-D融合网络(RGB-D fusion network, RDFNet)(2017): 其基本概念是将ResNet中的残差学习思想成功地应用到了RGB-D图像语义分割领域中。
首先采用两个独立的ResNet网络作为编码器,并分别提取RGB图像特性和深度图像特性。
随后提出了一种基于残差学习的多模态特征融合模块(multi-modal feature fusion, MMF)。该模块通过对RGB图像特性和深度图像特性及其组合进行处理,并充分挖掘两者的互补特性。
最后通过对求和操作融合RGB图像是特性和深度图像是特性的并将其与一种残差池化操作(residual pooling operation)相结合来增强融合后的上下文信息。
注意力互补网络(attention complementary network, ACNet)(2019) 和 实时融合网络(real-time fusion network, RFNet)(2020):基于RGB图像特征与深度图像特征所承载的信息量差异性,在通道注意力机制的基础上筛选出更具价值的信息
首先利用两个独立的编码模块分别获取RGB图象特徵与深度图象特徵。
基于通道注意力机制分别从RGB图象特徵与深度图象特徵中筛选出高品质资讯,并将这些优质资讯进行融合汇总。
最终经由解码模块处理后输入至解码器完成对语义分割结果的推断过程。
其中求和融合的过程为:

该系统基于三分支自注意力网络(TSNet, 2021)
分离与聚合的门控机制(Separation and Aggregation Gate, SA Gate)(2020):**在多模态图像特征融合之前过滤并重新校准了这两种特征。
首先, 该方法通过两个独立编码器分别提取RGB图象特徵与深度图象特徵. 經後,
这两个图象特徵依次传递至两層全联接層, 最後生成跨模態注意力向量.
随后, 该方法通過加權融合技術去除噪聲及干擾信號.
紧接着, 为了充分发挥RGB與深度圖象特徵间的互补價值,
本方法采用了空間门控策略, 借助注意力機制调控各個模態的特徵傳遞路徑,
最後通過加權累加實現多種圖象特徵的整合.

两阶段串行解码器网络(two-stage cascaded decoder network, TCDNet)
2.1.2 基于上下文信息挖掘的方法
上下文信息对于增强单模态与多模态图像语义分割方法在性能上的应用至关重要,在实现场景中感知不同尺寸的目标方面具有重要作用
2.2 基于深度信息引导的方法(待补充)
通过融合多模态图像特征以及从上下文信息中挖掘的技术手段充分整合RGB图象与深度图象之间的独特优势,在提升语义分割精度方面取得了显著成效。然而这些方法不可避免地依赖于单独编码器来提取深度图象特徵从而必然导致模型结构上的复杂化这最终限制了其在实际应用场景中的应用效果针对上述存在的问题一种改进方案是将来自深度信息的关键数据融入RGB图象特徵提取流程中同时综合考虑了来自depth图象所提供的三维空间数据这种结合方式在一定程度上减少了模型整体参数规模从而实现了较好的性能平衡
3. 常用数据集
3.1 RGB-D图像语义分割数据集
3.1.1 NYUD v2
NYUD v2 数据集是由纽约大学开发的一种基于室内场景图像语义分割的 RGB-D 图像数据资源。该集合由 795 组精确对齐的 RGB-D 图像构成训练部分(Training Set),其中验证部分(Validation Set)包含 414 组精确对齐的数据样本;测试部分(Test Set)则拥有 654 组精确对齐的例子。该集合为 40 种不同语义类别内的室内外物体进行了标记分类处理,并涵盖了书本、桌椅、地板、床铺等日常空间中的典型物体类型。值得注意的是,在实际应用中发现该集合所涵盖的空间场景大多具有较高的复杂度特征,在进行准确语义分割时需要充分整合深度信息这一前提条件下才能取得较好的效果;此外还指出该集合在现有研究中仍存在明显的局限性,在实际应用中可能由于数据量过少而导致性能瓶颈问题
3.1.2 SUN-RGBD
SUN-RGBD 数据集是由普林斯顿大学开发的一个专门用于室内场景理解的 RGB-D 图像数据集合。该集合总共收录了 10,335 组不同场景下的 RGB-D 图像,并将其划分为训练集(包含 2,666 组)、验证集(包含 2,619 组)以及测试集(包含 5,050 组),平均每幅图片约含有约 14.2 个目标类别标注信息。这些图片覆盖了多达 47 种不同的室内场景类型,并对其中包含了超过 800 种像素级目标类别进行了标注标记(如床、沙发、镜子等)。目前多数研究多仅选择该数据集中较为常见的87个主要类别来进行模型训练与评估工作)。其规模显著超过了 NYUD v2版本的数据集合
3.2 RGB-T图像语义分割数据集
3.2.1 MFNet
最初阶段的热成像技术主要应用于军事领域。
3.2.2 PST900
源自美国国防部高级研究计划局(Defense Advanced Research Projects Agency, DR.)赞助的"地下挑战赛"项目中
4. 研究展望以及想法
也许我们可以结合RGB-D-T图像进行语义分割的研究工作;从多源感知融合的角度来看;该方法能够有效整合可见光、深度和热红外数据;通过合理分配各通道的信息权重;进一步提升模型在复杂环境下的表现能力;可作为一种新型的数据融合框架来进行深入探索
此外,在除了基于RGB-D/RGB-T的图像语义分割任务之外,多模态图像语义分割还包括基于可见光—偏振(RGB-polarization, RGB-P)图像语义分割、基于可见光—事件(RGB-event, RGB-E)图像语义分割等这类方法。这些偏振光和事件图像是同样能够为基于RGB的图像提供丰富的场景信息,并展示了提升模型场景理解能力的潜力。
