全卷积注意力机制神经网络的图像语义分割
本文提出了一种改进的全卷积网络(FCN)语义分割方法,针对传统FCN在分割任务中对像素级信息的丢失问题,提出了两个注意力模块:空洞空间金字塔注意力模块(ASPPAM)和位置注意力模块(PAM)。ASPPAM通过计算像素之间的依赖关系,增强像素间的联系,同时保留多尺度的上下文信息;PAM则通过融合低级语义信息和高级特征图,补充下采样过程中丢失的信息。实验结果表明,与现有方法相比,ASPPAM和PAM显著提升了分割性能,验证了其有效性。该方法在Cityscapes数据集上的mIoU达到75.4%,展示了其在语义分割任务中的优越性。
摘要
全卷积神经网络是一种高效的端到端模型,在语义分割领域具有广泛的应用,并展现出显著的性能优势。研究者开发了多种基于完全卷积神经网络的改进方法。然而,卷积和池化操作的持续性下采样会导致图像的上下文信息丢失,从而影响像素级分类的准确性。针对完全卷积网络中上下文信息丢失的问题,提出了基于像素的注意力机制。该方法通过计算高级特征图像素之间的联系来获取全局信息,增强像素之间的相关性,并结合空洞空间金字塔池化进一步提取图像的深层特征。针对图像高层特征图像素丢失的问题,提出了基于多层级注意力的改进方法。该方法将高层特征图中的信息作为指导,对低层特征图中隐藏的信息进行挖掘,并与高级特征图进行融合,以充分利用两种特征图的信息。在实验部分,通过对比所提不同模块对全卷积神经网络分割性能的影响,验证了所提方法的有效性。同时,在Cityscapes这一公认的图像语义分割数据集上,与当前最先进的网络进行了实验对比,结果显示所提方法在客观评价指标和主观效果方面均具有显著优势。具体而言,在Cityscapes官网测试集中,所提方法达到了69.3%的准确率,比近期几个先进网络的性能高出3~5个百分点。
关键词: 全卷积神经网络; 空洞空间金字塔池化; 注意力模型; 语义分割
语义分割(semantic segmentation)是计算机视觉核心研究热点之一,其目的是为图像划分成具有语义信息的区域,并给每个区域块分配一个语义标签,最终得到每个像素都被语义标注的分割图像。语义分割是室内导航、地理信息系统、人机交互、自动驾驶、虚拟增强现实系统、场景理解、医学图像处理以及目标分类等视觉分析的基础[1]。复杂环境的非结构化、目标多样化、形状不规则化以及光照变化、物体遮挡等各种因素都给语义分割带来巨大的挑战[2]。近年来,深度学习在计算机视觉领域的应用越来越广泛,卷积神经网络的分割算法(convolutional neural network,CNN)在图像分割领域取得了突破性的进展[3]。语义分割是图像理解中的常用技术,它可以预测图像中每个像素的类别,实现对图像的分割归类,对图像进行细致的理解[4]。Long等人提出的全卷积网络(fully convolutional network,FCN)在图像分割任务上表现出巨大的潜力[5]。在深度学习的发展之下,借用深层次卷积神经网络可以从图像中学习具有不同层次的特征表示方法[6]。全卷积网络将分类网络应用到卷积网络中,将传统卷积神经网络中的全连接层替换为卷积层,使用跳跃层的方法组合中间卷积层产生的特征图,然后进行转置卷积。由于跳跃层和转置卷积的原因,FCN的预测结果和原始图像相同。FCN兼顾全局语义信息和局部语义信息,将图像级别分类延伸到了像素级分类。FCN使用卷积层替换了CNN中的全连接层,存在两个问题:(1)随着卷积池化,分辨率在不断缩小,造成部分像素丢失;(2)没有考虑特征图原有的上下文的信息。因此,大量的研究人员在此基础上提出了改进的语义分割模型,如PSPNet(pyramid scene parsing network)中金字塔池化模块能够融合多尺度的上下文信息,有效利用了上下文信息[7]。Ronneberger等人提出了一种编码器-解码器的网络模型U-Net(U型网络)[8]。U-Net由收缩路径和扩展路径组成,收缩路径利用下采样捕捉上下文信息,提取特征,扩展路径是一个解码器,使用上采样操作还原原始图像的位置信息,逐步恢复物体细节和图像分辨率。OCNet(object context network)通过计算每个像素与所有像素的相似度,形成一个目标上下文特征图,然后通过聚合所有像素的特征来表示该像素[9]。DeepLab-v3网络中将带孔卷积和空洞金字塔池化方法结合,构建了空洞空间金字塔池化模块(atrous spatial pyramid pooling,ASPP)[10]。通过使用不同空洞率的卷积来捕获多尺度的上下文信息,有效增强了感受野,提高分割结果的空间精度。
基于OCNet和DeepLab-v3的启发,本研究引入了空洞空间金字塔注意力模块(ASPPAM)和位置注意力模块(PAM)。在多个并行支路中,我们采用了不同空洞率的卷积层,以获取多尺度的上下文信息。此外,我们还设计了一个像素相关性计算模块,旨在增强像素间的相关性。ASPPAM模块能够有效提取高层特征,这些特征涵盖了场景的全局理解,从而保留了物体的综合特征。同时,低级语义信息则富含丰富的空间细节,能够有效保留图像中的关键细节。PAM模块通过融合高级与低级信息,成功解决了高级语义信息丢失的挑战,从而有效处理了图像边缘和细节问题。
本文的主要贡献如下:
为了探索像素间的相关性,本研究开发了PSAM(pixel similarity attention module),将其整合到ASPP模块中,从而生成新的ASPPAM结构,进一步丰富了ASPP的上下文信息。
该方法通过融合低层特征和高级特征信息,有效提取细节特征和边缘信息,从而显著提升分割效果。
(3)通过融合ASPPAM与PAM,构建一种新型的基于注意力机制的全卷积网络CANet(context attention net-work),并在Cityscapes测试集上展现出良好的性能。
1 相关工作
1.1 基于神经网络方法的语义分割
FCN显著促进了图像语义分割的发展,并作为许多神经网络的基础架构。目前,提高语义分割性能的方法主要包括:在Deeplab-v1中,通过替换池化层为空洞卷积,并结合条件随机场(CRFs)[11],旨在改善深度神经网络的输出结果,捕捉边缘细节。然而,该方法存在不足,即未能充分考虑图像的多尺度特征,导致对小物体分割效果欠佳。为此,Deeplab-v2中引入了空洞空间金字塔池化模块(ASPP)[12]。通过使用不同空洞率的卷积来获取不同尺度的感受野,其中空洞率较小的感受野更适合小物体识别,而较大的空洞率则有助于大物体识别。ASPP解决了多尺度信息的提取问题。然而,随着空洞率增大,卷积核的有效参数逐渐减少,最终退化为1×1的卷积核。在PSPNet中,作者提出了一种全局先验结构,将输入图像划分为不同尺寸的区域块,分别提取各区域特征,通过上采样恢复原尺寸,并在通道维度融合多尺度特征,从而显著提升了分割性能。
1.2 空洞空间金字塔池化
空洞空间金字塔池化是在金字塔池化模块基础上引入了空洞卷积而形成。在语义分割任务中,池化层的作用是增大感受野的同时,也会降低图像分辨率,随后通过上采样操作扩大图像尺寸以获取分割图。当图像经过池化层处理时,整个图像分辨率会降低,随后进行上采样操作,分辨率会有所恢复,整个过程中不可避免地会丢失一些信息。如何在不依赖池化层的情况下实现扩大感受野的效果,空洞卷积提供了一个有效的解决方案[13]。在传统的卷积核设计中,通过在每个像素之间增加填充像素,可以有效扩大感受野的范围。然而,空洞卷积存在一定的缺陷,当空洞率(填充像素变量)逐渐增大时,卷积核中的不连续性会导致部分参数无法参与计算,从而使卷积核退化为1×1的结构,这会显著降低特征提取效果。针对这一问题,空洞空间金字塔池化方法提出了一种解决方案:首先对输入的特征图进行全局平均池化操作,随后添加一个1×1的256通道卷积层和批处理化层,从而有效平衡了感受野的扩大与特征丢失的问题。
1.3 编码器-解码器结构
为了解决图像分割领域中池化操作后特征图分辨率不断降低、部分像素空间位置信息丢失等问题,除了优化卷积结构之外,还有一种方法是采用编码器-解码器结构[14]。编码器通常由多个卷积层和下采样层组成,其作用是从原图中提取具有位置信息和语义信息的特征图;而解码器通常由反卷积层和上采样层构成,其作用是通过上采样操作逐步恢复图像的空间分辨率和细节信息,生成与原图分辨率一致的稠密预测图[15]。卷积或池化操作会降低图像分辨率,为了恢复与原图像相同分辨率大小的分割图,解码器的作用是通过上采样操作逐步恢复图像的空间分辨率和细节信息。U-Net是一种典型的编码器-解码器结构,通过下采样操作缩小图像分辨率,在解码器阶段使用上采样操作逐步恢复物体的空间位置信息和图像分辨率。
1.4 注意力模块
注意力机制的基本思想是在运算过程中忽略无关信息,专注于提取重点信息。通过注意力机制,系统能够有效学习和整合上下文信息,并在此基础上构建自我注意力模块,从而捕捉数据或特征之间的内在关联性[16]。在PANet(path aggregation network)中,作者提出高层特征信息对低层特征信息具有指导作用,因此注意力机制必须跨越层之间的联系[17]。解码器的作用在于恢复像素级别的类别位置信息,经过编码器提取的特征中包含丰富的分类信息,可作为低层信息的指导。Woo等人提出了轻量且通用的注意力模块(convolutional block attention module,CBAM)[18]。该模块分别在特征图的空间维度和通道维度引入注意力机制,能够在不显著增加计算量和参数量的前提下,提升网络模型的特征提取能力。文献[19]中提出了一种自我注意力机制,并将其应用于视频动作识别任务。该机制能够有效地捕捉不同位置之间的远程依赖关系,且在不导致特征图退化的情况下,每个位置都能够获得完整的全局感受野。在OCNet中,通过自我注意力机制计算像素之间的相似度,利用同一目标的其他像素信息为当前像素分类,从而获取目标的上下文信息。在实验部分,作者在金字塔池化模块和空洞空间金字塔池化模块上进行了实验验证,最终在Cityscapes和ADE20K数据集上取得了当前最优(state of the art,SOTA)的性能结果。
2 本文方法
本章首先阐述了论文中提出的语义分割网络CANet的总体架构,随后详细阐述了ASPPAM和PAM两个模块,采用了广泛应用于深度学习领域的交叉熵损失函数作为优化目标。
2.1 网络的整体结构
本文的整体网络架构如图1所示,该模型由扩展的FCN、ASPPAM和PAM三个功能块构成。基于ImageNet预训练的ResNet-101[20]被选为主干网络,其全连接层被去除以适应网络需求。如图1所示,标注有'Res'的蓝色模块的详细架构如表1所示,其中"7×7,64,stride:2"表示卷积核尺寸为7×7,输出通道数为64,步长为2。每个大块结构均包含一个基础模块(Base-block),该模块包含残差结构(residual),具体架构如表1中Res块所示,其中"1×1,64"表示卷积核尺寸为1×1,输出通道数为64。模块外的"×3"标识输入信号将经过该模块结构三层,后续结构以此类推。在Res4模块后引入ASPPAM(空洞空间金字塔注意力模块)以提取深度特征,从而获得更丰富的语义信息。此时,特征图尺寸缩减至原始图像的1/8。同时,模型将低级语义信息传递至PAM(位置注意力模块)中进行处理,PAM主要关注低级语义信息中的边缘和细节特征,以补充高级语义信息中可能丢失的空间信息。最后,通过融合两个注意力模块的特征并进行上采样处理,恢复出最终的分割预测图。
图 1

图****1CANet****网络结构图
Fig.1CANet network structure diagram****
表1ResNet-101****四个块的结构
Table 1 Four blocks structure of ResNet-101
| Layer_name | 101-layer |
|---|---|
| Conv1 | 7×7,64,stride:2 |
| Pooling | 3×3maxpool,stride:2 |
| Res1 | 1×1,643×3,641×1,256×3 |
| Res2 | 1×1,1283×3,1281×1,256×4 |
| Res3 | 1×1,2563×3,2561×1,1024×23 |
| Res4 | 1×1,5123×3,5121×1,2048×3 |
新窗口打开**|下载CSV**
2.2 空洞空间金字塔注意力模块
ASPPAM结构将深度神经网络的部分卷积层替换成空洞卷积,在不增加参数的情况下,扩大了感受野的范围,从而获取了更多的特征信息。1×1卷积的目的是防止空洞率过高导致卷积核参数无法完全利用的问题。针对空洞卷积带来的空间信息丢失问题,DeepLab-v3采用了引入解码器结构以恢复目标的空间信息。由于空间信息的丢失不利于像素级的分类任务,本文在提取特征的并列结构上增加了上下文注意力模块来解决这一问题。在ASPPAM模块中,空洞卷积的作用是获取不同尺度的上下文信息。原始图片如图2所示,其大小和通道数分别为(1024, 2048)和3。经过ResNet-101提取的高级特征图可视化后,高级特征图的大小和通道数分别为(128, 256)和512,其横纵坐标为分辨率,高级特征的通道可以被看作特定类别的响应。将高级特征图可视化为512张单通道图片,图3显示未使用ASPPAM模块时的高级特征图,其中部分特征图因丢失像素严重或相关类别像素缺失导致提取特征为空,表现为可视化结果为黑色,这不利于后续的像素预测任务。图4展示了使用了ASPPAM模块后的高级特征图,相关类别的特征更加集中,特征为空的现象显著减少(黑色特征图),丢失像素的问题得到了有效解决。从图4可以看出,所提出的ASPPAM模块确实发挥了作用。SENet[21]通过学习特征权重并采用点乘方式进行加权,同时利用池化操作传播注意力特征图,但忽略了像素自身具有一定的关系。
图 2

图2原始图片
Fig.2Original picture****
图 3

图3未使用ASPPAM提取的高级特征图可视化结果
Fig.3 presents the visualization outcomes of highly advanced feature maps extracted without employing the ASPPAM mechanism.
图 4

图4使用ASPPAM提取的高级特征图可视化结果
Fig.4 shows the visualization outcomes from the extraction of high-level feature maps using the ASPPAM method.
PSAM基于特征图中每个像素之间的联系进行计算,生成一个经过细化处理的特征图。四个并列分支通过整合来自不同感受域的特征信息,随后将经过PSAM处理的细化特征图与原特征图进行整合。整合后的特征图旨在提升像素间的相互依赖关系和类别间的区分度,其结构如图5所示,计算过程如式(1)~(3)所示。
Xproc=R(Xwmap×R(Xpre))
(1)
Xwmap=δ(R(Xpre×R(Xpre)))
(2)
Xpre=BN(fd3×3(X4))
(3)
图 5

图5像素相似注意力模块
Fig.5Pixel similar attention module****
其中,X4是ResNet-101第四个模块的特征图,其通道数和尺寸分别为C4和H4×W4。在通道维度上进行调整:采用3×3标准卷积操作,卷积核尺寸为3×3,步长为1,卷积前对特征图的外侧进行全1填充,填充大小为1空洞率d,默认值为1,无需额外填充。卷积操作不会改变特征图的空间尺寸,批标准化操作保持不变。其中,R()表示重 reshape 操作,×代表矩阵乘法,δ为sigmoid激活函数[22]。Xpre是经过批标准化和卷积操作后的预处理特征图,随后将经过 reshape 的预处理特征图与其自身进行矩阵相乘,再通过sigmoid函数激活,从而生成像素关系矩阵。将此矩阵加权后施加到预处理特征图上,经过加权处理后的特征图会更加重视像素类别信息,并突出细节特征,最终得到一张具有像素关系的深度特征图。输入特征图的尺寸为(分辨率,通道数):96×96,512通道,输出尺寸为96×96,256通道。Conv+BN计算量为96×96×3×3×512×256,矩阵乘法计算量为96×96×256×96×96×2。该模块总计算量为Conv+BN和矩阵乘法之和,即ASPPAM模块新增计算量为54.35 GFLOPS。
把上述得到特征图融入到ASPP模块,该结构如图6所示,计算方法如式(4)~(7):
F1=BN(fd1×1(X4))
(4)
F2=BN(fd=123×3(X4))
(5)
F3=BN(fd=243×3(X4))
(6)
F4=BN(fd=363×3(X4))
(7)
图 6

图6空洞空间金字塔注意力模块
Fig.6Atrous spatial pyramid pooling attention module****
其中,fd1×1是一种典型的卷积操作,其卷积核尺寸为1×1,采样间隔为1。在卷积操作之前,外围特征图采用1倍的全零填充策略。特征图F2、F3、F4分别经过不同空洞率的卷积操作生成。将提取的特征图Xproc、F1、F2、F3、F4进行通道合并运算(Concat),具体计算方式参考式(8):
Fm=BN(fd1×1(concat([F1,F2,F3,F4,Xproc])))
(8)
其中,Concat表示通道维度的拼接操作;fd1×1代表采样步长为1的一维卷积;BN为批归一化层。通过ASPPAM结构处理后,输出特征图的空间尺寸保持不变,但其细节信息通过加权融合,空间细节信息更加丰富,同时增强了上下文信息的表达能力。
2.3 位置注意力模块
高级特征信息非常丰富,低级语义信息保留了更多细节。通过融合高级特征与低级特征,可以更有效地处理图像的边缘和细节。在DeepLab-v3+[23]中,提出了一种高效的解码结构。SENet提出的SE模块在通道维度上执行聚合操作,这种注意力机制能够更加关注信息量最大的通道特征,同时抑制不重要的通道特征。受到CBAM和SENet的启发,本文提出的PAM模块将高级特征与跳跃层的低级特征通过相应点的像素Hadamard积融合,利用高级信息指导低级信息,从而实现了良好的分割性能。设计结构如图7所示,图7中,“low feature”的蓝色块来自ResNet第二个块的特征图X2,“high feature”绿色块是经过ASPPAM处理后的高级特征图。相应的计算公式如式(9)所示:
Fpam=δ(fd7×7([ψavg,ψmax]))⊗X2⊗Fm
(9)
图 7

图7位置注意力模块
Fig.7Position attention module****
在式中,X2表示低级特征图,其通道数和尺寸分别为C2和H2×W2,而Fm则代表高级特征图。其中,fd7×7为标准的卷积操作,卷积核尺寸为7×7,采样步长为1。在卷积操作前,低级特征图的外侧进行尺度为3的全0填充。Hadamard积运算符为⊗。低级特征图经过ψavg的全局平均池化和ψmax的最大池化后,将两个输出进行Concat操作,经过一次卷积操作后,特征图的通道数降至1,随后通过sigmoid激活函数生成注意力特征图,并与输入块进行Hadamard积运算,最终得到处理后的低级特征图。该低级特征图与高级特征图同样进行Hadamard积运算,生成最终的特征图。需要注意的是,特征图通过全局平均池化和最大池化进行处理时,卷积层的权重在两个池化操作中被赋予了不同的权重系数,这有助于网络更有效地学习边缘细节。值得注意的是,全局平均池化和最大池化操作本身并不消耗计算资源,而卷积操作和Hadamard积运算决定了计算开销。输入低级特征图的尺寸为96×96×256,高级特征图的尺寸为96×96×512。该模块的卷积计算复杂度为96×96×256×1×1×512,Hadamard积运算的计算复杂度为96×96×512×2。综合计算,该模块的总计算复杂度约为1.2 GFLOPS。
3 实验结果和分析
本章首先介绍实验所使用的数据集、评估指标以及网络参数设置,随后,与现有的注意力语义分割网络进行对比分析,最后,进行实验分析。
3.1 实验数据集与评估指标
3.1.1 数据集
本文主要采用了广为人知的公共数据集Cityscapes进行语义分割任务的研究。通过从全球50个不同城市的街道场景中收集了5000幅高质量的像素级标注数据,构建了一个大型数据集。该数据集按类别进行划分,大类包括地面、建筑、人、天空、自然、背景、道路标志和车辆。小类共有33个分类,本文仅采用了其中的19个分类。所有图片的分辨率均为2048×1024像素,且均为RGB三通道。此外,数据集还提供了20000张粗略注释的图像,用于训练弱监督分类网络以提升性能。
3.1.2 评估指标
本文采用常用的语义分割评估标准mIoU[24],该标准通过计算每个类别像素的IoU值累加后取平均来衡量图像分割性能。具体计算公式如下:
mIoU=1k∑i=1kpiiti+∑j=1k(pji-pjj)
(10)
其中,k代表像素的类别数量;pii表示实际类别与预测类别均为i的像素数量;ti表示类别为i的像素总数;pji表示实际类别为i、预测类别为j的像素数量。
3.2 网络参数
本文基于深度学习框架Pytorch-1.4,实现了所提出的网络架构。在图像预处理环节,采用了随机缩放、随机裁剪以及随机翻转等多种预处理手段,对训练数据进行了预处理处理,并将图像尺寸统一调整为769×769作为网络输入。该网络的损失函数构建方法是将经过PAM模块和ASPPAM模块处理后的特征图与标签之间的像素级交叉熵损失进行求和。在训练过程中,本文在两块Tesla-T4 GPU上采用了动量因子为0.9、初始学习率设为0.01的随机梯度下降优化算法,实验设置的批处理大小为2,同时采用了权重衰减系数为0.0005的正则化策略。
3.3 实验结果分析
将ASPPAM模块和PAM整合到FCN中进行处理,以分析像素间的依赖关系。本文提出了一种新型结构ASPPAM和PAM,其在Cityscapes验证集上的实验结果如表2所示。为了评估注意力机制的效果,本文分别进行了ASPPAM和PAM的消融实验。实验采用ResNet-baseline作为基准,其中ResNet-baseline的mIoU值为68.1%,FPS(每秒传输帧数)为25帧。在保持ResNet-baseline性能的基础上,引入ASPPAM模块后,模型的mIoU提升至73.8%,较基准模型提高了约5.7个百分点。然而,由于ASPPAM增加了计算负担,导致FPS下降了3帧。相比之下,PAM模块的主要作用是细化边缘和细节,但其对分割性能的提升并不显著。在ResNet-baseline基础上加入PAM模块后,mIoU值达到69.3%,较基准模型提升了1.2个百分点。值得注意的是,PAM模块的计算开销较小,仅导致FPS下降1帧。此外,实验还对比了未进行任何改进的ASPP模块,其mIoU值为70.7%,FPS为23帧。综合实验结果表明,ASPPAM模块在场景分割任务中表现出显著优势,且其对FPS的影响较为有限。基于计算成本考量,最终选择使用下采样率为8的ResNet-101作为主干网络。表2中的所有结果均来源于Cityscapes官方提供的Cityspacescripts工具包计算得出。
表****2****两个模块对网络性能的影响
Table 2 Impact of two modules on network performance
| 网络模型 | ASPPAM | PAM | mIoU/% | FPS |
|---|---|---|---|---|
| ResNet-101-baseline | 无 | 无 | 68.1 | 25 |
| ResNet-101-ASPPAM | 有 | 无 | 73.8 | 22 |
| ResNet-101-PAM | 无 | 有 | 69.3 | 24 |
| ResNet-101-ASPP | 无 | 无 | 70.7 | 23 |
| ResNet-101-ASPPAM-PAM | 有 | 有 | 75.4 | 20 |
新窗口打开**|下载CSV**
与当前先进网络进行对比,采用Cityscapes数据集作为测试集,通过本文提出的网络架构对官方提供的测试集图片进行分割预测,官方测试结果如表3所示。
表****3****与各种先进网络的比较
Table 3 Comparison with various advanced networks
| 方法 | BaseNet | mIoU/% |
|---|---|---|
| Dilated FCN-16 | Res-101 | 47.29 |
| PSPNet | Res-101 | 60.89 |
| DeepLab-v3 | Res-101 | 60.91 |
| DeepLab-v3+ | Res-101 | 64.06 |
| DANet[25] | Res-101 | 64.54 |
| OCNet (baseOC) | Res-101 | 64.37 |
| OCRNet[26] | Res-101 | 66.54 |
| EffcientFCN[27] | Res-101 | 65.78 |
| BiANet (without PAM) | Res-101 | 65.85 |
| BiANet[28] | Res-101 | 66.63 |
| CANet (proposed) | Res-101 | 69.30 |
新窗口打开**|下载CSV**
在表3中,本文所提出的注意力机制在mIoU指标上的表现达到69.30%,明显提升了以往FCN网络的性能水平。通过引入ASPPAM模块,该方法在验证集上的表现较基准网络实现了5.7个百分点的提升。为全面评估本文方法的优势,我们与当前流行的网络进行了对比分析:相较于原始的Dilated FCN-16模型,本文提出的网络在性能上实现了约22个百分点的显著提升;与含有ASPP的DeepLab-v3相比,本文方法在性能上提升了5个百分点;与最新的双侧注意力网络BiANet进行比较,本文模型的性能优势则达到了3个百分点。值得注意的是,本文所提出的两个核心模块着重体现了像素之间的依赖关系以及低层次空间细节的捕捉能力。通过Cityscapes测试集的验证,本文方法展现出卓越的性能表现。在经过该方法处理的19个类别数据集上,预测的准确率分布如表4所示,其中对Bus和Train类别的分割精度较CANet实现了显著提升,同时在细小物体的分割精度上也较其他网络取得了更好的效果。
表4Cityscapes****验证集上各个类别的准确率
Table 4 Accuracy of each category on Cityscapes verification set %
| Class name | ResNet-
Baseline | ResNet-
ASPPAM | ResNet-
PAM | ResNet-
ASPP | Proposed |
| --- | --- | --- | --- | --- | --- |
|---|---|---|---|---|---|
| Sidewalk | 83.0 | 81.8 | 83.3 | 86.4 | 82.6 |
| Building | 91.4 | 90.5 | 91.9 | 92.4 | 91.6 |
| Wall | 36.6 | 51.8 | 52.8 | 62.7 | 60.5 |
| Fence | 53.7 | 58.4 | 47.1 | 68.2 | 64.1 |
| Pole | 60.1 | 58.3 | 61.2 | 60.1 | 57.6 |
| Traffic light | 69.4 | 61.3 | 66.1 | 69.0 | 61.0 |
| Traffic sign | 76.5 | 73.7 | 76.1 | 77.9 | 75.7 |
| Vegetation | 91.8 | 91.1 | 91.9 | 91.9 | 91.6 |
| Terrain | 56.2 | 65.9 | 67.4 | 70.7 | 66.1 |
| Sky | 93.9 | 93.6 | 94.0 | 94.2 | 93.7 |
| Person | 80.5 | 77.7 | 78.1 | 81.0 | 79.0 |
| Rider | 59.9 | 63.0 | 60.6 | 62.8 | 61.1 |
| Car | 93.0 | 92.2 | 94.3 | 94.4 | 93.1 |
| Truck | 40.2 | 71.3 | 46.1 | 55.1 | 66.5 |
| Bus | 55.9 | 63.5 | 29.0 | 20.1 | 80.2 |
| Train | 21.1 | 77.0 | 43.0 | 8.3 | 79.0 |
| Motocycle | 56.0 | 59.7 | 60.0 | 72.8 | 56.2 |
| Bicycle | 76.6 | 75.0 | 75.2 | 76.7 | 74.8 |
| mIoU | 68.1 | 73.8 | 69.3 | 70.7 | 75.4 |
新窗口打开**|下载CSV**
本文所提出的两个模块对网络性能影响的可视化图如图8所示,可见ResNet-baseline中存在误分的模块,同时一些边缘细节分割不够连贯。误分的原因在于ResNet-baseline缺乏多尺度信息,导致较大物体在分割时容易出现误分现象。例如,在绿化带内混杂有人行道,在天空区域内混有植物等,加入ASPPAM模块后,误分现象得到了显著减少,这是由于增强了像素之间的依赖关系,并且由于空洞卷积带来的多尺度上下文信息的增加,从而大大降低了误分信息。添加PAM模块后,低级特征图保留了边缘信息,弥补了边缘信息的缺失,经过上采样处理后进行预测,从而对物体边缘的预测能力得到了一定的提升。例如,在分割图中可以清晰地观察到交通标识牌等物体的边界信息。
图 8

图8消融实验结果可视化
Fig.8Visualization of ablation experimental results****
网络的参数分析部分:主干网络基于ResNet-101架构设计,输入为3通道的769×769彩色图像。详细分析了网络的参数总量(MB)和计算复杂度(GFLOPS)。其中,Else表示通过改变通道数引入的卷积参数量,以及ResNet-101初始卷积的参数量和计算复杂度指标。括号内的百分数表示各项参数在整个网络中的占比。表5列出了整个网络的参数总量和计算复杂度指标。所有测试数据均在Tesla-T4显卡上进行,输入图像为3通道769×769彩色图像,模型运行时的帧率(FPS)为20帧。
表****5****网络参数表
Table 5 Network parameters
| Layer | Params/MB | GFLOPS | Receptive field |
|---|---|---|---|
| Res1 | 0.761(0.346%) | 8.820(1.468%) | 32 |
| Res2 | 4.300(1.954%) | 12.427(2.258%) | 42 |
| Res3 | 92.016(41.799%) | 245.820(44.656%) | 138 |
| Res4 | 52.780(23.975%) | 140.890(25.595%) | 162 |
| ASPPAM | 53.510(24.310%) | 141.720(25.746%) | 236 |
| Else | 16.770(7.616%) | 1.490(0.003%) | 238 |
| Total | 220.137 | 551.167 | 238 |
新窗口打开**|下载CSV**
4 结束语
本研究提出了一种改进型全卷积网络(FCN)语义分割方法,并设计了两个关键注意力模块:空洞空间金字塔注意力模块(ASPPAM)和位置注意力模块(PAM)。ASPPAM通过引入用于计算像素间依赖关系的模块,显著提升了分割精度;而PAM则用于融合低级语义信息,有效补充采样过程中可能丢失的重要细节。实验结果表明,与现有的PSPNet、OCNet、DeepLab-v3、BiANet等模型相比,本方法在性能上具有明显优势。未来研究将致力于进一步优化基础网络ResNet,以期获得更优的分割效果。
