Advertisement

论文笔记:Fully Convolutional Networks for Semantic Segmentation

阅读量:

这篇论文探讨了如何利用全卷积网络(FCN)进行语义分割任务,并提出了一种端到端的方法来优化其性能。以下是总结:
背景与方法
全卷积网络最初用于分类任务,但通过端到端的方法可以将其扩展至语义分割。该方法不需要单独的密集预测组件(如条件随机字段),而是直接从输入图像中预测像素级别的标签。论文提出了一种重新解释分类网络的方式:将反向传播和微分操作纳入全卷积框架,从而实现密集预测。
关键贡献

  • 直接预测像素级标签:通过反褶积层(上采样)将粗输出扩展至与输入大小一致。
  • 跳过层结合:引入跳跃连接,将不同分辨率的特征图结合起来,提升模型对细节的关注能力。
  • 高效训练与推理:通过批处理和自适应补丁采样等技术优化了训练效率。
    实验结果
    在PASCAL VOC、NYUDv2和SIFT Flow数据集上进行测试:
  • PASCAL VOC 2012测试集:平均交叠比(IU)达到62.4%,较之前的工作提高了约20%。
  • NYUDv2数据集:在RGB-D输入下表现优异。
  • SIFT Flow数据集:同时预测语义和几何标签表现同样优秀。
    结论
    全卷积网络通过端到端的方法成功应用于语义分割任务,并在保持高效推理速度的同时实现了state-of-the-art性能。这种方法简化了传统密集预测的工作流程,并展示了其在处理复杂视觉任务中的潜力。
    这项研究为计算机视觉领域提供了新的思路和方法,特别是在需要同时关注语义和细节的任务中表现出色。

摘要

卷积神经网络(CNN)以其独特的能力在视觉领域占据重要地位。通过系统性的研究与创新,在本研究中我们重点探讨了传统卷积网络在深度学习框架中的应用及其在语义分割任务中的表现。基于这一发现的核心理念是构建"全卷通路"(Fully Convolutional Networks, FCNs),该架构能够适应任意尺寸的输入图像,并通过高效的推理机制与学习过程生成相应大小的目标输出区域图谱。为了验证该理论的有效性,在空间密集预测任务中我们详细阐述了FCNs的空间特性及其应用潜力,并成功建立了与其性能相关的理论联系框架。此外,在现有分类网络基础之上进行适配性测试与优化改进工作:将AlexNet、VGG与GoogLeNet等经典分类网络重新构建成完全通路架构,并通过微调优化过程实现了对分割任务的支持能力迁移。在此基础上提出了一种带有跳跃连接的架构设计(Skip Connection),该设计能够整合深层模块产生的粗粒度语义信息与浅层模块提供的精细外观特征描述信息,在提升分割精度的同时显著降低了计算开销成本。最终实验数据显示:在PASCAL VOC 2012数据集上实现了62.2%平均交叠区域改进率(IoU improvement),较传统方法提升约20%;同时在NYUDv2数据集上也取得了超越现有基准的表现记录;并且在SIFT Flow数据集上的性能表现同样令人瞩目的是,在典型图像场景下推理时间仅为传统方法的一半左右

1.引言

卷积网络正致力于推动识别技术的进步。 Convnets 不仅在整体图像分类领域取得了显著的改进,在具有结构化输出的任务中也取得了显著的进展。这其中包括边界框检测、部分和关键点预测以及局部对应分析等方面的进步。

在从粗略到精细的推理过程中,这一步骤是实现对每一个像素的预测目标。然而,在该任务中基于卷积神经网络的技术虽然实现了语义分割功能(即给每一个像素赋予特定的对象或区域类别标签),但尽管如此却存在一些局限性。

我们表明,在没有进一步机器的支持下,在进行了端到端、像素级语义分割训练之后的全卷积网络(FCN)已经超出了当前技术水平。据我们了解,在FCN领域中尚属首次将端到端训练的方法应用于像素级预测任务并结合监督预训练过程。现有的全卷积网络版本能够从任意尺寸输入中生成密集输出结果,并且其学习与推理过程均通过一次性地对整个图像进行密集前馈计算与反向传播来实现。值得注意的是,在FCN架构中引入上采样层后能够支持在具备子采样池的设计框架下实现像素级预测与精细的学习目标。

图1
全卷积网络可以有效地学习对语义分割等逐像素任务进行密集预测。

该方法展现出卓越的渐近效能与绝对效能,在其他工作中舍弃不必要的复杂化。
Patchwise训练虽然广泛采用却未能达到完全卷积的效率。
我们的方法避免使用预处理与后处理的相关技术体系,并非依赖于超像素、提议、随机场或局部分类器的事后细化。
我们利用一种创新的方法将分类网络重新构建成完全卷积结构,并基于其学习到的有效表示进行精细微调。
这种改进使我们能够在密集预测任务中实现对最近分类研究成功迁移。
相比之下,在无监督预训练条件下仅采用小型卷积架构难以达到现代神经网络的高度性能。

语义分割面临着语义与位置间的内在矛盾:全局信息负责解决什么问题?而本地信息则负责解决具体的位置问题。深层特征的层次结构通过非线性局部到全局金字塔的方式有效地编码了位置与语义的关系。在第4.2节中,我们提出了一种跳跃架构来充分利用这一结合了深度、粗略语义信息以及浅层、精细外观细节的特征谱(如图3所示)。

在下一节中,我们将对深度分类网络.FCN以及基于卷积网络实现语义分割的前沿研究进行综述.下面将详细阐述FCN的设计原理及其在密集预测任务中的权衡问题.我们采用了具有内部上采样机制和多层次融合策略的新架构设计,并重点介绍了其创新性特点.此外,本文还将深入探讨所提出的方法在实验平台与评估指标体系上的具体实现.最后,我们在PASCAL VOC 2011-2.NYUDv2以及SIFT Flow等基准数据集上取得了显著成果

2.相关工作

我们的方法汲取了近年来深度网络在图像分类及迁移学习领域取得的重要突破。这项技术在多个视觉识别领域展现了卓越的效果。随后,在实例检测与语义分割等模块中也得到了相应的验证与支持。经过优化重构后的新网络模型实现了对语义分割的高效预测。我们不仅对现有模型进行了改进,在实验部分也进行了详细展示。此外,在FCN架构的基础上进一步完善了整体设计思路。

全卷积网络:据研究显示,在计算机视觉领域中最早提出将二维或三维空间中的滤波器直接作用于图像数据(而非池化后的特征向量)的思想源于Matan等学者。该方法基于经典LeNet架构进行了改进以实现数字串识别任务。然而由于其仅适用于一维输入数据字符串处理限制而被局限在该领域应用。随后 wolf 和 Platt将其卷积输出扩展为二维检测分数图用于 postal address block recognition任务。这一创新性工作奠定了基于完全卷积框架的数据分析基础并推动了后续研究的发展。此外 Ning 等人则提出了另一种完全卷积模型用于对秀丽隐杆线虫组织进行粗略多类分割的研究工作。这些研究工作共同奠定了现代全卷积神经网络的基础理论框架并推动了深度学习在图像处理领域的广泛应用。

在当今多层次网络时代中, 全卷积计算被广泛应用于各种领域. Sermanet及其团队提出的滑动窗口检测方法, Pinheiro与Collobert合作提出的语义分割算法以及Eigen等研究者的图像恢复技术都采用了完全卷积推理. 完全卷积训练相对罕见, 但Tompson等研究者巧妙地应用了其来进行端到端部件检测器设计, 并将其成功运用到姿态估计的空间模型构建中, 尽管这些研究者并未详细阐述或深入分析这种方法的应用原理.

或者

基于卷积神经网络的密集预测研究进展:近年来围绕密集预测问题的研究取得了显著进展。具体而言,Ning 等研究者已在语义分割领域取得突破性成果;Farabet 等人则将卷积神经网络成功应用于电子显微镜图像边界预测;Pinheiro 和 Collobert 的混合卷积加最近邻模型在自然图像边界预测方面表现尤为突出;Ciresan 等人开发出高效的图像恢复和深度估计方法。这些研究工作的主要共同点是

基于小规模计算资源与本地感知窗口的小模型采用补丁训练机制

而我们的方法无需依赖该设备。然而我们深入探讨了FCNs框架下的两种关键训练策略:一种是基于patchwise的训练方案(编号为3.4),另一种是"shift-and-stitch"密集输出技术(编号为3.2)。此外,在网络内部上采样技术方面也进行了深入探讨。相较于现有技术, 我们进行了架构的扩展与优化, 在图像分类任务上进行了有监督预训练, 并对全卷积神经网络进行微调优化。

Hariharan等研究者与Gupta等研究者采用了同样的方法,在混合提议-分类器模型中采用了同样的方法来进行语义分割任务。然而,在优化R-CNN系统的检测、语义分割以及实例分割性能方面,这些方法并未采用基于端到端的学习框架。尽管如此,在PASCAL VOC数据集以及NYUDv2数据集上表现出了卓越的分割性能。因此我们直接对比了本研究提出的独立端到端FCN与第5节所述的语义分割性能

在多层次特征融合的基础上构建了一个非线性局部整体表示,并通过端到端优化实现性能提升。在当前研究领域中,Hariharan等学者已在混合模型框架内应用多层级策略实现语义分割任务。

3.全卷积网络

卷积网络中的每个层级的数据构成一个h×w×d维度的空间数组,在该结构中h和w代表空间维度而d代表特征维度或通道数量。最底层的数据对应于输入图像其像素大小为h×w并具有d个颜色通道。随着层级的深入更高层次的位置会与图像中与其路径相连的一系列位置区域相关联这些区域被称为该位置的接受域

卷积操作建立在平移不变性的基础之上。其主要组成部分包括卷积层、池化层以及激活函数等基本单元,在处理局部输入区域时仅考虑相对位置信息而不关注绝对坐标位置的变化情况。为了表示某一层中位于(i,j)位置的数据向量,则采用\large x_{ij}这一符号;而y_{ij}则代表下一层对应位置的输出向量值;这些运算关系通过以下公式得以具体计算得到:\large y_{ij} = f\left( \sum ... \right)

其中k被定义为核尺寸(kernel size),而s被视为步长因子(stride factor)或者子采样比例(sub-sampling ratio)。符号\large f_{ks}则决定了层类型:它是执行卷积运算或者平均池化矩阵乘法的关键操作;在最大池化过程中涉及空间处理;同时,在激活函数中应用元素非线性等其他类型的层。

该函数形式在复合下保持,核大小和步长服从变换规则:

常规深度网络通常处理一般性的非线性函数运算;然而,在特定结构层的设计下(即仅当采用特定结构层时),才能实现相应的非线性滤波器功能;这样的结构在深度学习领域被称为深度滤波器或全卷积神经网络架构。在此架构下(即),FCN能够有效地处理任意尺寸的输入数据,并在其输出中保留与输入一致的空间维度(经过可能的空间重采样处理)。

由FCN构成的实值损失函数被定义为任务的核心部分。当损失函数等于最后一层的空间维度总和时

其梯度等于各空间分量对应的偏导数值之和;由此可知,在整个图像范围内进行随机梯度下降运算的结果与仅在' 0位置处进行该运算的结果一致,并将最终层的所有激活区域视为一个小批量处理单位。

当这些接受域存在显著的重叠区域时,在图像中分层次进行前馈计算和反向传播的效果会显著提升,并非基于单个像素块的独立处理的方式能够带来更高的整体处理效率。

随后我们计划详细阐述以下步骤:将分类网络转换为带有粗输出映射功能的全卷积网络。

对于像素级预测任务,在完成粗输出后需将其与像素区域建立关联关系。第3.2节中介绍了一种称为快速扫描机制的技术。我们通过重新解析该技巧为等效的网络架构来深入理解其工作原理。作为提升训练效率的有效替代方案,在3.3节中我们引入了反褶积层来进行上采样操作。在第3.4节讨论了基于块抽样的训练策略,并在第4.3节通过实验验证了该方法在图像训练中具有更快收敛速度且保持相同性能水平。

3.1 自适应分类器进行密集预测

识别网络的发展历程中包含了一系列进化的模型架构设计,在处理固定尺寸图像时产生不带空间信息的特征表示。这些网络中的全连接层具有恒定大小参数,并且忽略了位置信息这一关键特征。然而,在某些特定应用场景中,这种全连接层可以通过引入局部可学习的卷积核来实现替代功能。
具体而言,在保留原有全连接层的基础上,在其基础上构建了一种能够覆盖其整个输入域的新类型层(In addition, 这种设计进一步发展出了一种新型卷积结构)。通过这种方式实现了支持任意尺度的输入与目标分类之间的映射关系(Furthermore, 这一创新设计使得网络能够适应多样的输入尺寸需求)。
如图2所示展示了这一技术的核心原理流程图。

图二
将全连接层替代为卷积层有助于提升分类网络的空间表示能力(如图2所示)。通过引入辅助损失项(如图1所示),我们可以实现端到端密集学习框架下的机器学习任务优化

此外,在特定输入补丁上的映射结果与原始网络评估过程所得出的结果一致。然而,在这些重叠区域中的计算成本得到了显著地分摊。例如,在典型的GPU架构下(如NVIDIA Tesla V100),AlexNet模型能够在约1.4毫秒的时间内完成对一个大小为[H\times W][H_{in}\times W_{in}] 的图像进行分类结果分数预测(H_{out} \times W_{out} 的输出单元)。相比之下,在相同的硬件条件下运行全卷积神经网络则需约T' 毫秒的时间来生成对应的输出特征图尺寸为 [H' \times W'] 的结果网格(其中 H'W' 分别对应输出特征图的高度和宽度)。

此类模型的空间输出映射使其成为解决语义分割等问题的理想选择。每个输出单元均附有ground truth信息,在正反两个方向上的传播均可直接受益于卷积层固有的高效性(以及优化效果)。基于AlexNet架构的例子表明,在单个图像上的反向传播所需时间为2.4 ms,在10×10全连接层时则提升至37 ms。这与正传过程在加速方面表现相似。

尽管我们将该分类网络重新表述为全卷积结构,并能对任意尺寸输入生成对应映射关系。然而,在这一过程中通常会采用采样点降维的方式处理高维数据。为了确保滤器尺寸较小且计算负担可控,在全卷积版本中我们压缩了输出维度,并减少了相当于每个输出单元所覆盖像素区域数量的一个因素。

3.2 移位-缝合是滤镜稀疏

可以通过对粗糙输出进行适当处理来实现密集预测的效果。具体方法是将输入图像在其空间维度上进行平移操作后得到各移位版本的特征表示,并将这些特征表示拼接在一起形成完整的表征信息集。当采样率降低为原来的1/f时(即采样间隔变为原来的f倍),需要将输入图像在x轴方向上平移一个像素间隔,在y轴方向上平移一个像素间隔,在每个(x,y)位置(其中0≤x,y < f)处执行一次该操作。对于每一个\large f^{2}大小的小块图像进行单独处理,并交错地生成对应的预测结果矩阵

虽然执行这种转换不会显著降低成本或保持不变,并且在工程实践中已广泛采用一种可靠的方法来实现预期效果的小波领域将其命名为àtrous算法

当我们处理带输入步幅s的卷积或池化层时(此处省略不相关特征维度),随后连接一个具有滤波器权重\large f_{ij} 的后续卷积层。将其下一层设置为步长1,并对输出进行s倍放大处理。然而,在这种情况下(即使用放大后的输出),直接应用原始滤波器并不会得到与shift-and-stitch方法相同的效果)。这是因为原始滤波器只能捕获其现有(经过放大)输入的一部分信息。为了模拟这一效果,请适当放大滤镜使其恢复到适合捕捉完整信息的状态。

(i and j starting from zero). To achieve all net outputs, this technique requires recursively applying the filter amplification process until all subsampling is removed. (In practice, this can be efficiently accomplished by processing the upsampled input at a downsampled resolution.) Reducing subsampling constitutes a trade-off: the filter is capable of capturing finer details but operates over a smaller spatial extent, resulting in increased computational time. The shift-and-stitch technique represents another form of trade-off: it produces a denser output without reducing the filter's spatial receptive field, though it restricts the filter from accessing information at scales finer than originally designed. Although we have conducted preliminary experiments with this approach, we have not yet incorporated it into our model architecture. Despite initial experiments with this approach, we have not yet incorporated it into our model architecture. Our findings suggest that upsampling-based learning will prove more effective and efficient, particularly when combined with the skip layers discussed in the following sections.

3.3 上采样是向后跨步卷积

将粗输出信号连接到密集像素的一种替代方法是采用插值技术。例如,在双线性插值算法中,我们通过基于输入和目标像素相对位置的加权平均(即线性映射)从四个相邻输入样本中生成每个目标像素的灰度值

从理论上讲,在引入因子f的情况下进行上采样相当于将输入设置为步长1/f并执行分数阶卷积操作。当且仅当f取整数值时(即整数),这一过程可以通过将输出设置为步长f并执行反向卷积(有时也称为逆时针卷积)来实现这一目标。这种操作相对简单因为它只需要将正向与逆时针方向的操作进行转换即可完成。因此,在网络架构中采用端到端的学习策略能够有效地从像素级别的损失函数进行梯度回传计算。

注意,在这样的层级中使用的反向传播滤波器无需固定参数(如双线性上采样),但具有可学习性;大量反向传播层和激活函数甚至能够学习实现非线性的上采样过程。

通过我们的实验研究发现,在网络内部应用上采样技术能够显著提升密集预测任务的效果。我们采用的分割架构整合了这些上采样层,并用于第4.2节中的细化预测过程。

3.4 patch - wise训练是损失抽样

在随机优化框架中进行梯度计算时会受到训练数据分布的影响

当所保留的补丁仍具有显著重叠时,即使采用全卷积计算也能有效提升训练速度。若梯度需在多次反向传播中逐步积累,则批量处理可同时包含多个图像的小块区域。

分块-wise训练中的采样操作能够消除类别不平衡问题,并降低密集区域样本间的依赖关系。在全卷积网络中,通过加权损失函数可达到类别平衡效果,并采用基于损失的采样策略来解决空间相关性问题。

在第4.3节中, 我们研究了抽样训练方法, 并未发现其在密集预测任务上的显著优势。就整体而言, 形象训练方案既具有有效性又具备高效性。

4.分割架构

我们将ILSVRC分类器迁移至FCN架构中,并利用网络内部的上采样操作和引入像素级损失项来提升预测精度。在训练过程中采用微调方法优化细分模块。

接下来,在层之间建立跳跃连接以融合粗糙度、语义内容以及局部细节的信息。这种跨越层间连接的方式采用端到端学习策略,并旨在提升输出结果的空间和语义准确性。

针对本研究,在PASCAL VOC 2011分割挑战项目上进行了系统性的实验设计与验证工作。基于每像素多项式逻辑损失函数构建了训练模型,并采用了基于平均像素交并比的标准度量方法对模型性能进行评估指标计算。对于分类评估指标计算过程,在所有类别(包括背景类别)上均采用了统一的平均值计算策略以保证结果的一致性与可比性。在模型训练过程中排除了在基础事实中未被明确识别(视为模糊或困难)的像素点所对应的样本数据参与训练

4.1 从分类器到密集FCN

我们采用了经过验证的卷积架构(见第3节所述)。基于ILSVRC12竞赛中取得优异成绩的AlexNet3架构,在ILSVRC14比赛中也展现出出色表现。其中最具竞争力的是VGG网络系列以及GoogLeNet设计(见第4节)。本研究重点采用了VGG 16层网络结构,在该任务中其性能相当于具有19层的设计方案(如图2所示)。对于GoogLeNet模型,在保留核心损失函数的基础上去除了末级平均池化操作以提升识别精度(见第4节)。同时为了统一各子网络输出尺度,在去除分类器后新增一个21通道的一维卷积模块用于预测各PASCAL类别(包括背景)的概率分布(如图3所示)。通过反卷积操作对粗定位结果进行了双线性插值以恢复像素级预测信息(见第3节所述)。表2对比分析了不同模型在固定学习率下的收敛效果及其关键特征参数。

从分类到分割的微调优化方案赋予了每个深度学习网络相应的预测能力。即使是最糟糕的基础模型也达到了前沿水平性能水平的75%左右表现。采用分段辅助机制(如FCN-VGG16)在验证集上的平均IoU值达到了56.0%,而测试集上则表现得更为稳健其平均IoU值为52.6%对比而言补充训练数据后在A subset of val7中的验证结果提升至59.4%其中FCN-AlexNet同样实现了这一改进其平均IoU值提升至48.0%值得注意的是尽管各模型在分类精度上表现接近但我们的GoogLeNet方案所得出的结果与VGG16分割算法仍存在显著差异

表1

4.2 结合什么、从哪结合

该团队提出了一个新的全卷积神经网络(FCN),其主要应用于图像分割任务。该网络通过融合多尺度特征信息,并显著提升了空间分辨率。参见图3。

图3展示了我们的DAG网络如何将粗放的高阶信息与精细的低阶信息相结合。池化与预测层以相对粗糙的空间网格呈现,在中间层则以垂直线条展示。第一行(FCN-32s):我们单流网络在第4.1节中详细描述,在一步内通过上采样将32个预测像素恢复为单个像素。第二行(FCN-16s):该网络通过结合最后一层及pool4层的预测,在步幅为16的位置实现了更精细的细节捕捉,并保留了高级语义信息。第三行(FCN-8s):在步幅8的位置,来自pool3层的额外预测进一步提升了精度。

尽管完全卷积化的分类器可以在图4中进行微调以实现分割任务,并在标准度量下获得较高的分数(见图4),但其输出显得不够精细(见图4)。最终预测层采用32像素步长可能会限制上采样输出中细节级别的捕捉能力(见图3)。我们通过引入跳跃连接来解决这一问题:将最终预测层与其下方具有更小步长(更细粒度)的层进行融合。这将传统上的拓扑结构转换为有向无环图(DAG),其中边连接从较低层级跳转到较高层级(如图3所示)。由于这些层级所观察到的像素数量较少,在预测较细粒度特征时所需层数相对较少因此从较浅层生成这些层级是有意义的做法。通过将细粒度和粗粒度特征结合起来可以在尊重整体结构的前提下实现局部预测。类比于Koenderick和van Doorn提出的喷流理论我们将其非线性特征层级命名为深喷流(deep warps)。我们首先通过从16像素步幅层中进行预测将输出步幅减半这样能更好地平衡精细程度与计算效率之间的关系在pool4之上添加1 × 1卷积层以生成额外的类预测。在step=32处我们通过引入2×上采样层并融合两个预测结果(如图3所示)将其与卷积层fc7计算出的预测结果进行融合这一方法显著提升了模型性能表现。(具体表现为验证集平均IoU从3.0提升至62.4)随后我们对所设计网络架构进行了优化并通过实验验证其有效性

图4

利用来自不同跨距的层信息对完全卷积网络进行整合优化,从而增强了分割细节的表现. 三个采样间距下的图像序列在图3中展示了其输出结果.

4.3 实验框架

优化方案设计:我们采用动量梯度下降(Momentum SGD)算法进行优化操作。针对不同深度的卷积神经网络架构(如AlexNet、VGG16、GoogLeNet),我们在不同小批量尺寸下进行了实验比较。

10{{-3}}

10^{-4}

5^{-5}

的固定学习率,通过直线搜索选择。我们使用动量0.9,权重衰减为

5^{-4}

2^{-4}

为了降低偏差参数的学习速率一倍 , 并且通过这一策略来优化模型性能 。 尽管我们的实验表明训练过程对于学习率的变化较为敏感 。 为了避免随机初始化带来的潜在问题 , 我们采用了零初始化的方式 。 即随机参数化初始化不仅不会带来性能上的显著提升 , 并且也难以确保更快的模型收敛速度 。 其中一项关键的应用场景是在原始分类器网络架构中实施 Dropout 技术

模型微调 我们采用反向传播算法对整个网络进行参数微调。表2数据显示 单独优化分类器仅能实现约70%的完整性能水平。鉴于基础分类网络训练所需的计算资源 考虑从零开始构建模型并非高效方案。(注:VGG网络通常分阶段训练 而我们采用了全16层预训练权重)对于较为简化的FCN-32s架构 在单GPU环境下完成微调需耗时三天 而升级至更高分辨率的FCN-16s和FCN-8s版本则可缩短一半时间(约为每日)。PASCAL VOC 2011分割任务中 我们的训练集包含来自不同标注者的总计约994张图像(注:Hariharan等人则收集了规模更大的8498张PASCAL标注图像用于提升前人系统SDS的表现)。这些数据显著提升了模型验证分数 从PASCAL VOC 2011分割评分基准提高了3.4分 平均交叠区域(IU)达到59.4%。

抽样方法如前所述,在第3.4节中有详细说明。
该方法将每个图像按规则的大而重叠的补丁网格分批处理。
与之相比,在完整数据集上采用随机采样的方式可能会增加批次间的方差,
但可能有助于加快收敛速度。
为了研究这种权衡,
我们采用之前所述的空间采样策略来探讨这种权衡,
并以概率1 - p独立地舍弃每个最终层细胞。
同时保持每一批的数量不变,
每一批中的图像数量增加1/p。
值得注意的是,
由于卷积操作的高度效率,
对于足够大的p值(例如参考第3.1节的数据分析可知p > 0.2),
这种拒绝采样的形式仍然比基于patch-wise的操作更快。
图5展示了这种抽样形式对模型收敛性的影响。
经过实验分析后发现,
相比于整体图像训练,
这种抽样方式对收敛速度的影响并不显著,
然而由于需要考虑更多批次内的样本量,
因此总的训练时间会有所增加。
基于这些观察结果,
我们在后续实验中选择了未进行抽样的整体图像训练方案。

图 5 在整体图像范围内进行训练和采样补丁具有同等效率,在利用数据方面表现更为出色,在相同的时间段内能够实现更快的收敛速度。左图揭示了在固定预期批量大小下采样对提升收敛速度的作用模式;而右图则表明了相对于wall time(墙-clock时间)的性能表现差异。

类平衡 全卷积网络可采用加权损失或采样方法来均衡各类分布。值得注意的是,在我们的数据集中约75%的比例属于背景类别。由此可见,无需特意追求各类均衡即可获得满意的效果。

密集预测

5.结果

我们进行了针对FCN的语义分割与场景理解的研究,并深入分析了PASCAL VOC, NYUDv2以及SIFT Flow等数据集。历史研究表明这些任务能够有效区分物体与区域;然而,在本研究中我们将其统一作为像素级预测来进行。在每个数据集上我们评估并验证了FCN跳过的架构;随后将该架构扩展至NYUDv2多模态输入以及结合SIFT Flow提供的语义与几何标签进行多任务学习

评估 我们报告了来自常见语义分割与场景解析评估的四个指标, 即像素精度与区域交集超过联合(IU)的表现.设

n_{ij}

为类 i 预测属于类 j 的像素数,其中有

n_{cl}

个不同的类,设

t_{i}

=

um_{j}^{}n_{ij}

为类 i 的像素总数。我们计算:

在PASCAL VOC 2011和2012测试集上展示了我们的fcn -8性能表现表3详细列出了相关数据并与其前驱工作SDS[15]以及著名的方法R-CNN进行了对比分析我们模型在平均 IU8 指标上相比基准模型实现了平均 IU8 的提升具体而言相比于传统方法推理时间减少了约114倍(仅卷积层计算)或者达到286倍(综合所有计算步骤)这一显著的性能优化为实际应用提供了更强效的支持

表3
我们所提出的全卷积网络相较于PASCAL VOC 2011与PASCAL VOC 2012测试集所采用的现有最先进的技术平台,在准确率方面提升了约20%,并且在推理速度上也得到了显著的优化。

NYUDv2 NYUDv2 是一个 RGB-D 数据集,在该领域具有重要地位。它包含了 1,449 张 RGB-D 图像,并配备有像素级标注信息,在 Gupta 等研究者的努力下整合完成了 40 个不同的语义分割任务。我们对 79.5% 的训练样本和 65.4% 的测试样本进行了标准分割性能评估。(注:所有模型评估均基于 PASCAL 2011 val 验证集进行)表 4 展示了不同模型架构下的性能对比情况:首先,在未经修改的情况下对 RGB 图像进行粗模型(FCN-32s)的端到端训练;随后将深度信息引入到四通道 RGB-D 输入方案(早期融合阶段),并在此基础上进行优化;这一改进措施虽然带来了微小提升效果(可能源于在整个网络传播有意义梯度存在较大挑战),但表现依然有限;在此基础上借鉴 Gupta 等人的成功经验,在深度三维 HHA 编码框架下仅进行 HHA 特征信息导向的网络训练,并探索了 RGB-HHA 后期融合方案——即两个独立预测结果在最后一层空间域上进行融合汇总,并通过端到端学习机制构建双流网络架构;最终将这一后期融合方案优化至 16 步级联结构化设计阶段

实验结果表明NYUDv2在深度估计方面表现优异。该方法将RGB和深度数据在输入端进行早期融合。其中HHA参数包含了水平视差、离地高度以及地表法线与推断重力方向之间的夹角。通过联合训练构建了RGB-HGA融合模型,并将这两个模块预测值相加得到最终结果

SIFT Flow 是一个包含了丰富视觉信息的数据集,在该数据集中,“桥”、“山”以及“太阳”等典型物体类别的视觉特征被详细标注;此外,“水平”、“垂直”等几何特征也被系统化地记录下来。传统的FCN架构能够有效地融合并预测这些多维度的信息。为了进一步提升网络的表现力,在本研究中我们构建了一个双分支结构,在FCN-16s的基础上增加了语义理解与几何特征提取两方面的信息。实验表明该模型在两个子任务上的性能优于传统方法;具体而言,在分割精度方面表现出了显著的优势(见表5)。实验数据基于严格的分割标准(共2488张训练图片与200张测试图片)收集整理。

6.结论

全卷积神经网络代表了各类深度学习模型中的一类重要结构,在这一领域中,现代分类卷积神经网络作为一种典型代表具有显著的应用价值。认识到这一点后,在性能指标上较之现有的方法实现了显著提升,在训练速度和推理效率方面也带来了显著的优化。将这类基础架构进一步应用于分割任务中,并通过多分辨率模块的巧妙组合优化了原有的基础架构,在训练速度和推理效率方面也带来了显著的优化。

图6
全卷积分割网络在PASCAL测试集中获得了最卓越的性能表现。左边区域展示了我们所开发的fcn-8网络的最佳输出结果。另一个对比展示的是Hariharan等[15]之前报道的系统所产生的分割结果。特别关注分割结果中细节部分的表现:第一行突出了对图像恢复中的精细结构的关注;第二行则体现了对象间紧密关系的分辨能力;第三行强调了对遮挡物体(即闭塞器)的鲁棒性表现。然而,在第四行的数据中可以看出该方法存在局限性:该网络将救生衣等物品误判为人体。

全部评论 (0)

还没有任何评论哟~