Advertisement

论文--《Fully Convolutional Networks for Semantic Segmentation》

阅读量:

摘要:

1、简介

卷积网络促进了识别的进步。 卷积网络不仅提升了整体图像分类性能[19,31,32]这一指标,并且在结构化输出的任务上也取得了进步。 这些任务包括边界框对象检测[29,12,17]、部分和关键点预测[39,24]以及局部对应[24,9]。

从粗略推断到精细推理的自然下一步,则是对每一个像素进行预测。
先前的方法主要采用了基于语义分割的网络[27,2,8,28
,16
,14
,11],
其中每个像素被赋予其封闭的对象或区域所属类别,
但存在该研究所解决的问题。

图1. 完全卷积网络能够有效地完成每个像素任务的密集预测任务,并且在实际应用中能够实现对各个像素进行 semantic segmentation 估计

本研究表明,在完全卷积神经网络(FCN)方面取得显著成果。经过严格训练的端到端架构在像素级语义分割任务中表现超越现有方法,并受到硬件优化受限于当前计算资源的影响而无法进一步提升性能。这一研究工作可划分为两个关键阶段:(1)用于像素级预测任务以及(2)基于监督预训练阶段。值得注意的是,在现有完全卷积版本中所实现的功能是能够输出与输入图像尺寸一致的空间维度特征向量。通过一次性全局信息处理实现全图域上的精确推断过程,并结合反向传播算法完成高效的学习与推理过程

该方法无论是在渐近分析还是在绝对评估中均表现出色,并不依赖于其他工作中的复杂性评估。Patchwise训练确实是一种常见的方法[27,2,8,28,11],但其效率较低。相比之下,在未采用超像素分割[8,16]以及建议[16,14]、随机字段或局部分类器进行后续细化的情况下(注:此处原意为未采用这些技术),我们采用了另一种策略:将分类网被重新构建成完全卷积结构,并从其学习到的特征中进行微调以实现性能提升。与现有研究不同的是,在无需监督预训练的情况下应用小型网络已被以往研究证实是一种有效策略。

语义分割面临语义与位置之间的内在矛盾:全局信息将如何处理本地信息如何处理的位置问题。深度要素层次结构协同编码局部空间中的位置关系与整体图像的语义特征。我们在此提出了一种创新性设计——跳越架构——将其整合于第4.2节(见图3)。

在下一节中, 我们将对深度分类网络(FCN)及其在语义分割任务中应用convnet技术的相关研究进行综述. 此外, 本文还将深入探讨FCN的设计理念及其在密集预测任务中的权衡问题. 在介绍该网络创新性地采用了上采样策略和多层次融合机制的基础上, 并重点阐述了其实验架构的具体实现. 最终, 通过在PASCAL VOC 2011-2和NYUDv2等标准数据集上的验证, 我们展示了该模型所取得的最佳性能, 并与经典的SIFT流程进行了系统对比

2、相关工作

我们的方法汲取了前沿深度网络图像分类与迁移学习的成功经验[19-32;4-8]。 首先应用于多种视觉识别任务领域,并通过改进提升了系统鲁棒性;其次,在目标检测方面取得了显著进展;此外,在混合提议分类器模型中实现了实例与语义分段的有效结合,并通过迁移技术实现了性能提升。 为了进一步优化系统性能,我们重新构建并精细微调了分类网络架构;为此,在研究框架中深入分析后发现了一系列关键组件的工作原理及其相互作用机制。

完全卷积网络 据我们所知,将一个渐开线扩展到任意大小的输入的想法首先出现在Matan等人的脑海中。 [25],它扩展了经典的LeNet [21]以识别数字串。 由于他们的网络仅限于一维输入字符串,Matan等人使用Viterbi解码来获得它们的输出。 沃尔夫和普拉特[37]将信号输出扩展到邮政地址块四个角的二维检测分数图。这些历史着作中的两个都做了推理和学习,完全卷积检测。 宁等人。 [27]定义了一个用于完整卷积推理的秀丽隐杆线虫组织的粗多类分割的预测网。

在当前的多层网络时代下广泛应用了卷积计算。Sermanet等人开发了滑动窗口检测机制,并引用了相关研究文献[29]作为支持依据。Pinheiro与Collobert [28]提出了语义分割方法,并引用文献[5]作为补充说明;此外Eigen团队提出了基于图像复原技术的方法,并引用文献[5]作为参考依据;基于完全卷积的技术实现已被广泛研究,并引用文献[35]作为支撑材料;然而完全卷积训练相对罕见;Tompson等人成功地将该技术应用于端到端模型设计中,并进行了详细阐述

其中He和他的团队[17]提出了通过丢弃非卷积部分来制作特征提取器的方法。这些结构融合了建议的方法和空间金字塔池,并生成用于分类的本地化固定长度特征。尽管效率很高,但这种方法无法实现端到端的学习。

基于convnet实现密集预测的研究已开始取得显著进展

• 限制容量和感受野的小模型;

• 补丁训练[27,2,8,28,11];

• 超像素投影后处理,随机场正则化,滤波或局部分类[8,2,11];

• 输入移位和输出交织用于密集输出[28,11],由OverFeat [29]引入;

• 多尺度金字塔处理[8,28,11];

• 饱和tanh非线性[8,5,28]; 和

• 集[2,11],

我们所采用的方法不具备这一机制。然而,在基于FCN的视角下对两种不同的补丁训练方案(具体为方案3.4)以及一种创新的密集输出方法(即“移位-缝合”密集输出方案3.2)展开了深入研究。此外,在讨论网络采样方案时(具体为方案3.3),Eigen等研究者实现了对预测结果的完全连接。[6]作为一个重要的特例存在

不同于现有的诸多方法,在本研究中我们采用了图像分类技术作为监督性预训练任务,并通过全面的卷积神经网络微调使其达到最佳状态。基于所有输入的图像及其真实标签这一数据集,我们成功实现了对深度分类模型架构的有效优化。

这些研究通过结合边界框和/或区域提议进行采样来微调R-CNN系统[12](Hariharan等人[16]与Gupta等人[14])。在该模型中采用了类似策略。然而,在混合提议 - 分类器模型中采用了类似策略的情况下(即上述两种架构均未采用端到端训练方案),该研究并未实现显著提升效果

他们分别在两个分割任务——PASCAL VOC分割和NYUDv2分割方面取得了卓越的成果;鉴于此,在第5节中展示了该模型与其他对比实验中使用的模型之间的性能差异时采用了该方法

3、全卷积网络

在卷积网络中各数据层均构成一个空间分辨率h×w和平局分通道数d的三维数组结构。其中第一层处理的是输入图像数据层,在该层中像素级的空间分辨率尺寸为h×w,并包含d个颜色通道(通常对应RGB颜色)。较深层的位置对应于其路径连接区域内的图像位置,并被定义为其感受域范围。

基于平移不变性的理论构建起来。这些网络架构由卷积层、池化层以及激活函数单元构成,在局部输入区域内执行运算,并且仅考虑相对位置信息。在特定层级的位置坐标(i,j)处存储数据向量x_ij,并通过下一层传递处理后的结果y_ij;这些运算单元通过以下数学公式计算输出结果y_ij:

其中参数k被定义为卷积核的尺寸(kernel size),参数s设定为跨步长或子采样的比例因子(stride ratio)。根据fks值的不同(frequency kernel size),该方法能够自动选择并结合以下三种操作:卷积运算(convolution)、平均池化以及激活函数应用等技术手段(activation function application)。该方法不仅适用于标准图卷able结构中的节点特征提取,在其他类型的图层中也能取得良好的效果(performance)。

这种功能形式在组合下维护,内核大小和步幅遵守转换规则:

尽管常规深度网络通常执行一般性的非线性函数运算,但仅当采用特定结构时才能实现对特定类型非线性滤波器的支持。这些架构常被称为深度滤波器或完全卷积神经网络。全连接网络(FCN)能够自然地处理任意尺寸的输入数据,并生成相应(可能经过重采样)的空间维度输出。

FCN构成的实值损失函数表征了任务特征的本质属性。当损失函数等于最终层空间维度的总和时,则表明模型已成功学习到关键特征向量之间的关系

该模型中该变量代表的是其各个空间维度上变化量的综合效应值。

当感受野明显覆盖时,在图像中分层次进行正向传播和逆向传播而非一个个小块则更为高效

为了更好地阐述如何将分类网转换为产生粗略输出映射的全卷积网络这一主题,在进行像素级预测时, 我们需要将这些粗略输出连接回像素位置。 在第3.2节中详细介绍了该方法, 并探讨了其工作原理及其改进策略。 此外, 我们还特别关注了一种高效、可靠的替代方案, 即在第3.3节中引入了一种用于上采样的反卷积层设计, 该设计能够显著提高模型性能的同时保持计算效率不变。 最后, 在第3.4节中, 我们进行了实验验证, 并在第4章详细分析了其效果与优化策略。

3.1 应用分类器进行密集预测

经典的识别网络在图像处理领域占据重要地位,在这一框架下包含了如LeNet [21]、AlexNet [19]以及其后续发展型架构[31,32]等核心组件。在处理固定尺寸的输入时,并未保留空间信息。然而,在某些情况下(如全连接层),其中全连接层维持了恒定的空间分辨率,并舍弃了位置信息。值得注意的是,在某些应用中(如将全连接层视为覆盖整个输入区域内的卷积核),这会将其转变为纯粹基于卷积的操作(如图所示)。这种设计灵活的优势使得模型能够适应任意尺寸图像,并通过多分类任务实现精确分类目标。(与传统非卷积架构相比这一改进尤为显著)

通过将全连接层转换为卷积层实现分类网输出热图。 引入图层和空间损失(如图1所示)有助于生成端到端密集学习的高效机器。

此外,在这种情况下所得出的映射相当于特定输入补丁上的原始网络评估结果,并且计算在这些补丁重叠区域上的分配程度非常高。例如,在一个典型的GPU上使用AlexNet架构时所需的时间为1.2毫秒以生成一张大小为227×227像素图像的分类分数;而全卷积版本则需要花费约5倍多的时间(即约需46毫秒),才能从一个尺寸为500×500像素的图像中生成一个10×10像素网格输出区域

这些卷积模型的空间输出图通常被视为解决语义分割等问题的理想方案。 因为每个输出单元都具备足够的基础信息,在设计前向与反向传播路径时极为简便,并充分地发挥了其固有的计算效能,并结合了积极的优化措施。

该模型在AlexNet架构下的反向传播时间,在单个图像上的表现持续了2.4毫秒,在涉及全卷积层且输出尺寸为10×10的情况下,则耗时37毫秒;从而类似于前向传递过程中的加速现象。这种密集型的反向传播过程及其相关机制可通过图1进行详细展示

尽管我们将分类网络重新解释为全卷积结构以应对任意尺寸输入的需求,在此过程中我们发现即使面对非常大的输入规模也能维持良好的性能表现;然而为了降低计算复杂度通常采用采样降维技术;其中每个子样本设计时都注重滤波器尺寸的小与计算资源的有效利用;从而导致经过全连接处理后的特征图较之原始结构在宽度上有所压缩具体压缩幅度与每个感受域所覆盖的空间范围相等

3.2 移位和缝合是过滤稀疏

通过将输入进行偏移以及交错操作可以实现一种技巧,在不进行插值的情况下能够生成密集预测结果;这一技术首次由OverFeat [29]提出。具体而言,在每一点(x,y)处将输入向右偏移x像素并向下偏移到达y位置后,在每个位置(x,y)都执行一次这样的偏移操作以达到预期效果

该系列F2输入逐一经过convnet处理后输出的结果呈现隔行扫描特征;从而预测结果对应于感知域中心位置的像素。

通过调整单个卷积网络中的滤波器以及层间距参数, 可以实现与移位及拼接策略类似的效果. 对于每个层(无论是卷积还是池化操作), 我们采用输入步幅 s, 并结合权重矩阵 fij 来构建后续的卷积层(省略该特征尺寸, 这里无关紧要). 将下一层的输入步幅设定为 1 时, 则输出会放大 s 倍的效果类似于移位后拼接的方法. 为了模拟这一策略的效果, 在设计时采用了稀疏化的过滤器结构.

使用i和j从零开始)。对于该技巧的全部完整净输出而言,则需依次放大这个过滤器直至消除所有子采样效果。

通过降低网络中的子采样率来实现信息处理是一种权衡:滤波器能够捕捉到更为详细的情报然而由此带来的感知域缩小以及运算时间延长的问题不容忽视。我们还发现采用位移与拼接等技术也是一种权衡方式:它能够在不降低滤波器的感受野规模的前提下提高输出密度同时又防止滤波器按照比其初始设计更为精细的空间分辨率进行信息访问

3.3 上采样是反卷积

通过将低分辨率图像与高分辨率图像关联起来,实现图像细节恢复的一种替代方法称为插值技术。 例如,在常见的双线性插值算法中, 我们通过邻近四个输入点进行加权平均以生成中间像素值; 这种加权过程仅根据输入和输出单元的位置关系来确定权重分配.

在某种意义上说,在使用因子f进行上采样时会涉及卷积操作,在这种情况下分数步长被设定为1/f。当f是一个整数时,则上采样的自然方法就是向后进行卷积(有时也称为反卷积),其输出步长则等于f值本身。这样的操作存在一定的挑战性因为它实际上颠倒了卷积过程中的正向和反向传播路径。因此,在网络中执行这种上采样操作以实现端到端的学习过程就显得比较困难了。

注意,在这种层级中使用反卷积操作时无需固定(例如说它们可以直接映射到双线性插值),但这些操作层本身可以通过训练来实现复杂的非线性上采样任务。不仅这些操作层本身可以通过训练来实现复杂的非线性上采样任务

在我们的实验中,我们观察到网内上采样对于学习密集预测表现出色。 最佳的分割架构通过这些层来进行精确预测中的上采样。

3.4 Patchwise训练是损失抽样

在随机优化过程中,梯度计算主要受训练数据分布的影响。其相对计算效率主要受到重叠程度和小批量处理规模的影响。通过实施分块训练和全卷积训练策略,则能够适应各种不同的数据分布。全卷积策略与分块处理方法在原理上具有相似性,在每个批次中均需考虑全部包含在单个图像或图像集合中的感受域区域。相比于均匀采样策略而言,在保持相同分类准确率的前提下能够减少整体所需的批次数;但恢复图像内随机选取的部分区域相对更为简单;通过从梯度计算中排除特定区域内的信息更新机制(或者,在输出层应用DropConnect掩码[36]的方式),可以有效地限制损失函数的空间项采样子集范围

如果保留的补丁仍然具有明显的重叠区域,则深度网络中的完全卷积计算将继续加快训练速度。 如果在反向传播过程中累积渐变过程,则一批样本可以包含来自不同图像的补丁批处理以提高训练效率。

补片训练中的采样操作能够消除类不平衡问题[27,8,2]并降低密集斑块区域的空间相关程度[28,16]。 在完全卷积训练过程中,则可以通过加权损失函数来实现类平衡目标,并采用损失采样的策略以缓解斑块间的空间关联性。

我们在第4.3节中采用了采样的方式来进行训练研究,并未显示出该方法能带来更快或更优的收敛速度。整体图像训练表现出良好的效果与较高的效率。

4. 分割架构

我们将ILSVRC分类器投影到FCN架构中,并利用网内上采样技术和像素丢失机制来提升其密集预测能力。随后, 我们采用精细微调的方法对网络进行训练以实现细分目标。接着, 我们开发了一个创新性的跳跃式架构, 将粗糙特征、语义描述以及局部细节特征结合起来, 从而进一步优化了模型的整体预测性能。

在本次调查中,我们对PASCAL VOC 2011细分挑战进行了系统的训练与全面验证[7]。我们采用单像素多标签逻辑损失作为优化目标,并基于联合平均像素精确度这一标准度量评估模型性能。该评估标准包含了各类指标的综合表现,并特别考虑了背景类别的贡献。此外,在模型训练过程中,我们刻意排除了真实标签中被标记为模糊或难以处理的像素区域的影响。

4.1 从分级器到密集FCN

随后,在第3节中经过验证的分类体系结构将被详细卷积分析。

在此基础上,我们对三种分类算法进行了相应的改进与扩展.对比了PASCAL VOC 2011验证集上平均交叉度与推理时间(基于NVIDIA Tesla K40c上500×500输入的平均20次试验)的表现,重点阐述了适合密集预测任务的网络架构设计:包括参数层数、输出单元感知区域大小以及网内最粗糙步幅(这些数值代表基于恒定学习率优化所得的最佳表现,而非最佳性能).

通过从分类任务向分割任务微调的方式为每个网络提供了合理的预测能力,并且即使是最差性能的模型也实现了75%以上的先进水平。其中表现最为突出的是分割均衡型VGG网络(FCN-VGG16),其在val集上的平均IU值达到56.0,在测试集上则为52.6(引用来源:[16])。此外,在对额外数据进行训练后的方式下,在val-7子集上的平均IU值进一步提升至59.4。(详细训练内容见第4.3节)

尽管分类准确性相似,但我们对GoogLeNet的实现与此分割结果不匹配。

4.2 结合what和where

我们提出了一种新型的全卷积网络(FCN)来实现图像分割任务。该网络通过整合多尺度特征信息,并提升了输出的空间分辨率。如图所示

wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

图3. Directed Acyclic Graph (DAG) learning integrates coarse high-level information with fine low-level details. The hierarchical representation is depicted as a grid showing relative spatial roughness. Only the aggregation and prediction layers are displayed; intermediate convolution layers, including our converted fully connected layer, are omitted. The solid line (FCN-32s) represents our single-shot network, described in Section 4.1, which upsampling integrates 32 prediction steps into a single pixel resolution. The dashed line (FCN-16s) combines the final layer and fourth layer predictions at a step幅 of 16, enabling more detailed insights while preserving advanced semantic content. The dotted line (FCN-8s) shows additional predictions from the pool3 layer at an 8-step resolution, offering enhanced precision.

尽管基于全卷积的分类器在第4.1节中提供了详细的细分方法,在评估指标上表现优异(见图4),然而,在实际应用中观察到其输出效果并不理想。由于最终预测层采用32像素的跳跃性,在上采样过程中无法有效恢复较小的空间尺度细节。

我们借助链接这一手段来解决该问题;这些连接将最终预测级与其更低层级相互关联,并参考图3所示的内容。这一转换将线拓扑转变为有向无环图(DAG),其中边缘从较低层级流向较高层级;当面对较少像素的数据时,则需基于较浅层次的基础建立更高分辨率层次上的预测模型;因此基于较浅净输出构建更为精细的部分是有意义且必要的。通过整合精细层级与粗糙层级的信息,则可使模型得以实现局部预测功能并符合整体架构的要求;类似于Florack等人提出的多尺度局部位射理论[10] ,我们将非线性局部特征按照深度分阶段组织称为深射流

首先,在16像素步幅层预测的基础上将输出步幅均分为两部分。随后,在pool4层顶新增一个1×1卷积层以生成额外类别的预测结果。将这一输出结果与位于step幅为32处并结合卷积操作执行的conv7层计算所得的结果进行融合。通过施加两个上采样过程以及求和运算来整合这两个预测结果。(见图3)。在图3所示的位置上,我们对两个上采样过程采用了双线性插值方法作为初始参数设置。值得注意的是,在这一阶段我们允许根据第3.3节所述的方法进行参数优化学习。最后一步是对step幅为16的输出图像进行反向传播并完成upsampling操作以恢复原尺寸图像的过程。我们称这个网络结构为FCN-16s网络,在其基础上通过保持较粗特征提取器参数不变的方式实现了端到端的学习过程,并将其命名为FCN-32s模型。具体而言,在引入新参数的过程中池化特征图4(pool4)上的权重参数被初始化为零矩阵从而保证了模型初始状态继承自未经修改的基础网络结构。相比之前的模型学习率被降低了百倍。

学习这个跳过网能够显著提升验证集上的平均IU至62.4分。 图4展示了输出精细结构的改进情况。 我们对比结果显示,在仅结合pool4层学习效果欠佳的情况下进行分析后发现,在降低学习速率的同时未添加额外连接这一策略也未能带来显著性能提升且反而影响了输出质量。

wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

图4. 卷积神经网络通过融合不同步幅层的信息得以完善,并在分段细节上有所提升。图3展示了我们采用32、16及8像素步幅网络所得到的输出结果。

我们采用了多层预测策略,在池化层3(Pool3)的基础上结合池化层4(Pool4)以及卷积层7(Conv7)进行特征提取,并构建网络FCN-8模型后继续沿用这一策略。实验结果显示,在平均交叠区域(IoU)为62.7的情况下实现了微小但显著的结果提升。当评估达到一定程度时,在IoU指标上不再带来显著提升的情况下停止进一步优化,在此阶段不会考虑对更低层级进行任何额外融合操作以避免性能下降风险。

为了提升预测精度,在不合并图层的情况下细化步幅是直接受益的方法。然而,在这种架构下(尤其是基于VGG16的模型),这样的做法并不理想。将池化层5(pool5)的设计设定为步幅为1,则要求后续全连接层(fc6)采用14×14尺寸的卷积核以保持感知窗口的一致性。在尝试优化过程中(尤其是替换池化上部结构时),我们发现使用较小尺寸滤波器的效果有限。这可能与从上层ImageNet进行预训练时权重初始化的方式有关。

在第3.2节所述的基础上提出了一种替代方案用于实现更为精确的预测。经过一系列实验测试后发现该方法较之层融合所增加的成本显著更高

4.3 实验框架

通过SGD方法进行动力训练。

微调:我们通过反向传播算法对整个神经网络进行优化调整。与表2所示结果相比,在单独优化输出分类器时仅达到全微调性能水平的大约70%左右。(特别地,在本研究中采用了完整配置的16层VGG架构作为初始模型)。由于训练基础分类网络所需的计算资源较为丰富,在不额外增加硬件投入的情况下直接从头开始训练是不现实的选择。(具体而言,在粗FCN-32s架构下使用单个GPU进行优化耗时三天;随后逐步升级至更精细的结构层次——如FCN-16和FCN-8s模型)

表2. 基于PASCAL VOC 2011的一个验证子集进行研究。该学习过程采用了完整的端到端方法。其中大多数模型仅对最后一层进行微调训练。实际上,在这种情况下,默认情况下默认情况下默认情况下默认情况下默认情况下,默认情况下默认情况下,默认情况下,默认情况下,默认情况下的模型架构会自动应用全连接层处理策略。

wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

补丁采样 :如第3.4节所述,我们的完整图像训练有效地将每个图像批处理成一个大的,重叠的补丁的reguimagelar网格。相比之下,先前的工作在整个数据集[27,2,8,28,11]上随机采样补丁,可能导致更高的方差批次,这可能加速收敛[22]。我们通过以前面描述的方式对损失进行空间采样来研究这种权衡,做出一个独立的选择,忽略每个最终的层单元,概率为1?p。为避免更改有效批量大小,我们同时将每批次的图像数量增加1 = p。注意,由于卷积的效率,这种形式的拒绝采样仍然比针对足够大的p值的补片训练更快(例如,根据3.1节中的数字,至少p> 0:2)。图5显示了这种采样形式对收敛的影响。我们发现,与整个图像训练相比,采​​样对收敛速度没有显着影响,但由于每批需要考虑的图像数量较多,因此采用的时间要长得多。因此,我们在其他实验中选择非抽样,全图像训练。

类别平衡: 完全卷层网络可通过加权或采样方法实现类别平衡。 尽管我们的标注数据存在一定类别不平衡(约75%为背景类),但经实验发现无需进行额外的过采样处理。

密集预测: 通过网络内部的反卷积层实现分数到输入维度的上采样。 最终层反卷积滤波器被固定为基于双线性的插值方法,而中间的上采样层采用基于双线性的初始策略,并通过学习过程进行优化。 本文不采用Shift-andstitch(第3.2节)的方法或其过滤器稀疏等效方案。

增强:

更多培训数据: 我们从PASCAL VOC 2011细 grain挑战集中提取了共N=3,367幅图像作为基础数据集。 Hariharan等人的研究团队[引用编号]已对大量PASCAL VOC 2007和VOC 2009的数据集进行了标注工作。 这一标注过程显著提升了我们后续模型的性能表现。

实施: 所有模型都基于Caffe [18]在单个NVIDIA Tesla K40c上经过训练与验证。 模型及其相关代码将在开源时提供。

5. 结果

我们对语义分割与场景解析任务进行了FCN模型的测试,并深入研究了PASCAL VOC、NYUDv2以及SIFT Flow等数据集。值得注意的是,在历史发展中这些任务最初被用作区分物体与区域的研究手段,在本研究中我们将其一致地视为像素级的预测问题。我们针对各个数据集评估了基于跳过的架构8模型,并将其扩展至NYUDv2支持的多模态输入及SIFT Flow提供的语义与几何标签指导下的多任务学习框架中进行进一步验证

度量标准: 我们采用了基于常见语义分段和场景解析评估的四个关键指标来衡量性能。 这些指标包括像素精度和区域交集(IU)的变化情况。 其中nij表示预测属于j类图像中包含i类像素的数量,并且我们考虑了ncl个不同的类别组合

wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

​是类i的像素的总数。 我们计算:

• 像素准确率:

wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

• 平均准确率:

wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

• mean IU:

wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

• frequency weighted IU:

wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

表3展示了FCN-8s在网络性能上的卓越表现,在PASCAL VOC 2011和2012测试集中取得了显著效果,并与现有的先进网络SDS[16]以及广为人知的R-CNN[12]进行了比较。在平均Intersection over Union(IU)方面(即 IU9),我们实现了比现有方法更高的准确率——以约20%的优势达到了当前最佳水平;同时推理速度提升显著——相比仅基于convnet的工作,在忽略建议和改进的情况下实现了更快的速度提升:无论是针对单个卷积神经网络(convnet)的情况还是整体情况而言

表3显示了我们全卷积网络在PASCAL VOC 2011和2012测试集上的改进幅度为20%,同时降低了推理时间

wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==

NYUDv2 [30]是使用Microsoft Kinect收集的RGB-D数据集。它有1449个RGB-D图像,像素标签已被Gupta等人合并为40级语义分割任务。 [13]。我们报告了795个训练图像和654个测试图像的标准分割结果。 (注意:所有模型选择都在PASCAL 2011上执行。)表4给出了我们模型在几个变体中的性能。首先,我们在RGB图像上训练未修改的粗糙模型(FCN-32)。为了增加深度信息,我们在升级的模型上训练以采用四通道RGB-D输入(早期融合)。这提供了很少的好处,可能是由于难以在整个模型中传播有意义的梯度。继Gupta等人的成功之后。 [14],我们尝试深度的三维HHA编码,仅对此信息进行训练网络,以及RGB和HHA的“后期融合”,其中两个网络的预测在最后一层求和,结果双流网是端到端学习的。最后,我们将这个后期融合网升级为16步版

表4. NYUDv2上的结果。 RGB-D是输入端RGB通道与深度通道的早期融合。 HHA是基于[14]提出的深度嵌入方法,具体包括水平差异、地物高度以及局部表面法线与推断重力方向的角度特征。 通过联合训练构建的晚期融合模型(如RGB-HHA),能够有效整合多源感知信息。

SIFT Flow 是一个包含 2,688 张图像的数据集,并拥有 33 个语义类别(如桥、山、太阳),同时也并拥有 3 个几何类别(水平、垂直、天空)。FCN 自然地能够学习并预测两种不同类型的标签及其联合表示。本研究聚焦于 FCN-16 模型,并对其进行了优化以整合语义与几何信息。通过分别进行两次独立训练后评估其性能,在两个不同的任务中都取得了良好的效果。表5展示了经过评估后得到的结果数据。

表5. SIFT Flow10输出结果包含了中心类分割和右部几何分割。Tighe [33]提出了一种非参数传播方法。Tighe's 1代表示例SVM模型;而2则融合了SVM与马尔可夫随机场(MRF)。Farabet被定义为一个平衡样本集(编号1)或自然频率样本集(编号2)。Pinheiro则表现为持续性的、多尺度的信号,并标记为RCNN3(编号3)。从几何测量角度来看,则达到了像素级别的精确度。

图6. 基于完全卷积的分割网络在PASCAL基准数据集上展现出卓越的性能。左栏部分展示了FCN-8这一表现最优的网络输出结果。第二部分对比展示了Hariharan等人的早期最先进分割系统的具体效果[16]。特别值得注意的是,在第一行恢复到了图像中细节结构的高度精确性;第二行则凸显了在处理紧密相互作用对象时的有效性;第三行则验证了该方法在遮挡物检测方面的稳健性。第四部分展示了一个反例案例:当输入图像中船上的救生衣被识别为人类时

6. 结论

全卷积神经网络模型是一个多样化的重要类别,在深度学习领域占据重要地位。当前的分类模型是其重要组成部分。意识到这一特点后,我们将这些分类模块延伸至多个模块,并通过多分辨率层级优化结构设计,显著提升了当前技术性能水平,同时简化了操作流程并加速了推理速度。

这项研究的部分工作得到了美国国防高级研究计划局(DARPA)的MSEE和SMISC项目的技术支持。NSF分别资助了项目编号为IIS-1427425、IIS-1212798、IIS-1116411以及GRFP项目的资金。此外,该研究还得到了日本丰田公司和美国伯克利视觉与学习中心的技术支持。我们对NVIDIA提供的高性能计算设备表示衷心感谢。特别要提及的是 Bharath Hariharan 教授及其团队提出的建设性意见,并对 Saurabh Gupta 博士在数据集构建方面给予的帮助表示诚挚谢意。我们对 Sergio Guadarrama 在深度学习框架 Caffe 中实现 GoogleNet 架构的技术贡献表示由衷感谢。对于 Jitendra Malik 教授提出的宝贵反馈意见,我们深表感激。特别要提及的是 Wei Liu 在使用 SIFT Flow 算法时发现我们的 IU 计算存在错误,并指出了频率加权平均 IU 指标中的潜在问题

全部评论 (0)

还没有任何评论哟~