Advertisement

论文笔记:Coarse-to-Fine Semantic Segmentation From Image-Level Labels

阅读量:

1.摘要

利用深度神经网络实现语义分割通常需要投入大量资源用于标注数据以提高性能水平。 为了替代现有方法中所需的像素级分割标注需求,在近期研究中出现了采用对象级别标签(如边界框标注)以及图像级别的标签等新方法。 在本研究中我们提出了一种新的递归自上而下的语义分割框架该框架仅依赖图像级别的类别标签作为训练依据对于每张输入图像首先由无监督学习生成的卷积神经网络前向推断得到初始粗置掩码随后借助图模型对其进行增强增强后的粗置掩码结果被输入到全卷积神经网络中通过递归机制不断细化这一过程最终能够生成较为精确的分割结果与现有基于图像级别标签的方法相比我们的框架只需为每个样本分配一个类别标签即可实现对多类别物体同时进行有效识别并且在不额外增加计算开销的情况下展现出良好的泛化性能实验表明在ImageNet数据集上经过微调优化后的模型不仅能在PASCAL VOC和COCO等公开测试基准上与现有最先进的基于图像级别标注的方法达到相当的性能水平而且在处理包含多种类别的复杂场景时也表现出更强的鲁棒性

2.主要贡献

(1)我们开发了一种新型弱监督语义分割框架,在仅利用图像级别的注释条件下实现目标识别任务。
(2)基于仅包含一个类别标签的图像进行训练后,在该框架下可自动生成对多类别对象图像生成精确像素级语义掩码的能力。
(3)所提出的方法具有良好的通用性,在Image Net子集上的训练即可使其在PASCAL和VOC数据集中达到与基于标注的传统方法相当的高度准确率。
(4)该方法不仅支持图像前景对象分割任务的学习与实现,并能在互联网大规模数据集上取得超越当前基准的最佳表现。

3.本文方法

如图2所示。 该框架由三个关键模块构成:粗遮罩生成模块、粗遮罩增强模块以及递归细化遮罩模块。 第一步是通过训练后的8层卷积神经网络(CNN)生成初始级别的粗遮罩; 第二步则是采用基于图论的方法优化基于对象级别的初步遮罩质量; 最后是通过结合这些强化后的mask、输入图像以及其对应的类别标签进行迭代训练来构建一个用于语义分割任务的全卷积神经网络模型。

在这里插入图片描述

3.1 粗掩膜生成

在这里插入图片描述

经过对student深度卷积网络进行训练后能够实现逐帧预测教师路径所给出的unsupervised labels的效果。研究结果表明,在网络架构设计上,在最后一层引入resized后的原始输入图像与中间层特征结合使用(即采用skip connection的方式),有助于提升模型性能。
student net结构如图所示:

在这里插入图片描述
在这里插入图片描述

图像处理

算法整体流程图如图所示:

在这里插入图片描述

该研究提出了一种基于递归机制的语义分割网络。通过将图像类别标签与增强粗掩码相结合作为初始语义标签,并结合生成用于像素级语义分割掩码训练的基础数据。本文中的语义分割网络基于ImageNet的一个子集进行训练。因为ImageNet数据集主要针对图像分类任务设计,在此过程中增强后的粗掩码能够有效覆盖主要目标区域的大部区域。

在这里插入图片描述

该过程用于生成语义掩码。 训练mask是通过将图像类别分配给增强mask中的前景像素而获得的。 然后使用这一train mask对DeepLab进行训练。 Round2图像通过应用DeepLab得到。 DeepLab是在基于train mask处理原始RGB图像后建立起来的模型结构。 在每一次循环中即使使用带有噪声的mask也会促进模型自动优化能力的发展,并在此基础上逐步提升生成效果以支持后续迭代学习过程。 通过递归迭代的方法我们能够不断优化并最终实现高质量分割级别的分割掩码生成能力。

这些生成的增强掩码被作为下一轮递归语义分割网络的初始输入。我们选择DeepLab作为语义分割网络,因为它的实践价值和有效性。 通过使用空洞卷积来增加神经元的感受野,使用ASPP在多个尺度上考虑对象,并利用全连接的CRF来提高对象边界的定位性能, Deeplab在语义分割基准方面达到了最先进的水平。 在第一轮训练结束时,我们得到了一个可以应用于任何图像的语义分割模型来预测语义掩码。 由于增强mask的质量较低,而模型很难在一轮训练中达到它的效果,我们建议递归地训练网络,通过从上一轮训练中提取输出掩码作为当前训练回合的输入掩码,来继续细化语义掩码。 这个过程重复几次迭代,直到网络收敛。
当训练完成后,我们得到了分割网络,该网络可以对任何给定的图像分割出感兴趣的类别。 在语义分割模型的训练阶段,唯一需要的是为图像分类而设计的图像级标签。 此外,在培训学生网络不需要人为的标签。 因此,我们的方法是完全弱监督的。
3.4 模型参数化
算法1说明了整个训练过程,包括粗掩码生成、粗掩码增强和递归掩码细化。 设img表示来自Image Net数据集的训练图像,其中每个图像与一个类别标签配对,maskc表示应用无监督学习的学生网络在来自Image Net的RGB图像上生成的粗掩码 ,Mske表示通过在粗掩码上应用GrabCut生成的增强掩码,Maskr表示由DeepLab模型生成的精化掩码,该模型是用增强mask训练的。 递归训练完成后,网络可以生成高质量的语义分割掩码。
3.5 将Proposed框架扩展到前景细分
为了证明该框架的泛化性,我们将其进一步扩展到前景分割任务中。一般的前景对象分割只需要识别像素是否属于前景对象。 因此,只需在“递归掩码细化”中替换网络。通过设计用于前景对象分割的网络,我们的框架可以应用于前景分割任务。
在空洞卷积和多尺度特征学习的启发下,我们提出了用于前景分割任务DFPN,如图4所示。

在这里插入图片描述

该建议型DFPN采用了与FPN相似的整体架构,在基础设计上实现了功能上的创新性突破。然而,在具体实现过程中却做了两个重要改动:一是通过在每个分支中增加不同扩张率(如1x1、3x3、5x5)的空间扩展模块来显著提升感受野;二是采用多级特征提取策略,并对各路径扩展后的特征图进行融合以构建最终预测模型。

全部评论 (0)

还没有任何评论哟~