Advertisement

Image Segmentation Using Deep Learning: A Survery

阅读量:

图像分割综述–论文翻译

论文地址:https://arxiv.org/pdf/2001.05566.pdf

图像分割综述论文

  • 图像分割综述--论文翻译

    • 摘要
      • 概述
      • 深度神经网络的技术综述
        • 卷积神经网络(CNNs)
        • 循环神经网络(RNNs)及其长短期记忆单元(LSTM)
        • 编码器-解码器架构与自监督学习模型
        • 生成对抗网络(GANs)
  • 基于深度学习的图像分割模型

  • Fully Convolutional Networks (FCNs)

  • Convolutional models combined with graphical models

  • Encoder-decoder-based model architectures

  • Encoder-decoder-based models for general image segmentation

  • Encoder-decoder-based approaches in medical and biomedical image segmentation

  • 基于多尺度和金字塔网络的模型架构 *

  • 基于R-CNN的实例分割模型 *

  • 基于空洞卷积的模型及其DeepLab系列 *

  • 基于循环神经网络的模型架构 *

  • 基于注意力机制的设计 *

  • 生成式模型及其对抗训练方法 *

  • 结合卷积神经网络与主动轮廓的技术框架 *

  • 其他专为特定应用设计的方法集合 *

    • 图像分割数据集

      • 2D数据集
      • 2.5D数据集
      • 3D数据集
    • 图像分割性能评估

      • 模型评价指标
      • 深度学习模型量化指标
  • 挑战与机遇

    • 更具挑战性的数据集

    • 可解释性模型

    • 弱监督与无监督学习

    • 实时检测系统

    • 内存高效的模型

    • 三维点云分割技术

    • 应用场景分析

      • 总结
      • 参考文献

摘要

在图像处理与计算机视觉领域中,图像分割被视为一项核心技术。其应用领域极为广泛,在场景理解、医学影像分析、机器人感知、视频监控以及增强显示等方面均有显著应用。当前围绕图像分割算法的研究论文数量十分庞大。近年来,在基于深度学习模型的计算机视觉研究中取得了突破性进展,在这一研究方向上已展开大量基于深度学习模型的图像分割应用开发工作。本综述全面梳理了该领域的文献综述内容,在语义分割与实例分割两大类工作中涵盖了多项开创性工作成果:包括自顶向下全卷积像素级标签网络方法、编码器-解码器架构设计等;同时涉及多尺度及金字塔特征提取方法论研究、循环神经网络模型构建以及视觉注意力机制模型开发等多个重要技术方向;此外还深入探讨了生成对抗网络相关技术及其在图像分割中的应用潜力。本文系统地分析了这些基于深度学习模型的图像是如何相似地构建起来,并分别阐述它们各自的优缺点特性;同时采用最为常用的测试基准集对各算法进行了全面评估,并详细对比分析各算法的表现指标;最后对未来图像是如何实现更高效精准的目标定位等问题展开了深入探讨

介绍

图像分割是计算机视觉系统的关键组成部分之一,在实际应用中主要将图像或视频帧划分为多个分割目标。它在多个领域发挥着重要作用:包括医学影像分析(如肿瘤边界提取与人体组织体积测量)、自动驾驶(如地面导航与行人检测)、视频监控及显示增强技术等。目前已有多种图像分割算法被提出并应用于实际问题中:例如基于阈值的方法[3]、基于直方图的方法[5]、K均值聚类法[5]以及分水岭算法[6]等基础方法;而更为先进的算法则包括主动轮廓模型[7]、图切割技术[8]以及条件马尔可夫随机场理论框架[8-9]等;近年来基于深度学习的模型已在新型图像分割任务中取得显著进展:在常用基准测试集上实现了较高的分类准确率,并引发了对这一领域研究范式的根本性转变(paradigm shift)。下图展示了基于DeeplabV3进行语义分割所获得的结果

在这里插入图片描述

在图像是由带有意义标签的像素组成的分类问题中可以实现语义分割或实例分割。\n\n在语义分割中我们对所有图像像素利用一组类别信息进行像素级别的标注从而将其识别为人类汽车树或天空等物体。\n相较于图像分类任务这是更为复杂的问题因为后者仅能根据图片内容预测一个单一的对象标签。\n\n而实例分割则通过定位并描述图片中的每一个感兴趣的目标如人体或车辆等实现了对物体更细致的理解并拓展了语义分割的能力范围

我们系统地收集并分析了图像分割领域的最新研究文献,并对截至2019年提出的100多种基于深度学习的方法进行了详细探讨。针对不同类型的图别进行分类综述,并深入阐述了其中的关键观点。详细分析了这些方法的技术细节及其实现原理,并重点关注了训练数据选择、网络架构设计、损失函数定义以及训练策略优化等方面的关键贡献。通过对比实验评估了各种算法的表现特征,并对未来可能的发展方向进行了深入探讨。

我们对基于深度学习模型的算法进行分类:

全卷积神经网络(CNNs)
基于图形模型的卷积模型(如CRFs)
基于编码器-解码器架构的模型结构
基于多尺度和金字塔架构的模型结构
基于R-CNN的方法(例如实例分割)
基于空洞卷积的方法及其与DeepLab系列方法的关系
基于循环神经网络的方法结构
基于注意力机制的方法
生成模型及其对抗训练方法
基于主动轮廓模型的卷积方法
除了上述提到的各种方法之外,

本文主要贡献如下:

  1. 本研究综述了当前关于图像分割问题的研究文献,并对截至2019年提出的各类分割算法进行了系统梳理。
  2. 我们对使用深度学习技术实现的不同分割算法进行了系统性探讨。
  3. 我们提供了约20个流行图像分割数据集的概述,并将其分类为二维(2D)、二点半彩色(2.5D RGBD)和三维(3D)图像。
  4. 我们对常用的基准测试中所涉及的各种分割方法进行了性能比较与特性分析。

深度神经网络的介绍

本节详细阐述了计算机视觉领域的主要深度学习架构及其应用情况,在现有研究中得到了广泛的关注与应用。具体而言,在卷积神经网络(CNNs)[13]方面取得了显著成果,在循环神经网络(RNNs)与长期短期记忆网络(LSTM)[14]之间形成了良好的结合,在编码器-解码器[15]框架下实现了高效的特征提取能力,并在生成对抗网络(GANs)[16]的基础上创新性地引入了对抗训练策略以提升生成效果。此外,在关注点上还提到了注意力机制[?][?][?]、胶囊网络[?][?]以及门控循环单元[?][?]等前沿技术及其相关变体,在这些领域均展现了各自的独特优势与创新价值。然而由于篇幅限制与研究重点考虑,在这篇综述中将不再对这些新型结构进行深入探讨

值得注意的是,在某些情况下(假设具备足够的标注数据),深度学习模型可以从零开始针对新的应用程序或数据集进行微调;然而,在许多情况下,则缺乏足够的标注数据来进行零初始化模型的微调工作)。此时可采用迁移学习的方法加以解决。具体而言,在一个任务上的预训练模型可被迁移到另一个相关联的任务中使用(通常通过特定的任务适配过程)。例如,在将预训练于ImageNet的图像分类网络迁移到纹理分类或人脸识别等其他任务时,则可实现良好的效果。对于图像分割问题而言,在现有大量标注数据集如ImageNet的大规模预训练网络中提取特征编码器部分,并将其作为基础网络进行微调优化(通常基于初始权重进行进一步优化)。由于这类预先经过大规模预训练的网络架构具有捕捉分割所需图像语义信息的能力(这一步骤至关重要),因而能够在较少数量标注样本的情况下有效提升目标任务性能。

Convolutional Neural Networks (CNNs)

卷积神经网络(CNNs)是深度学习领域中应用最为广泛的重要组成部分,在计算机视觉领域发挥着不可替代的作用。该架构最早由Fukushima于1980年代在其关于"Neocognitron"的关键研究工作中提出,并受到Hubel与Wiesel对视觉皮层机制研究工作的启发。随后,在Waibel等人的研究中引入了共享权重的时间域卷积单元及其反向传播训练方法,并在此基础上LeCun团队开发了一种适用于文档识别任务的卷积神经网络架构(如图所示)。

在这里插入图片描述

卷积神经网络主要由三种基本组件构成:
第一类是卷积层(Convolutional Layer),其核心机制是利用权重核(Kernel)进行空间滑动以提取特征;
第二类是激活函数处理单元(Activation Function Processing Unit),通过应用非线性激活函数来实现对复杂非线性关系的学习;
第三类是池化操作(Pooling Operation),通过使用统计量(如平均值、最大值等)对特征映射中的一个小邻域进行替换以降低整体的空间分辨率。

Recurrent Neural Networks(RNNs) and the LSTM

RNNs(循环神经网络)擅长处理时序数据集中的信息流问题,在语音识别、文本分析以及视频处理等领域展现出强大的应用潜力。其中任何给定时刻t_i的数据样本都与其之前的先验数据相关联。在每一个时间步t_i上,我们通过收集模型在当前时间步t_i的输入特征X_i以及前一时刻的状态h_{i-1}来推导出下一步的状态h_i以及预测输出结果。

在这里插入图片描述

RNN模型确实存在局限性,在处理长序列时表现不佳。它们无法从许多实际应用中捕获长期依赖关系(尽管目前仍缺乏理论支持)。然而一种称为LSTM单元的设计目标是避免这些问题的发生。其架构包含三个控制机制:输入机制、输出机制和遗忘机制。这些机制负责调控信息进入和离开记忆单元的过程,并可以在任意时间段存储信息。

在这里插入图片描述

Encoder-Decoder and Auto-Encoder Models

编码器-解码器系统由两个阶段的网络组成,在信息处理领域被广泛采用。该系统通过编码函数z=f(x)定义的编码器模块与解码函数y=g(x)组成的解码模块协同工作:其中 encoder 阶段负责将输入域的数据点转换为潜在空间中的数据表示;decoder 阶段则致力于预测潜在空间中的数据分布情况,并将其映射回目标域的空间结构(参考文献[15]、[26])。该潜在空间中的数据表示通常采用向量形式的数据表示方法来捕捉输入数据的核心语义特征,在后续的数据重建过程中具有重要意义。这些架构设计在图像增强(如去模糊、超分辨率重建)以及自然语言处理领域的序列建模问题中展现出强大的适用性。为了优化性能,在实际应用中通常会通过最小化重建损失函数L(y, \hat y )来实现对 ground-truth 输出y的最佳逼近;其中\hat y代表基于当前模型重建的目标域输出版本。值得注意的是,在特定应用场景下(如自监督学习框架),该类架构的设计可能呈现输入输出端口功能相同的特点。

在这里插入图片描述

Generative Adversarial Networks(GANs)

生成对抗网络(GANs)是一种新兴的深度学习模型架构。这种体系结构由生成器和判别器两部分构成,在实际应用中展现出强大的表现力。
传统的GAN架构中采用生成器网络G: z \rightarrow y来学习从具有先验分布的噪声变量z到目标分布p_{data}(y)的映射关系。
判别器网络则旨在区分生成的数据样本与真实的数据样本。
从博弈论的角度来看,在GAN模型中双方的目标是对立统一的:一方试图通过优化参数使得判别器在区分真数据和假数据时犯错概率最小化;而另一方则希望最大化判别器在识别假数据方面的能力。
通常情况下,在实际训练过程中可能会出现L_{GAN}无法提供足够的梯度信息的问题。
为了避免这一缺陷,在优化过程中可以考虑将目标函数进行重新定义:
即最大化\mathbb{E}_{x \sim p_{data}}[logD(x)]

在这里插入图片描述

自Generative Adversarial Networks(GANs)的诞生以来,研究者们一直在致力于通过多种方法对GANs进行优化与改进。例如,Redford等人[27]提出了基于卷积神经网络的生成器模型,该模型在执行图像生成任务时展现出比全连接网络更好的性能特征。Mirza[28]开发了一种基于条件的生成对抗网络模型,这种技术允许根据类别标签生成图像,从而能够有效合成具有特定标签的对象样本。Arjovsky及其团队[29]开发了一种新型的Wasserstein距离方法论(即地球移动距离理论),这种方法能够更准确地衡量真实样本与生成样本之间的分布差异(而KL散度由于其局限性不适合作为衡量这种分布差异的标准)。有关更多相关研究及进展,请参考文献[30].

基于深度学习的图像分割模型

本节系统总结了自2019年以来提出的约100种基于深度学习技术的图像分割方法。主要根据不同的模型架构进行分类整理后可将其划分为十个主要类别。值得注意的是这些方法具有共通的基础模块例如编码器-decoder模块跳跃连接多尺度特征提取以及扩展卷积层等关键组件由于这些共同模块的存在使得不同算法之间的独特贡献难以直接区分但可以通过分析各算法的基础架构特性进行分类整合此外还可以根据具体的分割目标将这些方法进一步划分为语义分割实例分割全景感知以及深度估计等若干大类

Fully Convolutional Networks

研究者Long等人[31]首次提出了一种深度学习方法,采用全卷积网络(FCN)作为基础架构。该网络结构仅由卷积层构成,从而能够捕获不同尺寸的输入图像,并生成相应尺寸的分割图。为了适应不同尺寸的需求,研究者对现有Convolutional Neural Networks (CNNs)架构进行了优化,通过将所有全连接层替换成全卷积层,以实现对非固定大小输入与输出的支持。这样一来,该模型直接生成分割图而非传统的分类概率分数

在这里插入图片描述

借助跳跃连接机制,在模型中提取出特征图后并对其实施上采样处理,在此基础上将其与前面各层提取出的特征图进行融合处理

在这里插入图片描述

这项工作被认为是一个重要的里程碑,在图像分割领域具有深远的影响。它表明深度网络能够在多变的图像上实现端到端的语义分割能力。然而尽管传统FCN模型倍受喜爱且效果显著但它存在一些不足——在实时推理方面表现较慢并且未能有效地整合全局上下文信息同样难以迁移到三维图像中

刘等人(参考文献[32])开发了一个命名为ParseNet的新模型旨在解决传统FCN中的一个问题:忽略了全局语境信息的问题。该模型通过在每个位置计算其局部区域的平均特征来增强其表示能力,并将这种局部特性整合到原始FCN架构中。具体来说,在提取出该区域的所有像素特征后,并将其汇总为该区域的整体表征并生成了一个整体表征向量,并对该整体表征经过归一化处理后并未与其他区域的结果直接融合以便于后续计算而保持与原始FCN一致的空间分辨率。接着将所有提取到的整体表征进行融合处理以便构建新的高层次抽象空间进而替代传统的卷积层完成图像理解任务

在这里插入图片描述

FCNs已在多个领域中被用于不同的类型分割任务中,在医学成像领域主要应用于如大脑肿瘤的分割分析[33]、实时感知语义分割技术的应用[34]以及皮肤损伤区域的详细划分研究[35]等案例中,并延伸至眼底虹膜形态特征的研究方向之一[36]。

Convolutional Models With Graphical Models

如前所述, FCN未充分考虑潜在有用的场景级语义上下文。这些方法通过将概率图形模型, 包括条件随机场(CRFs)和马尔可夫随机场(MRFs), 整合成深度学习架构以整合更多的上下文信息。

Chen等人[37]开发了一种结合卷积神经网络(CNN)与全局局部信息融合机制的人工智能语义分割算法。研究表明,在精确对象分割方面存在局限性(归因于CNN设计上的全局信息捕捉不足)。针对深度CNN定位精度不足的问题,在卷积神经网络最后一层输出特征提取后引入全局上下文感知机制(通过将最终层特征与全连接CRF模块融合实现)。该模型较现有方法在边界检测方面表现出更优性能

在这里插入图片描述

Schwing and Urtasun[38] developed a fully connected deep structured image segmentation network. They introduced a method combining training a CNN with a fully-connected CRF for semantic image segmentation, achieving impressive results on the challenging Pascal VOC 2012 dataset. In [39], Zheng et al. presented a similar semantic segmentation approach by integrating CRF with CNN.

在另一项相关研究中, 林等人[40]开发了一种基于深度CRF的有效语义分割算法, 并利用上下文信息显著提升了性能. 他们在探索两种不同的背景模式: 一种是内部的'patch-patch'模式(涉及图像区域之间的关系), 另一种是外部的'patch-background'模式. 通过整合上下文信息实现了性能提升. 此外, 刘等人[41]提出了一种创新性更强的语义分割方法, 该方法结合了高阶关系模型和标签间的复杂依赖关系, 并通过混合机制充分利用这些信息. 与以往采用迭代优化方法的不同之处在于, 他们提出了一个基于卷积神经网络(CNN)的新模型——解析网络(parser network), 在单次前传中即可实现端到端确定性的计算过程.

Encoder-Decoder Based Models

一种广泛应用于图像分割领域的流行深度模型架构基于卷积编码器-解码器体系结构。在深度学习驱动的分割任务中,许多方法采用了这种统一的编码器-解码器架构作为基础设计。我们将其主要分为两大类:一类是适用于通用分割任务的编码器-解码架构;另一类则专注于医学图像分割(旨在提高对目标区域的区分度)。

Encoder-Decoder Models for General Segmentation

研究者Noh及其团队[42]发布了一份关于早期语义分割研究的重要文献(转置卷积)。该模型分为两个主要组成部分:其中编码器采用了自VGG16网络中提取的关键路径来构建其架构;而解码器则利用这些特征向量进行处理,并输出像素级别的类别概率图。其核心组件包括反转滤波器和非局部操作单元,在此架构下能够解析单个像素处的具体分类标签并推断出精确的空间分割掩码。

在这里插入图片描述

此网络在Pascal VOC 2012数据集上表现出优异的性能,在此类无外部数据训练的方法中达到了最高准确率(72.5%)。

在另一项研究工作(例如,在SegNet中),Badri-narayanan等人[15]提出了一个用于图像分割的卷积编码器解码器架构。类似于反卷积网络,在这种架构中也采用了编码器-解码器模式:其核心可训练分割引擎由编码器网络构成(其拓扑与VGG16网络中的13个卷积层完全一致),随后连接的是解码器网络以及像素分类层。该架构的主要创新点在于通过使用相应编码器阶段的最大池化操作所记录的位置信息来进行非线性上采样过程;这一步骤消除了对学习目标样本的需求。接着将经过非线性上采样的特征图与可训练滤波器结合使用以生成密集特征图层。相比其他竞争架构,在参数数量方面该模型也有显著优势:作者还提出了一种基于贝叶斯方法的SegNet变体[43]来建模该类任务中的不确定性问题。

在这里插入图片描述

另一个备受关注的模型分割架构是高分辨率网络(HR- Net)[44]。它与基于解码器的传统架构(如DeConv- Net、Seg- Net、U- Net 和 V- Net)有所不同,在于采用了多尺度特征金字塔的设计结构,并通过多级特征融合机制实现信息交互,在编码器模块中持续更新并保持细致化的表征。近年来的研究工作普遍采用了基于 HR- Net 的主干架构,并结合自适应上下文建模技术提升性能。

在这里插入图片描述

其他的某些工作主要使用转置卷积这一技术手段进行处理,并结合编码器-解码器结构进行图像分割任务的研究与实现。例如,在图像分割领域中有一些经典的网络架构采用了这种组合方式包括堆叠解卷积网络(SDN)[45]、Linknet[46]、W-Net[47]以及基于局部敏感反褶积网络设计出适用于RGBD分割的任务框架[48]。然而,在编码器-解码器模型的设计理念下存在一个显著的问题即在编码过程中所造成的高分辨率细节信息丢失的现象导致图像中的细粒度特征无法被完整捕捉到这一问题已在近期提出的新型架构中得到有效缓解

Encoder-Decoder Models for Medical and Biomedical Image Segmentation

起先构建了几个针对医学/生物医学图像分割领域的模型。这些模型均借鉴自fcn架构以及编码器-解码器架构的设计。现已成为医疗领域外广泛应用的核心架构。

研究团队[49]开发了一种用于分割生物显微镜图像的U-Net架构。该网络的设计基于数据增强技术,并通过有效学习从少量标注数据中获取模式。其架构由两个关键组件组成:提取空间信息的部分和精确定位细节的部分。在收缩路径中使用3×3卷积提取特征以捕获空间信息,在上采样阶段采用反卷积操作以恢复特征图的空间维度。通过将下层提取的关键特征传递到上层模块实现信息整合,并在最终步奏处理后生成一个分割映射以对输入图像进行像素级分类。该模型经过训练并在2015年的ISBI细胞跟踪挑战中表现出色

U-Net的各种增强方案已被广泛应用于不同类型的图像领域中。例如,在三维图像处理方面,Cicek[51]成功地将该架构进行了优化设计。研究团队[52]则提出了一个嵌套式的模块化体系结构,进一步提升了模型性能。值得注意的是,U-Net的应用场景不仅限于医学成像,它还被广泛应用于多个相关领域中,如道路分割与边缘提取技术等关键环节也得到了相应的改进与应用,Zhang等人[53]对此进行了详细阐述

在这里插入图片描述

V-Net是一种经典的、建立在FCN框架上的模型,在文献[50]中有详细阐述其应用领域为三维医学图像分割任务。研究者们在此基础上开发了一种新的目标函数——基于骰子系数的设计——以优化在高度失衡的前景与背景体素分布情况下性能;该方法经过对MRI前列腺体积的端到端训练后,并使网络具备预测整体体积分割的能力;此外,在医学图像分割领域的相关研究还包括渐进密集型V-Net(PDV-Net)等;其主要应用于从胸部CT图像中实现肺叶的高效自动分割;而3D-CNN编码器则专注于病变区域的具体识别与分析

Multi-Scale and Pyramid Network Based Models

多尺度分析是一种在图像处理领域具有悠久历史的概念,在各种神经网络架构中得到了广泛应用。其中最具代表性的模型之一是由Lin等人提出的特征金字塔网络(FPN)[55] ,主要应用于目标检测领域,并且也用于图像分割任务中 。基于深度卷积神经网络(CNN)固有的多尺度金字塔结构进行特征提取 。为了整合不同分辨率的信息 ,FPN由自上而下、自下而上两条分支以及水平连接层构成 。经过自上而下的分支提取高层次信息后 ,在各个层级生成预测结果用于目标检测 。对于图像分割部分 ,作者采用了两个多层感知器(MLPs)来进行掩膜生成 。

赵等人[56]提出了金字塔场景解析网络(PSPN),这是一个多尺度架构设计用于提升场景理解能力。(图15)基于残差网络(ResNet)作为特征提取模块,在输入图像中提取多样化的特征模式。(这些)特征映射被金字塔池化模块所接收以便区分不同尺度的特征模式。(这些)经过四个不同层次上的融合处理每个尺度对应一个金字塔层并通过1×1卷积核缩减空间维度。(最后)各层输出经上采样后与原始特征图连接从而实现局部与全局信息的有效融合。

Ghiasiet al.[57]提出了一种基于拉普拉斯金字塔架构的多分辨率重建模型,在这一模型中, 通过融合高分辨率特征图中的关键点信息与低分辨率细节数据实现了逐层精细边界提取. 实验结果表明, 虽然卷积神经网络提取出的空间域视觉感受器所能达到的最大清晰度仅比单帧图像略低, 但其丰富的表征能力仍能提供高质量亚像素级别的定位信息.

采用多尺度分析方法进行图像分割的其他模型中有一种是DM-Net(Dynamic Multi-Scale Filter Network)[58];另外还包括上下文对比网络结合门控机制的多尺度聚合结构(CCN)[59];还有一种是自适应金字塔上下文网络(APC-Net)[60];此外还有多尺度上下文交织(MSCI)[61]以及显著对象分割技术[62]

R-CNN Based Models (for Instance Segmentation)

该方法及其衍生方法(包括Fast R-CNN、Faster R-CNN以及Mask-RCNN)在目标检测领域已获得广泛认可。特别地,在基于对象检测的快速R-CNN架构中引入了区域建议网络(RPN),其主要功能是生成边界框候选。该层通过RoIPool操作从候选区域中提取特征,并据此推断出物体边界坐标以及所属类别作为这些扩展技术的基础框架,在实例分割任务中得到了广泛应用;具体而言,则实现了同时进行目标检测与语义分割的目标。

在这里插入图片描述

在这个模型的一个扩展版本中, He等人[64]提出了一种改进型的Mask R-CNN算法,专为执行目标实例分割任务而设计,该算法在多个COCO挑战中表现出色。该模型能够有效地识别图像中的物体实例,并为每个实例生成高精度分割掩码以辅助识别过程。其中,掩膜R-CNN系统包含三个独立分支:第一个分支用于预测边界框位置信息,第二个分支负责输出对应的分类结果,第三个分支则用于生成用于分割物体的具体区域的信息。此外,该算法还结合了边界框定位、分类预测以及分割掩码生成三个损失函数,并采用联合优化方法进行训练以提高模型性能。

在这里插入图片描述

Liu等人提出了一种基于MaskR-CNN和FPN架构的道路聚合网络(PANet)[65]。其特征提取器采用自上而下的FPN架构,并整合了创新性的增强自下而上的连接。这种设计不仅增强了低层特征信息的有效传播,在每一级均采用前一级次的特征图作为输入,并通过一个3×3卷积层对其进行处理。此外,在横向连接的作用下,输出信号被注入至对应层级自上而下的基础特征图中,并为后续处理提供了必要的上下文关联信息。与MaskRCNN相似地,在其后端配置了一个适应性区域池化层(adaptive regional pooling layer),该层同样具备分支预测能力:其输出分为三个分支渠道——前两个渠道分别用于预测边界框坐标及其对应的类别标签;第三个渠道则采用了全连接结构来推断目标掩码(RoI)。

在这里插入图片描述

Dai等人[66]基于实例感知语义分割领域开发了一个多任务网络架构,在该架构中包含了三个关键模块:用于实例识别、生成掩码信息以及进行分类的对象识别系统被设计成共享其卷积特征层以提升效率与准确性。Hu等人[67]则提出了一个创新的部分监督学习框架,并设计了一种新型权重传播机制,在这种框架下实现了对包含大量类别的实例分割模型的高效训练,在这一过程中所有的类别样本都具有对应的标注框信息支持但仅有少部分样本具备完整的掩码注解支持

Chen等人[68]研究了一个实例分割模型MaskLab,并通过利用更快的语义与方向特征来实现对象检测功能。该模型输出包括三种不同的任务:分类、分割与检测。在FasterRCNN的对象检测框架中,预测出的边界框实现了对目标实例的精准定位。在每一个感兴趣的区域中,MaskLab结合语义与方向预测结果来进行目标与背景的清晰划分。

在这里插入图片描述

该研究团队提出了一种名为张量掩模[69]的新方法。该方法采用了基于密集滑动窗口的技术进行实例分割。他们将复杂的密集实例分割问题建模为四维张量空间中的预测任务,并开发了一个通用框架来处理这一挑战。实验结果表明,在实际应用中该方法显著超越了现有技术,并且其性能表现与掩码R-CNN相媲美。在实际应用中取得了显著的效果。

在R-CNN的基础上还开发了多个实例分割模型,在这些模型中如用于mask proposal的模型则包括R-FCN[70]、DeepMask[71]、偏振掩模[72]、边界感知实例分割[73]以及中心掩模[74].此外还有潜力的研究方向致力于通过学习自上而下的分组线索来解决这一问题,具体包括深度流域转换[75]、实时实例分割[76]以及基于深度度量学习实现的语义实例分割.

Dilated Convolutional Models and DeepLab Family

本节讨论了一种称为膨胀卷积(空洞卷积)的技术,在深度学习模型中具有重要应用价值。该方法通过引入一个称为"膨胀速率"(dilation rate)的关键参数来扩展卷积核的有效覆盖范围。具体而言, 膨胀卷积操作定义如下:对于输入信号x(i), 其膨胀卷积结果yi可表示为 yi = \sum^{K}_{k=1}x[i + rk] w[k] ,其中r表示核w权重之间的间距间隔。值得注意的是, 使用扩张率为2的3×3核与5×5核相比, 虽然前者采用了更大的覆盖范围, 但仅使用9个参数即可实现与后者相似的效果, 这一特点使得该方法能够在不显著增加计算复杂度的前提下显著提升模型性能。近年来, 膨胀卷积技术已在多个研究领域得到了广泛应用, 并成为现代深度学习模型中不可或缺的重要组件之一。其中最具代表性的研究工作包括:基于DeepLab系列[78]提出的多尺度特征融合方法、基于密集上采样卷积技术[79]的设计方案、混合型空洞卷积算法[80](Hybrid Dilated Convolution, HDC)、基于密集连接 atrous 空间金字塔池化模块[81](Hybrid Dilated Convolution based on Dense Connection and Atrous Pyramid Pooling)以及高效神经网络架构[82](Efficient Neural Network, ENet)等创新性研究工作

在这里插入图片描述

DeepLabv1[37]与DeepLabv2[78]是由Chen团队开发的其中两种最具影响力的空间分割算法之一。其核心特征在于:第一种采用扩展卷积机制以解决网络分辨率下降的问题(这一问题源于传统池化操作及大步幅采样过程)。其第二特性是引入了多尺度金字塔池化模块(ASPP),通过在不同采样率下应用滤波器来探测输入的卷积特征层,在多个尺度上有效提取空间信息并捕获图像语义关联关系。第三特性则是结合深度神经网络与概率图模型框架以提升目标边界定位精度。基于ResNet-101骨干网络实现的最佳版本DeepLab模型在Pascal VOC 2012挑战赛中取得了79.7%的平均精度,在Pascal Context数据集上的mIoU值达到45.7%,而在Cityscapes测试基准上表现更是优异地达到了70.4%的mIoU指标。如图所示为DeepLab模型架构图及其工作原理图示:相较于前代方法主要区别在于引入了扩展卷积模块以及多尺度金字塔池化技术

在这里插入图片描述

之后

在这里插入图片描述

Recurrent Neural Network Based Models

虽然convolutional neural networks (CNNs) are inherently well-suited for computer vision tasks, but they are not the only viable option. Recurrent neural networks (RNNs) prove particularly effective in capturing temporal dependencies between pixels with the potential to enhance segmentation accuracy. By leveraging sequential processing, RNNs enable pixels to be connected and ordered in a manner that captures global context and improves semantic segmentation. However, a significant challenge arises from the inherent two-dimensional structure of images.

Visin等人[84]开发了一种基于RNN的语义分割模型,命名为ReSeg.该模型主要借鉴了另一个工作ReNet[85],该模型最初为图像分类而设计.每个ReNet层包含四个rnn单元,它们在图像的横向和纵向方向上进行扫描以捕获补丁/激活信息,并提供全局上下文信息.为了实现ReSeg模型用于图像分割(如图24所示),ReNet层被连接到预先训练好的VGG-16卷积层上,这些层能够提取典型局部特征.随后紧跟的是上采样层,以恢复预测结果中原始图像的空间分辨率.采用门控递归单元(GRU)的原因在于其在内存消耗与计算能力方面实现了良好的平衡.

在这里插入图片描述

在另一项工作中, 研究者们基于LSTM网络开发了一种对场景图像进行像素级分割与分类的方法. 他们考察了自然场景图像中二维LSTM网络的应用, 考虑到标签间的复杂空间依赖关系. 这项工作展示了二维LSTM网络在实现分类、分割以及上下文集成方面的有效性.

Attention-Based Models

Liangular等人[87]成功构建了基于图长短期记忆网络(GraphLSTM)的一种新式语义分割架构。

这种方法将传统的时间序列建模与多维数据建模技术推广至复杂而多样的图结构数据环境

传统的二维卷积神经网络通常假设空间维度呈现严格的网格状排列

而这种新型方法则采用不规则形状的超像素作为统一节点

在这里插入图片描述

该研究团队[89]设计了一种基于自然语言表达式的语义分割算法,并通过卷积神经网络结合长短期记忆网络对图像与自然语言描述进行编码处理。该方法与传统预设语义分割方案不同,在于它无需预先定义分割规则;例如,在"两个人坐在右边的长凳上"这种描述中只需将两个人正确分配到指定长凳即可无需考虑其他可能性。为了将视觉信息与语言信息关联起来以便于像素级语义分割问题他们提出了一种端到端可训练的循环神经网络与卷积神经网络联合模型(如图27所示)。在所提出的模型架构中循环LSTM网络用于将引用表达式转换为向量表示同时利用卷积神经网络从输入图像中提取空间特征图并生成目标对象的空间响应图(如图28所示)。

在这里插入图片描述

基于RNN类型的神经网络存在一个显著缺点即其运行效率较低这是由于这类模型具有的序列特性导致无法轻易实现并行计算。陈等人[90]开发了一种新的关注机制用于增强每像素位置处的多尺度特征表达他们采用了先进的语义分割技术并将该技术与多尺度图像及注意力机制相结合进行了系统优化(如图29所示)。该关注机制相较于传统的平均池化与最大池化方法表现出显著的优势不仅提升了对关键区域特征的关注能力还能有效地识别关键特征在不同空间尺度上的重要程度

在这里插入图片描述

相较于基于其他训练卷积类符学习标记对象代表性语义特征的方法,Huang等人[91]提出了一种基于反向注意机制的语义分割方法.通过其反向注意力网络架构(如图30所示),该模型被设计用于捕获与目标类别无明显关联的关键特征.该结构由三个分支组成,并协同执行正向和反向注意力学习过程.

在这里插入图片描述

Li等人[92]提出了一种用于语义分割的多尺度注意力网络。该模型通过整合全局上下文信息来提升语义分割的效果。他们将注意力机制与空间金字塔结构相结合,在像素级上提取精确且密集的特征来进行标注。而非传统的复杂扩张卷积模块和人工设计的解码器网络。最近研究者们提出了一个双关注场景分割方法。该方法能够通过自我注意力机制有效地捕捉复杂的语义依赖关系。具体而言,在改进后的FCN架构中集成了一种位置注意力模块和一种通道注意力模块。

研究语义分割中的注意力机制具有重要意义

Generative Models and Adversarial Training

自引入以来,在计算机视觉领域中GANs已得到了广泛应用,并在图像分割这一任务中也得到了应用。Luc等人[100]开发了一种语义分割训练方法。他们开发了基于卷积语义分割网络(图31)以及对抗性网络的系统,在此系统中对抗性网络能够区分真实的分割地图与该网络生成的分割地图。研究结果表明,在Stanford Background和Pascal-VOC2012数据集上使用对抗性训练方法可以获得更高的准确度。

在这里插入图片描述

Souly等研究者[101]开发了一种基于GAN技术实现弱监督语义分割的方法。该方法的核心组件是一个生成模块,用于向多分类识别模型提供额外的学习样本,同时在GAN架构中充当鉴別器角色,负责将潜在类别标签y分配给输入图像中的区域,并将其归类为虚假样本(额外类别)。另一项研究工作由Hung等学者[102]团队开展,他们提出了采用对抗式架构进行半监督语义分割的新框架。该研究设计了一种基于全连接卷积神经网络(FCN)的设计方案,旨在通过比较预测概率图与真实分割分布之间的差异来进行学习,特别关注空间分辨率因素。该模型所采用的学习目标函数由三部分组成:首先是在真实分割标注区域上计算交叉熵损失;其次是在鉴別器网络上实现对抗式学习;最后则引入了基于置信度估计机制的部分参与学习过程;整个过程最终得到的是鉴別器输出的结果.

Xue等人[103]开发了一种基于多尺度L1损失函数的医学图像分割对抗性网络系统。该系统采用了FCN架构作为分割模块来生成分割标签图谱,并成功构建了一个新型的抗distort critic网络结构,在这一过程中引导了该抗distort网络与分割模块共同学习图像的全局特征与局部细节特征,在此基础之上有效捕捉了像素级的空间关系及时间依赖性连接关系。另有研究综述了基于对抗训练方法进行图像分割的技术

CNN Models With Active Contour Models

在这里插入图片描述

近年来围绕FCNs与主动轮廓模型(ACMs)[7]之间协同作用展开的研究引起了学术界的广泛关注。研究者们提出了一种受ACM理论启发设计的新损失函数的方法。作为参考在借鉴[106]提出的全局能量公式的基础上Chen团队[107]开发出一个监督式损失层该监督层在FCN训练过程中整合了预测掩模的面积和尺寸信息并成功应用于心脏MRI的心室分割任务中。

另一种方法最初旨在将ACM作为FCN输出的一部分进行后处理,并通过预训练FCN进行部分联合学习尝试。自然图像语义分割领域的一个典型代表是Le等人的工作[108],其中层级集的ACM被实现为RNN的形式。鲁普雷希特等人的深度活动轮廓模型[109]则采用了不同的方法。在医学图像分割领域中,则由哈塔米扎德等人[110]提出了一个集成型的深度活动损伤分割(DALS)模型,在该模型中主干网络被设计用于预测一种新型局部参数化的水平集能量函数参数化表示。此外,在相关研究中还出现了马科斯等人[111]提出的深度结构化活动轮廓(DSAC)模型,在该框架下将ACM与预先训练好的FCNs整合到一个结构化预测系统中用于空中实例分割(尽管需人工初始化)。对于同样的应用场景下,则由Cheng等人[112]提出了一种基于极坐标显式表达式的深度主动射线网络(DarNet),其相较于DSAC的优势在于避免了传统轮廓可能出现的问题——自交现象的产生。最近Hatamizadeh等人引入了一种端到端可微分化的FCN-ACM完全集成框架(DCAC)[113]

Other Models

除了现有的几种流行的技术之外,还有其他多种流行的深度学习分割架构可供选择。例如:基于上下文编码的基本框架(EncNet),它采用基础特征提取器将输入映射到上下文编码模块中[114]。RefineNet[115]则通过多路径设计实现了高分辨率预测能力,并且能够有效利用下采样过程中的所有可用信息。种子网[116]引入了一种结合深度强化学习机制的自动生成化种子生成方法,在交互式分割问题中展现出良好的性能。“对象-上下文表示”(OCR)[44]则通过监督学习的方式,在真实场景中优化对象区域表示,并计算其与像素之间的关系特征;此外还采用了对象上下文表示来提升像素级表示的质量。“additional models include BoxSup[117]”,基于图卷积网络的设计理念构建了更加精细的空间关系表达体系;Wide ResNet[119]则通过宽而深的结构提升了模型的整体性能;Exfuse[120]采用了低频与高频特征融合的新方法以增强模型鲁棒性;Feedforward-Net[121]通过多级前馈设计提升了特征提取效率;saliency-aware models for geodesic video segmentation[122]则结合了目标重要性感知与几何 Video 分割技术;dual image segmentation(DIS)[123]提出了双模态分割框架以实现互补信息融合;FoveaNet(Perspective-aware scene parsing)[124]则通过视角感知机制增强了场景解析能力;Ladder DenseNet[125]引入了跳跃连接与密集块结构以提升特征表达能力;Bilateral segmentation network(BiSeNet)[126]则采用差异感知机制实现图像全局与局部分割并行;Semantic Prediction Guidance for Scene Parsing(SPGNet)[
以上就是具体的改写过程和结果。
根据用户的要求,
最终输出只包含改写后的文本内容,
因此这里直接给出最终结果:

在编号为138的位置上提出了一种称为"全光分割"的方法;这也被视为另一个有趣的图像处理问题;已有诸多相关研究工作取得了不错成果;其中包括:基于"全光特征金字塔网络"的研究;采用"全光分割"策略进行图像处理;在"无缝场景"领域进行了深入探索;提出了整合不同算法优势的新框架——"统一的全光分割网络";并开发出了针对提升计算效率的具体优化方案——"高效的全光分割算法"。

图像分割数据集

在本节里, 我们将对一些最常用图像分割数据集进行综述. 本节将这些数据集划分为三类: 二维(2D)图像, 彩色+深度(2.5D RGB-D)图像以及三维(3D)图像, 并对各类别数据的独特特点进行了详细介绍. 所列出的数据集均标注了像素级别的标签, 可用于评估模型性能

值得注意的是,在某些情况下尤其是医疗领域中存在一些工作采用数据增强技术以提升标记样本的数量。这种做法通过将图像(包括输入图像和分割图)经过一系列转换操作来增加训练样本的数量,并从中提取更多有用信息以优化模型性能。
其中一些典型的方法包括如平移变换、反射变换等基本操作以及更复杂的如扭曲与缩放等手段。这些方法不仅能够有效扩展训练数据集规模还能帮助模型更好地适应不同类型的医学影像特征。
此外研究表明这种技术不仅可以显著提高模型在有限数据集上的表现能力还能加速收敛过程降低过拟合风险并提升泛化能力。
对于那些面临小样本问题的研究者而言这种技术无疑是一种极具价值的解决方案。

2D数据集

该数据集在计算机视觉领域中具有很高的知名度[145]。它通过标注图像支持五个主要任务:分类、分割、目标检测、动作识别以及人体姿态估计。研究者们普遍采用该数据集来评估各种分割算法的表现[145]。在分割任务中涉及21个对象类别标签:汽车和其他交通工具(包括车辆)、家用电器(如家庭)、动物(如家畜家禽)、飞机(包括固定翼飞机)、自行车、船舶与船只(包括船只)、公共汽车与公共交通工具(如公交车与地铁等)、汽车与私人机动车(如私家车)、摩托车与自行车混合交通场景中的车辆与其他物体类别(如摩托车与其他非车辆物体),火车与轨道相关物品;此外还包括一些非上述类别的物品如瓶子、椅子、餐桌等家具类物品;盆栽植物类;生活用品及装饰品类;家具及休闲娱乐相关物品;以及一些生活必需品如沙发等;电视设备及其周边设备(如显示器);还有鸟与家禽;猫科动物;牛科动物;犬科动物等哺乳动物类别以及其他未明确归类的对象,在这些不属于上述标准分类的对象中被标记为背景像素[145])。该数据集按照高质量图片的比例划分为训练集和验证集两部分[145]:其中训练集中共有1464张图片而验证集中包含1449张图片[145]。此外还设有专门用于实际应用挑战测试的一份独立测试集合[145]。图33展示了其中一个示例图片与其对应的像素级别标注结果[145]

在这里插入图片描述

PASCAL Context[147]作为PASCAL VOC 2010检测任务的延伸,在其基础上增加了像素级标注信息。该数据集总共包含了超过400个分类(其中包括最初设定的20个主要类别以及来自Pascal VOC分割模块引入的背景类别)。这些分类被系统性地划分为三个大类:物体、工具及混合类别。值得注意的是,在这一数据集中大多数物体类别具有高度稀疏性;因此,在实际应用中通常会选取约60个高频类别的子集来进行后续处理和分析工作。

Microsoft Common Objects in Context (MS COCO) 是另一个大规模的对象检测、分割和图像描述数据集。COCO 包含日常复杂场景中的图像,在自然环境中展示了共同出现的物体。该数据集包含了 91 种不同物体类型的图片,在 328,000 张图片中共标出了 2,500,000 个实例(实例)。图中展示了样本图片在 MS-COCO 标签下的标注与其前数据集的区别。在检测挑战方面共有 80 多个类别,并提供了超过 82,000 张图片用于训练使用、40,500 张图片用于验证以及超过 80,000 张图片用于测试集使用

在这里插入图片描述

Cityscapes 是一个专注于城市街道场景理解的大规模数据库。它包含了来自全球50座城市的不同视角的城市街景数据集,并具备高质量的5千张像素级标注样本(其中2万张为弱标签帧),以及丰富的空间标注信息(共2万帧)。该数据库涵盖了30个类别及其语义信息,并将其划分为8个主要类别:平面区域、人像、车辆流、建筑群落、物体集合、自然景观(含树木等)、天空背景以及内部空间区域。

在这里插入图片描述

ADE₂⁰_K/MITSceneParsing/SceneParse₁₅₀ 为场景解析算法提供了规范性平台

SiftFlow 包含LabelMe数据库中的一个子集中的2,688张标注图像。这些图片由不同类型的户外场景提供样本数据:其中包括街道、山脉、田野以及海滩等自然景观与建筑环境。所有这些图片都属于33个语义分类中的一种。

Stanford背景基于现有数据集中的户外场景图像,并非人工标注而是通过自动收集的方式生成

The Berkeley Segmentation Dataset BSD encompasses a comprehensive collection of 12,00 manually annotated segmentations sourced from 3, thousand images across the Corel DataSets. These segmented images serve as a vital resource for research in image segmentation and boundary detection by providing practical examples. Specifically, half of the segmentation results are derived from color images presented to the participants, while the remaining half are based on grayscale image samples.

Youtube-Objects 包含从YouTube收集的视频,其中包括来自10个pascal VOC类别(飞机、鸟、船、汽车、猫、牛、狗、马、摩托车和火车)的物体。原始数据集不包含像素级注释(因为它最初是为对象检测而开发的,注释较弱)。然而,耆那教等人。[154]手动注释了126个序列的子集,然后提取一个帧的子集来进一步生成语义标签。在这个数据集中,总共有大约10,167个带注释的480x360像素的帧。
KITTI 它是最流行的移动机器人和自动驾驶数据集之一。它包含数小时的交通场景视频,用各种传感器模式(包括高分辨率RGB、灰度立体声相机和3D激光扫描仪)录制。原始数据集不包含用于语义分割的基本真实信息,但研究人员已经手动注释了部分数据集,用于研究目的。例如,阿尔瓦雷斯等人。[156]为道路探测挑战的323张图像生成了Ground-True,包括道路、垂直和天空。

其他数据集也可用于图像分割的目的,并非仅限于现有的研究方向中的一些特定领域;具体而言,则包括Semantic Boundaries Dataset (SBD)[157]、PASCAL Part[158]、SYNTHIA[159]以及Adobe’sPortrait Segmentation[160]等前沿领域的研究数据集

2.5D数据集

NYU-DV2[161]是一个由不同室内环境视频序列构成的数据集,在微软Kinect平台下利用RGB相机与深度传感器进行捕捉生成。它包含了1449对配准好的RGB图像对以及覆盖了三个主要城市的丰富场景数据库,并为每个物体标注了一个类别编号(如杯子1、杯子2等)。此外该集合还拥有大量未标注的独特帧(共407,024帧)。相较于现有的同类数据集而言此数据集规模相对较小

在这里插入图片描述

SUN-3D[162] represents a large-scale RGB-D video dataset, comprising 415 sequences captured across 41 distinct buildings in various three-dimensional spaces. Among these, 8 sequences have been annotated, with additional sequences expected to be annotated in the future. Each annotated frame not only incorporates semantic segmentation information of objects within the scene but also provides related data concerning camera orientation.

SUNRGB-D

基于深度学习技术开发出的一种创新性传感器系统(参考文献[164])包含300个具有代表性的家庭物品样本。这些家庭物品被系统性地分类为51种类型,并通过构建基于WordNet的知识图谱(类似于ImageNet分类体系),这些类别之间建立了层次化的关联。此外还采用与Kinect兼容的三维相机捕捉技术捕获了高分辨率且同步更新的画面,并能够生成具有较高帧率(30Hz)的真实-world 视频片段。此外还包括8个经过标注的真实-world 视频片段

ScanNet[165]是一个基于RGB-D的视频数据集,并包括超过1500次扫描中总共拍摄的250万张图像。该数据集对3D相机的姿态、三维表面重建以及实例级别的语义分割进行了详细标注。为了获取这些数据信息,我们开发了一个易于操作且具有扩展性的RGB-D采集系统。这个系统整合了自动完成三维表面重建的能力,并且所有的语义标注都是通过人工参与完成的。利用这一数据集可以在多个三维场景理解任务中实现最先进的性能水平

3D数据集

Stanford 2D-3D 数据集**:该集合整合了来自二维(2D)、二维半维(2.5D)及三维(3D)领域内多种相互对应的模式,并具备实例级别的语义与几何标注[166]。这些数据源自六个不同的室内场景,在此基础之上构建了丰富的图像资源库。该集合包含逾7万张RGB图像,并提供了相应的深度图、表面法向量标注、语义标签以及全局XYZ坐标信息等多维度数据资源,并记录了相关相机参数信息

ShapeNet Core 是 ShapeNet 数据集中一个专门设计的分支[167]。该分支特地包含了一份高质量的单一 3D 模型集合,并附带了经过人工验证的分类配准注释[168]。它不仅涵盖了 55 种典型的三维物体分类群,在数量上也达到了约 51.3 千份独特的三维模型数据。

Sydney Urban Objects Dataset**: 该数据集包含了多样化的城市道路对象,并于澳大利亚悉尼市中心区域进行了采集工作。其中包含了631个独立扫描的对象包括车辆行人标志以及树木[169]

图像分割性能评估

模型评价指标

在理想条件下, 模型应从多个维度进行评估, 包括定量精度. 但是, 目前的研究工作主要集中在准确性这一单一指标上. 我们总结了分割算法性能评估中最具影响力的关键指标. 虽然定量指标常用于比较不同基准下的模型性能, 但视觉质量同样不可或缺. 因此, 在选择最优模型时, 视觉质量同样不可或缺(因为最终应用者的使用需求往往由人类来决定)

在这里插入图片描述

其中p_{ij}i类预测为属于j类的像素数。

一种基于像素的准确度指标 Mean Pixel Accuracy, MPA 作为其扩展形式出现,在其基础上对每个类别中正确像素的比例进行计算

在这里插入图片描述

IoU或Jaccard Index 常用于评估语义分割任务中的性能表现。具体来说,IoU定义为预测分割图与Ground-True重叠区域的面积除以预测分割图与Ground-True并集区域的面积:

在这里插入图片描述

其中,AB分别表示Ground-True和预测的分割图。其范围在0到1之间。

Mean-IoU 是另一个常用的评价指标,在多个领域中常被采用作为评估图像分割算法表现的标准。其定义为所有类别的平均交并比。

Precision / Recall / F1 score

在这里插入图片描述
在这里插入图片描述

Dice系数是一种广泛应用于医学图像分割的流行指标;它通过计算预测区域与真实区域交集面积的双倍值来确定;该值再除以两幅图像的所有像素总数;其数值与IoU指标相比非常接近

在这里插入图片描述

深度学习模型量化指标

本节将回顾前面讨论的一些算法在流行分割基准测试中的表现。值得注意的是尽管大多数研究通常会在标准数据集上报告其性能并采用特定评估指标然而其中一些研究并未遵循这一做法导致了全面比较工作的难度增加。只有少部分研究会提供可复现性较高的补充信息例如执行时间和内存占用这些对于工业应用中的分割模型(如无人机自动驾驶汽车和机器人等)尤其重要这也表明在计算资源受限的嵌入式设备中部署轻量级分割模型同样具有重要意义

下表列举了几种基于深度学习的分割模型在不同数据集上的表现情况。表1特别聚焦于Pascal VOC测试集的表现分析。可以看出,自FCN模型首次提出以来,在图像分割领域取得显著进展的基础上,这些模型的准确性得到了显著提升。表2则集中考察了城市景观测试数据集的适用性。与FCN相比,最新模型在该数据集上实现了23%的性能提升。表3深入探讨了MSCOCO材料测试集的特点。这一数据集相较于Pascal VOC更具挑战性,并且包含更多的复杂场景元素(最高达到40%的mIoU)。表4则评估了ADE20k验证集的表现水平,在这一更具挑战性的数据集中,模型性能进一步得到优化和提升

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

挑战和机遇

毫无线可 doubt, 图像分割从深度学习中获益显著, 但仍面临诸多挑战. 接下来, 我们将探讨一些有潜力的研究方向, 并相信这些进展将有助于进一步提升图像分割算法的性能.

更多挑战性数据集

多个大型图像数据集被广泛应用于语义分割和实例分割任务。然而,在当前阶段仍需开发更具挑战性的数据集,并构建专门针对不同类型图像的数据集。对于静止场景中的物体检测问题而言,在训练模型时拥有大量不同物体且存在显著重叠的场景具有重要意义。这不仅有助于提升模型在密集对象环境中的性能表现,在现实世界中常见场景的大规模重叠问题也能得到更好解决。

随着三维图像分割技术的广泛应用,在医学领域中迫切亟需构建大规模的三维医学图像数据库集合。相较于其二维对应的数据集合,在生成过程中更具挑战性。现有的相关三维数据集合往往规模有限,并且其中一些属于人工合成类型因此开发更大、更具挑战性的高质量三维医学数据库可能具有重要的理论与应用价值

可解释模型

虽然基于深度学习的方法在应对具有挑战性测试的任务时表现优异(尽管基于深度学习的方法在应对具有挑战性测试的任务时表现优异),然而,在这一领域仍有许多未解之谜(然而,在这一领域仍有许多未解之谜)。例如(例如),我们对深度学习机制的本质尚不完全清楚(我们对深度学习机制的本质尚不完全清楚)。如何系统性地解析和理解这些特征仍是一个重要问题(如何系统性地解析和理解这些特征仍是一个重要问题)。为了在有限资源下实现可靠的分割性能所需最简化的神经网络架构是什么(为了在有限资源下实现可靠的分割性能所需最简化的神经网络架构是什么)?目前已有多种方法能够辅助观察和分析卷积层的行为模式(目前已有多种方法能够辅助观察和分析卷积层的行为模式)。对于整个系统的运行机制及其动态过程尚缺乏深入研究(对于整个系统的运行机制及其动态过程尚缺乏深入研究)。深入探索和系统性分析当前存在的各种理论框架将有助于推动这一领域的发展(深入探索和系统性分析当前存在的各种理论框架将有助于推动这一领域的发展)。

弱监督和无监督学习

弱监督[182]与无监督学习[183]正成为极具活力的研究领域,在这一领域的技术对于图像分割具有独特的优势。这是因为标注样本获取往往面临诸多挑战性问题,在医学图像分析等特定应用场景尤其突出;迁移学习方法通过在大规模标注样本(可能源自公共基准库)上训练通用图像分割模型,并结合来自某些特定目标应用场景下的少量样本进行微调而展现出独特价值;自监督学习则因其能在各领域中吸引极大的关注而备受重视;基于强化学习的方法虽然鲜有受到人们的关注但仍是未来研究的一个潜在方向;例如morel[184]提出了利用深度强化学习方法实现视频中运动目标的有效分割的技术

实时检测模型

在多个应用场景中,准确性通常是最关键的因素;然而,在某些应用场景中,分割模型的速度足以达到或接近常见相机的帧率(如25帧/秒),这对提升计算机视觉系统的性能非常关键。特别是在自动驾驶汽车等设备部署这些技术时会带来显著优势。目前主流的分割模型大多无法达到这一水平;例如FCN-8等经典网络处理低分辨率图像通常需要约100ms的时间。通过引入扩展卷积设计的方法,在一定程度上提高了分割速度,但仍有很大的改进空间。

高效内存模型

现代分割模型往往在推理过程中消耗大量内存资源。目前研究者们已在致力于提升这些模型的准确性的同时,也在探索如何使它们适应特定设备的需求,例如智能手机等受限硬件环境下的设备应用。为此,可采取以下两种主要策略:一种是采用更为简洁的架构设计;另一种则是结合多种优化手段包括但不限于模型压缩技术,甚至可采用将复杂架构转换为高效轻量化版本的方法。

三维点云分割

已有大量研究专注于二维图像分割问题上,但针对三维点云分割的研究相对较少。尽管如此,在三维建模、自动驾驶汽车、机器人技术和建筑建模等领域对点云分割技术的应用日益广泛,并因此激发了许多研究者的兴趣。此类非结构化数据的处理带来了诸多挑战。例如,在点云上应用其他经典cnn和其他深度学习架构的最佳方法尚不清楚。目前尚不清楚如何将传统卷积神经网络等其他深度学习架构最佳地应用于点云数据。基于图的深度模型则可能成为探索这一领域的一个重要方向

应用场景

本节将概述最近基于深度学习技术的图像分割方法在多个领域的实际应用情况,并探讨未来可能面临的挑战。值得注意的是,在遥感领域已有诸多成功案例可借鉴。例如,在遥感卫星图像分割方面取得显著成效的应用包括城市规划[186]、精准农业[187]以及气候研究相关技术开发[188]等场景。此外,在机载平台和无人机获取的数据基础上也进行了类似的深度学习图像分割工作以实现上述目标。然而,在实际应用中面临的主要挑战在于处理高维数据(通常由具有数百甚至数千个光谱波段的成像光谱仪获取),并以应对涉及气候变化等关键环境问题的需求为导向进行优化设计与改进工作。此外,在医学成像领域中也有广泛的应用潜力与发展方向。

总结

我们系统性地评估了100种基于深度学习模型的图像分割算法及其应用效果,并将其主要应用于以下十种类型:卷积神经网络(CNN)及其变体(如全卷积网络FCN)、循环神经网络(RNN)、区域卷存疑神经网络(R-CNN)、扩展型CNN(如Xception)以及基于注意力机制的模型等。通过系统性的研究分析,在多个基准数据集上对这些主流模型进行了定量性能评估,并对其应用效果展开了深入探讨。针对未来几年图像分割技术的发展趋势及面临的挑战问题进行了深入探讨,并提出了若干研究方向与创新思路。

参考文献

[1] R. Szeliski, Computer vision: algorithms and applications. Springer Science & Business Media, 2010.
[2] D. Forsyth and J. Ponce, Computer vision: a modern approach. Prentice Hall Professional Technical Reference, 2002.
[3] N. Otsu, “A threshold selection method from gray-level histograms,” IEEE transactions on systems, man, and cybernetics, vol. 9, no. 1, pp. 62–66, 1979.
[4] R. Nock and F. Nielsen, “Statistical region merging,” IEEE Transactions on pattern analysis and machine intelligence, vol. 26, no. 11, pp. 1452–1458, 2004.
[5] N. Dhanachandra, K. Manglem, and Y. J. Chanu, “Image segmentation using k-means clustering algorithm and subtractive clustering algorithm,” Procedia Computer Science, vol. 54, pp. 764–771, 2015.
[6] L. Najman and M. Schmitt, “Watershed of a continuous function,” Signal Processing, vol. 38, no. 1, pp. 99–112, 1994.
[7] M. Kass, A. Witkin, and D. Terzopoulos, “Snakes: Active contour models,” International journal of computer vision, vol. 1, no. 4, pp. 321–331, 1988.
[8] Y. Boykov, O. Veksler, and R. Zabih, “Fast approximate energy minimization via graph cuts,” IEEE Transactions on pattern analysis and machine intelligence, vol. 23, no. 11, pp. 1222–1239, 2001.
[9] N. Plath, M. Toussaint, and S. Nakajima, “Multi-class image segmentation using conditional random fields and global classifi- cation,” in Proceedings of the 26th Annual International Conference on Machine Learning. ACM, 2009, pp. 817–824.
[10] J.-L. Starck, M. Elad, and D. L. Donoho, “Image decomposition via the combination of sparse representations and a variational approach,” IEEE transactions on image processing, vol. 14, no. 10, pp. 1570–1582, 2005.
[11] S. Minaee and Y. Wang, “An admm approach to masked signal decomposition using subspace representation,” IEEE Transactions on Image Processing, vol. 28, no. 7, pp. 3192–3204, 2019.
[12] L.-C. Chen, G. Papandreou, F. Schroff, and H. Adam, “Rethinking atrous convolution for semantic image segmentation,” arXiv preprint arXiv:1706.05587, 2017.
[13] Y. LeCun, L. Bottou, Y. Bengio, P. Haffner et al., “Gradient-based learning applied to document recognition,” Proceedings of the IEEE, vol. 86, no. 11, pp. 2278–2324, 1998.
[14] S. Hochreiter and J. Schmidhuber, “Long short-term memory,” Neural computation, vol. 9, no. 8, pp. 1735–1780, 1997.
[15] V. Badrinarayanan, A. Kendall, and R. Cipolla, “Segnet: A deep convolutional encoder-decoder architecture for image segmentation,” IEEE transactions on pattern analysis and machine intelligence, vol. 39, no. 12, pp. 2481–2495, 2017.
[16] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio, “Generative adversarial nets,” in Advances in neural information processing systems, 2014, pp. 2672–2680.
[17] K. Fukushima, “Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position,” Biological cybernetics, vol. 36, no. 4, pp. 193–202, 1980.
[18] A. Waibel, T. Hanazawa, G. Hinton, K. Shikano, and K. J. Lang, “Phoneme recognition using time-delay neural networks,” IEEE transactions on acoustics, speech, and signal processing, vol. 37, no. 3, pp. 328–339, 1989.
[19] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classifi- cation with deep convolutional neural networks,” in Advances in neural information processing systems, 2012, pp. 1097–1105.
[20] K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” arXiv preprint arXiv:1409.1556, 2014.
[21] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 770–778.
[22] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich, “Going deeper with convolutions,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp. 1–9.
[23] A. G. Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang, T. Weyand, M. Andreetto, and H. Adam, “Mobilenets: Efficient convolutional neural networks for mobile vision applications,” arXiv preprint arXiv:1704.04861, 2017. 18
[24] G. Huang, Z. Liu, L. Van Der Maaten, and K. Q. Weinberger, “Densely connected convolutional networks,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 4700–4708.
[25] D. E. Rumelhart, G. E. Hinton, R. J. Williams et al., “Learning representations by back-propagating errors,” Cognitive modeling, vol. 5, no. 3, p. 1, 1988.
[26] I. Goodfellow, Y. Bengio, and A. Courville, Deep learning. MIT press, 2016.
[27] A. Radford, L. Metz, and S. Chintala, “Unsupervised representation learning with deep convolutional generative adversarial networks,” arXiv preprint arXiv:1511.06434, 2015.
[28] M. Mirza and S. Osindero, “Conditional generative adversarial nets,” arXiv preprint arXiv:1411.1784, 2014.
[29] M. Arjovsky, S. Chintala, and L. Bottou, “Wasserstein gan,” arXiv preprint arXiv:1701.07875, 2017.
[30] https://github.com/hindupuravinash/the-gan-zoo.
[31] J. Long, E. Shelhamer, and T. Darrell, “Fully convolutional networks for semantic segmentation,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp. 3431– 3440.
[32] W. Liu, A. Rabinovich, and A. C. Berg, “Parsenet: Looking wider to see better,” arXiv preprint arXiv:1506.04579, 2015.
[33] G. Wang, W. Li, S. Ourselin, and T. Vercauteren, “Automatic brain tumor segmentation using cascaded anisotropic convolutional neural networks,” in International MICCAI Brainlesion Workshop. Springer, 2017, pp. 178–190.
[34] Y. Li, H. Qi, J. Dai, X. Ji, and Y. Wei, “Fully convolutional instanceaware semantic segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 2359–2367.
[35] Y. Yuan, M. Chao, and Y.-C. Lo, “Automatic skin lesion segmentation using deep fully convolutional networks with jaccard distance,” IEEE transactions on medical imaging, vol. 36, no. 9, pp. 1876–1886, 2017.
[36] N. Liu, H. Li, M. Zhang, J. Liu, Z. Sun, and T. Tan, “Accurate iris segmentation in non-cooperative environments using fully convolutional networks,” in 2016 International Conference on Biometrics (ICB). IEEE, 2016, pp. 1–8.
[37] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille, “Semantic image segmentation with deep convolutional nets and fully connected crfs,” arXiv preprint arXiv:1412.7062, 2014.
[38] A. G. Schwing and R. Urtasun, “Fully connected deep structured networks,” arXiv preprint arXiv:1503.02351, 2015.
[39] S. Zheng, S. Jayasumana, B. Romera-Paredes, V. Vineet, Z. Su, D. Du, C. Huang, and P. H. Torr, “Conditional random fields as recurrent neural networks,” in Proceedings of the IEEE international conference on computer vision, 2015, pp. 1529–1537.
[40] G. Lin, C. Shen, A. Van Den Hengel, and I. Reid, “Efficient piecewise training of deep structured models for semantic segmentation,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 3194–3203.
[41] Z. Liu, X. Li, P. Luo, C.-C. Loy, and X. Tang, “Semantic image segmentation via deep parsing network,” in Proceedings of the IEEE international conference on computer vision, 2015, pp. 1377–1385.
[42] H. Noh, S. Hong, and B. Han, “Learning deconvolution network for semantic segmentation,” in Proceedings of the IEEE international conference on computer vision, 2015, pp. 1520–1528.
[43] A. Kendall, V. Badrinarayanan, and R. Cipolla, “Bayesian segnet: Model uncertainty in deep convolutional encoder-decoder architectures for scene understanding,” arXiv preprint arXiv:1511.02680, 2015.
[44] Y. Yuan, X. Chen, and J. Wang, “Object-contextual representations for semantic segmentation,” arXiv preprint arXiv:1909.11065, 2019.
[45] J. Fu, J. Liu, Y. Wang, J. Zhou, C. Wang, and H. Lu, “Stacked deconvolutional network for semantic segmentation,” IEEE Transactions on Image Processing, 2019.
[46] A. Chaurasia and E. Culurciello, “Linknet: Exploiting encoder representations for efficient semantic segmentation,” in 2017 IEEE Visual Communications and Image Processing (VCIP). IEEE, 2017, pp. 1–4.
[47] X. Xia and B. Kulis, “W-net: A deep model for fully unsupervised image segmentation,” arXiv preprint arXiv:1711.08506, 2017.
[48] Y. Cheng, R. Cai, Z. Li, X. Zhao, and K. Huang, “Locality-sensitive deconvolution networks with gated fusion for rgb-d indoor semantic segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 3029–3037.
[49] O. Ronneberger, P. Fischer, and T. Brox, “U-net: Convolutional networks for biomedical image segmentation,” in International Conference on Medical image computing and computer-assisted intervention. Springer, 2015, pp. 234–241.
[50] F. Milletari, N. Navab, and S.-A. Ahmadi, “V-net: Fully convolutional neural networks for volumetric medical image segmentation,” in 2016 Fourth International Conference on 3D Vision (3DV). IEEE, 2016, pp. 565–571.
[51] ¨O. C¸ ic¸ek, A. Abdulkadir, S. S. Lienkamp, T. Brox, and O. Ronneberger, “3d u-net: learning dense volumetric segmentation from sparse annotation,” in International conference on medical image computing and computer-assisted intervention. Springer, 2016, pp. 424–432.
[52] Z. Zhou, M. M. R. Siddiquee, N. Tajbakhsh, and J. Liang, “Unet++: A nested u-net architecture for medical image segmentation,” in Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support. Springer, 2018, pp. 3–11.
[53] Z. Zhang, Q. Liu, and Y. Wang, “Road extraction by deep residual u-net,” IEEE Geoscience and Remote Sensing Letters, vol. 15, no. 5, pp. 749–753, 2018.
[54] T. Brosch, L. Y. Tang, Y. Yoo, D. K. Li, A. Traboulsee, and R. Tam, “Deep 3d convolutional encoder networks with shortcuts for multiscale feature integration applied to multiple sclerosis lesion segmentation,” IEEE transactions on medical imaging, vol. 35, no. 5, pp. 1229–1239, 2016.
[55] T.-Y. Lin, P. Doll´ar, R. Girshick, K. He, B. Hariharan, and S. Belongie, “Feature pyramid networks for object detection,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 2117–2125.
[56] H. Zhao, J. Shi, X. Qi, X. Wang, and J. Jia, “Pyramid scene parsing network,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 2881–2890.
[57] G. Ghiasi and C. C. Fowlkes, “Laplacian pyramid reconstruction and refinement for semantic segmentation,” in European Conference on Computer Vision. Springer, 2016, pp. 519–534.
[58] J. He, Z. Deng, and Y. Qiao, “Dynamic multi-scale filters for semantic segmentation,” in Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 3562–3572.
[59] H. Ding, X. Jiang, B. Shuai, A. Qun Liu, and G. Wang, “Context contrasted feature and gated multi-scale aggregation for scene segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 2393–2402.
[60] J. He, Z. Deng, L. Zhou, Y. Wang, and Y. Qiao, “Adaptive pyramid context network for semantic segmentation,” in Conference on Computer Vision and Pattern Recognition, 2019, pp. 7519–7528.
[61] D. Lin, Y. Ji, D. Lischinski, D. Cohen-Or, and H. Huang, “Multiscale context intertwining for semantic segmentation,” in Proceedings of the European Conference on Computer Vision (ECCV), 2018, pp. 603–619.
[62] G. Li, Y. Xie, L. Lin, and Y. Yu, “Instance-level salient object segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 2386–2395.
[63] S. Ren, K. He, R. Girshick, and J. Sun, “Faster r-cnn: Towards realtime object detection with region proposal networks,” in Advances in neural information processing systems, 2015, pp. 91–99.
[64] K. He, G. Gkioxari, P. Doll´ar, and R. Girshick, “Mask r-cnn,” in Proceedings of the IEEE international conference on computer vision, 2017, pp. 2961–2969.
[65] S. Liu, L. Qi, H. Qin, J. Shi, and J. Jia, “Path aggregation network for instance segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 8759–8768.
[66] J. Dai, K. He, and J. Sun, “Instance-aware semantic segmentation via multi-task network cascades,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 3150–3158.
[67] R. Hu, P. Doll´ar, K. He, T. Darrell, and R. Girshick, “Learning to segment every thing,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 4233–4241.
[68] L.-C. Chen, A. Hermans, G. Papandreou, F. Schroff, P. Wang, and H. Adam, “Masklab: Instance segmentation by refining object detection with semantic and direction features,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 4013–4022.
[69] X. Chen, R. Girshick, K. He, and P. Doll´ar, “Tensormask: A foundation for dense object segmentation,” arXiv preprint arXiv:1903.12174, 2019. 19
[70] J. Dai, Y. Li, K. He, and J. Sun, “R-fcn: Object detection via region-based fully convolutional networks,” in Advances in neural information processing systems, 2016, pp. 379–387.
[71] P. O. Pinheiro, R. Collobert, and P. Doll´ar, “Learning to segment object candidates,” in Advances in Neural Information Processing Systems, 2015, pp. 1990–1998.
[72] E. Xie, P. Sun, X. Song, W. Wang, X. Liu, D. Liang, C. Shen, and P. Luo, “Polarmask: Single shot instance segmentation with polar representation,” arXiv preprint arXiv:1909.13226, 2019.
[73] Z. Hayder, X. He, and M. Salzmann, “Boundary-aware instance segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 5696–5704.
[74] Y. Lee and J. Park, “Centermask: Real-time anchor-free instance segmentation,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 13 906–13 915.
[75] M. Bai and R. Urtasun, “Deep watershed transform for instance segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 5221–5229.
[76] D. Bolya, C. Zhou, F. Xiao, and Y. J. Lee, “Yolact: Real-time instance segmentation,” in Proceedings of the IEEE international conference on computer vision, 2019, pp. 9157–9166.
[77] A. Fathi, Z. Wojna, V. Rathod, P. Wang, H. O. Song, S. Guadarrama, and K. P. Murphy, “Semantic instance segmentation via deep metric learning,” arXiv preprint arXiv:1703.10277, 2017.
[78] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille, “Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs,” IEEE transactions on pattern analysis and machine intelligence, vol. 40, no. 4,
pp. 834–848, 2017.
[79] F. Yu and V. Koltun, “Multi-scale context aggregation by dilated convolutions,” arXiv preprint arXiv:1511.07122, 2015.
[80] P. Wang, P. Chen, Y. Yuan, D. Liu, Z. Huang, X. Hou, and G. Cottrell, “Understanding convolution for semantic segmentation,” in winter conference on applications of computer vision. IEEE, 2018, pp. 1451–1460.
[81] M. Yang, K. Yu, C. Zhang, Z. Li, and K. Yang, “Denseaspp for semantic segmentation in street scenes,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 3684–3692.
[82] A. Paszke, A. Chaurasia, S. Kim, and E. Culurciello, “Enet: A deep neural network architecture for real-time semantic segmentation,” arXiv preprint arXiv:1606.02147, 2016.
[83] L.-C. Chen, Y. Zhu, G. Papandreou, F. Schroff, and H. Adam, “Encoder-decoder with atrous separable convolution for semantic image segmentation,” in Proceedings of the European conference on computer vision (ECCV), 2018, pp. 801–818.
[84] F. Visin, M. Ciccone, A. Romero, K. Kastner, K. Cho, Y. Bengio, M. Matteucci, and A. Courville, “Reseg: A recurrent neural network based model for semantic segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2016, pp. 41–48.
[85] F. Visin, K. Kastner, K. Cho, M. Matteucci, A. Courville, and Y. Bengio, “Renet: A recurrent neural network based alternative to convolutional networks,” arXiv preprint arXiv:1505.00393, 2015.
[86] W. Byeon, T. M. Breuel, F. Raue, and M. Liwicki, “Scene labeling with lstm recurrent neural networks,” in IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp. 3547–3555.
[87] X. Liang, X. Shen, J. Feng, L. Lin, and S. Yan, “Semantic object parsing with graph lstm,” in European Conference on Computer Vision. Springer, 2016, pp. 125–143.
[88] Y. Xiang and D. Fox, “Da-rnn: Semantic mapping with data associated recurrent neural networks,” arXiv:1703.03098, 2017.
[89] R. Hu, M. Rohrbach, and T. Darrell, “Segmentation from natural language expressions,” in European Conference on Computer Vision. Springer, 2016, pp. 108–124.
[90] L.-C. Chen, Y. Yang, J. Wang, W. Xu, and A. L. Yuille, “Attention to scale: Scale-aware semantic image segmentation,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 3640–3649.
[91] Q. Huang, C. Xia, C. Wu, S. Li, Y. Wang, Y. Song, and C.-C. J. Kuo, “Semantic segmentation with reverse attention,” arXiv preprint arXiv:1707.06426, 2017.
[92] H. Li, P. Xiong, J. An, and L. Wang, “Pyramid attention network for semantic segmentation,” arXiv preprint arXiv:1805.10180, 2018.
[93] J. Fu, J. Liu, H. Tian, Y. Li, Y. Bao, Z. Fang, and H. Lu, “Dual attention network for scene segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 3146–3154.
[94] Y. Yuan and J. Wang, “Ocnet: Object context network for scene parsing,” arXiv preprint arXiv:1809.00916, 2018.
[95] X. Li, Z. Zhong, J. Wu, Y. Yang, Z. Lin, and H. Liu, “Expectation maximization attention networks for semantic segmentation,” in Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 9167–9176.
[96] Z. Huang, X. Wang, L. Huang, C. Huang, Y. Wei, and W. Liu, “Ccnet: Criss-cross attention for semantic segmentation,” in Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 603–612.
[97] M. Ren and R. S. Zemel, “End-to-end instance segmentation with recurrent attention,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 6656–6664.
[98] H. Zhao, Y. Zhang, S. Liu, J. Shi, C. Change Loy, D. Lin, and J. Jia, “Psanet: Point-wise spatial attention network for scene parsing,” in Proceedings of the European Conference on Computer Vision (ECCV), 2018, pp. 267–283.
[99] C. Yu, J. Wang, C. Peng, C. Gao, G. Yu, and N. Sang, “Learning a discriminative feature network for semantic segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 1857–1866.
[100] P. Luc, C. Couprie, S. Chintala, and J. Verbeek, “Semantic segmentation using adversarial networks,” arXiv preprint arXiv:1611.08408, 2016.
[101] N. Souly, C. Spampinato, and M. Shah, “Semi supervised semantic segmentation using generative adversarial network,” in Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 5688–5696.
[102] W.-C. Hung, Y.-H. Tsai, Y.-T. Liou, Y.-Y. Lin, and M.-H. Yang, “Adversarial learning for semi-supervised semantic segmentation,” arXiv preprint arXiv:1802.07934, 2018.
[103] Y. Xue, T. Xu, H. Zhang, L. R. Long, and X. Huang, “Segan: Adversarial network with multi-scale l 1 loss for medical image segmentation,” Neuroinformatics, vol. 16, no. 3-4, pp. 383–392, 2018.
[104] M. Majurski, P. Manescu, S. Padi, N. Schaub, N. Hotaling, C. Simon Jr, and P. Bajcsy, “Cell image segmentation using generative adversarial networks, transfer learning, and augmentations,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2019, pp. 0–0.
[105] K. Ehsani, R. Mottaghi, and A. Farhadi, “Segan: Segmenting and generating the invisible,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 6144–6153.
[106] T. F. Chan and L. A. Vese, “Active contours without edges,” IEEE Transactions on Image Processing, vol. 10, no. 2, pp. 266–277, 2001.
[107] X. Chen, B. M. Williams, S. R. Vallabhaneni, G. Czanner, R. Williams, and Y. Zheng, “Learning active contour models for medical image segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 11 632–11 640.
[108] T. H. N. Le, K. G. Quach, K. Luu, C. N. Duong, and M. Savvides, “Reformulating level sets as deep recurrent neural network approach to semantic segmentation,” IEEE Transactions on Image Processing, vol. 27, no. 5, pp. 2393–2407, 2018.
[109] C. Rupprecht, E. Huaroc, M. Baust, and N. Navab, “Deep active contours,” arXiv preprint arXiv:1607.05074, 2016.
[110] A. Hatamizadeh, A. Hoogi, D. Sengupta, W. Lu, B. Wilcox, D. Rubin, and D. Terzopoulos, “Deep active lesion segmentation,” in Proc. International Workshop on Machine Learning in Medical Imaging, ser. Lecture Notes in Computer Science, vol. 11861.
Springer, 2019, pp. 98–105.
[111] D. Marcos, D. Tuia, B. Kellenberger, L. Zhang, M. Bai, R. Liao, and R. Urtasun, “Learning deep structured active contours end to end,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018, pp. 8877–8885.
[112] D. Cheng, R. Liao, S. Fidler, and R. Urtasun, “Darnet: Deep active ray network for building segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 7431–7439.
[113] A. Hatamizadeh, D. Sengupta, and D. Terzopoulos, “End-to-end deep convolutional active contours for image segmentation,” arXiv preprint arXiv:1909.13359, 2019.
[114] H. Zhang, K. Dana, J. Shi, Z. Zhang, X. Wang, A. Tyagi, and A. Agrawal, “Context encoding for semantic segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 7151–7160. 20
[115] G. Lin, A. Milan, C. Shen, and I. Reid, “Refinenet: Multi-path refinement networks for high-resolution semantic segmentation,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 1925–1934.
[116] G. Song, H. Myeong, and K. Mu Lee, “Seednet: Automatic seed generation with deep reinforcement learning for robust interactive segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 1760–1768.
[117] J. Dai, K. He, and J. Sun, “Boxsup: Exploiting bounding boxes to supervise convolutional networks for semantic segmentation,” in Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 1635–1643.
[118] C. Peng, X. Zhang, G. Yu, G. Luo, and J. Sun, “Large kernel matters–improve semantic segmentation by global convolutional network,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 4353–4361.
[119] Z. Wu, C. Shen, and A. Van Den Hengel, “Wider or deeper: Revisiting the resnet model for visual recognition,” Pattern Recognition, vol. 90, pp. 119–133, 2019.
[120] Z. Zhang, X. Zhang, C. Peng, X. Xue, and J. Sun, “Exfuse: Enhancing feature fusion for semantic segmentation,” in Proceedings of the European Conference on Computer Vision (ECCV), 2018, pp. 269–284.
[121] M. Mostajabi, P. Yadollahpour, and G. Shakhnarovich, “Feedforward semantic segmentation with zoom-out features,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp. 3376–3385.
[122] W. Wang, J. Shen, and F. Porikli, “Saliency-aware geodesic video object segmentation,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2015, pp. 3395–3402.
[123] P. Luo, G. Wang, L. Lin, and X. Wang, “Deep dual learning for semantic image segmentation,” in Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 2718–2726.
[124] X. Li, Z. Jie, W. Wang, C. Liu, J. Yang, X. Shen, Z. Lin, Q. Chen, S. Yan, and J. Feng, “Foveanet: Perspective-aware urban scene parsing,” in Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 784–792.
[125] I. Kreso, S. Segvic, and J. Krapac, “Ladder-style densenets for semantic segmentation of large natural images,” in IEEE International Conference on Computer Vision, 2017, pp. 238–245.
[126] C. Yu, J. Wang, C. Peng, C. Gao, G. Yu, and N. Sang, “Bisenet: Bilateral segmentation network for real-time semantic segmentation,” in European Conference on Computer Vision, 2018, pp. 325–341.
[127] B. Cheng, L.-C. Chen, Y. Wei, Y. Zhu, Z. Huang, J. Xiong, T. S. Huang, W.-M. Hwu, and H. Shi, “Spgnet: Semantic prediction guidance for scene parsing,” in Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 5218–5228.
[128] T. Takikawa, D. Acuna, V. Jampani, and S. Fidler, “Gated-scnn: Gated shape cnns for semantic segmentation,” in IEEE International Conference on Computer Vision, 2019, pp. 5229–5238.
[129] J. Fu, J. Liu, Y. Wang, Y. Li, Y. Bao, J. Tang, and H. Lu, “Adaptive context network for scene parsing,” in Proceedings of the IEEE international conference on computer vision, 2019, pp. 6748–6757.
[130] X. Liang, H. Zhou, and E. Xing, “Dynamic-structured semantic propagation network,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 752–761.
[131] X. Liang, Z. Hu, H. Zhang, L. Lin, and E. P. Xing, “Symbolic graph reasoning meets convolutions,” in Advances in Neural Information Processing Systems, 2018, pp. 1853–1863.
[132] B. Zhou, H. Zhao, X. Puig, S. Fidler, A. Barriuso, and A. Torralba, “Scene parsing through ade20k dataset,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017.
[133] R. Zhang, S. Tang, Y. Zhang, J. Li, and S. Yan, “Scale-adaptive convolutions for scene parsing,” in Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 2031–2039.
[134] T. Xiao, Y. Liu, B. Zhou, Y. Jiang, and J. Sun, “Unified perceptual parsing for scene understanding,” in Proceedings of the European
Conference on Computer Vision (ECCV), 2018, pp. 418–434.
[135] B. Zoph, G. Ghiasi, T.-Y. Lin, Y. Cui, H. Liu, E. D. Cubuk, and Q. V. Le, “Rethinking pre-training and self-training,” arXiv preprint arXiv:2006.06882, 2020.
[136] X. Zhang, H. Xu, H. Mo, J. Tan, C. Yang, and W. Ren, “Dcnas: Densely connected neural architecture search for semantic image segmentation,” arXiv preprint arXiv:2003.11883, 2020.
[137] A. Tao, K. Sapra, and B. Catanzaro, “Hierarchical multi-scale attention for semantic segmentation,” arXiv preprint arXiv:2005.10821, 2020.
[138] A. Kirillov, K. He, R. Girshick, C. Rother, and P. Doll´ar, “Panoptic segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 9404–9413.
[139] A. Kirillov, R. Girshick, K. He, and P. Dollar, “Panoptic feature pyramid networks,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 6399–6408.
[140] Y. Li, X. Chen, Z. Zhu, L. Xie, G. Huang, D. Du, and X. Wang, “Attention-guided unified network for panoptic segmentation,” in IEEE Conference on Computer Vision and Pattern Recognition, 2019.
[141] L. Porzi, S. R. Bulo, A. Colovic, and P. Kontschieder, “Seamless scene segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 8277–8286.
[142] B. Cheng, M. D. Collins, Y. Zhu, T. Liu, T. S. Huang, H. Adam, and L.-C. Chen, “Panoptic-deeplab,” arXiv preprint arXiv:1910.04751, 2019.
[143] Y. Xiong, R. Liao, H. Zhao, R. Hu, M. Bai, E. Yumer, and R. Urtasun, “Upsnet: A unified panoptic segmentation network,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 8818–8826.
[144] R. Mohan and A. Valada, “Efficientps: Efficient panoptic segmentation,” arXiv preprint arXiv:2004.02307, 2020.
[145] M. Everingham, L. Van Gool, C. K. Williams, J. Winn, and A. Zisserman, “The pascal visual object classes (voc) challenge,” International journal of computer vision, vol. 88, pp. 303–338, 2010.
[146] http://host.robots.ox.ac.uk/pascal/VOC/voc2012/.
[147] R. Mottaghi, X. Chen, X. Liu, N.-G. Cho, S.-W. Lee, S. Fidler, R. Urtasun, and A. Yuille, “The role of context for object detection and semantic segmentation in the wild,” in IEEE Conference on Computer Vision and Pattern Recognition, 2014, pp. 891–898.
[148] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Doll´ar, and C. L. Zitnick, “Microsoft coco: Common objects in context,” in European conference on computer vision. Springer, 2014.
[149] M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler, R. Benenson, U. Franke, S. Roth, and B. Schiele, “The cityscapes dataset for semantic urban scene understanding,” in IEEE Conference on Computer Vision and Pattern Recognition, 2016, pp. 3213–3223.
[150] C. Liu, J. Yuen, and A. Torralba, “Nonparametric scene parsing: Label transfer via dense scene alignment,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2009.
[151] S. Gould, R. Fulton, and D. Koller, “Decomposing a scene into geometric and semantically consistent regions,” in 2009 IEEE 12th international conference on computer vision. IEEE, 2009, pp. 1–8.
[152] D. Martin, C. Fowlkes, D. Tal, and J. Malik, “A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics,” in Proc. 8th Int’l Conf. Computer Vision, vol. 2, July 2001, pp. 416–423.
[153] A. Prest, C. Leistner, J. Civera, C. Schmid, and V. Ferrari, “Learning object class detectors from weakly annotated video,” in 2012 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2012, pp. 3282–3289.
[154] S. D. Jain and K. Grauman, “Supervoxel-consistent foreground propagation in video,” in European conference on computer vision. Springer, 2014, pp. 656–671.
[155] A. Geiger, P. Lenz, C. Stiller, and R. Urtasun, “Vision meets robotics: The kitti dataset,” The International Journal of Robotics Research, vol. 32, no. 11, pp. 1231–1237, 2013.
[156] J. M. Alvarez, T. Gevers, Y. LeCun, and A. M. Lopez, “Road scene segmentation from a single image,” in European Conference on Computer Vision. Springer, 2012, pp. 376–389.
[157] B. Hariharan, P. Arbel´aez, L. Bourdev, S. Maji, and J. Malik, “Semantic contours from inverse detectors,” in 2011 International Conference on Computer Vision. IEEE, 2011, pp. 991–998.
[158] X. Chen, R. Mottaghi, X. Liu, S. Fidler, R. Urtasun, and A. Yuille, “Detect what you can: Detecting and representing objects using holistic models and body parts,” in IEEE Conference on Computer Vision and Pattern Recognition, 2014, pp. 1971–1978.
[159] G. Ros, L. Sellart, J. Materzynska, D. Vazquez, and A. M. Lopez, “The synthia dataset: A large collection of synthetic images for semantic segmentation of urban scenes,” in IEEE conference on computer vision and pattern recognition, 2016, pp. 3234–3243.
[160] X. Shen, A. Hertzmann, J. Jia, S. Paris, B. Price, E. Shechtman, and I. Sachs, “Automatic portrait segmentation for image stylization,” in Computer Graphics Forum, vol. 35, no. 2. Wiley Online Library, 2016, pp. 93–102.
[161] N. Silberman, D. Hoiem, P. Kohli, and R. Fergus, “Indoor segmentation and support inference from rgbd images,” in European Conference on Computer Vision. Springer, 2012, pp. 746–760. 21
[162] J. Xiao, A. Owens, and A. Torralba, “Sun3d: A database of big spaces reconstructed using sfm and object labels,” in IEEE International Conference on Computer Vision, 2013, pp. 1625–1632.
[163] S. Song, S. P. Lichtenberg, and J. Xiao, “Sun rgb-d: A rgb-d scene understanding benchmark suite,” in IEEE conference on computer vision and pattern recognition, 2015, pp. 567–576.
[164] K. Lai, L. Bo, X. Ren, and D. Fox, “A large-scale hierarchical multiview rgb-d object dataset,” in 2011 IEEE international conference on robotics and automation. IEEE, 2011, pp. 1817–1824.
[165] A. Dai, A. X. Chang, M. Savva, M. Halber, T. Funkhouser, and M. Nießner, “Scannet: Richly-annotated 3d reconstructions of indoor scenes,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 5828–5839.
[166] I. Armeni, A. Sax, A. R. Zamir, and S. Savarese, “Joint 2D-3DSemantic Data for Indoor Scene Understanding,” ArXiv e-prints, Feb. 2017.
[167] A. X. Chang, T. Funkhouser, L. Guibas, P. Hanrahan, Q. Huang, Z. Li, S. Savarese, M. Savva, S. Song, H. Su et al., “Shapenet: An information-rich 3d model repository,” arXiv preprint arXiv:1512.03012, 2015.
[168] L. Yi, L. Shao, M. Savva, H. Huang, Y. Zhou, Q. Wang, B. Graham, M. Engelcke, R. Klokov, V. Lempitsky et al., “Large-scale 3d shape reconstruction and segmentation from shapenet core55,” arXiv preprint arXiv:1710.06104, 2017.
[169] M. De Deuge, A. Quadros, C. Hung, and B. Douillard, “Unsupervised feature learning for classification of outdoor 3d scans,” in Australasian Conference on Robitics and Automation, vol. 2, 2013, p. 1.
[170] C.-Y. Fu, M. Shvets, and A. C. Berg, “Retinamask: Learning to predict masks improves state-of-the-art single-shot detection for free,” arXiv preprint arXiv:1901.03353, 2019.
[171] P. O. Pinheiro, T.-Y. Lin, R. Collobert, and P. Doll´ar, “Learning to refine object segments,” in European Conference on Computer Vision. Springer, 2016, pp. 75–91.
[172] H. Liu, C. Peng, C. Yu, J. Wang, X. Liu, G. Yu, and W. Jiang, “An end-to-end network for panoptic segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 6172–6181.
[173] K. Sofiiuk, O. Barinova, and A. Konushin, “Adaptis: Adaptive instance selection network,” in Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 7355–7363.
[174] J. Lazarow, K. Lee, K. Shi, and Z. Tu, “Learning instance occlusion for panoptic segmentation,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 10 720–10 729.
[175] Z. Deng, S. Todorovic, and L. Jan Latecki, “Semantic segmentation of rgbd images with mutex constraints,” in Proceedings of the IEEE international conference on computer vision, 2015, pp. 1733–1741.
[176] D. Eigen and R. Fergus, “Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture,” in IEEE international conference on computer vision, 2015, pp. 2650–2658.
[177] A. Mousavian, H. Pirsiavash, and J. Kosecka, “Joint semantic segmentation and depth estimation with deep convolutional networks,” in International Conference on 3D Vision. IEEE, 2016.
[178] X. Qi, R. Liao, J. Jia, S. Fidler, and R. Urtasun, “3d graph neural networks for rgbd semantic segmentation,” in IEEE International Conference on Computer Vision, 2017, pp. 5199–5208.
[179] W. Wang and U. Neumann, “Depth-aware cnn for rgb-d segmentation,” in Proceedings of the European Conference on Computer Vision (ECCV), 2018, pp. 135–150.
[180] S.-J. Park, K.-S. Hong, and S. Lee, “Rdfnet: Rgb-d multi-level residual feature fusion for indoor semantic segmentation,” in IEEE International Conference on Computer Vision, 2017, pp. 4980–4989.
[181] J. Jiao, Y. Wei, Z. Jie, H. Shi, R. W. Lau, and T. S. Huang, “Geometryaware distillation for indoor semantic segmentation,” in IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 2869–2878.
[182] Z.-H. Zhou, “A brief introduction to weakly supervised learning,” National Science Review, vol. 5, no. 1, pp. 44–53, 2018.
[183] L. Jing and Y. Tian, “Self-supervised visual feature learning with deep neural networks: A survey,” IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020.
[184] V. Goel, J. Weng, and P. Poupart, “Unsupervised video object segmentation for deep reinforcement learning,” in Advances in Neural Information Processing Systems, 2018, pp. 5683–5694.
[185] L. Ma, Y. Liu, X. Zhang, Y. Ye, G. Yin, and B. A. Johnson, “Deep learning in remote sensing applications: A meta-analysis and review,” ISPRS Journal of Photogrammetry and Remote Sensing, vol. 152, pp. 166 – 177, 2019.
[186] L. Gao, Y. Zhang, F. Zou, J. Shao, and J. Lai, “Unsupervised urban scene segmentation via domain adaptation,” Neurocomputing, vol. 406, pp. 295 – 301, 2020.
[187] M. Paoletti, J. Haut, J. Plaza, and A. Plaza, “Deep learning classifiers for hyperspectral imaging: A review,” ISPRS Journal of Photogrammetry and Remote Sensing, vol. 158, pp. 279 – 317, 2019.
[188] J. F. Abrams, A. Vashishtha, S. T. Wong, A. Nguyen, A. Mohamed, S. Wieser, A. Kuijper, A. Wilting, and A. Mukhopadhyay, “Habitat-net: Segmentation of habitat images using deep learning,” Ecological Informatics, vol. 51, pp. 121 – 128, 2019.
[189] M. Kerkech, A. Hafiane, and R. Canals, “Vine disease detection in uav multispectral images using optimized image registration and deep learning segmentation approach,” Computers and Electronics in Agriculture, vol. 174, p. 105446, 2020.
[190] N. Tajbakhsh, L. Jeyaseelan, Q. Li, J. N. Chiang, Z. Wu, and X. Ding, “Embracing imperfect datasets: A review of deep learning solutions for medical image segmentation,” Medical Image Analysis, vol. 63, p. 101693, 2020.
[191] A. Amyar, R. Modzelewski, H. Li, and S. Ruan, “Multi-task deep learning based ct imaging analysis for covid-19 pneumonia: Classification and segmentation,” Computers in Biology and Medicine, vol. 126, p. 104037, 2020.
[192] Y. Song, Z. Huang, C. Shen, H. Shi, and D. A. Lange, “Deep learning-based automated image segmentation for concrete petrographic analysis,” Cement and Concrete Research, vol. 135, p. 106118, 2020.

全部评论 (0)

还没有任何评论哟~