Advertisement

深度学习下的图像分割

阅读量:

之前的文章《图像分割演进之路》中对图像分割的发展历程进行了介绍,在经历了从传统算法到人工智能的整体演变过程中

在这里插入图片描述

基于学习的图像分割算法以学习为基础的方法主要依靠深度神经网络完成;经典的深度神经网络包括以下几种类型

2.1卷积神经网络CNN:

卷积神经网络在图像处理领域是最广为人所熟知的网络模型,在该模型中通过参数可共享、局部感受野等特性使得CNN在训练过程中具有较高的效率与较好的性能。

在这里插入图片描述

2.2循环神经网络RNN:

主要用以处理序列数据(如语音、文本、视频等),然而其原始版本的RNN(即Recurrent Neural Network)却存在无法有效捕捉长距离依赖的问题(即Long Short-Term Memory issue),直至后续发展出LSTM(Long Short-Term Memory network)、Transformer等模型才得以弥补这一缺陷。

在这里插入图片描述

2.3编码器-解码器和自编码器模型:

编码器类似于主成分分析法(PCA),能够提取数据的核心信息,并将输入数据投影至潜在特征空间中。随后解码器则会将潜在空间中的特征还原回原始数据域,并最终实现序列间的相互转换过程。例如,在自然语言处理领域中使用的机器翻译技术,在计算机视觉领域中使用的图像转码技术等。

在这里插入图片描述

2.4生成对抗网络GAN:

由生成器与鉴别器构成一个对抗体系,在此过程中双方相互优化。其博弈结果表明,在最优状态下生成器能够有效产出看似真实度极高的图像G(z)。而对于鉴別器而言,则面临着无法准确判断来自生成器的新样本是否为真实数据这一挑战

在这里插入图片描述

今天我们将要讲解的内容主要是基于深度神经网络建立起来的分割模型,请关注后续的具体分析吧!

3.1全卷积网络FCN:

最初的分割模型通常采用FCN架构,在该架构中末尾部分通常会接一层全连接层来计算各类别的概率。
从名称上看这一方法与传统分类模型有显著区别其整体架构主要依赖于CNN组件而无需传统意义上的全连接层从而能够适应不同尺寸的输入图像。
然而在实际应用中存在一些局限性例如计算量较大且难以直接应用于实时场景此外还难以捕捉全局的空间关系以及不容易泛化到三维场景。
研究表明在深度神经网络中较高分辨率的特征图能够有效捕捉局部细节而较低分辨率的特征图则更适合进行类别判别。
为了提升整体识别性能其中一些FCN设计采用了特征融合策略其中这种策略可以充分整合低层次提取到的具体细节以及高层次所获得的整体语义信息。

在这里插入图片描述
在这里插入图片描述

3.2带有概率图模型的CNN模型:

由于前面提到的FCN架构未能充分捕捉全局语境特征,在纯CNN设计中表现出色于分类任务却显现出一定的局限性,在面对需要精确定位的目标分割任务时表现欠佳。为此,研究者建议将概率图模型融入CNN架构中以解决这一缺陷。其中一种常用的方法是将条件随机场(CRF)和马尔可夫随机场(MRF)等技术应用于深度学习框架中以提升分割精度。

在这里插入图片描述

3.3基于编码器-解码器的模型:

主要由两个模块构成。编码器利用特征提取网络获取图像特征。解码器采用反向卷积或上采样技术来恢复图像尺寸。生成分割标签。

在这里插入图片描述

上述网络在编码阶段因特征图尺寸不断缩小而导致信息损失。而在医疗领域中较为常见的一类网络包括U-Net和V-Net等模型。这些模型相较于上述架构则增加了编码器与解码器之间的级联操作以弥补这一缺陷。

在这里插入图片描述
在这里插入图片描述

3.4多尺度和基于金字塔的网络:

多层次应用极为广泛,在SIFT特征提取过程中,则利用了图像的高斯金字塔结构。从多层次设计的角度来看,则遵循着人类视觉感知的特点:远处物体成像较小而近处物体则成像较大。这种多层次的设计理念不仅能够反映物体与观察者之间的空间关系,并且在YOLO目标检测模型中被提出,在图像分割领域同样具有重要价值。

FPN:

在这里插入图片描述

以PSPN网络为架构的系统流程图中显示了如下过程:首先通过骨干网络对输入图像进行特征提取;接着通过金字塔池化结构生成多尺度特征表示;随后利用1×1卷积层对各尺度特征进行降维处理,并最终输出分割结果。

在这里插入图片描述

3.5基于R-CNN的分割模型

R-CNN作为一种两阶段检测模型,在目标检测领域具有显著的应用价值。它通过RPN网络生成候选框,并接着将这些候选框依次传递给一个分类器和一个回归器进行识别。

在这里插入图片描述

在此思想基础上提出了一种Mask R-CNN网络。相较于后者,在生成目标框时采用了不同的方法:前者通过坐标回归网络输出目标框的坐标和大小,在生成目标框时采用了不同的方法:前者通过坐标回归网络输出目标框的坐标和大小,在生成目标框时采用了不同的方法:前者通过坐标回归网络输出目标框的坐标和大小,在生成目标框时采用了不同的方法:前者通过坐标回归网络输出目标框的坐标和大小,在生成目标框时采用了不同的方法:前者通过坐标回归网络输出目标框的坐标和大小,在生成目标框时采用了不同的方法:前者通过坐标回归网络输出目标框的坐

在这里插入图片描述

3.6空洞卷积模型:

空洞卷积在性能上优于普通卷积,在感受域上表现出明显优势。具体而言,在使用空洞率设定为2的情况下,一个3×3的卷积核所具有的感受域范围与5×5标准卷积核的感光区域完全等同。基于此原理设计的核心组件构成了深度并行标签捕获(DeepLab)家族

在这里插入图片描述
在这里插入图片描述

3.7基于RNN的图像分割模型:

CNN表现出色于视觉问题领域,在此方面具有显著优势。然而,并非只有这一种解决方案可供选择。RNN能够有效地处理像素间的空间和时间关系,在图像分割任务中展现出较高的准确性与可靠性。此外,在提升分割精度方面表现尤为突出。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.8基于注意力机制的模型:

注意机制的主要功能是突出与任务相关的对象并避免关注与任务无关的部分;一些视觉Transformer通过将图像分割为多个区域或块来构建多头注意力机制;然而这种方法会导致计算负担加重;相较于这种方法,在实际应用中更常见的是对特征图进行分块处理以减少计算开销

在这里插入图片描述

3.9基于GAN的图像分割模型

生成网络承担分隔任务,在判别模型中整合生成数据与标签信息;通过对抗机制进行相互训练直至生成数据足以欺骗判别模型。

在这里插入图片描述

综上所述,在图像分割领域中基于学习的方法综述如下:该研究旨在为计算机视觉领域的同行提供若干参考方向。通过这一汇总分析可以助他们在遇到问题时迅速做出技术选择并进一步深入学习相应的解决方案。

请了解更多的CV领域的文章。建议您关注"IT极客帮"微信公众号,如扫描下方二维码。

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~