深度学习掩膜_深度学习算法图像分割算法
一、什么是图像分割?
预测图像中每一个像素所属的类别或者物体。
二、图像分割算法有哪些?
基于深度学习的图像分割算法主要分为两类:
1.语义分割
为图像中的每一个像素划分一个类别,例如识别并归类画面中的所有物体及其所属类别

2.实例分割
与语义分割相异的是实例分割,在特定物体上仅进行类别分配。值得注意的是这种分类方式与目标检测有相似之处然而目标检测通过边界框(boundary box)及类别(category)来定位识别对象而实例分割则通过生成(generate)一个掩膜(mask)及相应的类别信息来进行定位与识别

三、传统基于CNN的分割算法缺点
目前主流的基于卷积神经网络(CNN)的方法:旨在根据像素特征进行分类,在实际应用中通常会将该区域内的图像块作为CNN模型的输入数据;其中一部分用于模型训练以学习特征模式;另一部分则用于预测目标区域的存在及其边界;这种技术虽然在图像分割领域取得了显著进展;但同时也存在一些局限性。
在实际应用中发现该算法存在较高的计算复杂度问题,在具体实现时采用了基于矩阵分解的方法来优化计算效率,在计算过程中通过逐次迭代的方式逐步逼近最优解,在每次迭代过程中都需要对大规模的数据集进行特征提取与降维处理的过程中遇到了较多的技术难点
运算效率不高,在处理相邻像素块时存在高度相似性;对于每一个像素块都需要单独进行卷积运算,在这种情况下会产生大量的重复运算
由于像素块尺寸受限,在整幅图像中通常只能捕捉到有限数量的小区域特征点集,并因此导致分类性能受限
而全卷积网络(FCN)则通过从抽象特征中重建每个像素对应的类别信息。具体而言,在图像级别的分类基础上扩展至单像素级别的分类。
四、图像分割常见数据集
1、PASCAL VOC数据集
VOC 数据集分为20类,包括背景为21类,分别如下:
-
Person: person
-
Animal: bird, cat, cow, dog, horse, sheep
-
Vehicle: aeroplane, bicycle, boat, bus, car, motorbike, train
-
Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor
该数据集展示了用于比赛场景的图片实例,并包括原始图片以及基于图像分类和物体分割的两种格式(如PNG文件)。其中,在图像分类分割部分中涵盖20个不同的种类,在真实标注图片上为每个类别对象赋予独特的颜色编码。这些编码共计20种不同的颜色配置。

2、MS COCO
最大的图像分割数据集名称为MS COCO,并包含丰富且详细的80个类别标签系统。该数据集总共包含超过33万张高质量图片样本,并从中提取出约20万张具备高质量标注信息的图片用于训练与验证过程。该数据集涵盖超过150万个独特个体实例,并因其作为难度最高、挑战最为艰巨的图像分割基准库受到广泛关注。

3、CItyscapes
Cityscapes 是一个用于评估驾驶系统性能及效果的图像分割数据集。该数据集包含5,000张高度精确标注的照片以及2万张较为粗略但仍有参考价值的照片。这些图片涵盖了5个城市的多样场景与环境布局,并涉及3个类别:包括地面区域(如道路)、建筑结构(如住宅)、交通标识(如红绿灯)以及自然景观(如森林或湖泊)。此外,在Cityscapes评测集中有两个主要任务:一个是像素级别的图景分类(简称语义分割),另一个是实例级别的图景分类(简称实例分割)。

想要了解更多关于IT相关的信息,欢迎关注本公众号

