Advertisement

通俗讲解深度学习中的图像分割技术

阅读量:

来源:Python数据之道

作者:来自读者投稿

整理:阳哥

大家好,我是阳哥。

今天与大家探讨深度学习中图像分割技术的相关内容。文章内容由公众号的读者朋友原创编写。

欢迎各位童鞋向公众号投稿,点击下面图片了解详情!

[

该系统采用先进的算法框架...实现高效的任务处理能力...其中关键模块基于深度学习模型...能够精准识别复杂数据特征...整体架构设计充分考虑了系统的扩展性和可维护性。

近年来,在人工智能领域快速发展的背景下,在自动驾驶、目标检测和人脸识别等新兴科技领域中已开始逐步融入人们的日常生活。今天为大家带来了一场关于图像分割技术的深入探讨。

图像分割

图像分割技术即为一种基于特定原则将图片划分为若干具有明确特性和明显区别的区域段的方法,并进而提取出研究关注的重点区域。

下图展示了图像分割领域的几种子领域:

语义分割:在一幅图像中将整个图像划分为各个区域(包括背景),然而,在同一类别中的目标无法被进一步区分个体特征。

实例分割:通过实现图像中的目标分割任务,并使同一类别内的各个体能够被明确区分(如图所示,在第三幅图中每个人物均采用了独特的颜色标记)

  • 全景分割:在实例分割的基础上,可以分割出背景目标。

几种分割方式的关系

本图表解展示了语义分割的概念。该技术通过像素级别的图像识别方法,在深度学习框架中对输入的图片进行分析,并对图片中的每一个像素分配特定的类别标签。如图表所示,在这一过程中系统会根据预定义的分类标准输出对应的颜色标注来区分不同的类别。

从核心角度来看,语义分割与实例分割的主要区别体现在细节程度上。具体而言,在准确识别并分离出物体的基础上(即实现了对象的清晰界定),实例分割会进一步细化这些分离过程,并且完全忽视背景区域。

分割在图像中的表达

我们知道在计算机中的图像表现形式为数字化的形式每个目标在计算机中的识别均基于像素信息如图所示我们在对图像进行标注时会采用特定的方式标记各类物体具体而言我们可能会以1代表人2代表包以及3代表树叶并通过不同编号来区分类别

这些某些数值也被称作遮罩Mask(即Array),该术语标识为图像中存在特定类别的区域,并由每个类别组成一个数组。

图像分割应用

关于图像分割在多个领域有着广泛的应用

常用的图像数据集

图像分割领域常用的数据集有以下几种:

  • PASCAL VOC

  • COCO

  • BDD100K

  • CamVid

  • Cityscapes Dataset

  • ApolloScape Scene Parsing

PASCAL VOC

VOC 2012 数据集分为20类,包括背景有21类,分别如下:

  • 人:人

  • 动物:鸟、猫、牛、狗、马、羊

  • 车辆:飞机、自行车、船、巴士、汽车、摩托车、火车

  • 室内:瓶子、椅子、餐桌、植物、沙发、电视

数据集的下载链接为:

http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html

COCO

该注资计划下的COCO数据集于2014年由微软(MS)资助并发布。该数据集以其丰富的分类覆盖了80个种类,并包含约达33万张图片。其中约20万图片具有注释标记,并整体包含超过150万个独立样本。

数据集的下载链接为:

http://cocodataset.org/

BDD100K

在2018年5月,《深度求索》实验室发布了具有划时代意义的公开驾驶数据集BDD100K,并开发了一款创新性图片标注系统。该数据集共计包含来自不同环境下的真实道路行驶场景(共约6,666,667帧),并按每条视频其持续时间的三分之一处进行关键帧采样以获取高质量图像样本(具体为每条视频约33.33秒处)。这些高质量图像样本均采用统一的724.5度视角和89.9Hz帧率拍摄并完成标准化处理,并在此基础上建立起了完善的图像分类和目标检测基准集

数据集的下载链接为:

https://bair.berkeley.edu/blog/2018/05/30/bdd/

CamVid

CamVid被视为首个具备目标类别语义标注的视频库。该数据库包含32种基于真实数据的真实语义识别标签,并确保每个像素都与相应的语义类别匹配。

该数据库为实验数据提供了满足需求的支持,并通过定量分析来评估新型算法的表现。这些数据来源于驾驶汽车的现场拍摄。

数据集的下载链接为:

http://mi.eng.cam.ac.uk/research/projects/VideoRec/CamVid/

Cityscapes Dataset

由三个德国公司共同推出,并包含来自超过50个城市的城市立体视觉数据;其中包含了点级别的标注信息,并且支持相应的算法评测功能

数据集的下载链接为:

https://www.cityscapes-dataset.com/

ApolloScape Scene Parsing

百度公司所推出的‘ApolloScape’数据集将整合超清RGB视频序列、具备深度信息解析的高质量密集3D点云数据以及三维视图与全景影像资源。

Scene Parsing 数据集作为ApolloScape的一部分,在高级自动驾驶研究领域提供了相应的工具与数据。场景解析的目标在于对图像中每一个像素或点云中的每一个点进行分类标注。

对于几种不同的数据集进行了对比分析。根据不同的应用场景需求,我们可以选择相应的数据集来进行训练。

常用的图像标注工具

此处工作人员归纳整理了多种常见的图像标注工具,并旨在适用于多种不同的应用场景。

  • Labelme:

适用于通用物体的标注任务时可采用多边形拟合方法。支持对象检测和图像语义分割的数据标注过程,并使用Python和QT作为实现语言;此外还支持输出VOC与COCO格式的数据实例分割结果。

链接:https://github.com/wkentaro/labelme

  • LabelImg:

为图像检测任务专门设计的数据集构建中不仅在标签存储功能上而且在'Next Image'和'Prev Image'的设计上都较为简便易用。此外该软件最终生成的 XML 格式与 ImageNet 数据集格式完全一致。

链接:https://github.com/tzutalin/labelImg

  • RectLabel:

支持导出 YOLO、KITTI、COCOJSON 与 CSV 格式,读写 Pascal VOC 格式的 XML 文件。

链接:https://rectlabel.com/

  • VIA:

该工具由VGG公司推出的Web-based图像标注解决方案。操作简便且效率高。特别适用于实例分割等具体的标注场景。

链接:http://www.robots.ox.ac.uk/~vgg/software/via/

  • OpenCV/CVAT:

强大的计算机视觉标注工具具备先进的人工智能算法和强大的计算能力,在线提供丰富的标注功能包括:图像分类、目标检测模块、图像语义分割系统以及实例分割技术。能够处理多种类型的标注工作,并且其中最突出的特点是支持本地部署操作无需担忧数据泄露风险。

链接:https://github.com/opencv/cvat

  • VOTT:

微软推出了一款基于WEB技术实现本地化部署的视觉数据标注工具。该工具不仅涵盖图像和视频数据的标注功能,并且兼容Caffeine框架及Pascal VOC标准格式,在导出格式上也进行了多样化设计,目前主要分为V1和V2两个版本进行更新

链接:https://github.com/microsoft/VoTT

拓展阅读

全部评论 (0)

还没有任何评论哟~