基于深度学习的实例分割研究综述
实例分割总结
实例分割是计算机视觉中的关键任务,旨在识别和分割图像中的具体目标。它不仅需要识别目标类别,还需要精确分割出每个目标的像素区域。以下是关于实例分割的主要内容总结:
实例分割的定义与分类
定义:实例分割是一种高分辨率的目标分割技术,旨在识别并分割图像中每个目标的具体像素区域。
分类:
- 两阶段方法:先进行目标检测,再对候选区域进行分割。优点是可靠,但效率较低。
- 单阶段方法:将目标检测和分割任务结合,通过更复杂的网络结构同时完成两步操作。优点是效率高,但对训练数据和计算资源要求更高。
算法优缺点
两阶段方法:- 优点:可靠,适合复杂场景。
- 缺点:计算开销大,难以实时应用。
单阶段方法:- 优点:效率高,适合实时应用。
- 缺点:对训练数据和计算资源要求高。
目标检测的辅助作用:通过改进目标检测网络,可以提升实例分割性能。
数据集与评价指标
常用数据集:- COCO数据集:大型数据集,包含80类目标,广泛用于实例分割研究。
- Cityscapes数据集:专注于城市场景,适合语义分割和实例分割。
- Mapillary Vistas数据集:高分辨率街景数据集,支持密集像素标注。
- LVIS数据集:支持大量未知类别,适合大规模实例分割任务。
评价指标:- AP(平均精度):基于IOU(交并比)计算,评估不同IOU阈值下的分割精度。
- AP50、AP75:分别对应IOU=0.5和0.75的平均精度。
- APS、APM、APL:针对不同面积目标的分割精度。
未来展望
研究方向:
- 跨任务融合:探索实例分割与目标检测、语义分割等任务的互惠关系。
- Transformer的应用:利用Transformer在计算机视觉中的优势,提升实例分割性能。
- 遮挡与交叠问题:研究图卷积神经网络、胶囊网络和推理网络等方法。
- 小目标分割:针对像素面积小于322的小目标,结合超分辨率和注意力机制提升精度。
- 自监督学习:利用弱监督或无监督学习减少人工标注成本。
- 轻量化网络:优化网络结构,降低计算复杂度和内存占用。
应用前景:实例分割广泛应用于遥感、文字检测、交通系统、医疗图像
摘要**:** 深度学习在计算机视觉领域已经取得很大发展,虽然基于深度学习的实例分割研究近年来才成为研究热点,但其技术可广泛应用在自动驾驶,辅助医疗和遥感影像等领域。实例分割作为计算机视觉的基础问题之一,不仅需要对不同类别目标进行像素级别分割,还要对不同目标进行区分。此外,目标形状的灵活性,不同目标间的遮挡和繁琐的数据标注问题都使实例分割任务面临极大的挑战。本文对实例分割中一些具有价值的研究成果按照两阶段和单阶段两部分进行了系统性的总结,分析了不同算法的优缺点并对比了模型在COCO数据集上的测试性能,归纳了实例分割在特殊条件下的应用,简要介绍了常用数据集和评价指标。最后,对实例分割未来可能的发展方向及其面临的挑战进行了展望。
关键词**:**
- 计算机视觉技术 * /
- 实例分割方法 * /
- 图像分割技术 * /
- 卷积神经网络模型 * /
- 深度学习技术 * /
- 目标检测方法 * /
- 双阶段实例分割方法 * /
- 单阶段实例分割方法 *
近年来,深度学习及基于统一计算架构(如CUDA)的并行计算技术迅速发展,显著推动了计算机视觉和图像处理领域的技术革新。其中,实例分割作为计算机视觉中的基础性研究问题,其技术已在多个领域得到广泛应用,包括汽车自动驾驶、机器人控制、辅助医疗以及遥感影像处理等方面。
在计算机视觉的主要任务中,目标定位技术是通过识别图像中目标的具体位置与类别标签。语义分割则是一种在像素级别对图像进行分类的技术,它能够将图像分割为不同类别对应的像素区域。实例分割技术则可视为将目标检测与语义分割相结合的产物,其目标是识别图像中所有不同实例,并对每个实例所属的像素区域进行精确标注。这不仅要求对不同类别目标进行像素级别的分割,还要求对不同目标实例进行区分识别。相较于其他计算机视觉研究方向,实例分割技术面临的挑战在于需要同时完成目标检测、语义分割以及对不同实例的区分识别。
需要对图像中的每个目标进行定位和分类,并且由于实例的形状不可知,其语义遮蔽的预测更加灵活;该方法通过引入多尺度特征提取网络,能够显著提升目标检测任务的准确率和计算效率。
密集目标间的相互干扰和重合使得网络在区分不同实例时面临巨大挑战,而小目标实例的分割效果受限于整体细节信息的不足,难以显著提升。
耗时耗力的标注工作对人力和时间造成较大消耗,如何降低标注成本并充分利用现有标注数据(包括未标注或粗糙标注)来提升实例分割精度仍是一个亟需解决的关键问题。
1980年,日本学者福岛邦彦[1]提出了神经认知机模型,可被视为卷积神经网络的前身。Lecun[2]则提出了反向传播算法,使网络训练成为可能。之后,2012年,AlexNet[3]在ImageNet图像识别大赛中夺冠。自此,深度卷积神经网络引起了广泛关注,研究者将其应用于计算机视觉任务。近年来,实例分割研究基本上是建立在基于卷积神经网络的目标检测和语义分割的基础之上的。因此,从研究发展来看,实例分割任务可被视为卷积神经网络在计算机视觉领域成功运用的产物[4]。实例分割方法主要归纳为两阶段与单阶段两类。其中,两阶段实例分割主要采用两种思路:一种是基于检测的自上而下方法,另一种是基于分割的自下而上方法。而单阶段实例分割则可细化为感知实例分割、建模掩码、Transformer嵌入以及一些其他方法。
本文基于实例分割领域的研究现状,对算法的优缺点分析及主流方法的性能对比,同时深入探讨了特殊场景下的应用,最后系统梳理了常用的数据集和权威的评价指标,以期为相关研究提供有益的参考。
1. 实例分割研究现状
基于研究历程的梳理,实例分割技术主要分为两类处理模式:两阶段和单阶段,如图1所示,本文将分别对这两类技术进行深入探讨。
1.1 两阶段的实例分割
两阶段实例分割采用分阶段处理策略,其中自上而下的检测方法首先通过识别实例区域,随后对候选区域实施像素级分割。而自下而上的分割方法则将实例分割视为聚类问题,将像素分组为图像中呈现的任意数量的目标实例,最后通过判断每组的类别生成实例遮罩,这种方法不受目标框的束缚。
1.1.1 自上而下的实例分割
自上而下的实例分割研究得益于目标检测领域的丰富成果。下面将介绍几种具有代表性的分割方法。
2014年,Hariharan等[5]首次在SDS框架中实现了检测与分割的同步进行,这一创新性工作不仅奠定了实例分割算法研究的理论基础[6],还开创了实例分割算法的先河。如图2所示,具体研究流程分为四个关键步骤:首先,通过非极大值抑制(NMS)[7]算法为每张测试图像生成2000个候选区域;其次,同时训练两个不同的卷积神经网络(CNN)模型,分别提取候选区域和区域前景的特征;第三,利用CNN提取的特征训练支持向量机(SVM)分类器,对候选区域进行分类;最后,采用NMS算法进行多余区域的剔除,并结合CNN提取的特征生成特定类别的粗略掩码,用于对候选区域进行细化处理。将该掩码与原始候选区域进行融合,可以显著提升分割效果。
尽管SDS的性能略逊于后续方法,但SDS所采用的先通过检测生成候选区域,再结合语义分割的思想,为后续的实例分割研究提供了重要的启发。2015年,该团队对SDS进行了重新分析,指出仅依赖CNN顶层特征来解决实例分割问题存在掩膜细节不够精细的缺陷,即高层特征虽然具有丰富的语义信息,但缺乏精确的位置信息。例如,在底层特征图中可以定位目标部件,但缺乏丰富语义信息来判别该目标部件具体归属哪个物体。因此,引入了Hypercolumns[8](所有CNN层在该像素位置的激活输出向量集合)作为特征描述符,将底层特征与高层特征融合,从而提升了分类的精确度并改善了目标分割细节。
随后,CFM[9]算法首次引入了掩码(mask)这一关键术语到实例分割领域。该算法通过矩形框利用特征图生成掩码,并将任意区域转换为固定大小的特征,以提高处理效率。具体而言,该方法是从卷积特征中获取掩码,而非从原始图像中提取。
DeepMask[10]是首个直接从原始图像数据学习产生分割候选的工作。简单讲,给定一个图片块作为输入,输出一个与类别无关的mask和相应的分数。它最大的特点是不依赖于边缘、超像素或者其他任何辅助形式的分割,是用分割的方法来生成高召回率的候选区域。但缺点是只能捕捉目标大致外形,不能准确描绘目标边界。为了优化DeepMask的掩码,SharpMask[11]先在前向反馈通道中生成粗略的掩码,并在自上而下的通道中引入较低层次富有位置的特征逐步加以细化,最后产生具有更高保真度的能精确框定物体边界的掩码。

图****1 本文涉及的实例分割方法
Fig. 1 Paper focuses on the instance segmentation methods
下载: 全尺寸图片

图****2 SDS网络
Fig. 2 SDS network
下载: 全尺寸图片
但是,前述方法在生成候选掩膜区域时,未能充分利用深度学习特征和大规模训练数据的优势,导致推断速度较慢。这些因素都是影响实例分割性能的关键瓶颈。2016年,何凯明团队在多任务网络级联(MNC)[12]中,提出了一个级联架构,如图3所示,将实例分割任务划分为目标定位、掩码生成和目标分类三个子任务。这些子任务共用一个主干网络结构,并通过级联的方式进行处理,即每个子任务的输出依次作为下一个子任务的输入。这种设计使得主干网络能够共享三个子任务的监督信号,从而更有效地学习到有用的特征。此外,该架构的一个显著优点是能够快速实现推断过程。

图****3 MNC网络
Fig. 3 MNC network
下载: 全尺寸图片
随着计算机并行处理能力的显著提升和目标检测网络性能的持续优化,实例分割研究领域正迎来新的发展机遇。在创新设计理念与认知层面的突破相互碰撞的过程中,学术活力不断被激发。
2017年,何凯明团队提出了一种简单通用且性能卓越的两阶段Mask R-CNN方法[13],这一方法被认为是将Faster R-CNN[14]技术应用于实例分割的经典方案。该方法不仅为许多衍生应用提供了基线算法,而且因其高效性而成为实例分割领域应用最多、效果最突出的算法之一。该方法的成功不仅推动了实例分割技术的发展,还引发了该领域一系列创新研究的兴起。Mask R-CNN通过在目标分类和回归分支中引入语义分割分支,实现了对每个感兴趣区域的语义预测。网络架构如图4所示,其基础网络采用了ResNet-FPN[15-16]结构,多尺度特征图有助于更精确地检测不同尺寸的目标。具体而言,该方法将输入图像输入到特征提取网络,生成多尺度特征图。随后,在每个像素位置设定固定数量的区域候选框(锚框),并将这些区域候选框输入区域建议网络(RPN)进行分类(前景与背景)及坐标回归,以获得修正后的区域候选框。为保持特征分辨率,该方法采用ROIAlign操作取代了传统的ROI Pooling,避免了取整操作,通过双线性插值保留了所有浮点数信息。此外,该方法还增加了mask掩码分支,用于预测每个像素的类别。通过引入全卷积神经网络(FCN)结构,该方法实现了端到端的像素级分类,从而获得了较好的分割效果。值得注意的是,2018年Masklab[18]对Faster R-CNN进行了改进,并新增了语义分割和实例中心方向的输出。由于Mask R-CNN方法对实例分割研究具有重要启发意义,后续研究者在此基础上展开了多项创新工作。
在2018年,PANet[19]在Mask R-CNN的基础上整合了自下而上的改进路径,并增加了金字塔特征提取网络的规模。DetNet[20]通过将空洞卷积应用于骨干结构,既保持了特征分辨率,又扩大了感受野。同时,该方法通过重新训练骨干网络来提升对检测和分割任务的特征表达能力。

图****4 Mask R-CNN网络
Fig. 4 Mask R-CNN network
下载: 全尺寸图片
2019年,MS R-CNN[21]提出了一种基于分类指标的mask打分策略,但该方法存在缺乏具有针对性的评价机制的问题。基于此,在Mask R-CNN的基础上,我们对mask评价标准进行了优化,通过引入Mask IOU分支,对生成的mask进行预测和评分,从而有效提升了模型的实例分割性能。与此同时,何凯明团队[22]提出了一种全新的PointRend方法,将实例分割视为图像处理中的渲染问题,对Mask R-CNN生成的粗糙掩膜边缘进行了细化处理。具体而言,首先在边缘上选取若干关键点,随后提取这些点的特征并进行迭代计分计算,最终实现对掩膜的细化。
2020年,BMask R-CNN[23]通过整合目标边缘信息到Mask R-CNN中,以监督网络为基础,旨在提升掩码预测的准确性。
2021年,BPR[24]提出了一种后处理细化模块,旨在提升Mask R-CNN的边界质量。RefineMask[25]则通过融合边缘信息与语义分割信息,对Mask R-CNN生成的粗糙掩码边缘进行细化处理。姜世浩等[26]在基于Mask R-CNN的实例分割框架中引入了两条分支结构,以解决边界预测中存在的粗糙问题。BPR采用了一种裁剪细化策略,首先通过实例分割网络(如Mask R-CNN)获取初始的粗糙掩码。随后,在掩码边界上提取了一系列的方块区域,这些区域被输入到细化网络中进行前景与背景的二分类判断,从而对边界处的方块进行优化处理。该方法能够有效改善Mask R-CNN预测的掩码边界不细腻的问题。RefineMask[25]则通过多阶段的细粒度信息融合,逐步提升实例掩模的精细化程度。具体而言,RefineMask成功克服了传统分割方法在处理复杂案例(如物体弯曲部分过度平滑)时的不足,并输出了更为精确的边界特征。此外,RefineMask还引入了一种基于FCN的语义特征生成方法,该方法偏重于空间位置信息。通过融合多个特征图,生成了信息更加丰富的综合特征图,从而进一步提升了模型的边界检测能力。
但是上述自上而下的实例分割方法缺点在于:
该方法在一定程度上主要依赖精确的目标检测,同时实例掩码的分辨率较低。
在处理较为复杂的多实例场景时,基于两阶段方法的系统在前期需要单独设计网络以产出大量建议区域,这导致其推理时间与建议框的数量呈正比关系,最终使得推断速度较慢。
3)该方法在处理同一类别中存在重叠的实例时,仍然存在一定的局限性,即难以精确地区分这些重叠的实例。此外,掩码分割的细节处理不够精细,导致分割结果的平滑性不足。
1.1.2 自下而上的实例分割
为了克服目标检测边界框对后续分割的限制问题,研究者们另辟蹊径,从另一个角度审视实例分割问题。他们将实例分割问题转化为图像聚类任务,即需要将图像中属于同一物体的所有像素聚为一类,并判断该物体的类别。这种基于分割的方法通常会学习经过特殊设计的转换形式或实例边界,并以类似嵌入的方式将点聚类到实例掩码中。以下将介绍几种具有代表性的方法。
研究者BAI等[27]通过FCN网络优化分水岭变换的能量计算,随后通过能量分割方法将图像划分为多个区域,每个区域代表一个实例。Associative embedding[28]通过学习关系嵌入将像素分组,实现像素分配。研究者Brabandere等[29]引入判别损失函数,通过推开不属于同一实例的像素并缩小不同实例像素之间的距离,有效学习像素级别的实例嵌入。研究者SGN[30]采用序列组合网络,将实例分割问题分解为一系列子类分组问题。每个网络依次解决随着语义复杂度不断递增的子分组问题,最终从像素层面构建对象。研究者Gao等[31]提出学习像素对亲和力金字塔的方法,即通过计算两个像素属于同一实例的概率,并基于此生成实例。研究者Fathi等[32]与研究者Brabandere等[33]将实例分割问题分解为逐像素语义分割任务,针对每个像素预测其对应实例的坐标信息,并统计实例类别数量。同时,他们尝试通过特征嵌入的方式为每个像素学习特征表示,并基于特征距离对像素进行聚类。
该类方法通过将像素划分为图像中呈现的任意数量的对象实例来生成实例掩码,与基于自上而下的方法相比,自上而下方法的缺点在于:
1)严重依赖于密集的预测质量,导致性能不够标准或产生碎片掩码;
因为聚类过程存在明显的局限性,使其难以有效应对复杂的情况。在准确性方面,该方法表现不如其他更先进的算法。特别是在处理包含多种复杂场景和丰富语义类别的数据集时,泛化能力显得不足。
3)预测之后的处理技术很复杂。
综合分析两类方法后发现,自上而下严重依赖目标检测效果,而自下而上虽然天然克服了基于建议框的缺陷,转而对每个像素进行嵌入学习和分组处理,但一般无法端到端训练,受限于聚类算法,其性能表现有限。那么,是否有一种方法能够绕过这些限制直接实现实例分割呢?
1.2 单阶段的实例分割
受单阶段目标检测的启发,现有方法将实例分割统一至FCN[17]框架内。基于FCOS[34]这一单阶段全卷积一阶段目标检测框架,衍生出一系列单阶段的实例分割算法。此外,一些研究重新探讨了掩膜的合理表征方式,以进一步提升实例分割的精度。近年来,研究人员在图像实例分割领域成功应用了自然语言处理中的Transformer模型,取得了较为理想的效果。此外,其他方法则综合运用了实例分割与目标检测的优势,得以实现。单阶段的实例分割任务,其难点主要体现在无需辅助建议框的前提下,如何直接区分不同物体,尤其是同类物体的不同实例,同时完整保存各像素点的空间位置信息及其语义信息。
1.2.1 感知实例分割
从本质上讲,实例分割可以被视为基于实例位置感知的语义分割。需要在区域层面进行操作,同时,同一像素在不同区域中可能具有不同的语义,如图5所示。
图5(a)展示的FCN架构简洁明了,其高效性能在语义分割任务中得到了广泛应用。Instance FCN[35]首次将FCN网络应用于实例分割任务,通过将实例特征嵌入到位置敏感图中,实现了目标实例的平移不变性。具体而言,该方法将FCN的输出通道数扩展为多个,每个通道专门捕获不同实例的位置信息,通过融合位置敏感图生成每个实例对应的掩膜。
图5(c)中的全卷积感知实例分割(FCN instance-aware)[36]对实例分割中的类别信息提取问题进行了针对性改进。通过内外位置敏感评分图,实现检测与分割实例的同步进行。不仅共用卷积特征,还共享位置敏感评分图。随后,王子愉等[37]在检测分支中引入了大型可分离卷积模块,以提升边界框检测的精确性。并设计了一个包含边界细化操作的分割模块,以获得更精确的掩模。
在2019年,加利福尼亚大学开发了一种新型实例分割算法[38]。这一全卷积实例分割模型以其实时性著称,其速度远超现有算法,但精度略显不足。YOLACT将任务划分为两个关键步骤:首先,生成与FCN相似的语义分割原型图;其次,提取检测框。通过将这两个模块的结果融合,最终生成分割掩码。研究团队随后对该算法进行了优化升级,开发出性能更优的YOLACT++版本[39],其速度达到惊人的33.5帧每秒,进一步推动了实时实例分割技术的前沿。

图****5 FCN系列网络
Fig. 5 FCN series network
下载: 全尺寸图片
2020年份,CondInst[40]实现了真正的高速性能,同时保持了高精度水平,并彻底摒弃了依赖检测器辅助的方案。该方法通过动态卷积机制生成实例敏感的滤波器,从而更精准地编码实例特征,无需依赖目标框及传统的ROI Pooling等对齐技术。该系统采用FCOS算法进行实例类别检测,随后结合动态生成的掩码参数与提取的含相对坐标信息的掩码特征图,执行卷积操作以生成最终的实例mask。与此同时,SOLO[41]方法将图像作为输入,在全卷积特征图上直接输出各类别概率,实现实例蒙版生成,该方法完全无需目标框监督,既不依赖传统的ROI Pooling步骤,也不需要进行检测后处理流程[42]。SOLO方法通过将正样本栅格化,使得每个栅格对应一个物体的掩码,从而实现每个正样本对应一张独立的掩码图。SOLOv2[43]在此基础上提出了一种动态学习分割目标掩码的新思想,将其分解为独立的掩码核学习和掩码生成两个分支。此外,该方法还引入了专门针对掩码的后处理技术Matrix NMS,该方法能够一次性完成并行矩阵运算,相较于传统基于NMS[44]的目标检测后处理方法,显著提升了实例检测的精度和效果。
该研究围绕基于点特征的实例分割两大关键问题展开。首先,针对如何通过点特征实现更强大的遮蔽表达能力以及在潜在特征错误分配建议框阶段解决后续分割错误的问题,提出了一种名为实例感知卷积的新模块。其次,从另一个角度解决基于点特征的一阶段实例分割问题,即不同目标实例间的区分与逐像素特征的对齐问题。具体而言,该方法将问题分解为两个子任务:第一,在局部区域使用目标中心点进行遮蔽表达,特别在多目标重叠场景下表现显著;第二,在整幅图像范围内生成全局遮蔽掩码。最后,通过融合局部实例感知的粗略遮蔽掩码与全局遮蔽掩码,实现对实例分割结果的精确提取。此外,BlendMask方法通过引入更为合理的融合模块,有效整合高层与底层语义信息,从而提升实例分割特征的准确性。与现有主流方法不同,AdaptIS则独特之处在于,它不仅接受输入图像,还需用户在目标上标注特定点位。即,只需在目标身上标注一个关键点,即可生成该目标实例的分割遮蔽掩码。
1.2.2 建模掩码
传统的掩码表征方式采用二值化方法,即通过矩阵的形式来表示,其中矩阵元素仅包含0和1,1标记物体区域,0标记背景区域。目前,大多数掩码方法仅局限于对二维矩形框的建模,而现实中,物体的形状通常呈现不规则的多边形特征。因此,一些研究人员致力于探索如何更合理地建模掩码,以解决实例分割问题。
2019年,Tensormask[49]基于4D结构化张量在空间域构建了掩码,其基于局部掩码的编码方式具有开创性特征,且被视为首个密集滑动窗口实例分割系统的先驱。然而,该方法在推理速度上明显慢于两阶段Mask R-CNN模型,且所需训练时间是后者六倍之多。2020年,Polarmask[50]提出了一种创新的掩码编码形式,通过极坐标建模多边形目标,将像素级别的掩码预测转化为极坐标系下的中心点分类与距离回归问题。然而,研究发现Polarmask在分割结果中存在边缘信息模糊现象,为此提出了一种轮廓点细化方法。该方法通过对轮廓点角度偏置和距离的预测,使网络能够提取更为精确的实例轮廓。与此同时,Deep Snake[51]则采用边缘建模的方式表征物体特征。通过结合传统Snake算法,首先在特征图上设定初始边缘,随后为边缘上的每个节点提取特征,最终将循环卷积网络应用于边缘上的特征学习,最终将特征映射为指向物体轮廓的偏移量,用于变形边缘的优化。
尽管基于轮廓建模的方法在优化和推理方面具有显著优势,然而,该方法也存在固有的局限性,未能有效表征目标中出现的空洞区域。因此,MEInst[52]通过放弃对目标检测的依赖,专注于压缩掩码的宽度与高度乘积。从信息论的角度来看,传统掩码表示不可避免地存在冗余信息,因此可以使用更低的比特数对其进行表征,并通过主成分分析法将掩码编码为一个统一的矩阵。
2021年实例分割建模掩码的核心在于在无实例像素标注的情况下实现实例分割任务。LSNet[53]借鉴Polarmask提出了一种通用建模方案,适用于实例分割和姿态估计领域。Implicit PointRend[54]通过点级实例标注提供了一种弱监督的新方法,将边界框标注与标签点相结合。BoxInst[55]提出了一种仅依赖边界框进行监督的实例分割方法,其核心思想是重新设计掩码损失函数,无需修改分割网络。这种新的损失函数能够直接监督掩码训练,无需依赖掩码注释。
1.2.3 Transformer 嵌入
近年来,Transformer模型在自然语言处理领域的突破性发展引起了计算机视觉领域的广泛关注。其核心组件是多头注意力机制,这一机制显著提升了模型的性能水平。在实例分割任务的研究中,已有研究者将Transformer架构应用于图像实例分割任务,并取得了较为理想的效果。其中,ISTR[56]是首个基于Transformer的端到端实例分割框架。该框架通过预测低维掩码嵌入和采用循环细化策略,同时实现实例的检测与分割。与传统的自上而下和自下而上架构相比,该方法为实例分割提供了全新的思路。SOTR[57]则通过简化分割流程,提出了两个并行子任务:首先,利用Transformer预测每个实例的类别标签;其次,通过多级上采样模块动态生成分割掩码。此外,研究者还提出了双Transformer架构,在一定程度上提升了分割精度和训练的收敛性。值得注意的是,编码器–解码器架构的Transformer模型通过一系列可学习的掩码嵌入实现了对实例分割任务的统一建模。与基于CNN的传统视觉模型相比,视觉Transformer在实例分割任务中展现出更强的竞争力。
1.2.4 其他方法
经过上述介绍可知,实例分割在某种程度上依赖于目标检测任务,近年来发展出了许多优秀的算法来解决这两个任务,并且都取得了显著的效果。实际上,目标检测属于目标级别的任务,这类任务更关注物体级别的特征,对分辨率要求不高,但需要更多的高级语义信息。而实例分割任务属于像素级别的任务,这类任务需要输出逐像素信息,对分辨率要求较高,需要更多的细节信息。然而,目前鲜有文章深入探讨两者之间的关联。这里介绍目前的一些工作。
一项具有代表性的研究工作,采用级联体系结构逐步完善了两大任务,并在计算资源消耗上取得了令人满意的成果。然而,这种多阶段设计架构带来了计算量较高的挑战。Cascade R-CNN在每个级联阶段增加了分割分支模块,成功将级联架构扩展至实例分段任务。RDS Net构建了双流网络架构,有效缓解了实例掩码分辨率较低的问题,同时降低了对目标框高度依赖的风险,以及纠正了边界框定位偏差。为此,该网络引入了三个关键模块:目标框辅助实例掩码关系模块、掩码修剪模块和掩码细化目标定位模块。Embed Mask通过融合建议框嵌入和像素嵌入的概念,实现了基于建议框方法与细分方法的融合,从而能够根据实例建议框间的嵌入相似性,实现对像素的合理分配。
就目前而言,单阶段实例分割算法种类繁多,其解决方案思路较为宽泛。就目前而言,该算法在精度和速度方面表现最为突出,就目前而言,该算法在精度和速度方面表现最为突出,就目前而言,该算法在精度和速度方面表现最为突出。同时,该算法成功规避了传统检测框的局限性,未来,该技术可能成为研究重点之一。
1.3 算法优缺点对比和实验结果比较
本小节对文中涉及的部分实例分割算法进行优缺点对比分析和性能评估。表1展示了不同实例分割算法的优缺点对比结果,而表2则基于COCO(microsoft common objects in context)数据集对这些算法的性能进行了详细对比。在算法设计方面,本文选择了基础网络相同且未引入任何额外的训练技巧,以确保算法性能比较的公平性。所有实验结果均在COCO公开测试数据集上进行,该数据集因其广泛使用而具有代表性,其特点包括复杂的背景、丰富的目标种类和数量,以及较小的目标尺寸,这些因素都增加了实例分割的难度。算法性能主要通过以下指标进行评估:精度(COCO评价标准,详细内容见3.5节)、模型参数量(#Params)和推断速度(fps)。其中,fps表示每秒帧数,数值越大表明算法运行速度越快,"−"表示数据未知,学习率规则采用"1×"表示模型训练12个epoch(180K iterations),"3×"表示36个epoch,以此类推。表1和表2主要从两阶段和单阶段两类对通用场景下的实例分割算法进行了分类总结。从精度指标来看,基于相同基础网络的两阶段算法普遍优于单阶段算法,且所需训练迭代次数较少。然而,从速度指标来看,单阶段算法运行更快,但其精度水平处于中等水平,以大量训练迭代次数为代价。因此,在实际应用中,需根据具体需求选择合适的算法。综合分析表明,目前尚无一种算法能够同时兼顾高精度和高速度,未来研究方向可进一步探索提升实例分割速度与精度的平衡点。
表****1 不同实例分割算法的优缺点对比
Table 1 基于不同实例分割算法的对比分析
| 算法 | 年份 | 技术 | 优点 | 缺点 |
|---|
| 两阶段 | SDS[5] | 2014 | 基于语义分割的掩码候选区域生成 | 最早提出实例分割算法 | 掩码初步 |
| Hypercolumns[8] | 2015 | 改进后的SDS通过融合底层与高层特征提升了分类的精确性并改善了目标分割细节 | | |
| CFM[9] | 2015 | 从卷积神经网络提取掩码而非直接从原始图像中提取 | 首次将掩码(Mask)引入实例分割领域 | |
| DeepMask[10] | 2015 | 生成具有高召回率的候选掩码区域 | 不依赖于边缘检测、超像素等传统特征 | 只能描述目标的大致轮廓,无法精确刻画边界细节 |
|MNC[12]|2016|采用级联结构,整合了三个不同功能模块 | 快速实现推断过程 | |
| SharpMask[11] | 2016 | 对DeepMask进行改进,通过细化低层位置特征来提升定位精度。该方法能够更精确地框定物体边界。边界区域的掩码计算相对缓慢,这可能影响整体效率。 |
| Mask R-CNN[13] | 2017 | 对Faster RCNN框架进行了优化,整合了ResNet-FPN、ROIAlign和FCN的mask分支技术。该改进能够并行完成目标检测和分割两项核心任务,但依赖于目标检测结果的准确性。 |
| PANet[19] | 2018 | 该方法通过自下而上的特征提取和自适应融合的ROI池化技术,增强了不同尺度特征间的互信息融合能力。该改进未对现有功能进行详细描述 |
| DetNet[20] | 2018 | 在骨干网络中引入空洞卷积结构,以提高特征表达能力。该改进未对现有功能进行详细描述 |
| --- | --- | --- | --- | --- | --- | --- |
| PointRend[22] | 2019 | 将实例分割视为细化Mask R-CNN的结果处理,这一过程较为复杂。 |
| BMask R-CNN[23] | 2020 | 通过将目标边缘信息融入掩码分支,进一步细化掩码边缘。 |
| Associative embedding[28], SCI[33] ,SGN[30] | 2017 | 将学习关系嵌入成组以分配实例,并引入判别损失函数,结合序列组合网络 | 不依赖检测的候选框 | 精度较低 |
| 单 阶 段 | Instance FCN[35] | 2016 | 位置敏感图 | 基于实例的位置感知的FCN | 精度较低 |
| FCIS[36] | 2017 | 内/外的位置敏感图 | 改进[35]的网络无法输出目标类别 |
| YOLACT[38]/ YOLACT++[39] | 2019 | 融合原型图和检测框的网络 | 实时实例分割 | 精度低于两阶段方法 |
|---|
SOLO[41]/ SOLO V2[43] | 2019 | 通过提取目标的特征点并采用栅格划分方法,结合矩阵非极大值抑制(NMS)技术,实现目标检测。 | 该方法具有较快的运行速度和较高的检测精度。 | 该算法的训练耗时较长。
TensorMask[49] | 2019 | 基于四维张量构建掩膜,并采用密集滑动窗口进行分割,以提高分割效率。 | 该算法的推理分割速度较慢,且计算复杂度显著提升。
Polarmask[50]|2020|采用基于极坐标建模的掩膜方法,其创新性在于对目标边缘信息的详细刻画。 | 然而,该方法在边缘信息的细节描述上仍显不足,导致边缘信息的模糊性。
| Deep Snake[51] | 2020 | 边缘建模mask | 易于优化和快速推断 | 不能很好表征目
标中出现的空洞 |
| MEInst[52] | 2020 | 矩阵编码mask | 去除信息冗余 | 精度差些 |
|---|---|---|---|---|
| BlendMask[47] | 2020 | blender融合高层和底层的特征 | 更准确分割mask | — |
| CondInst[40] | 2020 | 动态网络直接输出掩码 | 高速高精度 | 大目标缺少分割细节 |
| LSNet[53] | 2021 | 一种应用于检测任务、实例分割以及姿态估计领域的通用建模框架 | 无需复杂的掩膜标注 | 该方法的精度稍逊于其他方法
表****2 不同实例分割算法的性能对比
Table 2 A comprehensive evaluation of various instance segmentation techniques for performance assessment
| 算法 | 基础网络 | 学习规则 | AP | AP50 | AP75 | APS | APM | APL | #Params | fps | GPU |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Mask R-CNN[13] | ResNet-101 FPN | 1× | 35.7 | 58.0 | 37.8 | 15.5 | 38.1 | 52.4 | 135.0M | 5.1 | V100 |
| Mask R-CNN[13] | ResNeXt-101-FPN | 1× | 37.1 | 60.0 | 39.4 | 16.9 | 39.9 | 53.5 | 137.1M | 7.9 | V100 |
| Masklab[18] | ResNet-101 | 1× | 35.4 | 57.4 | 37.4 | 16.9 | 38.3 | 49.2 | — | — | — |
| PANet[19] | ResNeXt-101-FPN | 1× | 40.0 | 62.8 | 43.1 | 18.8 | 42.3 | 57.2 | — | 23.8 | V100 |
| MS R-CNN[21] | ResNet-101 FPN | 1× | 38.3 | 58.8 | 41.5 | 17.8 | 40.4 | 54.4 | 208.6M | 5.9 | V100 |
| Point Rend[22] | ResNet-50-FPN | 1× | 36.3 | — | — | — | — | — | 147.2M | — | — |
| BMask [23] | ResNet-101-FPN | 1× | 37.7 | 59.3 | 40.6 | 16.8 | 39.9 | 54.6 | 195.4M | — | — |
| FCIS++[36] | ResNet-101-C5 | 1× | 33.6 | 54.5 | — | — | — | — | — | — | — |
| YOLACT550[39] | ResNet-101-FPN | 4× | 29.8 | 48.5 | 31.2 | 9.9 | 31.3 | 47.7 | — | 33.3 | V100 |
| Cascade Mask R-CNN[59] | ResNet-101-FPN | 1× | 38.4 | 60.2 | 41.4 | 20.2 | 41.0 | 50.6 | 252M | 8.1 | V100 |
| HTC[58] | ResNet-101-FPN | 1× | 39.7 | 61.8 | 43.1 | 21.0 | 42.2 | 53.5 | 326.4M | 2.4 | V100 |
| SOLO[41] | ResNet-101-FPN | 6× | 37.8 | 59.5 | 40.4 | 16.4 | 40.6 | 54.2 | 67.4M | 22.8 | V100 |
| SOLOv2[43] | ResNet-101-FPN | 6× | 39.7 | 60.7 | 42.9 | 17.3 | 42.9 | 57.4 | 65.5M | 31.4 | V100 |
| Tensormask[49] | ResNet-101-FPN | 6× | 37.1 | 59.3 | 39.4 | 17.4 | 39.1 | 51.6 | — | 2.7 | V100 |
| Polarmask[50] | ResNet-101-FPN | 1× | 30.4 | 51.9 | 31.0 | 13.4 | 32.4 | 42.8 | — | 12.3 | V100 |
| MEInst[52] | ResNet-101-FPN | 1× | 33.0 | 56.4 | 34.0 | 15.2 | 35.3 | 46.3 | 36. 9M | 16.2 | V100 |
| CenterMask[46] | Hourglass-104 | — | 34.5 | 56.1 | 36.3 | 16.3 | 37.4 | 48.4 | — | 12.3 | V100 |
| BlendMask[47] | ResNet-101-FPN | 3× | 38.4 | 60.7 | 41.3 | 18.2 | 41.5 | 53.3 | 54.7M | 9.8 | 1080Ti |
| CondInst[40] | ResNet-101-FPN | 3× | 39.1 | 60.9 | 42.0 | 21.5 | 41.7 | 50.9 | 54.3M | 12.0 | 1080Ti |
| ISTR[56] | ResNet-101-FPN | 3× | 39.9 | — | — | 22.8 | 41.9 | 52.3 | — | 11.0 | 1080Ti |
| SOTR[57] | ResNet-101-FPN | 3× | 40.2 | 61.2 | 43.4 | 10.3 | 59.0 | 73.0 | — | 7.14 | V100 |
2. 实例分割的特殊应用
实例分割作为一种在像素级别进行的目标识别技术,在多个领域中已经得到了广泛应用。具体来说,该技术在遥感影像领域中,相关研究通常引用编号为62至67的文献;在文字检测领域,相关工作主要集中在68至70号文献;而人脸检测领域则主要参考了71至72号文献;此外,在辅助驾驶系统和医疗图像处理领域,相关研究分别引用了73至76号以及77至78号文献。这些应用覆盖了从遥感到医疗的广泛场景。
遥感图像中涉及物体识别任务,从而推进测绘工作[79]。李澜[80]将Mask R-CNN应用于高分辨率光学遥感影像的目标检测和实例分割任务中,旨在通过该方法在地图上发现未被发现的地理实体并提升矢量地图的质量。瑚敏君等[65]在现有Mask R-CNN特征提取架构上,对各层级的特征图进行进一步处理,增加了额外的卷积操作。接着,在原有掩膜预测架构基础上增加了分支结构,从而实现了高效且精确的高分辨率遥感影像建筑物提取算法。王昌安[79]则专用于光遥感影像中近岸舰船的检测任务。
辅助驾驶系统不仅需要在行驶过程中感知不同的车道线,还需完成驾驶模式的决策,同时对周围的车辆、行人等进行评估,判断当前的驾驶环境。邓琉元等[83]针对无人驾驶中环视相机所呈现的环形图像中存在目标几何畸变难以建模的问题,在Mask R-CNN框架中引入可变形卷积和可变形ROI Pooling,以提升网络对几何形变的建模能力,从而实现对环视鱼眼图像中交通目标的准确实例分割。蔡英凤等[73]和田锦等[74]将实例分割技术应用于车道线检测,解决了传统算法易受光照变化、阴影遮挡等环境干扰的缺陷。最后,所提出的算法能够实现复杂交通场景下的多车道线实时检测。此外,陈健雄[84]进一步提出,实例分割模型在中低速磁浮列车接触轨固件的松动状态识别方面具有显著优势,从而保证了城市轨道交通的安全运行。
医疗图像处理涉及对血管、骨骼、细胞等区域的分割与检测,以辅助医生完成诊断和研究工作[81]。此外,该技术不仅降低了误诊率和漏诊率,同时也为实例分割提供了重要支持。赵旭[77]研究基于实例分割的乳腺超声肿瘤识别技术,其研究目标是识别出乳腺超声图像中的肿瘤区域。郑杨等[78]在Mask R-CNN模型中引入了空洞卷积,以实现宫颈细胞图像的分割。吴宇[85]则提出了一个基于级联的3D椎骨分割网络,为医学图像分析提供了新的解决方案。
可见,实例分割技术已在其应用领域中展现出显著的广泛性,主要基于两阶段Mask R-CNN[13]框架且具有显著的算法效果。展望未来,该技术必将继续取得更广阔的发展前景。
3. 数据集与评价指标
在深度学习领域,研究者们致力于利用计算机算法自动识别数据中的规律,并通过这些规律来执行相应的操作。值得注意的是,数据规模在推动深度学习领域发展方面起着关键作用,而构建大规模数据集则是实例分割研究中的核心任务之一。目前,公开的大型数据集通常来源于公司、科研机构或专业赛事等渠道,这些数据集需要经过大量人工标注才能使用,其时间成本较高[86]。本节将简要介绍几种常用的实例分割数据集及其评价指标。
3.1 COCO 数据集
COCO数据集源于2014年,由微软注资标注而成。与ImageNet竞赛齐名,被视为计算机视觉领域最具影响力的竞赛之一。COCO数据集是一个大型丰富的目标检测、实例分割和字幕数据集合。以场景理解为目标,该数据集主要从复杂的日常场景中提取,图像中的目标通过精确分割确定位置。图像包含91个类别,共32.8万张影像,附有250万标签。数据集划分为训练集、验证集和测试集三个部分,已成为评估实例分割算法性能最权威的公开数据集。
3.2 Cityscapes 数据集
Cityscapes[88]是一个大型城市场景数据集,主要用于支持语义分割任务。该数据集包含5000张反映城市环境驾驶场景的高质量图像,其中训练集包含2975张图像,验证集包含500张图像,测试集包含1525张图像。这些图像详细记录了50个不同城市的街道景观,并且该数据集提供了19个类别的像素级标注信息,其中约97%的图像具有完整的像素标注覆盖,其中8个类别还提供了实例级别的分割标注信息。
3.3 Mapillary Vistas 数据集
Mapillary Vistas[89]数据集是一个全新构建的大规模街景数据集,旨在支持语义分割任务和实例分割任务,其目标是为视觉道路场景理解提供更高效的算法开发支持。该数据集包含25000张超分辨率彩色图像,分类为66个类别,其中37个类别是具体标注的实例类别。对物体的标签注释,采用多边形进行详细且精确的描绘。相较于Cityscapes,Mapillary Vistas的注释量是Cityscapes的5倍多,并且涵盖了全球范围内不同环境条件下获取的图像,包括多变的天气、季节和时间特征。
3.4 LVIS 数据集
LVIS[90](large vocabulary instance segmentation)是由Facebook AI Research于2019年开发的一种大型实例分割数据集。目前,现有的实例分割数据集的目标类别相对有限,而实际应用场景中存在大量未知类别,这与现有数据集的设定存在矛盾。为此,LVIS团队收集了164000张图像,对1000多个对象类别进行了详细标注,生成了220万个高质量的实例分割掩码标签。与COCO数据集相比,LVIS的人工标注掩码具有更大的重叠面积、更平滑的边界连续性和更高的精确度。同时,LVIS在数据呈成长尾分布(即类别种类多而单类实例数量较少)的情况下仍表现出良好的训练效果。
3.5 评价指标
基于COCO数据集的标准,我们以平均精度AP作为整体评价指标。平均精度AP是通过并交比(基于像素级别的交并比计算)来衡量实例分割的性能。具体而言,分割掩码mask中的像素数量(即mask的像素数量)反映了分割结果中目标区域的准确性。同时,AP还计算了不同尺度目标(如大目标、中目标和小目标)的实例分割精度。表3详细列出了这些评价指标的具体计算方式和应用场景。
表****3 COCO数据集的评价指标
Table 3 Evaluation index of COCO dataset
| 评价指标 | 含义 |
|---|---|
| AP | IOU=0.50:0.05:0.95 |
| AP50 | IOU=0.50 |
| AP75 | IOU=0.75 |
| APS | area < 32 2 |
| APM | 322 < area < 96 2 |
| APL | area > 96 2 |
4. 未来展望
从整体来看,实例分割技术正朝着结合兼并算法以提升实时性和性能至高精度的方向发展。就单阶段实例分割而言,其性能不低于两阶段实例分割,但相较于两阶段法的网络架构,单阶段方案具有更为简洁、高效且易于训练的特点。现有算法的性能对比表明,还有进一步优化的潜力。因此,未来的发展方向应着重于在提升精度的基础上实现快速实时的实例分割,以更广泛地应用于实际场景。
本研究认为,实例分割、目标检测以及语义分割等计算机视觉领域的高级技术之间具有良好的互惠性,建议重点探讨不同图像感知任务之间的相互关系。此外,自然语言处理与计算机视觉两大领域在任务处理上可以实现知识共享。当前,Transformer模型在自然语言处理领域已取得显著成果[91, 92],但其在计算机视觉领域的应用仍处于初期探索阶段。未来,基于CV特性设计的Transformer模型有望展现出更优的性能。
目标间遮挡与交叠情况仍是实例分割领域中的最具挑战性的问题,可参考图卷积神经网络、胶囊网络以及目标检测中的推理关系网络来有效应对遮挡情况下的实例分割问题。
现有实例分割方法仅关注单一目标,未考虑目标间的相互关系。基于目标检测的经验,图像中不同目标具有空间布局和语义关联,这种信息的传递与融合有助于提升目标检测的准确性。实例分割可参考注意力机制和图神经网络,以建立目标在空间布局和几何形状之间的关联。
从现有算法的精度角度来看,小目标的实例分割问题仍然存在较大的挑战性。在COCO数据集中,将像素数量少于322px的小目标定义为小目标。然而,这些小目标在图像中所占的像素面积仍然较小,经过采样和池化操作后,细节信息仍然较为不足。由于实例分割任务需要精确且完整的像素信息才能完成,因此两者之间存在本质性的矛盾。未来的研究可以从小目标检测入手,结合超分辨率图像技术、生成对抗网络、尺度自适应机制以及注意力机制等策略,以期有效提升小目标的实例分割精度。
实例分割任务大多属于有监督学习范畴,其数据处理环节主要依赖人工进行像素级别的标注,这一过程耗时耗力,增加了人工成本。为降低数据标注的经济负担,可采用自监督学习、弱监督学习等方法,通过利用已有未标注或少量标注数据自动生成标签,从而实现实例分割任务。此外,还可以利用现有的已标注边界框信息作为先验知识,辅助更精准地锁定目标范围。
从实际应用的角度来看,现有网络设计的计算复杂度较高,内存占用较高,且速度与准确度之间难以实现两者的平衡。轻量化设计将满足速度快且精度高的需求,这将是实例分割未来研究的重要方向。
