Advertisement

Weakly supervised learning of instance segmentation with inter-pixelrelations(CVPR2019)

阅读量:

摘要

我们提出了一种基于图像级类标签的实例分割学习方法。为了生成用于训练完全监督模型的伪实例分割标签, 我们首先从图像分类模型的关注图中识别出对象类具有较高置信度的种子区域, 并通过传播机制发现具有精确边界的整体实例区域。在此过程中, 我们详细阐述了IRNet算法的工作原理:该算法能够估计单个实例的大致范围并准确检测不同对象类之间的边界, 因此可以通过对种子区域分配相应的实例标签并在边界区域内进行传播来实现对整个实例边界的精确估计。值得注意的是, IRNet采用了基于注意图像素间关系的设计, 因此无需额外引入任何监督信息即可完成训练。通过对IRNet算法进行实验验证, 我们发现在PASCAL VOC 2012数据集上的实验结果表明, 所提出的方法不仅在相同 supervision条件下超越了现有的所有最先进的方法, 而且在依赖于更强 supervision的一些现有方法中表现更为突出。

该种关注点是由图像分类模型的关注力图识别出的一个高置信度的小区域内。
它不仅占据图像极小的比例面积。
而且被认为是特定对象类别中的关键关注点。
并作为生成伪实例分割标签的基础。
其传播至整个实例范围的过程能够有效提升实例分割的效果。

1. Introduction

实例分割是一种同时估计单个目标物体类别标签及其分割边界的任务。与常规视觉识别任务类似,在深度神经网络(CNN)监督学习的帮助下取得了显著进展[7,9,10,18,19,25,32,37]。为了实现这一目标方法论需要大量高质量标注数据作为训练样本这些数据一般需由专业人员人工进行精确标注工作量较大容易造成资源浪费目前收集这类广泛且充足的标注数据仍然面临诸多限制因素因此真正能够在复杂真实场景中处理不同类别的实例分割问题仍是一个技术难题

一种缓解这一问题的方法是采用弱监督学习的技术。这种技术利用的是比实例分割掩码更为简单且经济的标注方式。由于这类标签的标注成本相对较低,这些方法能够充分利用不同物体类别在训练阶段获取更多图像数据。尽管它们需要弥补由于标注不完全而导致的信息损失。在实例分割任务中,边界框通常被用作弱监督信号,在这些应用场景下这些属性不仅包含了物体的形状信息,并且还提供了其他关键属性[24,44]。然而,在大量图像中获取各种类别的框标签仍然是昂贵的操作,因为这种操作通常是人工注释完成的

为了进一步降低标注成本,在大规模图像分类数据集中相对容易获取的图像级别的类标签基础上实现实例分割学习是一种可行的选择

经过训练得到的是一个分割提议模型 ,该模型能够输出关于对象边界的建议。通常情况下,在识别物体边界时 ,该模型会学习并提取出与物体相关联的关键特征点 。为了实现这一目标 ,该设计不仅能够生成包围物体的边界框 ,还能够输出相应的分割掩模 。将此类型的设计用于外部数据集进行训练时 ,可以显著提升实例分割任务中的边界准确性 。在实际应用中发现这一过程可能需要引入额外的数据标注和监督信号来辅助优化 。

在本研究中, 我们提出了一种基于图像级类标签学习的新方法用于实例分割, 其性能超越了现有采用相同监督水平进行训练的先进方案[53], 并且也超过了依赖于更强监督的一些现有方案[18,24]. 值得注意的是, 该方法无需额外的监督信号, 同时也不需要依赖分割建议[18]. 具体而言, 该方法通过对带图像级标签的示例图像生成伪实例分割标记来指导对现有CNN模型进行微调. 在生成伪标记的过程中, 我们采用了cams这一技术手段. 然而, 如前所述, 这些技术手段无法有效地区分不同类别中的实例边界

为了克服CamS的一些局限性, 我们引入了像素间关系网络(IRNet), 该网络用于估计与CamS互补的两种类型的附加信息: 一种是与类别无关的实例映射, 另一种是配对语义亲和力. 其中, 与类别无关的实例映射是一种粗略的实例分割掩码, 在此情况下没有类标签也没有精确的边界. 而在框架下, 一对像素之间的语义亲和力被定义为其类等价性相关的置信度分数. 通过结合与实例无关 CAMs 和 无类别相关 的 初步 实例 分割 标签, 我们能够获得基于实例的新 CAMs. 这些基于相邻像素之间语义亲和力传播注意力分数到相关区域以增强效果. 最后, 在每个像素上选择对应于 CamS 中关注分数最高的实例标签, 进而生成初步实例分割标签. 整个流程如图1所示

由两个主要部分组成的人工智能网络(IRNet)分别负责实例映射与语义关联的任务估计。其中一部分负责实例映射的估计工作:该部分网络预测一个位移向量场,在此过程中每一个像素处生成的2D向量表示其所属实例质心的位置信息。随后将相同位置上的像素点与具有相同实例标签的位置像素进行对应配准操作,在这种配准策略下完成对位移场的有效建模从而实现了对实例映射的关系建模。另一部分则专注于识别不同类别之间的边界:在此基础上计算出相应的语义亲和力特征值;具体而言,在分割得到的不同类别边界区域中挑选出相互之间分割程度较高的两组像素点作为计算语义亲和力的基础素材;同时我们还发现该网络架构能够有效地从CAMS数据集中学习并建立各像素间关系模型:在此过程中我们重点选择了那些表现出较高注意力权重的关键像素点作为学习样本;并通过分析这些样本间的相对运动变化趋势以及类别等价关系来进一步优化模型性能。

在实例分割中,位移场 可以用来指示每个像素相对于其所属实例的中心的偏移量。通过学习位移场,模型可以推断出不同实例之间的空间位置关系,从而更好地区分和分割不同的实例。位移场通常通过训练模型来学习,以便模型能够准确地预测每个像素的位移向量,从而实现更精确的实例分割。

每个像素的2D向量指示像素所属实例的质心意味着对于每个像素,模型预测一个2D向量,该向量指示了该像素所属实例的中心位置。通过这种方式,模型可以推断出每个像素属于哪个实例,并且可以将具有相同质心位置的像素分配给同一个实例标签,从而生成实例地图。

使用所收集像素之间的位移和类等价性来训练IRNet意味着在训练IRNet时,模型利用收集到的像素之间的位移信息和类别等价性信息 。通过这种方式,模型可以学习到像素之间的空间关系和类别关系 ,从而更好地理解不同实例之间的边界和语义关联。这种训练方法利用了像素之间的关系和相互作用,使得模型能够更准确地进行实例分割和语义关联学习,而无需额外的监督信号。

Instance-wise CAMs 指的是基于类别注意力图(Class Attention Maps)生成的实例级别的注意力图。在这个上下文中,CAMs用于定义实例的种子区域,然后通过将这些种子区域传播到整个实例区域来恢复完整的实例区域。实例级别的CAMs是通过将类别注意力图转换为实例级别的注意力图来实现的,以便在实例分割任务中更好地区分不同的实例。

通过实例级别的CAMs,模型可以更好地理解每个实例的重要性和边界,从而更准确地进行实例分割。这种方法利用了类别注意力图的信息,并将其转化为实例级别的信息,以提高实例分割的精度和效果。

Semantic Propagation for each instance-wise CAM 指的是针对每个实例级别的注意力图(CAMs)进行的语义传播过程。在这个过程中,模型利用实例级别的CAMs来传播语义信息,以便更好地理解每个实例的语义关联和边界。这种语义传播的作用在于帮助模型在实例分割任务中更好地捕捉不同实例之间的语义关联。通过将实例级别的注意力图与像素之间的语义关联结合起来,模型可以更准确地推断每个像素所属的实例,并生成更精确的实例分割结果。这种方法可以提高实例分割的准确性和鲁棒性,使模型能够更好地理解图像中不同实例之间的语义关系。

"Argmax for each pixel" 指的是对于每个像素,选择具有最高数值的类别或实例标签。在实例分割或语义分割任务中,Argmax操作通常用于根据模型输出的分数或概率值为每个像素分配一个最终的类别或实例标签。

这个操作的作用是将模型输出的分数映射到具体的类别或实例标签,从而生成最终的分割结果。通过对每个像素应用Argmax操作,可以确定每个像素所属的类别或实例,从而实现像素级别的分割。这个步骤是实例分割或语义分割任务中非常关键的一步,用于将模型输出转化为最终的分割结果。

本文的贡献有三个方面:

我们开发了一种新型的方法;基于分类无关实例映射的技术来识别并定位具有图像级监督的实例。这使得能够在无现有分割提示的情况下实现实例分割。

我们开发并提出了一种创新的方法,在基于图像级别的监督学习框架中利用类边界检测技术来推断并估计像素间的语义亲和力关系。相比现有研究中的相关工作[1]而言,在实验结果上表现出了显著的提升效果与较高的计算效率优势。

在PASCAL VOC 2012数据集[13]上,在相同的监督级别条件下(即相同 supervision level),我们的模型取得了显著超越。该方法不仅超越了先前最成功的模型[53](VGGNet),而且其性能甚至超过了采用更严格标注方式的传统方法

本节专门探讨与我们方法紧密相关的语义及实例分割模型。首先为这两个任务提出了一种弱监督方法,并详细阐述了基于类似于我们框架构建的位移场以及成对语义亲和力的概念。

weak supervised semantic segmentation: for weakly supervised semantic segmentation tasks,it has adopted various types of weak labels,such as bounding boxes [8.40],scribbles [29.47],and points[3]. Notably,the use of image-level class labels has become a common practice in weak supervision because they typically require minimal annotation or can be annotated without any intervention [1.12.21.22.38.42.43.48.53]. Most methods that rely on image-level supervision are based on CAMs[39.46.52],which focus attention on the distinct parts of objects to roughly locate object regions.However,CAMs often fail to provide clear boundaries for the entire target region.To address this limitation we have incorporated additional data or supervision channels to gather more evidence such as significance [22.38] motion in videos [21.42] and classification-agnostic object proposals [43]. Recent approaches have attempted to tackle this issue by iteratively mining for supplementary attention maps [2

Iterative Attention Refinement 是一种通过多轮迭代机制来不断优化注意力捕获能力的技术框架。具体而言该机制旨在通过反复更新和调整注意力权重矩阵来逐步挖掘图像中被传统方法忽视的细节特征并构建更加全面的注意力映射空间从而提升模型的整体性能表现。

Weakly Supervised Instance Segmentation: 在实例分割任务中,默认会对边界框进行标注作为弱标签输入。由于边界框不仅能够标明物体的具体位置信息还能反映物体的比例特性,在基于边界框的弱监督模型中主要关注于推断对象的形状特征表现[24]。例如,在[24]研究中将GraphCut算法与通用边界检测算法相结合通过考虑边界信息以更优地推断物体形状特征表现[51]。此外在[44]研究中通过对抗性学习训练对象形状估计器以通过剪切粘贴的方法将估计的对象区域与随机背景生成的伪图像相结合从而使得估计出的对象区域看起来更加逼真[16]。值得注意的是具有图像级类标签的弱监督实例分割方法相对较少被研究因为这是一个典型的不适定问题即监督信号并未提供针对实例的具体信息[44]为此一种最新的方法[53]提出了一种基于检测类关注点处峰值来识别单个实例并将其与高质量分割建议相结合的方法以揭示整个实例区域的表现[2]然而该方法在很大程度上依赖于分割建议的质量要求额外数据进行训练并且需要引入高级别的监督信号才能实现较好的性能表现[53]相比之下我们的方法无需依赖现成的分割建议也无需引入额外监督即可显著超越现有工作[53]

生成伪图像 的目的是通过训练模型生成逼真的图像,并将估计的对象区域从原始图像中裁剪后粘贴到随机背景中。这种方法可用于训练对象形状估计器,在模型中帮助准确学习对象形状以提高实例分割或目标检测任务的表现。
分割建议 是指在实例分割或目标检测任务中生成的候选目标区域的建议。这些候选区域通常是模型认为可能包含目标的对象区域,并有助于加快模型定位和识别速度。高质量的分割建议能够提供精确的目标位置和形状信息以提升模型性能。
类别关注的峰值 指的是在图像分类或实例分割任务中通过检测每个类别的注意力峰值来识别单个实例的过程。这些峰值表示模型在图像中对特定区域的关注度分布,并用于定位和识别不同类别的目标。
每个类别的注意力峰值 通常采用特定于类别的注意力机制或方法进行计算。例如,在深度学习模型中可以通过卷积神经网络(CNN)中的全局平均池化层连接权重并获得每个类别的注意力分布图(CAMs)。具体而言,在卷积神经网络(CNN)中通常会先进行特征提取然后通过加权融合的方式得到各分类对应的注意点分布图从而实现对每个类别特性的刻画

M_{c}eft =um {i}w{i,c}dot f_{i}eft

同时还能够较好地适应不同复杂度场景下的应用需求。

Pixel-wise Prediction of Instance Location: 文献中普遍认可的一种有效方法是逐像素定位实例的位置。具体而言,在文献[28]中提出了一种方法:通过逐个像素的方式预测每个像素所属边界框的坐标;这种预测机制使得具有相似坐标值的相邻像素能够被归类为同一实例的目标掩膜(instance mask)。随后的研究者在文献[23, 37]中进一步深入研究了这种方法的本质:他们摒弃了直接预测边界框坐标的思路,并转而提出了基于质心点的新方法——直接预测实例质心而非边界框坐标。值得注意的是,在本研究工作中我们采用了与文献[23, 37]相似的基本假设:即采用位移场的方法来进行目标定位;但相较于前人工作而言本方法仅需图像级别的监督信号即可完成训练任务

预测核心区域 在实际应用中被用作重要参考依据,在该方法下各示例的核心位置可通过精确定位实现有效识别。

为实现精准分割的目的而设置,在训练过程中赋予模型足够的指导信息。

该方法作为一种基本的技术手段,在实际应用中得到了广泛应用。

为实现精准分割的目的而设置,在训练过程中赋予模型足够的指导信息。

以帮助模型准确识别各个细节特征为目标。

与之相比,在图像级别的监督下仅能提供笼统的信息,

而无法实现精细程度更高的分割效果。

Semantic Affinities Between Pixels: 像素之间的两两语义关联被用来提高语义分割的质量。其中,在文献[4]和[6]中分别提出了将可微模块与卷积神经网络(CNN)结合并采用端到端训练的方法以提升分割效果;而在文献[4]中将预测的亲和矩阵作为随机游走转移概率矩阵应用在图像分割任务中;而在文献[6]中则将其嵌入到卷积解码器网络中以促进局部像素标签的一致性;此外,在文献[1]中提出了一种弱监督模型用于学习图像级类标签间的两两语义亲和力;该模型通过为每个像素预测一个高维嵌入向量并定义其间的亲合度为嵌入向量之间的相似度来进行推断;而我们的IRNet方法尽管受到相同动机的启发但其核心创新在于能够更高效地通过检测类边界来学习与预测像素间的亲合关系

多维嵌入向量指的是具备多个特征维度的数据表示方式,在机器学习与自然语言处理等技术领域内常被采用以表征物体或抽象概念。例如,在计算机视觉中常用作表示单词、图像或其他数据类型的信息载体。这些多维空间中的点通常会包含数百到数千个独立参数(即每个维度),每个参数值反映了物体在特定属性上的度量结果。通过增加这些空间中的参数数量(即提升模型容量),系统能够展现出更为丰富的抽象能力,并能更精确地反映不同物体间的相似度与差异度。

3. Class Attention Maps

CAMS在我们的框架中起着两个重要的作用。

  • 它们用于指定实例中的种子区域,并随后传播这些种子以恢复整个实例区域。
    • 它们是学习IRNet的监督来源;经过深入挖掘CAMS中的像素间关系,并将其作为训练数据。

为了生成用于训练图像的CAM(Canonical Attention Map),我们采用了文献[52]中提出的方法。具体而言,在这一过程中构建了一个基于卷积神经网络(CNN)进行图像分类的应用系统:首先使用全局平均池化技术构建了一个基于卷积神经网络(CNN)进行图像分类的应用系统:首先使用全局平均池化技术构建了一个基于卷积神经网络(CNN)进行图像分类的应用系统:首先使用全局平均池化技术构建了一个基于卷积神经网络(CNN)进行图像分类的应用系统:首先使用全局平均池化技术构建了一个基于卷积神经网络(CNN)进行图像分类的应用系统:首先使用全球均值池化技术构造了一个基于卷积神经网络(CNN)展开的空间分布感知模型:随后在模型顶部附加一个全连接层来进行类别预测任务。对于任意输入的图像样本X∈R^{d×w×h}(其中d代表深度、w代表宽度、h代表高度),通过该方法能够计算出其对应的真实类别c及其对应的Canonical Attention Map CAM.

在式中描述公式时,在式(\ref{equation:main_model})中指出,在该模型中f代表了基于深度学习框架下的CNN最后一层卷积提取出的目标区域特征图;其中x表示该特征图f上的二维坐标位置;而\phi_c则被定义为目标类别c对应的分类权重系数;特别地,在计算不同类别间的关注矩阵时,默认情况下非目标类别对应的关注矩阵会被设定为空矩阵以避免混淆。为了提高模型对边缘检测任务的表现能力,在实验部分我们采用了ResNet-50网络结构[20]作为基础分类器,并对其最终下采样模块的设计进行了优化:具体而言,在传统的步长设置下采样率为2的基础上进行改进,在保留主要特征提取能力的同时将步长缩减至1;这一改动不仅能够有效缓解由于多次下采样带来的分辨率下降问题;而且通过对比实验发现,在保证识别精度的前提下显著提升了模型的整体推理效率(参考图2)。

Mc(x) 表示属于类别c的激活图在坐标x处的空间分布情况。即模型对于类别c的关注水平在图像中的空间分布情况。
通过分析与可视化CAMs能够更好地理解模型在分类任务中的决策过程以及对不同类别的关注程度。
Formula 1 中计算 Mc(x)时将 Mc(x) 除以其权重与 fx 乘积的最大值的目的在于实现归一化处理。这种归一化处理使得 Mc(x) 的取值范围限定于 [0,1] 区间内。
这种归一化处理有助于平衡各像素点间的权重与特征值的影响。如果未进行归一化处理,则会导致各像素点之间的 Mc(x) 值可能受到权重与特征值绝对大小的影响较大从而影响结果的稳定性和可比性。
因此 通过将 Mc(x) 除以其权重与 fx 乘积的最大值能够实现更加合理的数值分配使不同像素点间的 Mc(x) 值更具可比性和一致性。
这种归一化处理不仅有助于提高算法的整体性能还能增强其解释性和可靠性

4. Inter-pixel Relation Network

IRNet旨在提供两类信息:位移矢量场与类别边界图,这两类信息依次被用于从CAMs中估计伪实例掩码.为了阐述IRNet的架构及其基于CAMs的模型学习策略,需要进一步探讨其具体实现细节.至于如何利用IRNet生成伪标签,将在第五章详细说明.

4.1. IRNet Architecture

IRNet是一种神经网络模型架构,在其中包含了两个输出分支来分别预测位移向量场以及类别边界图的信息。该模型的整体结构如附图所示(此处应根据上下文适当调整),其中这两个分支共用相同的ResNet50主干网络结构(此处应根据上下文适当调整)。该主干网络与第3节中所述的分类任务相关联但并非完全相同。具体而言,在主干网络提取特征后经多级处理的基础上两位移向量场预测子网和类别边界图预测子网均会经历组归一化激活过程并最终生成相应的预测结果。这种设计旨在通过共享主干网络的强大特征提取能力来实现更高的计算效率与预测精度

Displacement Field Prediction Branch: 对输入的所有特征图分别施加了一次1×1卷积操作,在通道数量超过256的情况下进行缩减。随后,在这些经过处理的特征图上构建了一种自顶向下的连接方式:通过连续合并所有的中间层级特征图,并对低分辨率的空间信息进行二次上采样处理后与高分辨率的直接输出进行融合。最后从最后一个拼接后的高层次空间表示中解码出位移向量场

描述的是位移向量场预测分支的主要输出是两组信息。
通常来说,在这种情况下,
我们会使用两个独立的方向来表征位移向量,
例如水平方向和垂直方向。
在实际应用中,
这些通道提供的信息有助于模型识别每个像素点相对于其所属实例的位置变化。

在IRNet中,
五个级别的特征图主要来自ResNet-50网络的不同深度层提取的信息。

这些特征图包含了丰富的空间细节和语义理解能力,
而且能够有效整合不同层次的信息。

在[20]中,
Level在这里指的是同一输出尺寸的一组残差单元。

在生成类别边界地图的过程中,
将最后一个卷积层的设计目的是捕捉每个像素点与类别边界之间的关系及其距离信息。

Boundary Detection Branch: 首先我们对每个输入特征映射施加了一次1×1卷积以降低维度。随后我们将处理后的结果进行尺度调整并将其融合后传递给最后一个1×1卷积层该层基于融合后的特征来构建类边界图。

4.2. Inter-pixel Relation Mining from CAMs

基于IRNet的设计理念而言,在图像重建任务中其独特的优势在于能够有效捕捉像素间的相互作用机制。为了确保重建质量的最大化,我们需要可靠地收集这些像素间的相互作用信息作为训练数据.我们定义了两组像素间的相互关系:一是基于坐标差分,二是基于类别一致性.其中,坐标差分可以通过简单的减法运算直接获得;然而,类别一致性却并非如此,因为我们的弱监督学习框架并未提供逐像素级别的类别标签信息.

"像素间类等价" 的定义是:若两个像素属于同一类别,则二者之间存在类等价关系;反之,则不存在此类别等价关系。基于建立像素间的类等价关系模型,有助于模型更深入地理解和分析图像内容,并在实例分割任务中展现出更好的性能。在IRNet体系中,这种类等价关系被设计为监督信号。

基于此, 我们采用了CAMS这一技术手段来实现对逐像素伪类标签的预测, 并推导出可靠的类等价关系. 该方法的整体流程如图3所示.

首先, 虽然CAMs往往不够精确, 作者最先识别出具有高置信度的前景与背景注意力分数, 其次通过特定阈值筛选出这些区域的具体内容。例如, 他们将那些具有高于0.3注意力分数的像素归类为前景像素, 将低于0.05注意力分数视为背景像素, 在此期间无需关注非高置信区域中的像素

随后,在每个自信区域中利用密集条件随机场(dense CRF)进行细分处理,并提高精度地估计对象的形状。

随后, 研究团队通过对每个像素进行分类判断来生成一个伪类别分布图

at{M}

在处理过程中,他们从细化后的自信心区域中对附近的像素点进行采样,并根据这些像素点的类别等价关系将其划分为两组P+和P-。

其中γ是限制一对最大距离的半径。我们进一步将P +划分为

P_{fg}^{+}

P_{bg}^{+}

,分别是一组前景对和一组背景

图3展示了像素间关系的可视化分析流程。(a) CAMs用于表示各个像素的重要性分布。(b) 通过计算各对象类别对应的置信度矩阵确定了各区域的关键特征。(c) 通过在局部邻域内引入伪类别标签矩阵实现了对目标区域的有效区分。(d) 通过构建基于类别间的等价关系矩阵实现了目标分类任务的关键支撑

图3中,描述了如何从类边界图中推导出像素之间的语义关联性,以生成伪类标签图。以下是对图3中涉及的概念的解释:

对象类的可信区域(Confidence Region of Object Classes):这指的是在类边界图中,表示对象类之间的边界的区域。在这个区域内,不同对象类之间的边界更加明显和可信,因此可以用来推断像素之间的语义关联性。

局部邻域内的伪类标签图(Pseudo Class Label Map in Local Neighborhood):这是指在局部邻域内根据类边界图生成的伪类标签图。通过在局部邻域内考虑像素之间的语义关联性,可以更好地理解像素之间的类等价关系。

中心与其他中心之间的类等价关系(Class Equivalence Relationship between Center and Other Centers):这指的是在类边界图中,不同对象类之间的中心点(centroid)之间的类等价关系。通过考虑中心点之间的类等价关系,可以帮助模型更好地理解不同对象类之间的语义关联性,从而生成更准确的伪类标签图。

从整体上讲,在类边界图中描述了如何通过推导像素间的语义关联性来构建伪类标签图。这一过程有助于模型更深入地理解不同对象类之间的关系,并从而提高实例分割任务的准确性和性能。

综上所述,在对象边界上进行像素间的探索通常是常见的做法。这种做法之所以选择边界区域作为可信区域的主要原因在于:它有助于更有效地捕获丰富的语义信息;能够系统地处理类别存在的不确定性;并充分运用关键的边界特征来提升分割的质量与准确性。

4.3. Loss for Displacement Field Prediction

IRNet的第一个分支预测一个位移向量场

Darepsilon athbb{R}^{wimes himes 2}

其中每一个二维向量都指向与之相关的实例质心。
然而,在我们的设置中并未提供ground truth centroids。
我们推测D可通过同类像素间的位移进行隐式学习。
具体而言,D作为一个位移场需满足两个条件:
首先,对于同一实例中的任意一对像素位置xi和xj,
其估计质心必须一致,即xi+D(xi)=xj+D(xj)。
其次,基于质心定义,
每个实例的所有样本点都应围绕其对应的质心呈高密度分布。

um _{x}Deft =0

掌握位移向量场(displacement vector field)的概念与应用。具体步骤包括:

  1. 明确研究核心内容
  2. 设计合理的实验方案
  3. 运用理论知识进行推导
  4. 通过数值模拟辅助分析
  5. 最后进行结果验证

首先,在一个较小半径γ内的相邻像素点对(i,j)被视为同一实例的一部分。接着,在这种情况下(即这两个相邻点位于同一实例),我们的目标是通过位移向量场D中的差异\delta(i,j)=D(xi)-D(xj),来估计其图像坐标位移\hat{\delta}(i,j)=x_j - x_i。

在理想情形下,在这种情况下(即\delta=\hat{\delta}),对于同一实例内的所有相邻点对(i,j)都应满足xi+D(xi)=x_j+D(x_j),这表明该向量场D指示了各个实例质心的位置。
基于第4.2节中推导出的各像元间的几何约束关系学习该向量场D
我们旨在最小化\delta(i;j), \hat{\delta}(i;j)
之间的L1损失函数。

在这里,在实际应用中(δ)与(\hat{δ})之间的对比分析可以帮助模型建立像素级位置关系映射,在此基础上能更准确地推断实例的空间结构特征。通过优化(L_1)损失函数(\mathcal{L}_1),该方法能够逐步更新其对应的位移场(D),从而提升对目标实例定位与描述的能力。

真实的像素位移向量 (actual pixel displacement vector)表示为图像中像素之间的真实位置变化。

相较之下,
估算的空间坐标变化量 (estimated spatial coordinate variation)是基于模型对输入特征提取后的预测结果。

两者的关系体现在:该模型旨在通过学习输入特征与参数间的关联性,
近似还原真实的空间变换规律。

通过对比分析实际的空间变化数据(actual spatial variations)
和估算的结果(estimated spatial coordinate variation),我们可以评估该网络在捕捉空间变换方面的性能表现。

当估算的空间坐标变化与真实的空间变化较为接近时,
则表明该网络较好地捕捉了空间变换规律。

尽管在模型训练中的损失函数中没有明确鼓励满足第二个条件(即对于每个实例,在位移向量总和为零的情况下),但由于初始网络参数的随机性(即网络参数的随机初始化),模型仍然能够学习到预测指向实例质心粗略位置的位移向量。换句话说,在这种情况下(即初始状态下的随机性),已经存在的初始随机位移向量很可能就已经满足了第二个条件(即这些位移向量总和为零)。由于网络参数的随机性以及优化过程的影响(即经过训练后的优化过程),模型最终会收敛到一个局部最优解(即满足第二个条件的一个局部最优解)。类似的现象已经在其他研究领域中被观察并记录下来。随后通过从数据集中减去均值计算得到的方式(即先从数据集中减去均值计算得到标准化的数据集),进一步细化位移向量从而更好地表示实例质心的位置信息。因此即使在损失函数中没有明确强调第二个条件(即总和为零),模型依然可以通过初始状态下的随机性以及后续优化过程来学习预测实例质心对应的位移向量,并通过进一步细化来提升预测精度

提到通过从D中减去均值 来进一步细化位移向量。这里的均值指的是D中的平均值,即位移向量的平均值。而D代表的是模型预测的位移向量场,其中包含了每个像素的位移向量信息。

具体来说,通过减去D中的平均值,可以使位移向量场更加稳定和准确。这个过程可以帮助调整位移向量的分布,使得预测的位移向量更加接近实际的位移关系,从而提高模型在实例分割任务中的性能和准确性。通过这种细化过程,模型可以更好地捕捉像素之间的位移关系,从而更准确地预测实例的位置和形状信息。

减去位移向量场(D)中的平均值可以帮助调整位移向量的分布,使得预测的位移向量更接近实际的位移关系,从而提高模型在实例分割任务中的性能和准确性的原因如下:

消除偏差 :通过减去平均值,可以消除位移向量场中的整体偏差。如果位移向量场存在整体的偏移或者漂移,减去平均值可以将所有位移向量向中心调整,从而使得预测的位移向量更加准确地反映实际的位移关系。

稳定性 :减去平均值可以提高位移向量场的稳定性。如果位移向量场中存在一些异常值或者噪声,这些异常值会对整体的平均值产生影响,通过减去平均值可以减少异常值的影响,使得位移向量场更加稳定。

调整分布 :减去平均值可以调整位移向量的分布,使得位移向量更加集中在实际的位移关系附近。这样可以使得模型更容易学习到正确的位移关系,提高实例分割的准确性和性能。

此外,由于背景质心是不确定的,可能会干扰上述过程,因此我们从背景像素中消除了琐碎的质心估计。为此,我们将背景像素的以下损失最小化:

计算背景像素之间的位移向量并求其平均值的方式等价于将各像素位移差累加后再除以背景像素总数的方法。
该方法即通过最小化背景像素损失函数来实现对实例间差异性和边界信息的关注,
从而更加注重学习实例间的差异性及其边界信息。

4.4. Loss for Class Boundary Detection

给定一幅图像,IRNet的第二个分支检测不同类之间的边界,输出记为Barepsilon eft ^{wimes h}。虽然在我们的设置中没有给出类边界的基础真值标签,但我们可以通过多实例学习(MIL)目标训练像素之间具有类等价关系的第二个分支。关键的假设是类边界存在于具有不同伪类标签的一对像素之间。

基于该思想的基础上进行阐述,在分析类边界特征时我们引入了两个像素之间的语义关联度这一概念。具体而言对于任意两个像素xi与xj我们定义其间的语义关联度aij为

其中Π_ij表示xi与xj像素组。通过分析像素间的类别等价性来监督学习aij的过程。具体而言,在这种情况下,两个像素间的类别等价性用二进制标签表示。当它们共享相同的伪类标签时标记为1;若不同则标记为0。接着采用交叉熵损失函数来优化模型参数W, 使得计算出的概率分布尽可能接近真实数据分布。

其中,由于

P_{fg}^{+}

P_{bg}^{+}

P^{-}

尽管整体上存在明显的不平衡现象,在归一化处理后各独立损失会进行累加整合。基于Eq.(8)所定义的具体损失函数,在像素间建立类等价关系时能够隐式地学习到特征B。值得注意的是,在这种视角下,Eq.(8)实质上构成了一个多实例学习(MIL)框架,在该框架中Πij被定义为一系列潜在的边界像素集合。

类边界图B 是一个大小为w×h的矩阵,其中每个元素的取值范围在[0,1]之间。这种表示方式表明类边界图B是一个二值化的图像,用于表示不同对象类之间的边界情况。

类边界图B通常是通过对图像进行处理和分析得到的,用于指示不同对象类之间的过渡区域和边界。具体来说,类边界图B可以通过以下方式计算得到:

根据像素级别的类别信息:根据像素级别的类别标签信息,可以确定不同对象类之间的边界情况。在类边界图中,如果两个像素属于不同的对象类,则它们之间的边界像素的取值可以设为1;如果两个像素属于相同的对象类,则它们之间的像素取值可以设为0。

使用边缘检测算法:另一种常见的方法是通过应用边缘检测算法来检测不同对象类之间的边界。边缘检测算法可以帮助识别图像中的边缘和过渡区域,从而生成类边界图B。

从整体上来看,
类边界图B被定义为一种二值化图像,
其主要功能是用于描述不同对象类之间的边界情况。
通过深入分析该类边界图B,
有助于模型更加深入地理解不同对象类之间的关系,
从而在实例分割任务中显著提升准确性和性能。

在该模型中,损失计算涉及三个关键部分:前景像素对的交叉熵损失、背景像素对的交叉熵损失以及负样本像素对的交叉熵损失之和,并将其求平均值以达到降噪的效果

在多实例学习(MIL)框架下,在处理图像分割任务时将图像划分为多个区域并将其视为独立的"袋子"(bag),其中每个袋子包含多个"实例"(instance)。与传统方法不同的是,在这种设置下,并未为每个单独的实例提供明确的类别标签;相反的是整个袋子被标注为正样本(positive bag)或负样本(negative bag),表示该袋子是否包含至少一个正例

在这种设置下, 学习的目标是设计一个能够有效区分正样本袋子与负样本袋子的模型, 在训练过程中, 模型需要综合考虑每个袋子内部的所有实例特征, 而不仅仅是个别别单独分析单个实例. 这种基于袋级的学习方式使得模型能够从整体上理解各个实例间的相互关系及其特征表达

在实际应用到图像分割任务时, 该模型采用多标签信息的方式进行优化. 具体而言, 通过将所有前景像素对交叉熵损失求和再除以两倍的原因如下: 首先, 对于每一对前景像素来说, 它们之间存在相互对应的关系, 因此在计算其交叉熵损失时会自动考虑到这种对称性; 其次, 这种处理方式也有助于平衡各像素对之间的贡献; 最后, 从数学推导的角度来看, 这样的归一化操作有助于简化计算过程并提高算法稳定性

在实际实现过程中发现,在计算总损失时为了保证结果的有效性和稳定性需采用以下三种策略: 第一是在每一对前景像素之间保持互相关联; 第二则是通过合理的权重分配确保各层特征的重要性; 第三则是在优化过程中引入动量项减少更新步长的影响

图4展示了一个基于类边界映射的语义关联分析框架。(左侧展示的是原始输入图像.) (中间呈现的是基于类边界的可视化结果.) (右侧展示了经过随机游走算法后的标签传播动态过程.)

图5展示了实例质心的检测结果。(Left)原始图像.(Middle)初始变形场.(Right)详细变形场及其检测到的质量中心位置.

4.5. Joint Learning of the Two Branches

IRNet的两个分支通过全局损失函数集合的优化实现了一种高效的联合训练方法;该方法能够有效平衡各分支的学习目标

我们关注的是基于像素间的通用损失函数,在计算过程中并未区分特定类别标签。具体而言,在定义P^+P^-时,默认假设这些区域仅基于像素间的类别一致性进行划分。这种设计不仅简化了计算过程还能有效避免类别标签带来的干扰。通过这种策略我们可以更灵活地平衡不同区域之间的关系从而实现对复杂场景下的目标检测与分割任务的支持

5. Label Synthesis Using IRNet

为了生成伪实例标签, 分别将IRNet的两个输出D和B转化为与类无关的实例映射以及成对亲合关系。其中, 如图4所示, 根据公式(7)可以直接从B中推导出语义亲合关系; 然而, 在这种情况下,D由于估计不够精确, 转换过程较为复杂。本节首先阐述如何将D转化为实例映射, 接着介绍如何利用这些实例映射以及语义关联性生成伪分割标签

5.1. Generating Class-agnostic Instance Map

与类无关的实例映射I是一个w × h二维映射矩阵,在该矩阵中每个元素都对应一个与之相关的实例标签。当D(表示质心偏移量)具有较高的估计精度时,在对位移向量进行适当归一化后即可将实例分组。然而由于IRNet采用基于CAMs的部分监督方式进行训练因此质心偏移量的具体预测值往往难以达到理想状态

位移向量的含义

复制代码
 * 位移向量D(x) 表示从像素位置x出发的位移方向和距离,即在图像中的一个像素位置x处,位移向量D(x)指示了该像素可能所属实例的质心位置的相对位移。
 * 当我们在位置x处加上位移向量Du(x),即 x + Du(x),就相当于将当前像素位置x根据位移向量Du(x)进行了调整,得到了一个新的位置,这个新位置可以被理解为当前估计的质心位置。

设u代表迭代索引,则D₀是基于IRNet计算得到的初始位移场。每个对应的位移向量将通过在当前估计质心位置的基础上叠加相应微分偏移来进行逐步更新。考虑到质心附近区域的微小运动,在有限次迭代后系统趋于稳定状态(如图5所示)。

检测到的质心 :该模型通过逐步优化位移向量场来实现最终目标。这些位移向量将逐步趋近于实例质心的位置。

局部最小值点 :因此,在实例分割中被识别出来的质心通常位于位移向量场中的局部极小值位置或邻域像素区域中数值最小的位置。

定位过程 :具体而言,在其邻域像素区域中数值最低的那个像素点被称为局部最小值点。

意义解析 :其中每个pixel point与其所属 instance centroid之间的 displacement magnitude由其 corresponding displacement vector来表征。

判断标准 :如果某个特定pixel在其邻域内没有比它更小(绝对)displacement vector magnitude,则该pixel可被确定为local minimum candidate。

结果定位 :这些candidate points通常被视为潜在的质量中心候选。

通过对经细化处理后的位移向量场(refined D)计算出的质量中心值进行进一步运算后可获得更为精确的具体实例质量中心坐标,在经细化处理后所得位移向量场中所计算出的质量中心值往往仍存在一定程度上的分散现象为此作者提出了一种新的质量中心确定方法即通过整合相邻像素区域内的多个像素点坐标从而得出较为精确的质量中心坐标而不仅仅局限于将单个像素点作为质量中心来确定

具体步骤如下:

该系统首先对具有最小移动矢量的空间进行定位分析,在此过程中筛选出具有显著特征的关键区域

聚合成候选质心 :随后定义为候选质心的是那些位移向量较小的相邻像素点集合。真实质心周围的一组像素通常具有极小的位移向量特征,在此情况下所选择作为代表实例核心区域的关键样本即为此处所指的候选质心集合。

将候选质心整合为一个整体:随后将这些候选质心组织为相互连接的组件。在这一过程中,在局部区域内位移向量的变化呈现出平滑性特征,在此基础之上会形成若干相互连通的部分;这些部分能够被视作实例所对应的代表区域

基于此分析表明:首先,在图像处理阶段,我们能够通过检测具有较小位移向量的像素点,并将其构建为连通组件来进行初步实例分割;随后,在算法优化环节中,则能精确计算每个连通组件所对应的质心坐标;最终结果便能显著提升实例分割的准确度和稳定性

在实例分割任务中,在选择位移向量较小的像素点作为候选质心后,在该区域中的“组件”指的是由相邻像素点组成的连通区域。这一过程有助于将散乱分布的候选质心点聚合成更具代表性的实例中心位置集合。通过这种方式形成的连通区域不仅能够更好地反映实例的核心部分特征,在后续算法处理中也能显著提升分割效果。

5.2. Synthesizing Instance Segmentation Labels

为了生成伪实例遮罩(pseudo instance masks),我们通过将CAMs(Class-Awareness Modules)与类无关的实例映射进行组合处理,并在图中进行了具体展示

I(x) 表示图像中特定位置x处所对应的类/实例标识符。在实际分割任务中,则通常采用像素级别的类/实例标识符来标注每个像素除了所属的具体类型之外还包含其归属的具体对象信息。这些标识符不仅用于分类识别还可以帮助进一步细化分割结果以满足复杂的实际需求。因此,在本文上下文中I(x) 的作用主要是指示该像素除了所属的具体类型之外还包含了其归属的具体对象信息以便于后续处理相关的分割任务。
¯Mck(x) 则表示该像素除了属于指定类型的物体之外还对应于某个特定区域/目标点的位置信息。

其中

ar{M}_{ck}

类c和实例k的基于实例的CAM属于这一范畴。每个这样的CAM将注意力分数扩散至相关区域以实现改进。具体而言,在这种机制下采用随机行走的方式传递注意力分数。这使得转移概率矩阵由语义亲和度矩阵A = [aij]定义。

psilon athbb{R}^{whimes wh}

导出如下:

A^{oeta }

:这里的

A^{oeta }

对矩阵A中的每一个元素进行β次幂计算,并被称作Hadamard乘积。进一步说明的是,在Hadamard乘积中,对矩阵A中的每一个元素执行相应的β次幂运算以生成新的结果矩阵。

A^{oeta }

  • S是
A^{oeta }

的对角矩阵 :S是一个对角矩阵,用于对

A^{oeta }

执行行归一化的操作。将矩阵的每一行进行归一化处理后,使得每行元素之和等于1。

β > 1是一个超参数:在其中,在该模型中设置参数时,在矩阵A中设置了超参数β(beta),其作用于平滑邻近关系矩阵中的亲和力值。通过将矩阵A中的元素提升至β次方这一操作步骤,则能够影响亲近力值的分布情况,并使这种分布更加趋于均匀或平滑的状态。

基于图论的随机游走传播机制:作为一种图论中的核心概念,在数字图像处理领域中被广泛应用于信息扩散过程的设计与实现。在该场景下,在图像网格结构中通过特定算法构建转移概率矩阵后,在每个迭代步骤中利用该转移概率矩阵执行随机游走传播操作。这种机制能够将初始标记的信息有效扩散到与其空间位置相关联的其他区域 pixels,并最终达成图像中标签信息的有效传递与整合效果。在此过程中,在每一步迭代操作中都需动态计算各 pixels 的特征权重值,并根据这些权重值的变化程度来决定其在网络中的影响力分布情况

此处定义的变量t表示随机游走传播的迭代次数。在图像处理算法中,在每次迭代过程中都会进行以下操作:首先通过多轮迭代传播信息到相邻像素点;其次经过多轮迭代传播信息到相邻像素点;从而能够更加全面地更新标签值或计算得分为后续步骤提供依据。

在该情境中,** Hadamard 乘积 ** 表示对两个矩阵进行逐元素相乘的操作, 其运算结果通常用符号 ⊙ 表示. 在此背景下(或上下文中), 该运算(指 Hadamard 乘积)可能被用来调整评分值或标签之间的关联.

vec(·)对应于将矩阵或张量展平成向量的操作:这里的vec(·)函数对应于将输入的矩阵或张量展平为一维向量的过程。通过使用这种向量化方法进行数据处理与运算会更加便捷。

通过应用系数(1 − B)来减少边界像素的得分 :由于边界像素通常位于图像边缘且缺乏相邻像素支持,在缺乏邻居进行信息传递的情况下会存在较高的局部置信度值(score)。这种孤立性会导致其无法有效地将分数传递给邻近像素单元。因此,在计算最终结果时可能会出现整体分数分布不均衡的情况。为了平衡这一问题的影响,在计算过程中我们采用系数(1 − B)来进行调整:通过应用系数(1 − B)后能够有效降低这些孤立边界像素的分数值,并在一定程度上缓解整体分数分布不均衡的问题

确定实例分割标签 :依据计算结果来确定实例分割标签。
对每一个像素x:
挑选使得¯M∗ck(x)最高的类别c与实例k的组合,
作为该像素的实例分割标签。
若最高得分类低于设定阈值,
则将该像素标记为背景区域。

边界像素的得分被惩罚 ,这是通过乘以(1 - B)来实现的。这种惩罚的目的是调整边界像素的得分,使其不会过高,同时确保得分能够正确传播到邻近像素。

具体来说,当边界像素的得分乘以(1 - B)时,边界像素的得分会受到影响,因为B中的边界像素对应的值为1,而内部像素对应的值为0。因此,乘以(1 - B)会将边界像素的得分降低,以避免其过高的影响力。

这种乘法操作的原理在于,边界像素通常是孤立的像素,它们不会将得分传播给邻近像素,因此其得分应该适当降低,以保持整体得分的平衡和合理性。通过这种方式,可以更好地控制边界像素的影响,使得实例分割算法在处理边界区域时更加准确和稳定。

如果边界像素的得分过高 ,可能会导致算法将边界像素错误地归类到某个实例或类别中,从而使得分割结果出现断裂、错位或混淆的情况。这会降低实例分割算法的准确性和稳定性,影响最终的分割效果。

转移矩阵T在这里的作用是进行随机游走传播,用于调整和更新像素的得分信息,以便更好地传播得分到邻近像素并调整像素的标签。具体来说,转移矩阵T描述了像素之间的转移概率或关系,通过多次迭代随机游走传播,可以使得得分信息在图像中传播和调整,从而影响像素的标签或实例分割结果。

在实例分割任务中,转移矩阵T的作用是帮助调整像素的得分,使得得分能够正确传播到邻近像素,并根据像素之间的关系进行调整,以提高实例分割算法的性能和准确性。通过转移矩阵T的作用,可以更好地处理边界像素的影响,避免其过高的得分对分割结果造成负面影响,从而改善实例分割的结果。

6. Experiments

我们所构建的架构在PASCAL VOC 2012数据集上的验证结果表明其有效性[14]。其中我们的方法通过从图像中生成伪标签,并将这些伪标签与原始图像一起作为训练数据输入到完全监督的学习模型中。我们不仅评估了这些伪标签的质量,并考察了基于这些高质量标记进行训练后的模型性能。该评估过程主要关注实例分割和语义分割任务的表现,并且由于所生成的高质量伪标签能够适应这些任务的需求。

6.1. Experimental Setting

Dataset: 我们在PASCAL VOC 2012[13]数据集上训练和评估我们的框架。虽然数据集包含语义分割和实例分割的标签,但我们只利用图像级别的类标签。按照通常的做法,通过添加[17]中提出的图像集来扩展训练集。总共有10,582张图像用于训练,1,449张图像用于验证。

表1 :在PASCAL VOC 2012训练集上对我们的伪实例分割标签的质量进行了评估。

表格2展示了基于mIoU的伪语义分割标签质量,在PASCAL VOC 2012训练集上的评估结果表明。“Prop”这一指标代表通过利用预测亲和力实现语义传播的效果。

采用AffinityNet方法(文献中的标准方法)进行语义传播。
此外采用IRNet方法(我们提出的方法)进行语义传播。
表2对比了基于伪标签分割的质量与现有文献的标准对比。
通过mIoU指标评估分割模型的表现。
实验结果表明,在mIoU指标上我们的模型表现优于现有标准。
这一优势源于IRNet算法能够捕捉到更为精确且有意义的空间关系。

Hyperparameter Settings:

搜索空间半径(Radius) :在训练过程中,默认情况下将Eq. (2)中像素配对的搜索范围设定为10个像素间距。这表明模型在学习像素间关系时会考虑到不同距离范围内的像素配对情况。为了提高模型在推理阶段的表现,在测试过程中使用的搜索空间半径被调整为5个像素间距。(通过缩减搜索范围来增强模型对邻近像素关系的关注度,在推断时模型会更加注重局部特征匹配的质量与准确性。通过缩小搜索空间范围来优化模型性能,在推断阶段能够更为精确地传播注意力分数或生成实例分割标签等关键操作参数。这种更为保守的设计策略有助于提升模型推断过程中的准确性和稳定性。)

该参数定义了在Eq. (13)中随机游走的步数t,并将其设定为256。这表明,在生成伪标签的过程中,模型将执行256次随机游走以传播注意力分数。

超参数β :在公式(12)中,该超参数β被赋值为10。该超参数用于平滑计算注意力矩阵中的数值,并有助于更有效地传播注意力分数。

D的迭代轮数 :在Eq. (10)中,在此过程中被应用了100次迭代轮数。这一系列操作有助于对像素之间的位移向量进行精确微调,并以此更加精确地估计实例中心位置的位置信息。

Network Parameter Optimization:

通过随机梯度下降算法(Stochastic Gradient Descent)进行优化,在模型训练过程中更新参数以降低损失函数。

学习率(Learning Rate) :初始学习率设置为一个固定值0.1,在每次迭代中按照多项式衰减的方式逐步递减。这种调整方式有助于模型在训练过程中更有效地收敛。

冻结骨干网络(Frozen Backbone) :在训练过程中,在线递归网络(IRNet)的核心组件——骨干网络(backbone)——将被固定以防止其参数发生优化。这一策略能够确保仅能更新目标模块而不影响基础架构,并且通过这种方式实现了对关键特征的学习与保持稳定的基础表示能力的平衡。

该方法中的梯度增强机制(Gradient Amplification):其传递给位移场分支的梯度强度增加了10倍。这表明,在训练过程中,模型参数更新将受到更大程度的影响,并有助于加快该分支的学习速度。

Comparison to AffinityNet:

为确保比较的公平性, 我们对AffinityNet[1]进行了优化, 更换了其主干部分为IRNet中的ResNet-50. 此后, 我们将IRNet与优化后的AffinityNet分别对比: 首先, 比较了两者在伪分割标签准确率上的差异(见表2); 其次, 比较了基于这些伪标签训练而成的DeepLab[5]模型在表4中所展示出的各项性能指标.

表格3展示了在PASCAL VOC 2012验证集中进行实例分割的表现数据。监督类型(Sup.)具体定义如下:i代表图像级别的标注信息;b代表边界框;f代表分割标签。

表4列出了语义分割方法在PASCAL VOC 2012验证集和测试集上的性能对比结果。其中监督类型(Sup.)为:i代表图像级标注、b代表边界框标注、s代表伪标注、F代表分割标注

分割标签(Segmentation Label):指指导语义分割模型学习的标准标注信息,在该过程中对图像中的每个像素进行精确标注以明确其所属类别。这些单像素级别的标注信息帮助模型学习如何基于图像数据准确划分出各个语义区域。

Scribble标签:是一种辅助注记方法,在弱监督学习场景下应用广泛。该方法通过简单线条或符号勾勒物体边界及其相关区域位置信息来辅助注记过程。相对于严格的像素级注记方式而言更为简便。

Upperbound:该术语代表了在理想条件下(即具备完全准确的注记信息)模型能达到的最佳性能上限值。这一理论上限值为评估当前模型架构与数据集表现提供了重要参考基准。

6.2. Analysis of Pseudo Labels

Instance segmentation labels: 图6展示了几个伪实例分割标签的定性例子, 表1探讨了IRNet各分支对标签质量所做出的不同贡献. 当考虑"CAM"的情形时, 我们直接采用了原始CAM数据来生成伪标签, 其方法包括设定分数阈值并运用组件分析法; 同时假设同一类别中的不同实例不会相互叠加. 在"CAM + class boundaries"的情形下, 与前一种情况相比, 伪标签生成的方法一致; 但在生成伪标签之前, 我们在类边界图上进行了语义传播以增强CAM的效果. 为了评估不同方法的表现, 我们采用了平均精度(AP)这一指标. 计算AP时, 每个检测到的对象在其掩码区域内被赋予的最大类分数即为其评分依据. 如表所示, 利用类边界图显著提升了伪标签质量约25%, 这主要是因为这种技术有助于恢复CAM中被遗漏的对象整体区域. 此外, 通过位移场进一步提升了约3.6% 的性能水平

阈值处理(Thresholding):指将CAM生成的分数与预设阈值进行比较,在此过程中若分数高于设定阈值,则判定该像素属于目标物体的一部分;反之则不属于目标物体部分。通过这一方式可将CAM图中的像素划分为目标物体区域与背景区域两类。
连通组件分析(Connected Component Analysis):作为图像处理算法之一,在本研究中被用于对经过阈值处理后的CAM图中属于同一目标物体的所有像素进行归并处理。具体而言,在这一过程中研究人员将通过连通组件分析方法连接起所有相邻且属于同一目标物体区域的像素点,并将其整合形成一个完整的区域标记物——伪标签。
此外还需指出的是他们假设了同一类别下的实例之间不会发生相互附着现象。
AP 是评估模型性能的重要指标之一 其全称为平均精度(Average Precision)。在目标检测或图像分割任务中 通常会对模型运行效果进行评估 以量化其在特定数据集上的表现水平。
具体而言 AP 的计算过程涉及对每个类别分别计算精确度与召回率 并据此绘制精确度-召回率曲线 AP 则被定义为此曲线下方区域面积 即平均精度数值越大表明模型预测效果越优 其取值范围在 0 至 1之间 1表示模型完美预测所有目标对象 0则表示模型未能正确预测任何一个目标对象。
此外还提到了两种重要的评估指标 AP50AP70 它们分别代表了在IoU(交并比)阈值下不同的平均精度表现:

  • AP50 表示当检测到的目标实例与其真实标注实例交并比达到50%及以上时 被认为是正确的检测结果。
  • AP70 则是在IoU交并比达到70%及以上时 的正确检测评价标准。

对于目标检测任务而言,在检测到的目标实例上都会被一个或多个类别进行关联处理,并且每个类别通常会有一个与其相关的分数来表示模型对该类别的识别信心值。在这些情况下,则可以通过将目标实例的分数值设定为其所属类群在其遮罩区域内的最大类群得分 来实现对其性能评估的目的。

Semantic Segmentation Labels: 为了简化运算而不影响性能,在不依赖实例级分类的情况下完成 CAM 生成步骤是本框架的核心设计理念之一。在此基础上我们设计了一种用于为语义分割任务生成辅助标注的新方法即伪标签生成器。对比实验中将本框架与 AffinityNet[1]作为当前最先进的方法进行了评估主要关注指标是平均交并比(mIoU)。值得注意的是该方法同样依赖于预测的成对语义亲和力来进行信息传播以提升分割效果。通过表2可以看出本方法所使用的伪分割标签在质量上显著优于 AffinityNet[1]这一结论是由一系列对比实验得来的其中一项重要验证结果表明通过对比实验结果可以看出本方法所生成的伪分割标签在准确性方面明显优于现有方法如 AffinityNet

6.3. Mask R-CNN for Instance Segmentation

我们对基于我们框架生成的伪标签训练所构建的实例分割网络性能进行了评估。用于评估该网络性能的方法是Mask R-CNN[19],它属于实例分割领域的领先方法之一,并以其高效的特征提取能力著称。图10展示了基于我们伪标签训练方法所得出的Mask-RCNN模型的定性效果。如表3所示:表3详细比较了基于伪标签训练方法所得出的Mask R-CNN模型在APr指标上的表现与现有方法进行了对比分析。与基于图像级监督的传统先进方法PRM[53]相比,在多数指标上我们的技术表现更为突出。

AP_{50}^{r}

我们的方法相较于采用边界盒监督的SDI[24]及采用全面监督的SDS[18]分别提升了1.9%及2.9%.

如表三所示,在测试数据集上,MRCNN(Mask R-CNN)全监督模型实现了最佳表现,其评估指标达到69分.具体而言,该模型在基于真实标注的数据条件下进行训练,其评估指标达到69分.这一表现可视为该模型在现有数据集和任务设定下的极限,即理论上能达到的最高水平.

图6展示了PASCAL VOC 2012训练集上的人工标注实例分割结果示例。其中(a)为原始输入图像。(b)表示CAM生成的结果。(c)展示了变形场信息。(d)给出了类别边界分布图。(e)为人工标注的分割结果。

图7:我们的实例分割模型在PASCAL VOC 2012验证集上的定性结果。

表8: PASCAL VOC 2012验证集上的语义分割定性结果展示。(a)输入图像。(b) ground truth semantic segmentation。(c) Our ResNet-50方法的结果

6.4. DeepLab for Semantic Segmentation

基于伪语义分割标签训练的DeepLab v2-ResNet50[5]框架经过进一步验证以展示其有效性

7. Conclusion

基于图像级监督的弱监督实例分割是一个明显的欠定问题,因为它缺少针对具体实例的关键信息.为了应对这个具有挑战性的难题,我们开发出了一种称为IRNet的新CNN网络结构.这种网络结构能够单独检测每个实例并预测其大致边界.由于IRNet所提供的支持,AI模型可以通过使用类别注意力机制显著提高性能,并用于训练完全监督的实例分割模型.在Pascal VOC 2012数据集上,使用我们的伪标签训练的AI模型在实例分割和语义分割方面均达到了最高水平性能.

图11:我们的语义分割模型在PASCAL VOC 2012验证集上的定性结果。

全部评论 (0)

还没有任何评论哟~