【论文阅读】DMLNet:深度度量学习开放世界语义分割
title: DMLNet
date: 2022-05-03 20:07
Tag:
- 深度学习
- 异常分割
- 度量学习
开放世界语义分割
-
开集语义分割模块
- 闭集语义分割子模块
- 异常分割子模块
-
增量小样本学习模块
我是短小精悍的文章摘要(๑•̀ㅂ•́) ✧
CODE
multiscale 是自己设定的吗 cfg.DATASET.imgSizes = (300, 375, 450, 525, 600)
Seg 转化为long Tensor的目的是什么
colors的作用是什么
几个辅助函数的作用:
Normalization(x): \dfrac{x - min(x)}{max(x) - min(x)}
Coefficient_map(x, thre): \dfrac{1}{1 + exp(50*(x - thre))}
normfun(x, mu, sigma):\dfrac{exp(-\frac{(x - mu)^2}{2 * \sigma^2})}{\sigma * \sqrt{2*\pi}}
论文阅读
引言
Traditional closed-domain semantic segmentation networks exhibit limited capability in detecting out-of-distribution (OOD) objects, which plays a key role in ensuring safety-critical applications such as autonomous driving. Gradually learning these OOD objects with little annotation data represents an ideal approach to expanding their knowledge bases within deep learning models. In this paper, we propose an open-world semantic segmentation system comprising two modules: The first module is a robust feature extractor designed to capture distinctive local and global features from normal training data. The second module acts as a dynamic anomaly detector, capable of identifying novel objects in real-time using the extracted features.
该模块用于实现开放集语义分割任务中的异常物体(包括同分布和非同分布对象)的检测。
A stepwise few-shot learning module is designed to sequentially integrate out-of-distribution objects into its existing body of knowledge.
The proposed system exhibits human-like behaviors in an open-world semantic segmentation framework, capable of identifying out-of-distribution objects while progressively learning from corresponding supervision.
We implement the Deep Metric Learning Network (DMLNet) based on contrastive clustering technique to aim at achieving open-set semantic segmentation tasks. Compared with other existing open-set semantic segmentation approaches, our DMLNet demonstrates state-of-the-art performance in three challenging benchmark datasets without relying on additional training data or generative models.
Based on this foundation, two incremental few-shot learning methods are developed to enhance DMLNet based on the annotations of OOD objects.
传统的闭合域语义分割网络在识别异常数据(OOD)方面的能力存在局限性。这对于自动驾驶等高安全性的应用而言至关重要。通过增量学习这些仅标注少量异常数据的样本来扩展深度学习模型的知识库是一种理想的方法。在本文中,我们提出了一个开放世界语义分割系统,包括两个模块:
(1) 一个开放集语义分割模块,用于检测内分布和OOD对象。
(2) 一个增量的小样本学习模块,逐渐将这些 OOD 对象纳入其现有的知识库。
该系统作为一个多模态数据处理平台,在开放世界环境下具备多模态数据融合能力,并能够检测异常物体,在有指导的学习机制指导下不断优化其语义分割性能
我们开发了一个基于对比聚类技术的深度度量学习网络(DMLNet),以实现开放集语义分割任务。相较于其他方法而言,在一系列复杂性较高的开放集语义分割数据集上进行测试后发现, 该方案展现出卓越的性能水平, 并且仅依赖现有的数据进行训练和推理过程.
在此基础上进一步提出两类增量式少样本学习方法 并基于OOD对象的标注逐步优化DMLNet
6. Conclusion
注意:改写后的内容已经按照要求进行了词汇替换和句式调整
- a segmentation module that allows for open-set scenarios
- an incremental module for few-shot learning
Developed as part of our research, the deep metric learning network forms the foundation of our open-set segmentation module. By adopting the Euclidean distance summation criterion, this framework successfully achieves state-of-the-art performance in various applications.
本研究提出两种增量式的少样本学习方法旨在拓展网络感知的知识基础。系统中的两个模块均可作为进一步研究的对象以提升性能水平。我们期待通过我们的努力能够吸引更多的研究人员并为这一具有实用价值的研究领域作出重要贡献。
我们开发了一个开放领域语义分割系统,该系统由两个主要组件构成:一个是用于实现开敞集分割的模块,另一个是基于增量式的小样本学习的技术。
我们提出了一种开放集分割模块,并依托于深度度量学习网络构建了该系统。该模块采用欧几里得距离度量作为核心评估指标,并通过其与其他标准的结合实现当前最先进水平的性能。
我们成功开发了两种轻量级小样本学习方法以提升网络感知能力。 对于开放世界语义分割系统而言其两个核心模块均可以深入研究以进一步提升性能。 我们希望能够吸引更多优秀的研究人员参与这一具有重要应用价值的研究方向共同致力于探索这一具有重要应用价值的研究领域
1. 介绍
得益于高质量的数据集 [3,4,5],深度卷积网络在语义分割任务 [1, 2] 中取得了巨大成功。 这些语义分割网络在许多应用中被用作感知系统,如自动驾驶[6]、医疗诊断[7]等。然而,这些感知系统中的大多数都是闭集和静态的。 闭集语义分割假设测试中的所有类都已经在训练期间参与,这在开放世界中是不正确的。 如果闭集系统错误地将分发中标签分配给 OOD 对象 [8],它可能会在安全关键型应用程序(如自动驾驶)中造成灾难性后果。 同时,静态感知系统无法根据所见内容更新其知识库,因此,它仅限于特定场景,需要在一定时间后重新训练。 为了解决这些问题,我们提出了一种开放集的动态感知系统,称为开放世界语义分割系统。 它包含两个模块:
基于开放集的语义分割模块被设计用于识别异常物体,并将其正确标注到相应的区域中。
一种增量的小样本学习模块能够分阶段整合这些未知对象,并将其纳入其现有的知识体系中
我们提出的开放世界语义分割系统的整个流程如图 1 所示
开放集语义分割和增量小样本学习都没有得到很好的解决。
在开集语义分割任务中,核心目标是从一张图像的每个像素中识别OOD(Out-of-Distribution)像素,并将其定义为异常分割。 使用图像级别的开集分类方法作为主要手段,在像素级别进行开集分类。
此类方法涵盖两种主要类型:一种是基于不确定性估计的方法 [9-12] ,另一种则是依赖自动编码器的技术 [13-14] 。然而,在汽车驾驶场景中这两种方案均存在局限性:前者易产生大量误报式的异常检测结果 [15] ,而后者则难以重建复杂的城市景象环境 [6-7] 。近期研究中提出了一种基于生成对抗网络(GAN)的新方法体系[8-9],该体系已被部分验证具有良好的效果;但整体而言其仍显相对复杂 ,因为其必须整合多层级深度学习模型进行系统构建。
对于增量少样本学习的研究不仅需要解决增量学习所带来的问题(包括但不限于灾难性遗忘问题[18]),还需应对从少量数据中提取有效特征的问题(包括利用极少数样本推导出具有代表性的特征信息[19])。
在本文中,我们建议使用 DMLNet 来解决开放世界语义分割问题。 原因有三:
(1) DMLNet的分类原理是基于对比聚类 ,可以有效识别异常物体,如图2 所示

度量学习是从数据中提取数据对象之间距离的一种方法。其核心目标是在学得的距离度量下使相似对象间距离缩小、不相似对象间距离增大。
传统的度量学习方法仅能提取线性特征。尽管有核方法可提取非线性特征但对实际应用中的提升效果却不明显。
深深理解这一概念需借助于对激活函数本质的研究而深度神经网络则展现了强大的非线性映射能力。基于此结合传统降维算法可有效降低维度并提高分类精度。
(2) DMLNet结合原型非常适合few-shot 任务[19]。
(3) DMLNet 的增量学习可通过新增原型的方式达成这一做法自然且十分有效 [20]。
基于 DMLNet 架构的研究团队,在开放集语义分割领域提出了两项创新性解决方案,并针对增量少样本学习问题设计了几种高效的算法框架。
在我们的实验研究中发现,在实际应用场景下这两个模块均表现出高效且低消耗的特点。综上所述,在实际应用场景下我们主要贡献包括
- 首先推出了一款先进的人工智能视觉分割系统,在实际应用场景中展现出显著的优势与可靠性。
- 基于DMLNet开发的开箱即用型视觉分割组件经过我们在三个极具挑战性的数据集上的测试与实践,在性能指标方面表现最为卓越。
- 通过提出一种基于few-shot增量学习的方法论框架,在一定程度上缓解了机器学习模型在经历新类别学习时出现的知识退化现象。
- 将所开发的开箱即用型视觉分割技术和增量少样本学习技术相结合,在实际应用中构建了一个完整而高效的深度学习框架。
2. Related Work
2.1 异常语义分割
在异常场景的语义分割技术中,主要包含两类方法:一类是依靠不确定性评估机制的技术,另一类是利用生成对抗网络技术。
不确定性估计的基准是最大softmax概率(MSP),这一方法首次在文献[9]中被提出。不同于Dan等人所采用的方式,在文献[11]中首次提出了使用最大logit(MaxLogit)的方法,并由此实现了更为出色的异常分割性能。值得注意的是,在贝叶斯网络领域中,默认采用了深度学习框架的概率论视角:它们将参数和输出结果视为概率分布而非具体数值[21, 22]。在实际应用层面,则普遍采用Dropout技术[10]或集成学习方法[12]来进行贝叶斯推理过程的近似计算。
其中自动编码器(AE)[23, 13]和受限玻尔兹曼机(RBM)[14]是两种常用的生成模型,在实际应用中表现出良好的性能表现
最近研究表明, 一种新型基于GAN再合成的生成模型能够通过其稳定可靠的像素到像素级重建效果达到当前最先进的性能水平. SynthCP [17] 和 DUIR [16] 是两种典型基于GAN再合成的方法. 不幸的是, 它们尚无法满足轻量级的要求, 因为此类方法需要依次采用两个或三个神经网络来进行OOD检测.
相较于它们,我们通过实验证明了基于对比聚类的 DMLNet 在异常分割效果上表现更为出色,并且仅需推理一次。
2.2 深度度量学习网络
DMLNets 已广泛应用于多个领域,如视频理解 [24] 和人员重新识别 [25]. DMLNet 基于欧几里得.马氏距离或 Matusita 距离 [26] 通过将此类问题建模为度量空间中嵌入特征的相似性计算.
卷积原型网络和 DMLNets 常被用来解决特定问题。如在识别图像级 OOD 样本方面有研究 [27, 28, 29] 和在小样本学习的语义分割任务中应用 [19, 30, 31]。我们还基于这种组合构建了首个适用于开放世界语义分割的 DMLNet
2.3 开放世界分类和检测
开放世界分类最先由[32]进行研究。该研究团队最先提出了一种名为NNO(最近非异常值)的算法,在增量学习、异常检测以及风险管理等方面展现出显著优势。
相比之下,在最新发表的文章中, 我们的语义分割系统在增量学习模块中采用了更为保守的方式, 即仅允许已知类别的样本参与训练, 这一做法源于对少样本条件下潜在挑战的认识。
值得注意的是, 本研究特别关注于增量小样本学习这一领域, 并在此基础上分别进行了分类、目标检测以及语义分割任务的研究[34-36]。
3. 开放世界语义分割
在本节中
开集语义分割系统又划分为两大类:闭合型语义分割组件和异常识别相关的组件。
- 该模块的输出图\hat{Y}^{close}对应于闭集语义分割子模块的功能。其中对于每一个像素位置(i,j)而言,对应的类别标签\hat{Y}^{close}_{i,j}属于输入空间中的类别集合C_{in}。
- 该模块的任务是通过分析输入图像识别出-of-distribution(OOD)像素,并将识别结果以概率形式表示。其中H和W分别代表输入图像的高度和宽度。
基于此\hat{Y}_{close}与\hat{P}的基础上,我们定义了开集语义分割图\hat{Y}^{open},其表示如下:
\hat{Y}^{open}_{i,j} = \begin{cases} \mathcal{C}_{anomaly} & \text{当}\ \hat{P}_{i,j} > \lambda_{out}, \\ \hat{Y}_{i,j}^{close} & \text{否则}. \end{cases} \tag{1}
\mathcal{C}_{anomaly} :表示 OOD 类别
λ_{out} :确定 OOD 像素的阈值。
该系统通过 openset 语义分割模块能够识别异常像素并赋予它们正确的分布标签。随后 Yopen 可以传递给能够从 C_{out} 中识别异常类别特征并提供相应标注者的标注者。增量少样本学习机制则负责在获得新类别标签后逐步更新近集分割子模块的知识库。图 1 展示了开放世界语义分割系统的循环工作流程。
图 1. 开放世界语义分割系统。 第一步是识别出系统中的已知与未知对象(以蓝色箭头表示)。 第二步是对这些未知对象进行标记或标注(以红色箭头指示)。 第三步则是通过增量少样本学习方法来扩大网络的学习能力范围(借助绿色箭头所指的方向)。 经过增量少样本学习后训练完成的DMLNet模型能够在更大的应用场景中输出结果(如紫色箭头所示)。

4. 方法
我们采用了DMLNet这一技术作为特征提取工具,并在第4.1节详细阐述了其架构与损失函数的具体实现情况。随后,在第4.2至第4.3节中分别对开放集分割模块与增量少样本学习模块进行了深入介绍
4.1 深度度量学习网络
Traditional CNN-based semantic segmentation networks can be divided into two components:
- A feature extractor f(X; \theta_f) designed to extract the embedding vector of each pixel's characteristics
- A classifier g(f(X; \theta_f); \theta_g) formulated to establish the decision boundary.
where X, θ_f and θ_g denote the input image , parameters of the feature extractor and classifier respectively.
This learnable classifier is not suitable for OOD detection because it assigns all feature space to known classes and leaves no space for OOD classes.
传统CNN-based语义分割网络:
-
f(X;\theta_f) 特征映射模块:输出图像中的每一个像素点的嵌入向量
-
g(f(X;\theta_f);\theta_g) 判别模型:确定输入样本在特征空间中的分类决策面
-
f(X;\theta_f) 特征映射模块:输出图像中的每一个像素点的嵌入向量
-
g(f(X;\theta_f);\theta_g) 判别模型:确定输入样本在特征空间中的分类决策面
对于OOD检测任务而言,这种可学习的分类器并不适用。其原因在于它将所有特征空间分配给已知类而导致无法识别OOD类。
Instead of using a classifier, DMLNet employs Euclidean distance-based representations for all prototypes, forming a set \mathcal{M}_{in} = \{ m_t \in \mathbb{R}^{1 \times N}|t \in \{1,2,...,N\} \} where each m_t represents a prototype for class \mathcal{C}_{in,t}. The feature extractor f(X;θ_f) is trained to map input data X into a feature vector of equivalent length to those prototypes within metric space. For tasks involving close-set segmentation, such as object recognition in images, the probability that a single pixel X_{i,j} belongs to class \mathcal{C}_{in,t} can be mathematically expressed as:
DMLNet 中, 所有原型的欧几里得距离表示代替了传统的可学习分类器
- m_t 指的是 \mathcal{C}_{in,t} 类的原型。
特征提取器 f(X;θ_f) 被设计为将输入 X 转换为与度量空间中对应的嵌入维度的特征向量。
针对闭集分割问题,在给定的分类框架中
基于遵循欧几里德距离的概率框架下,判别交叉熵 (DCE) 损失函数 \mathcal{L}_{DCE}(X_{i,j},Y_{i,j};θ_f,M_{in}) [27] 被定义为:
Y表示输入图像 X 的标签。
损失函数 \mathcal{L}_{DCE}的分子部分代表图2中所描述的吸引力项,
而分母部分则代表排斥力项。
排斥力不需要除去本身所属的类,本身类的原型吗?
图 2. DMLNet 的对比聚类。 在推理阶段中,在处理已知样本时

我们引入了一个新的损失函数命名为方差损失 (VL) 函数 \mathcal{L}_{VL}(X_{i,j},Y_{i,j};θ_f,M_in) 其定义如下:
\mathcal{L}_{VL} = \sum_{i,j} ||f(X;\theta_f)_{i,j} - m_{Y_{i,j}}||^2 \tag{4}
\mathcal{L}_{VL} 只有吸引力作用,没有排斥力作用。
基于 DCE 和 VL 的框架中,通过定义 \mathcal{L}= \mathcal{L}_{DCE} + λ_{VL}\mathcal{L}_{VL} 来构建混合损失模型。其中 λ_{VL} 作为权重系数参与计算。
4.2 开集语义分割模型
开集语义分割模块由闭包型语义分割子组件与异常检测组件集成而成。 开放集数据增强过程的具体实现细节见 图4 。
图3. 该闭集分割模块被蓝色虚线框所包含,而该异常分割模块则被红色虚线框所包裹。 开放集的视觉化表示由这两个子模块生成的结果共同构成,在这一表示中我们能够观察到分布内的类别以及OOD类别的特征分布情况。 EDS map 和 MMSP map 的具体定义将在4.2节中详细阐述。

该模块旨在对图像进行细粒度语义分割处理,并对每个像素点赋予相应的类别标签
异常像素分割子模块 识别OOD像素。 我们引入了两个新增的评估指标以计算异常概率。 具体而言, 包括最大softmax概率(MMSP) 和 欧几里得距离和(EDS)等指标。
以下是基于 MMSP 的异常概率:
\hat{P}^{MMSP}_{i,j} = 1 - max \ p_t(X_{i,j}),\ t \in \{ 1,2,3...,N \} \tag{6}
EDS基于以下发现提出:当特征位于OOD像素聚集度量空间的核心位置时,则其与所有原型的距离均较小;这种情况下异常样本具有较小的欧氏距离。EDS定义如下:
S(X_{i,j}) = \sum_{t=1}^N ||f(X;\theta_f)_{i,j} - m_t||^2 \tag{7}
基于 EDS 的异常概率计算如下:
\hat{P}^{EDS}_{i,j} = 1- \frac{S(X_{i,j})}{maxS(X)} \tag{8}
EDS 是类别独立的特性,在度量空间中各分类器的原型应当均匀散布于固定位置以避免移动。 可学习性原理下,在训练过程中这些原型可能导致系统不稳定且无法带来性能提升 [37]。 因此我们采用了 one-hot 向量来表示各类原型:仅在第 t 位上设置值 T 而其余位置设为零值 其中 t 属于 {1 2 … N}
PAnS是什么情况?
EDS 代表所有像素间最大距离和的比例,在不含有OOD对象的情况下,在每幅图像中都必然存在高异常分数区域。此外,在同一类别内部各点间的总距离分布彼此略有差异(见图4)。

采用MMSP和EDS的融合方式,并用于抑制那些实际处于分布状态并包含中间响应的具体像素点。
混合函数为:
\hat{P} = \alpha \hat{P}^{EDS} + (1-\alpha)\hat{P}^{MMSP} \tag{9}
α :
\alpha = \frac{1}{1 + exp(-\beta(\hat{P}^{EDS} - \gamma))} \tag{10}
* β 和 γ 是控制抑制效果和阈值的超参数。
基于方程9我们获得异常概率图,并根据方程5获得闭集分割图后随后采用方程1产出最终的开集分割图
5. 实验
Our experiments are divided into three parts.
- We validate the performance of our open-set semantic segmentation approach in Section 5.1.
We demonstrate our incremental few-shot learning results in Section 5.2.Based on the open-set semantic segmentation module and incremental few-shot learning module, the whole open-world semantic segmentation is achieved by integrating these components in Section 5.3.
5.1 开集语义分割
这些数据集包含了Street Hazards[11]、Lost and Found[38]以及Road Anomaly[16]三种类型的数据,并用于验证基于DMLNet的开放场景语义分割方法的鲁棒性和有效性。
- 在StreetHazards系统中出现的大多数异常物体都是大型稀有的运输机器,在具体实例中包括直升机、飞机以及拖拉机等。
- Lost and Found 场景中包含了许多小规模的异常物品,在具体实例中涉及货物、玩具以及包装盒等。
- Road Anomaly 数据集已突破传统的城市场景限制,并新增了乡村景观和山地景观的具体图像数据。
指标 。 开放集语义分割是封闭集分割和异常分割的组合,如 4.2 节所述。
- 在处理闭合场景下的语义分割任务时,我们采用了mIoU指标来进行性能评估。
- 参考文献[11]中采用了三个关键指标来评估异常分割任务的表现:包含ROC曲线下面积(AUROC)、95%召回率对应的误报率(FPR95)以及精确召回曲线下面积(AUPR)。
实施细节 。
对于 Street Hazards 来说,我们采用了与文献 [11] 相同的训练方案,并对该问题进行 PSPNet 的预训练。
[11]: Scaling out-of-distribution detection for real-world settings.
基于 Lost and Found 和 Road Anomaly 的数据集,并参考文献 [16] 和 BDD-100k 数据集 [39] 训练 PSPNet 模型。注意,在本研究中所使用的 PSPNet 模型仅限于从第4章第1节讨论的主题中提取特征(即每个像素对应的嵌入向量)。混合损失的 λ_{VL} 设定为 0.01。所有原型中的非零元素数量 T 设置为3个。等式 (1) 中使用的参数 β 和 γ 分别取值20和0.8
[16]: Detecting the unexpected via image resynthesis
基线 。
- Between Street Hazards and other categories, the model incorporates a variety of techniques such as Maximum Logit, Dropout, Autoencoder, and SynthCP.
- Both Lost and Found and Road Anomaly are characterized by techniques including Max Logit, Dropout, Ensemble, Restricted Boltzmann Machine, and DUIR.
结果 。
StreetHazards 的结果如表 1 所示。

针对 Lost and Found 和 Road Anomaly 情况而言,在计算 mIoU 时会遇到问题;这是因为这些场景仅提供OOD类别的标签信息而缺乏对应的分布内类别标签支持。具体结果如表2所示。

我们的实验表明:
- 利用DMLNet的方法在多个关键指标上均展现了卓越的表现。
- 相对于近期提出的基于GAN的方法(包括DUIR和SynthCP),我们的方法在异常分割质量方面表现更为优异,并且结构更为简洁高效。由于这些方法通常需要同时部署两个或更多深度神经网络以完成整个流程中的各个阶段任务,而我们只需进行一次高效的单次推理即可完成所有工作流程。
- StreetHazards数据集上的闭集分割验证表明,我们的模型在闭集场景下的性能表现优异。
一些定性结果如图 8 所示

消融机制探究。我们进行了系统性分析,在实验中考察了多种损失函数(VL和DCE)以及多维度的异常判断指标(EDS与MMSP),具体结果可见图1。

- DCE 在 mIoU 指标的实证结果证明其在表现上超越了 VL 的方法,在此背景下可以看出排斥力的存在。
- 无论是在何种损失函数的情况下, EDS 总是能够展现出比 MMSP 更佳的表现效果; 这进一步验证了与类无关的标准在异常分割任务中更为适用。
