Advertisement

论文阅读-LSeg:Language-driven Semantic Segmentation(语义分割)

阅读量:

Paper:Language-driven Semantic Segmentation

Code:https://github.com/isl-org/lang-seg

简介:

语义分割本质上是一种像素级别的分类任务。由于现有技术中新增的分类方法和思路通常可以直接借鉴现有技术中的解决方案。本文提出了一种实现零样本(zero-shot)的语义分割方法,在具体实现上主要依赖于将类别提示作为文本输入,并通过计算相似度来进行预测。其中,该方法与CLIP中的零样本学习机制相类比,在具体实现上主要依赖于将类别提示作为文本输入,并通过计算相似度来进行预测。

给定一张图片后,并根据输入的文本提示指定任意类别进行设置后,进而完成对图像对应区域的语义分割。值得注意的是,在图像包含明确目标类别时(例如狗、树),模型能够清晰地区分这些区域;而对于图像中不存在的目标类别(例如车辆),该模型依然表现出较高的容错能力;即使未提供特定提示信息(如树、草地等未被指定),该方法仍能将其归类为'其他'类;此外,在处理目标类别的子类或父类识别方面同样表现出色(例如狗与宠物的关系)。值得注意的是,大多数基于CLIP架构的设计核心在于通过计算图像与输入提示之间的相似度来进行分类或分割

模型架构:

见图4

文本编码器生成 N×C 维度的文本表示(其中 N 表示分类提示的数量、C 代表通道数),而图像编码器则生成 H ~×W×C 维度的密集空间信息(相较于原网络有所降维操作例如 1/4 或 1/16),两者的联合信息经过矩阵相乘形成 H × W ×N 维度的空间特征图。随后通过 Spatial Regularization Blocks 进行上采样以恢复原始尺寸并完成语义分割任务。值得注意的是,在这一过程之前还存在一个额外模块:除了上述网络中用于提取文本特征的部分外(即所谓的条件分支路径),整个架构依然遵循传统监督学习框架的设计理念。

在训练过程中,该模型采用有监督学习方法进行训练。具体来说,在这一过程中系统中始终存在标注好的分割图数据。经过在7个不同的分割数据集上进行系统化的训练与优化

当进行推理任务时,可以根据需求选择不同类别的提示信息来完成零样本语义分割。

创新:基于传统有监督分割模型框架之上,在其基础之上引入专门设计的文本表征模块,在具体实现过程中采用数学运算机制将图像空间与语义空间中的特征进行深度交互整合,并在此基础上生成具有语言意识的融合特征;最终实现基于prompt的语言指导分割过程。

LSeg 的文本编码器是由 CLIP 的文本编码器构建而成,其模型参数在整个训练及推理过程中均保持固定状态;
同时,
LSeg 的图像编码器支持采用多种网络架构(如 CNN 和 ViT),并要求对其进行训练优化;

Spatial Regularization Blocks 是我们提出的组件之一。它旨在通过可学习的参数来解释在完成像素级图文相似度计算后的结果。该组件主要由卷积层和逐深度卷积层构成。

实验结果:

在PASCAL-5、COCO20和FSS-1000等数据集上进行评估时,请注意以下划分方法:首先将这20个类别划分为四组(每组包含五个类别),然后将其中一组(即五个类别)作为已知类别集合,并将剩下的三组(共计十五个未标记类别)作为未知类别集合来进行零样本学习实验。

从表格数据可以看出,在zero-shot语义分割任务中,LSeg显著超越了之前的方法;然而,在few-shot(甚至one-shot)场景下仍有较大的提升空间。

从表格数据来看,在零样本语义分割任务中,LSeg的表现显著优于以往的方法;但就少样本而言,在单样本水平上仍存在较大的提升潜力。

全部评论 (0)

还没有任何评论哟~