Anti-aliasing Semantic Reconstruction for Few-Shot Semantic Segmentation
基于抗混叠处理的语义重建算法在快速语义分割中的应用
注
Abstract
现状
基于充足的学习数据进行特征提取,在极小规模的数据集上实现新的类别表征,在少样本条件下实现了语义分割任务的重要突破
问题
特征共享机制无法避免地导致具有相似语义组成理论的新类之间产生语义混淆
创新
在本文中,我们阐述了该方法如何将少样本分割问题抽象为语义重建任务,并通过提取各类特征生成系列基向量构建了类别级别的语义空间框架,从而实现新类别语义重建
方法
- 基于对比损失函数设计,在增强向量间的正交特性的同时减少类间语义重叠程度。
在重构的表示空间中,在线学习模型能够实现对目标语义信息的精准激活,并通过优化机制有效抑制其他类别干扰的影响。
总结
我们的方法在小样本学习场景中实现了系统的、具有可解释性的解决方案。通过在PASCAL VOC和MS COCO数据集上的大量实验验证,在性能指标上较之前的方案表现出明显优势
Intruduction
动机
- 打标签很贵,并且在一些场景(计算机辅助诊断系统)也不可行。
意义
少样本分割目标主要体现在利用已有的大量基础类数据训练好的模型,在仅有几个新类实例的情况下进行推广。这一技术途径展现出显著的应用潜力。
Fig1

我们的研究相较于传统的方案具有显著优势。传统的方案限定于特定特征空间中对新类进行表示,在这一过程中并未充分考虑潜在的语义混叠问题;而我们的方案则通过构建正交的基向量组来消除潜在的语义干扰,并在此基础上实现更为精确的语义重构。
贡献
我们开发了一种系统性的可解释抗混叠语义重建方法(ASR),该方法专门针对少样本语义分割问题设计。通过将类特征转化为基向量进行操作以实现语义重建。
我们引入了语义跨度概念,并在此基础上提出了有效的降维策略来降低基类与新类之间的语义重叠程度。
基于该创新性解决方案,在常规数据集上测试显示ASR相较于现有方法显著提升了性能指标;同时在双目标少样本分割任务中也实现了令人满意的实验结果。
Related work
Semantic Segmentation
- 多尺度特征聚合:场景解析网络。
- Atrous Spatial Pyramid Pooling(ASPP):基于卷积神经网络的语义图像分割、采用空洞卷积和全局连接CRFs。
- 问题:这些方法由于需要大量的像素级标注而限制了其在真实场景中的应用。
Few-shot Learning
- meta学习主要包含基于优化技术的数据增强方案。
- 基于原型模型的设计主导了大多数少样本学习方案;同时将空间语义信息转化为卷积通道表示以提高分类性能。
- 当前研究中存在一个问题即特征共享机制导致语义混叠现象未能有效解决。
Few-shot Segmentation
早期的方法使用参数模型,通过support图片学习特征来分割query图片
- Conditional networks for fewshot semantic segmentation: 通过连接支持特征与查询图像以激活目标区域的特征进而实现图像分割
- PGNet 和 DAN 基于图结构求解语义分割任务 并通过图推理机制将标签信息传播至查询图像中
下列少样本分类方法,将prototype向量用作跨通道的语义表示
- Similarity guidance network for one-shot semantic segmentation: 通过mask average pooling将support模块里的前景信息压缩到prototype向量。
- CANet: 由two branches module组成的网络,在support模块与prototype引导的query模块之间执行特征对比。
- PANet: 针对每个语义类别设计了高度具代表性的prototype模板,并基于pixel-wise匹配实现query模块的分割。
- CRNet: 提出了一个互指机制,在分别对支持模块和query模块进行预测的基础上强制对象共现以提升语义传递效果。
- PMMs 和 PPNet 建议将目标分解成多个子部分,并用混合型态表示这些子部分来防止语义模糊。
尽管在某些方面取得了进展,然而现有方法仍存在语义歧义问题.这可能最终导致对象部分的误分或信息丢失.
- SST 和 SimProp 分别采用了自监督微调与相似性传播策略,在特定类别间构建语义约束机制以降低潜在的语义歧义(即所谓的语义aliasing)。 但在基类特征正交性的方面存在不足时,则会导致该问题依然存在。
总结
该方法旨在提出一种名为anti-aliasing semantic reconstruction (ASR)的技术。
该方法将基类特征转换为基向量,并构建了一个语义空间。
在训练过程中, ASR通过最大化基向量间的正交性, 从而最小化了基于类别的semantic aliasing, 最后帮助重建新的类别。
在推理过程中, 该方法通过应用semantic filtering 抑制了语义干扰, 因此能够精确地激活了目标物体区域。
