【论文阅读】Domain-Rectifying Adapter for Cross-Domain Few-Shot Segmentation 详细解读
目录
论文介绍
文章概述
方法
方法概述
详细讲解
局部-全局风格扰动模块
1. 局部扰动
2. 全局扰动
3. 为什么要 全局 + 局部 相结合
4. 为什么要计算均值和方差
循环领域对齐模块
1. 域矫正
2. 循环域对齐
3. 损失函数
4. 为什么做两次修正
方法总结
实验
训练设置 / 超参数
数据集
对比实验及结果
消融实验
相关工作
Few-Shot Segmentation(少样本分割)
Domain Generalization(域泛化)
Cross-Domain Few-Shot Segmentation(跨域少样本分割)
代码
本文对论文中的知识点进行了概述,并且内容较为全面,并举例说明了其他相关实验。
论文介绍
题目: Domain-Rectifying Adapter for Cross-Domain Few-Shot Segmentation
期刊: CVPR
*日期:
论文链接: extension://bfdogplmndidlpjfhoijckpakkdjkkil/pdf/viewer.html?file=https%3A%2F%2Farxiv.org%2Fpdf%2F2404.10322
文章概述
本文重点介绍了一种基于多领域的高效解决方案,在跨域少样本语义分割任务中展现出显著的优势
该方法与其他方法的对比:(a) 传统少样本分割FSS (b) 域泛化DG (c) Ours

前置小知识:
支持图像、查询图像和原型的含义:
作为训练数据中的一部分(as a part of the training dataset),支持图像(support images)用于帮助模型学习目标类别(target category)。这些支持图像具备明确的类别标签和标注信息(clear category labels and annotation details),从而帮助模型有效提取出各类别的重要特征(key features for each category)。
查询图像:待预测的图像;模型基于支持图像所学到的知识用于从查询图像中搜索具有相同类别物体或区域的部分。
基于辅助图像生成的典型示例向量用于指导模型在查询图像中的分割过程。该模型利用计算的方法识别了查询图像中各像素与对应的 prototype 之间的相似度,并据此判断其归属。
方法
方法概述
构建一个 领域适配器 ,通过该适配器将目标领域的样式调整至与源领域一致。经修正的目标域特征能够更加有效地结合已有在源域上训练好的模型,并实现对少样本分割任务的支持。
具体方法包括:
- 局部至全球风格扰动模块(Local-Global Style Perturbation Module)
- 循环域对齐模块(Cyclic Domain Alignment Module)
解决问题:
- 在有限训练数据场景下显著降低了过拟合现象
- 现有少样本分割方法在跨域场景中的表现通常欠佳
详细讲解
局部-全局风格扰动模块
通过模仿不同风格类型来创建新的图像样本集,在局部区域(每个单个源域图像)以及全局范围内(整个源域的所有图像),干扰特征通道的统计特性。
目的:为了向特征引入扰动而生成具有不同域特性的特征表示。这些模拟域的特征有助于模型在训练中经历更多变化的分布差异。
1. 局部扰动
方式:采用高斯噪声引入单个源域图像的特征通道统计量以生成多样化的域样态。
计算过程:
计算特征通道统计量,μo 和 σo

(1)
- Fo 作为源域特征图存在
μ_o 和 σ_o 分别表示沿每个通道维度计算得到的均值与方差
ε 是为了保证数值稳定性而设置的一个极小正数常量
其中:
- B 表示输入图像批处理的数量
- C 表示单个图像的空间通道数量
- H 表示图像的高度尺寸
- W 表示图像的宽度尺寸
计算扰动均值和方差,μp 和 σp

(2)
- 两个参数 α 和 β:由 μo 和 σo 控制的高斯噪声(支持与查询特征共享相同的干扰因素)
- 它们分别表示扰动均值与方差 μp 和 σp
计算扰动特征映射 Fp ,使用 AdaIN 公式

(3)
- Fp:扰动后的特征图
- AdaIN:自适应实例归一化(一种经典的域适应方法)
上述方程 2+3 可以进一步简化为

(4)
此时,只有 α、β、μo是变量(扰动因子、均值),即可得出模拟的目标域风格图像
以概率 Plocal 在单个图像上启用
2. 全局扰动
计算全局样式统计信息

- λ 表示动量更新因子
- μdatum表示全局风格统计量,并替代方程4中的参数μo;基于动量的逐步优化策略实现。
每当处理一张源域图像时,在其局部区域施加扰动后,则会相应地更新μdatum;持续进行计算以获得最终结果。
以概率 Pglobal 随机启用
3. 为什么要 全局 + 局部 相结合

从图中可以看到,在单个样本中各通道的统计变化分布不均(红),而平均后的通道则呈现更为平滑的趋势(蓝)。
当模型施加 style 的干扰时,在个别样本层面可能会受到局部 interference 的限制;然而通过 global statistics 的应用,则有助于生成更为 stable 的同一 target 域的 style 特征。
4. 为什么要计算均值和方差
平均值与标准差(即为特征通道统计量)不仅能够表征每个特征通道中的数据分布情况,并且对图像的整体风格产生重要影响
改变均值方差,可以有效地合成不同的域样式,同时保留图像内容
平均值:表示为特征通道中的激活强度指标;它能够有效描述图像在明暗程度上的分布以及色调分布的趋势。波动程度:衡量了该特征通道内信号的变化范围;它不仅反映了图像的整体对比度(即明暗反差),还能捕捉到纹理细节的变化情况。
循环领域对齐模块
促进模型更有效地实现各领域间的对齐,并确保适配器能够准确地修正各目标领域的风格差异
1. 域矫正
- 适配器的 输入:扰动后的特征(μp 和 σp)
- 适配器的 输出:修正向量(α_rect 和 β_rect)
计算过程:
计算修正后的均值和方差

- α_rect 和 β_rect:校正向量,在优化通道统计量的基础上使其恢复到源域特征的统计量
- μrect 和 σrect:优化后的均值与方差
计算修正后的特征图 Frect,用 AdaIN 公式

可以进一步简化为:

通过计算得出:Frect 是通过线性调节 Fp 来生成的。
其中 α_rect 和 β_rect 在调节过程中起到了关键作用。
公式中,请注意 σ_rect 已被省略仅保留了 μ_rect。
2. 循环域对齐
帮助适配器用于将目标域的特征样式映射至源域样式,并通过损失函数 保证修正过程的准确性。

其中P代表扰动过程...;
具体而言:
- 首先对源域特征Fo施加干扰处理(real),通过适配器将干扰后得到的特征Fp(fake)反推出经过修正的特征值Frect(fake);
- 接着对该修正后的特征值Frect(fake)再次施加相同的干扰处理...
- 最终计算Fo与经过逆向调整后的F' rect之间的差异以及Fo与直接调整后的F rect之间的差异均被用来计算损失函数;
若适配器可使特征还原至源域风格,则在两次修正之后,特征应与原始状态一致。即 Fo(real) 与 F' rect(fake) 必须完全一致;而 Fo(real) 仅求其与 Frect(fake) 风格相仿即可。
3. 损失函数
确保两次修正后的特征 Frect′ 与原始源域特征 Fo 在统计上保持一致
循环对齐损失

目的:约束初始特征 Fo 和两次修正后的特征 Frect′ 的通道统计量一致
对齐损失

目的:约束修正后的特征 Frect 和源域特征 Fo 之间的统计一致性
最终损失函数

LBCE:二元交叉熵损失
4. 为什么做两次修正
基于二次干扰和调整的基础上运行的循环校准模块能够在适配器错误修正的过程中实现有效的检测与纠正功能,并成功将目标域特征引导至源域特征空间中
防止漂移:循环对齐过程增加了额外的监督信号以抑制目标域特征在修正过程中的偏移趋向于源域风格。这对于处理跨领域分割任务至关重要;尤其是当目标领域与源领域间存在显著风格差异时。
方法总结

橘色部分(扰动模块) 蓝色部分(修正模块)
从图片左上角开始看起
首先,在源域中的集经过卷积层处理,并采用风格提取Style Extraction技术生成为特征图
两个概率指标P(由一个随机生成机制生成,并旨在丰富目标域的特征维度;同时保留一部分未被显著干扰的特征作为参考)分别调节局部风格Plocal和全局风格Pglobal的扰动幅度。
- 当两个P > 0.5时
为了确保无干扰,在模型训练过程中会对整个主干网络施加标准训练,并使特征图转换为blockx特征块以供后续处理。
- 当两个P < 0.5时
干扰信号被引入后,在模型中估算特征图的均值与方差,并由此获得局部个体Style的统计指标。随后采用动量更新方法计算整体AverageStyle的分布参数。接着,在AdaIN领域适应过程中将这些统计信息重新转换为新的干扰特征图,并将其传递给adapter模块进行处理。
在此时段落中

实验
Domain-Adjusting Adapter(DAA)方法在跨域少样本分割(CD-FSS)场景中表现出显著效果
训练设置 / 超参数
- 主体网络基于ResNet-50架构构建SSP模块(少样本分割基准模型),并在其前三个特征层施加局部扰动模块
- 优化算法采用基于随机梯度下降法(SGD),设定动量参数值为\alpha=0.9;起始学习率设定为1\times1e^{-3}
- 图像尺寸设置为481x481像素
- 批处理大小选择8个样本组成一个批次
- 训练迭代周期设定为主训练阶段共5个epoch
- 局部扰动采用均值\mu=0、标准差\sigma=1的高斯噪声分布生成;全局扰动则采用均值\mu=0、标准差\sigma=2的高斯噪声分布生成
- 评估指标采用改进后的Over Union (mIOU)计算平均交集/并比值;数值越大表示模型性能越优
数据集
训练数据集:PASCAL VOC 2012(进行了SBD增强)
测试数据集:
- FSS-1000:小样本分割技术在自然图像领域展现出良好的应用效果,并涵盖1,000个互不重叠的子类
- DeepGlobe遥感数据库集中展示了多种自然场景实例
- ISIC2018皮肤病理数据分析集合特别关注于通过显微镜观察表皮病变特征的技术支撑
- Chest X-ray影像集合旨在辅助医生识别并区分具有结核病征的胸部影像与健康的标本
对比实验及结果
1. 跨域少样本分割方法(PATNet)和ours的方法在1-shot和5-shot任务下的 mIoU

在Chest X-ray上,1-shot和5-shot的mIoU分别提高了15.74%和12.11%。
2. 在1-way 1-shot分割任务中,在处理具有全局差异场景情况下的定性比较结果方面

分别是:支持图像、查询图像、基线方法、本文方法的分割结果
3. 其他对比
- 该领域适应性方法采用(Active Learning Domain Adaptation Technique)
- 该领域泛化策略通过(Dynamic Feature Augmentation Domain Generalization Approach)
- 基于SAM的方法包括(PerSAM Implementation Framework)
扩展性:FPTrans (基于Vision Transformer的少样本分割模型)
4. way shot指的是什么
Way:要分类的类别数量
Shot:每个类别中的训练样本数量
消融实验
1. 不同高斯噪声方差对局部与全局扰动的影响

- 局部扰动(蓝):当噪声方差较小时表现出色
- 全局扰动(橘):能够处理较大的噪声干扰,并具有较强的稳定性
2. 各模块的贡献

分步加入扰动模块、修正模块、循环对齐损失后,模型性能从57.20逐步提升到60.86
3. 循环对齐损失的影响

循环对齐损失 和 对齐损失 的结合 能够显著提升模型性能
4. 局部和全局风格扰动的对比

同时使用 局部和全局扰动,mIoU最高,为60.86
5. 噪声类型

6. 特征通道统计量(均值和方差)的可视化分析
该技术通过将多维特征数据映射至二维空间中来实现这一目标,并以观察特征修正后的效果作为主要评估指标。


- 左图:均值(修正前1.91,修正后1.24)
- 右图:方差(修正前0.58,修正后0.31)
- 加号:原始特征
- 三角:修正后特征
- 方框:扰动后特征
得出:扰动特征被校正为更接近原始特征
7. 应用多个适配器

在单阶段应用多个适配器可以进一步提高性能
相关工作
Few-Shot Segmentation(少样本分割)
通过少量的标注图像来完成对新类别图像的分割任务
1. Prototype-Based Methods(基于原型的方法)
- PrototypicalNet:通过从支持图像中提取原型来引导查询图像的分割
问题及其解决方案表明,单一实例通常不足以全面反映整个对象的本质特征。因此建议采用多组样本来更加全面地呈现复杂物体的各个组成部分。
- ASGNet
- PRMMs
2. Matching-Based Methods(基于匹配的方法)
通过融合支持图像与查询图像的特征信息,并将其输入至预先训练好的CNN或Transformer架构中进行处理,在像素级别上计算并建立一个像素级别的相似度矩阵,并对该矩阵进行优化处理以提升生成的支持样本的质量;该过程有助于模型更加精准地识别并匹配两幅图像中的目标区域
- HSNet:一种主要依赖于密集对应的网络,在指导少样本分割时主要依赖于密集的像素级别的相似性。
- Hypercorrelation Squeeze:一种新的方法,在增强型查询特征方面进行了优化设计,并通过多层次匹配提升了性能。
Domain Generalization(域泛化)
当目标域的数据在训练阶段不可见时,模型能够泛化到不同目标域
1. Domain-Invariant Feature Learning(域不变特征学习)
基于多种数据源提取具有抗变性的特征表达(学习稳定的特征表示),进而能够在多个领域之间实现有效的迁移
- 通过多任务学习框架(autoencoders)设计了一种新策略
- 从数据中去除表层统计特性,并聚焦于更稳健的域不变特征提取过程
2. Data/Feature Augmentation(数据/特征增强)
通过生成具有多样性的样本来提升训练数据的多样性,并有助于模型更好地适应不同领域风格的变化。这些策略通常依赖于对图像或特征进行干扰的方式生成具有不同领域特性的样本集合。其中较为常见的技术包括图像拼接和风格转换等方法
通过拼图游戏(jigsaw puzzles)创新性地实现领域泛化
创造新领域以提升训练数据的多样性
挑战:在少样本分割任务中,域泛化问题变得更为棘手的原因在于目标域不仅在形式上与源域存在显著差异,在类别内容方面也存在显著差异。
3. Ours (我们的方法)
开发了一个小型适配器来将目标域数据转换为源域风格以便实现模型在不同域上的泛化能力
Cross-Domain Few-Shot Segmentation(跨域少样本分割)
通过小样本分割模型从单一源域迁移至多个目标域,并同时具备模型的分割能力
1. Feature Transformation Methods(特征转换方法)
PATNet : 一种类型的特征转换模块,在这种模块下能够实现查询图像与支持图像的特征从任意指定的源域映射到同一个目标域无关的特征空间
2. Knowledge Preservation Methods(知识保留方法)
RestNet 是一种通过残差转换设计的网络系统,在既能保持源域知识的同时又具备良好的适应性
3. Memory-Based Methods(基于记忆的方法)
RD : 利用记忆库系统地收集源域的知识,并将其应用于目标领域以提升模型对新数据的理解能力
4.Ours (我们的方法)
不同于先前的CD-FSS方法,在我们的方案中无需再恢复源域样式的重建需求。
代码
github上写了怎么跑,我正在试,稍后更新
