Advertisement

TPAMI 2023 | 无监督域适应语义分割新视角:统一图像和特征层次的对齐

阅读量:
e25b54b0e83f4e9cfdd782b4ddfef215.gif

©PaperWeekly 原创 · 作者 | 陈超奇

单位 | 香港大学

**研究方向 |**迁移学习

ae5f60607a0e10fa0e5e657aeea124e5.png

论文标题:

I2F: A Unified Feature Mapping Method for Domain Adaptation in Semantic Segmentation

论文链接:

https://arxiv.org/abs/2301.01149(预印版)

https://ieeexplore.ieee.org/abstract/document/9984933/(IEEE TPAMI版)

4ad9c04edeab19f06179dff0b320e537.png

摘要

本研究致力于探索无监督领域自适应(UDA)算法在语义分割任务中的应用。我们发现,在图像的低层统计特性和高层语义信息之间存在明显的领域差异性问题,在目标领域上直接影响着分割性能。为此,在解决这一挑战时的关键在于同时实现图像层面与特征层面的领域适配策略。然而,在现有文献中对此类统一架构的研究仍显不足,并且在针对语义分割任务方面更是如此。

本研究致力于开发一种创新的UDA框架,在语义分割领域中展现出显著的应用价值。该框架通过巧妙地整合图像级与特征级信息处理机制,在跨领域适应性方面取得了突破性进展。具体而言,在图像级别上我们成功实现了跨域偏移问题的有效解决,并在此基础上构建了完整的特征级适应体系。通过引入全局光度对齐模块与全局纹理对齐模块相结合的方式,在图像层面实现了源域与目标域属性值之间的精准对准。同时,在特征层面我们创新性地提出了基于流形空间的整体性对齐策略:首先将两个领域中的像素特征映射到源域的特征流形空间进行全局对齐;其次通过面向类别的三元损失正则化手段强化源域类别中心的表示,并在此基础上开展目标域一致性正则化过程以提升模型泛化能力。

实验数据显示,我们的方案在性能上显著优于现有方法。具体而言,在经典的 GTA5 到 Cityscapes 任务中,默认使用 Deeplab V3+ 网络作为骨干网络时,我们提出的方法比现有最佳方案高出了 8 个点,并在 mIoU 指标上实现了突破性的进展至 58.2%。

9f12e50afde1dcecea3a1abf6eff5d14.png

背景

现有基于深度神经网络的语义分割技术已展现出显著的进步。然而,在训练这些模型时往往需要耗费大量时间和精力收集高质量、标注精确的数据。无监督域适应(UDA)则为解决这一问题提供了一种可行途径:它通过结合来自不同领域且具有兼容标签空间的数据集中的有标签样本,在无需人工标注的情况下提升目标域的表现。UDA方法特别适用于那些无法获得高质量标注数据的情况,并且能够在一定程度上缓解由于领域间分布差异带来的挑战。

然而,在不同数据集之间存在域偏移问题。最明显的差异体现在与颜色、纹理以及光照条件相关的低级图像统计数据上。这些差异可以通过图像级别的适应性处理一定程度上得到缓解。此外,在物体级别的特征分布上也存在显著差异。这种情况下会导致特征在不同数据集中的分布呈现出一定的分化趋势。所有这些领域的偏差都对语义分割模型的性能带来了负面影响,并且这种现象在无监督的领域适应场景下表现得尤为明显。

域偏移的原因已有较多研究已深入探讨。通常原因可划分为基于成像条件的域迁移及基于特征空间的迁移两种类型。其中基于成像条件的域迁移是指其成像系统的不同导致的结果。例如相机镜头系统中的光照参数设置等技术因素。这些因素会影响整体图像视觉效果,并进而对其特征空间分布的影响较为轻微。

现有的解决图像级别域转移的研究主要依赖于图像级别的风格转换技术。该技术的基础架构主要由深度学习模型支撑包括生成模型或基于图像到图像转换的架构 [1] 以及傅里叶变换的方法 [2] 。我们将这些方法统称为基于领域适配的方法 。研究表明,在风格迁移和特征对齐方面取得了显著进展 。然而,在计算资源和训练时间方面存在较大挑战 。此外,在实际应用中发现这类算法往往会导致模式坍塌现象 ,使得生成特征的空间范围明显受限

我们注意到以往关于域自适应语义分割的研究主要聚焦于图层面级上的领域对齐问题,并引用了文献[3]。相较于采用更为复杂的流程的近期研究[4,5]而言,这类早期的研究在最终分割性能方面表现相对较低。这些较新研究进一步表明:通过将基于图层面级领域的配准技术替代原始源领域的图片信息的方法,在一定程度上提升了特征级联配准技术的表现。这意味着上述方法仅能在一定程度上缓解领域差异的问题,并非彻底解决这一挑战性问题:为了进一步提升性能水平,则需引入额外的特征级联配准模块以实现整体目标

在特征级别上实现自适应,在早期研究中通常采用对抗性策略[5,6]。具体而言,在训练鉴別器无法有效分辨源域与目标域的特征求异时,则假设两者的特征求异已实现对齐。然而,在这种策略下会产生较为局限化的特征求异模式——从而被鉴別器误以为是同一领域。如果不同类别或领域中的图像呈现出相似的统计特性,则会导致模型泛化性能下降

另一方面,在进行分类级别的特征自适应时,一些现有方法通过在源域计算并使用这些类锚点来实现两域间的对齐[7, 8]。这种做法可被视为对分类级别上各类别之间存在的固有模式施加硬性约束的一种方式。然而,在这种情况下所忽略的关键点在于不同分类之间的特性差异——即使是在源领域具有相似特性分布的不同分类,在目标领域也可能会保留这种相似性特性模式;而当目标领域缺乏监督信号时,则可能导致错误地赋予这些无监督分类以伪标签属性。我们的实验结果显示,在调节各类间与各类内特征集取差距的比例时施加软性正则化约束能够显著提升模型性能。

根据以上分析单一进行图像级或特征级适配均难以彻底解决领域转移问题

但是仅仅基于图像级别的适应性调整并不能充分确保不同领域之间的特征空间对齐性。为此我们开发了一个全局流形对齐模块它通过将源领域特征的空间映射为一组基元实现了跨领域样本之间的映射关系在此过程中我们最小化了输入特征求其与基元空间之间的映射误差从而使所有来源领域的样本都能收敛至同一个统一的空间中

为了实现基于级别的特征自适应性问题, 我们提出了两类基于级别特征求正则化的解决方案: 一种是针对源域提出的分类导向三元组损失模型, 通过扩展其间的距离与内部的距离间隔来实现对规范性类别中心的柔和化约束. 这种方法仅限于在源域上应用, 因为计算其间的距离与内部的距离需要依赖可靠的标注信息, 而这些标注信息仅存在于源域数据中.

该自适应方法基于目标域分类级别的特征,并采用自监督一致性正则化策略。该策略通过使增强的目标图像预测结果与其未增强版本上的伪标签保持一致,在确保相同语义对象在目标领域中的类别标签一致性的同时全面解决多维度领域迁移问题,在实验中我们发现所提出的自适应方法显著提升了性能水平

217beb3fc94b235827319b8c081e81eb.png

方法描述

d2f86325d6d0063eaebf88e0d7a90b83.png

如图所示,在我们的研究中提出的框架主要包含两个主要阶段:第一阶段为图像级适应过程(Image-level Adaptation),第二阶段为特征级适应过程(Feature-level Adaptation)。在第一阶段中,在分析两域间的亮度差异后,并通过亮度差异引导的方式将源域图像与目标域图像进行初步匹配;随后,在这一过程中还实现了目标域高频细节特征的从源域自然迁移;随后进入第二阶段,在此基础之上进一步对两者的像素级别的特征进行了精确对齐处理,并在此过程中实现了基于Domain adaptation理论的特征级别适配;最后,在整个框架中我们引入了类间中心距离约束以及类内特征变化程度控制机制(Class-wise Constraints),以此来规范各分类别下的样本在特征空间中的分布情况

2.1 图像级适应

全局光度对齐(Global Photometric Alignment): 基于全局域偏移现象主要由低级图像属性所主导的特点, 我们提出了一种名为全局光度对齐的方法, 其核心在于实现将目标域的低级特征转移到源域图像空间。值得注意的是, 在实际应用过程中, 不同场景下的空间亮度分布往往呈现出高度复杂性, 这使得直接作用于RGB通道可能导致明显的伪影效果及颜色失真现象出现。相比之下, 在大多数情况下a、b色通道的空间色彩分布呈现出相似的钟型直方图特征。

基于此 我们针对亮度和颜色通道分别采取了不同的处理策略:我们分别在颜色通道a和b上采用了经典直方图匹配策略 在亮度通道L上则应用了Gamma校准方法 对源域图像与目标域参考图像进行了精确配准 这种方法能够有效避免传统直方图匹配可能导致的伪影问题 如下所示 整个全局光度对齐过程包含以下步骤 首先输入源域图像 然后随机选取目标域参考图像 最后两幅图片将在Lab色度空间中完成配准 从而得到最终的配准结果

7433d1705d03cf874620a01739f9799d.png

2.2 特征级适应

全局纹理对齐(Global Texture Alignment): 研究结果表明,在卷积神经网络(CNN)模型中存在对于高频细节较为敏感的特点。我们发现,在合成图像与真实世界图像之间存在显著差异,并且合成图像往往呈现出显著差异且整体高频能量更高这一现象可能削弱其泛化能力。然而所提出的 GPA 模块主要实现了全局光度均值的一致性,并未涉及纹理细节匹配。

为了解决这一问题, 我们设计了一个全局纹理对齐模块, 用于辅助数据增强目的。这一想法其实并不复杂: 我们通过对源域中的随机图像子集进行高频成分的调整, 使得每个图像中的分布能够与相应参考图像更为一致, 而这些参考图像是从目标域中抽取的。如图1所示的过程

具体来说, 我们的解决方案可划分为四个关键步骤: 首先, 采用双边滤波技术去除源域图像中的高频细节信息, 同时有效保留其整体轮廓特征; 其次, 分别对处理后的源域图像和原始目标域图像施加拉普拉斯运算以提取其高频特征; 接着, 计算并整理上述拉普拉斯运算结果的空间直方图; 最后, 通过最小化空间直方图配准损失函数来优化双边滤波器的参数设置:

1cd6a2317d2c2743eb4b0dcd7fdb0176.png

**全局流形对齐(Global Manifold Alignment):**例如局部线性嵌入(LLE)和Isomap等方法通常用于建模流形结构,在基于梯度反向传播的训练中其计算成本较高。为此我们采用K均值算法来简化计算过程。由于LLE方法依赖于分段线性模型来近似高维特征空间中的复杂结构K均值算法相当于将该空间划分为若干个简单的区域并进行常数近似。通过K均值算法所得到的每个质心都是对应区域内的常数近似中心点

基于一组具有代表性的特征向量来近似流形的基础上, 我们提出了一种全局流形对齐方法. 该方法的目的主要是为了将源域与目标域的特征进行更加精确地对齐. 具体来说, 通过最小化源域投影误差可以使得到的特征流形更为光滑, 而最小化目标域投影误差则能够有效地减少源域与目标域特征分布之间的差异(即改善了整体对齐效果). 例如, 我们采用了注意力机制来计算原子向量的线性系数. 同时, 流形投影误差以及重构后的特征向量都可以通过下面给出的具体方程进行计算

af6513b2f919197c65388f947d2d69da.png

类别三元组损失: 然而,在先前开发的 GPA 和 GMA 模块中已经取得了一定水平上的域不变特征学习效果。然而,在之前的训练过程中所采用的损失函数未能明确地指导各类别特征的空间分布规律,并未能有效抑制那些具有明显类别相关性的领域偏移现象的存在。值得注意的是,在实际应用中不同类别的像素特征往往呈现出明显的不均衡性分布特点。

为了有效解决这一问题,在该研究中我们提出了一种面向类别的三元组损失方法。其主要目标是通过将像素特征向其所属类别中心进行拉近,并尽量远离其他类别中心点来实现分类目标。需要注意的是,在不引入类别中心的情况下应用传统的三元组损失函数会导致计算复杂度急剧上升。具体而言,在传统方法中我们需要对所有像素对进行距离计算以确定正负样本对这一点就无法实现因此引入类别中心有助于简化计算过程并提高算法效率

fe7ebb25dac207a830d65740486f7242.png
78b54572a9ba2ed27c79c210fede9c6a.png

目标域一致性正则化: 在源域中,我们提出的面向类别的三元组损失对类别特征进行了正则化,其中用了真实类别标签。然而,在目标域中没有具有真实标签的数据,监督信号较弱。一致性正则化是许多最近最先进的自监督学习算法的重要组成部分,它利用无标签数据,依赖于这样一个假设:当输入是同一图像的扰动版本时,模型应该输出相同的预测标签。受此启发,我们提出了一种目标域一致性正则化方法,具体公式如下:

10708d1bb71a2048d3ef6f761f88b1e5.png

在生成伪标签时采用前一阶段训练完成的模型而非当前正在进行训练的模型具有关键的重要性。其原因在于当前阶段所使用的模型正处于持续改进的过程中且存在不稳定性。由当前阶段所使用的具有波动性的伪标签可能对整个训练过程造成毁灭性的负面影响。实验研究表明该方法不仅简洁而且能够显著提升性能。这种方法通过强化目标域内的监督信号不仅能够提升分类器的表现还能增强数据集的质量

da7e9fdd28e7783434e4558cf355689d.png

实验结果

Table 1 和 Table 2 分别详细记录了在两个重要 UDA 分割任务上的实验结果,并且能够观察到我们的方法在性能上显著优于现有的解决方案。

043a71bb55f82f5dc7963c4652bf6399.png
d125d1866c85ff48d9b1a5a028d1734c.png

本图通过定性比较展示了我们方法与CAG[16]在GTA5至Cityscapes任务中的表现。具体而言:(a)展示输入帧;(b)为CAG[7];(c)采用我们提出的方法;(d)标注信息。

7a445f84a3a5653c1807dc13e0355daa.png

该图表呈现了全局光度对齐模块的定性评估。(a)输入图像集,(b)参考图像集,在这一过程中分别采用了[citation needed]的技术框架进行对比研究。(c)基于BDL-GAN的方法[5]进行了优化设计。(d)通过傅里叶适应方法[2]实现了更好的频域匹配效果。(e)最终完成了全局光度对齐过程。

f84ee3144ac57399cfd474b5a6862c19.png
outside_default.png

参考文献

outside_default.png

Zhu J Y and others presented "Unpaired image-to-image translation using cycle-consistent generative adversarial networks" at the IEEE international conference on computer vision in 2017.

[2] Yang Y, Soatto S. 该方法基于频域适应技术实现语义分割[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 4085-4095.

[3] 吴振华等. Dcan: 双通道对齐网络用于无监督场景适应[C]//欧洲计算机视觉会议论文集(ECCV) proceedings. 2018: 518-534.

(C)// Pan et al. Unsupervised intra-domain adaptation for semantic segmentation via self-supervision [J]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 3764-3773.

The bidirectional learning process for domain adaptation of semantic segmentation is presented in this paper. This work was published in the IEEE/CVF Conference on Computer Vision and Pattern Recognition Proceedings in 2019.

[6] Wang H, Shen T, Zhang W, et al. Classes matter: A fine-grained adversarial approach to cross-domain semantic segmentation[C]//Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XIV. Cham: Springer International Publishing, 2020: 642-659.

Zhang Q and Zhang J, along with Liu W and others, proposed a method called Categorical anchoring-guided unsupervised cross-domain adaptation for semantic segmentation.

[8] Wang Z, Yu M, Wei Y, et al. Differentiated handling of objects and substances: A straightforward unsupervised technique for cross-domain learning in semantic segmentation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 12635-12644.

更多阅读

[

938fbf00b19a428bd499b23c2d99e85a.png

]()

[

be0f795d3322b8d479bea05820389169.png

]()

[

d1bc5927f18d37181700e72e5e797710.png

]()

d8ceb6cc438275f594f3c89a72bd286d.gif

#投 稿 通 道#

让你的文字被更多人看到

如何缩短优质内容到达读者的时间?答案:那些不认识你的人。

总会有一些不相识的人了解你所想探寻的知识.PaperWeekly 也许能够促进来自不同学术背景与研究领域的专家们思想发生碰撞,并激发更多的创新活力.

PaperWeekly 支持高校实验室或个人在平台上提供各类优质内容。这些内容可以包括最新论文解读、学术热点剖析、科研心得以及竞赛经验讲解等多种形式。我们致力于实现知识真正流动的目标。

📝 稿件基本要求:

文章内容确实是本人创作的,并非公开渠道上的发布物。如有其他平台已发布或即将发布的内容,请特别注明。

稿件建议采用 markdown 形式编写,请将文中配图作为文件传输,并确保图像清晰且具有合法版权。

改写说明

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

请在投稿时填写即时联系方式(微信),以便我们在稿件选用后第一时间与您取得联系。

• 您也可以直接添加小编微信(pwbot02 )快速投稿,备注:姓名-投稿

e4db7977c4c1470f4415fba67c9029ce.png

△长按添加PaperWeekly小编

🔍

现在,在**「知乎」** 也能找到我们了

进入知乎首页搜索**「PaperWeekly」**

点击**「关注」** 订阅我们的专栏吧

·

·

62995a1424198885c9ca6d7cc580c93e.jpeg

全部评论 (0)

还没有任何评论哟~