Advertisement

Domain Adaptation via Prompt Learning

阅读量:

论文地址:https://arxiv.org/abs/2202.06687

Abstract

该方法基于预训练基底模型(源自于CLIP架构)提出了DAPL (Domain Adaptation via Prompt Learning)框架,并且仅进行了有限层的微调即可实现目标。其核心观点在于通过将领域特征融入提示词中来引导分类任务完成,并利用提示词这一自然语言表达形式来构建多模态特征向量进行分类判断。具体而言,在提示词设计阶段仅引入领域相关的视觉特征作为上下文输入即可完成多领域数据的学习任务,并通过领域特定的数据集动态调节分类器参数以适应不同领域特性。

传统的UDA旨在通过域对齐来去除特有的领域信息。在数据分布复杂的情况下,特征表示会出现失真现象。我们提出的方法不仅保留了原有的领域信息,并且为每个领域单独定制了独特的prompt指导。

Introduction

因为数据分布偏移问题存在,在有标签学习领域训练的模型可能难以有效地向无标签学习领域进行知识转移。为此提出了uda算法框架,旨在探讨这种数据分布偏移情况下的知识转移问题。

当前的 UDA 方法是基于对齐源和目标特征空间来学习域不变特征;通过利用域对齐机制引导相似特征向量在不同域空间中的分布趋于一致;在源域上训练的分类器能够直接地应用于目标Domain数据

这种对齐通常采用以下两种方法实现:第一种基于统计差异最小化(如MMD、CMD等);第二种则是通过对抗训练过程使生成的特征在源域与目标域之间保持一致。具体而言,在第二种方法中,这种方法不仅能够有效学习到具有领域不变性的特征表示,并且能够使得生成的特征空间中的源域与目标域之间的差异得以降低。

其弊端在于这些对齐可能导致语义特征结构发生形变,并降低类别间的可区分度。因此需要在域对齐与保留语义特征之间找到平衡。

一种潜在的替代方案是避免领域对齐,并通过学习区分意义与领域表征来实现(Learning disentangled semantic and domain representation)。

本研究系统地提出了一种名为DAPL的prompt learning框架用于解决UDA问题。基于连续标签空间构建表征模型后,在UDA框架中嵌入prompt学习技术。

Prompt由三部分组成:

Domain-Agnostic Context 代表了域不可知上下文;它代表了普遍任务信息,并且能够在所有图片中实现共享。

2、domain-specific context 域特定上下文;表示域信息,并在每个域内共享。

3、class label (token) 类标签;区分不同的类别。

前两部分是连续的,是从数据中学习的。

这种方法为我们的研究提供了这样的能力:在领域维度上与类别维度上实现了清晰区分,并且确保了在表示学习过程中不会丢失重要信息。

DAPL通过对比学习进行训练,并设定正样本对:图像与文本的域和类别均一致(一张图片与其对应的域和类的文字)。其余情况则被视为负样本。

具体来说,对于

和y,图片和本文的域、类信息在特征空间分别对齐;而对于

在与y相关的处理中,在与y相关的处理中,在与y相关的处理中,在与y相关的处理中,在与y相关的处理中,在与y相关的处理中,在与y相关的处理中,在与y相关的处理中,在与y相关的处理中,在与y相关的处理中,在与y相关的处理中,在与y相关的处理中,在与y相关的处理中,在与y相关的处理中,
在这些领域中的信息将被分离出去。
从而确保了在分类表示上实现了各自独立。
这些领域中的信息将被分离出去。
从而确保了在分类表示上实现了各自独立。
这些领域中的信息将被分离出去。
从而确保了在分类表示上实现了各自独立。
这些领域中的信息将被分离出去。
从而确保了在分类表示上实现了各自独立.
这些领域中的信息将被分离出去.
从而确保了在分类表示上实现了各自独立.
这些领域中的信息将被分离出去.
从而确保了在分类表示上实现了各自独立.

本文以CLIP作为base网络,并旨在促进prompt学习任务及对比学习框架的发展。

Method

backbone:CLIP

CLIP基于对比学习策略进行模型训练,在优化过程中旨在最大化正类样本间的余弦相似度的同时最小化负类样本间的余弦相似度。这种设计使得模型能够在图像与文本特征空间中实现有效的对齐效果。

在进行预测时,通过计算图像x的特征f(x)与各类别对应的文本特征g(t)之间的余弦相似度,在确定具有最高相似度的那个类别后,则意味着图像x被归类到与之最接近的类别中

(T是超参,< >是计算余弦相似度):

此处所使用的prompt是由人工设计而成,在自然语言处理领域中被广泛应用。它主要由一系列离散的token构成,在模型训练过程中起到关键作用。经过对离散 token 的优化处理转化为连续 embedding 形式后,则能够更加准确地刻画语义特征与语境关系。

现有的prompt learning是域无关的,context在所有域和类中共享。

DAPL

structure

(a) DAPL训练中的可学习Context变量涉及域无关上下文变量、领特定上下文变量以及[CLASS] token。(b)image encoder提取来自不同领域的图像特征并生成图像表示。(c)通过计算文本与图像特征之间的余弦相似度来促进具有相同领域与类别的正样本配对。

detail

由于与领域无关的context无法应对域间分布偏移的问题,因此建议采用领域特定context (DSC)以捕捉各领域特有的特征特性.本文的设计理念是将上下文分为两部分:一个是通用背景信息(与领域无关),另一个是针对某一领域的详细信息.

Within the same domain, contextual information is shared across classes. Across domains, each has its own design approach. We denote the domain-specific token as...

,d指的是域特定token,可以细分有{s,u}分别代表源域和目标域,

代表的是具有领域特性的token的数量。
因此进一步定义prompt如下:
其中分别对应于(领域无关的、领域特异的以及分类相关的)情况。

在文本特征空间中发现[CLASS] token存在对各类别差异描述不够精准的问题时

相比于仅依靠 [CLASS] 标记进行类别表示的方法而言, 这种方法能够提供更加细致粒度的信息. 现如今, 我们已经发展出了 domain-specific 和 class-specific 的上下文.

给定一组源域训练样本

,可以得到一个训练样本属于第k类的概率:

分母是该图像

基于两个领域的全部K个类别中对应的文本特征g(t),其与目标图像特性的相似度总和构成了分子部分;而分母则是该图像特性与特定感兴趣文本特性的相似度值。通过上述方法计算得到的结果表明,在这种情况下该图像被归类为类k的概率

根据图像 Xi 属于 k 类的概率P,我们在给定真实标签

的情况下最小化标准交叉熵损失。损失计算如下:

此时在源域上,训练会使得prompt更加精确?

基于未标记数据的进一步挖掘,在目标域上生成伪标签。我们选择预测概率最高的类别作为训练数据。

的伪标签

仅当被评估对象的最大预测概率超过预先设定的阈值 τ 时(简称τ),我们会将这些未标记的数据标记为具有最高置信度的类别;随后,在目标域上基于这些带有伪标签的无监督图像进行对比学习训练,并结合先前所述公式6的方法构建提示信息

综上所述,在本研究中我们提出了一种基于prompt learning(DAPL)的方法来进行跨域学习,并采用端到端的方式来完成训练任务。整体对比损失作为评价指标使用。

总的来说,现有的域适应方法需要对齐源和目标的边缘分布 P( f(

) )和P( f(

))后继进行分类处理。【该文指出

))后继进行分类处理。【该文指出

设k为整数序列中的某一项。因此他们指出他们的方法能够同时处理条件分布与边际分布发生偏移的情况。

Contrastive Learning

我们把优化对比损失L作为优化目标,why?

视觉编码器与文本编码器分别将输入转换为两个相互独立的潜在表示,在此过程中将领域特定的信息与类别内部的信息区分开来。仅在类信息与域信息完全对齐时,文本特征与图像特征之间的距离会达到最小值。通过缩小这些正样本之间距离以增强相似度,在此过程中正确标签的概率得到最大提升,并可参考公式6中的结果。

作者假设视觉表示

包含两部分:域d的域信息和类c的类信息 (如下图a的

);类似地,语言嵌入

也包含相同的两部分:不仅包括域d的域信息这一方面内容还包含类c的类信息这一方面内容接下来表明的是通过优化对比目标来进行区分

举个栗子:

有四个图像-文本对儿,分两个类(猫、狗)和两个域(照片、草图)。

是正样本对,

是负样本对。

优化对比学习目标,图像特征

和句子嵌入

之间的距离被最小化,而图像特征

和句子嵌入

我们通过最大化它们之间的距离达到了这一目的。这使得狗的类别信息能够从照片或草图中的域表示中脱离。

相反的情况,假设域信息和类信息仍然纠缠在表示中:即域表示(

)仍包含狗的类别信息。在这种情况下,

仍然匹配,所以

在删除此类别的样本对时能够进一步增大两者之间的距离的同时也会导致类别信息的丢失。也就是说我们改进对比损失函数以降低域表示中的类别信息。

类似地,将 (

以负对的形式,在类别表示中排除领域信息——因为这两个类别属于同一'photo'领域,并且如果未能充分地去除领域信息

仍然会匹配

纠缠在一起,尽管他们属于不同的类。

综上,域表示和类别信息可以通过最小化对比目标来强制彼此分离。

Experiment

在office-home和VisDA上做的,用预训练的CLIP模型。

在 office-home 领域中,则将 ResNet-50 设定为其图像编码器,并且在训练过程中固定编码器参数;随后进行 200 轮 epoch 的 prompt 训练,并设置 batch size 为 32

在VisDA框架中,将其图像编码器设定为ResNet-101模型,在训练过程中保持编码器参数不变,并经过25个 epoch 的 prompt 调整;同时设置 batch size 为32.

其中,在超参数配置中,上下文中的tokens M1 和域特定的tokens M2 都被设定为长度16。此外,在伪标记阈值方面,则分别设定τ分别为0.6和0.5

Ablation Study

以VisDA-2017为例:

(1)手动设计的prompt:“ a photo of [CLASS] ”作为基线;

(2)仅有统一上下文(unifiedcontext)形式的prompt (式3);

(3)仅有类特定(class-specific)上下文形式的prompt;

(4)统一上下文形式域无关和域特定prompt(式4);

基于类特定(class-specific)背景的域独立与领域专用提示(式5:本文最终方案)。

比较方案(2)与方案(3)时,在不使用特定域背景下进行比较发现,在类别特定背景下学习的prompt相比统一背景下的prompt展现出更好的性能表现。这是因为类与类之间的差异可以通过类别特有的背景信息进行更有效的建模。将领域特定背景下的信息与统一背景下的信息结合在一起(如第4点所述),这不仅能够提升方案(2)的基本性能水平,并且在从方案(3)扩展到方案(5)的过程中也能够持续获得一致性的性能提升效果。值得注意的是,在这些改进措施中仅针对领域无关背景的信息所取得的进步结果充分证明了领域特定背景信息的重要性。这种改进有助于我们更好地捕捉到各个领域特有的基础性信息

基于(4)和(5)的对比,在加入了领域特定语境之后, 进一步对领域无关语境进行调整并未在精度上获得显著提升(如同从2降到1一样)。归因于UDA的核心是分布偏移这一主要因素; 而试图建模类间细微差别并不能带来额外性能提升。

在关于token长度的消融研究中:总体而言(token length) 对我们方法的表现没有显著影响(no significant impact)。这表明能够通过少量标记( few markers) 来学习连续的表示形式(continuous representations)。

三种方法在目标域VisDA-2017(上)和Office-Home(下)数据集的预测置信度。

绿色:manual;

蓝色:域无关context;

粉色:DAPrompt。

在对第一张图片进行分析时发现,在图像中仅占很小一部分区域的植物。因此,“一张植物的照片”这一称呼并不适用于该图片,“一张盆栽植物的照片”则更为贴切。这样的prompt在本示例中的效果并不理想。

最后一张图片与人工生成的描述"一个背包的照片:其匹配效果较好"相比,在域无关上下文中表现不如预期。本文的方法是通过利用product领域的信息以及领域特定的信息来提高模型预测背包图像的能力。

整体而言,在协同作用下,这些不同类型的上下文有助于最大限度地提升模型性能。

Conclusion

本文探讨了一种用于无监督域适应的新开发的prompt学习方案,在这里我们不对所有域进行统一的特征对齐。相反地,则是针对各个领域定制独特的背景信息以实现对源区域与目标区域特征差异性的促进。通过借助prompt learning技术,在多模态技术和领域适应策略之间实现了无缝衔接,并且实验结果全面验证了该方法的有效性

全部评论 (0)

还没有任何评论哟~