论文笔记丨Inductive Unsupervised Domain Adaptation for Few-Shot Classification via Clustering

作 者:凯
单 位:燕山大学
Conditioned, Unsupervised Transfer Learning for Few-Shot Classification through Clustering
- Abstract
- 本研究旨在探讨...(新增描述性的表述)
- 研究的主要目标包括...(对目标进行更详细的阐述)
- Introduction
- 研究背景及意义...(增强背景描述)
- 在现有研究的基础上...(对比现有成果)
- Methodology
- 研究采用了...(具体方法的详细说明)
- 具体而言,...(进一步展开技术细节)
- DaFeC Framework
- 其核心机制包括...(对机制进行更深入的解释)
- 其中, 关键点在于...(突出关键要素)
- Clustering Promotion Mechanism
-
主要通过以下步骤实现...(详细说明实现过程)
-
这种机制能够有效提升...(具体效果描述)
-
Overall Workflow
-
Experiments
-
Abstract
小样本学习致力于跨领域知识的获取,在不同领域间的关联性研究中存在局限性:受限于不同领域间的标签分布稀疏性问题导致传统迁移方法难以有效适应目标领域;为此我们提出了一种创新的方法DaFeC:开发了一种新型表示提取器,在目标领域中提取未标注数据的独特特征;并通过聚类挖掘器将这些特征划分为多个类别;随后将生成的人工标签数据与真实标注的数据结合使用,并优化少量分类器参数以提高泛化能力;为了确保人工标注的数据质量:我们引入了一个名为Clustering Promotion的新机制;通过相似度熵最小化技术和对抗分布对齐方法优化了目标领域的特征表示质量;最终在FewRel2.0基准测试集上所提出的模型取得了优于现有方法的成绩
Introduction
小样本分类的主要目标是通过有限数量的数据训练分类器,并识别未曾见过类别的实例。曾认为未曾见过类别的数据应与训练集中的内容属于同一领域的研究者们,在现实世界中发现这一假设并不完全成立:在实际应用场景中,
这些来自不同领域的样本往往被应用到新的数据集上。
这表明,
微小的领域差异可能会显著影响模型性能。
基于无监督的学习框架(Unsupervised Domain Adaptation Algorithms (UDA))旨在解决跨领域数据在有标签与无标签场景下的迁移挑战,在小样本学习背景下假设支持集与查询集中的类别是互斥的。这种假设使得传统的UDA方法因受限于内存资源而难以实现有效的知识迁移。早期的研究者们通常采用微调策略来应对这一挑战。然而,在现实世界中很难提前预判测试类别的分布情况。本文提出了一种基于推测机制的小样本无监督Domain Adaptation算法(PSUDA)。该方法并不依赖于目标域真实类别的先验知识,在一定程度上能够利用未标记的目标域数据进行推断,并结合集群分析的思想提取潜在类别信息以辅助目标领域的学习过程
本文贡献如下:
开发基于模型的小样本分类框架DaFeC。
通过设计一种新的Clustering Promotion Mechanism方法来辅助表示提取器从群体中提取具有群集特性的分布式特征,在生成标签时可显著提升标签可靠性。
该框架与现有模型不相关。
在基准数据集上取得最优性能,
Methodology

step 1:利用CPM进行representation extractor的提取。
step 2:从无监督的目标领域中提取特征。
step 3:利用聚类挖掘器对未标注的目标领域生成虚拟标记。
step 4:结合来自假 labeled 目标领域的数据与原始领域数据训练小型分类模型。
DaFeC Framework
Representation Extractor :与原型网络计算方法相同。


Cluster Miner 是一种用于数据挖掘的技术方法:通过计算查询集合中实例间的距离来推导出最终可能的类别,并将这些推导出的类别进行标记后整合到支持向量机中用于共同训练分类器模型。需要注意的是,在此阶段使用的标记属于人工标注的数据而非真实的目标类别。
Few-shot Classifier :我们提出了一种基于无监督学习的知识蒸馏框架,在不依赖现有模型的前提下能够与现有的小样本学习算法进行有效结合,并成功整合了Proto-CNN、Proto-BERT以及BERT-PAIR三种预训练语言模型
Clustering Promotion Mechanism
为了生成更加独特的特征,在当前研究中,默认采用基于Similarity Entropy Minimization、Adversarial Distribution Alignment以及Cosine Annealing Strategy这三个核心模块的Clustering Promotion Mechanism(CPM)作为优化框架。 CPM则建立在三个关键组件的基础上:相似度熵最小化用于捕捉数据间的内在联系、对抗分布对齐策略用于平衡不同类别间的分布差异以及余弦退火策略用于优化模型性能。
Similarity Entropy Minimization :


r是一个调节参数,在目标域内用于调节数据分布的特性。当该参数值过大时,则可能导致模型无法有效区分不同类别的细微差别;相反地,在过小的情况下,则可能导致每个样本仅对应一个类别(类似one-hot编码)的情况出现


在上述两种计算方法中(即通过以上两种计算公式),域鉴别器D与表示提取器E轮流达到了整体最优解;尽管如此,在这种情况下(即在这种情况下),D仍然无法辨别由E生成的源域示例与目标域示例之间的特征差异。为了改进这一问题(即为了使这一问题得到改善),我们对表示提取器进行了修正(即对representation extractor进行了优化),使其能够将源域实例编码为具有集群分布特性的数据结构(即cluster-distributed)。
Cosine Annealing Strategy :


\lambda被视为L_{Entropy}的一个重要权重系数,在模型训练过程中对损失函数起到调节作用;通过CPM-S机制有助于实现目标域数据的聚类优化;这一过程的关键在于代表提取器已充分掌握相关特征信息以完成分类任务。
Overall Workflow

Experiments

消融实验

T-SNE可视化效果,节点的颜色代表类别。

