Advertisement

Don’t Miss the Labels: Label-semantic Augmented Meta-Learner for Few-Shot Text Classification

阅读量:

ACL finding 2021

在这里插入图片描述

研究表明,在利用预设好的语言模型(例如BERT)提取输入文本的过程中,分类标签信息能够生成更具区分性的特征向量;尤其是在样本数量有限的情况下,这种方法能够显著提升性能表现。在此基础上构建了一个名为Label Semantic Enhanced Meta-Learner (LaSAML)的新架构;该架构旨在充分挖掘和利用标签语义信息以提升学习效率和准确性。我们对这一新架构进行了全面深入探讨,并验证其能够有效地整合到现有的小样本文本分类系统中以提高其性能表现。

在这里插入图片描述

Method

首先,在NLP领域中常用于将输入句子与对应的类别名称结合的方式已经被修改为:"[CLS] sentence [SEP] class name [SEP]"这样的格式。这种操作已被广泛应用于实际应用中,并且将预测出的类别名称作为后续处理的对象在多个研究场景中得到了深入探讨,在资源有限的情况下尤其得到了广泛关注。

在这里插入图片描述

fg被用作将输入文本转换为特征向量的特征提取器,并在多数元学习方法中二者是相同的;然而由于本文的支持集相较于查询集多了标签对应的类名这一特点不同步,则二者的输入也存在差异(如图2所示)。函数m(.;.)则比较类向量w_c与查询集样本的特征表示g(x_q)之间的关系,并根据q_c最大的类别确定最终分类结果。对于本文采用的原型网络而言,则是将所有同类别表示取均值得到w_c(即:均值),而m(.;.)则是计算负欧几里得距离。
此外,在本文的具体处理方法中存在三种不同特征提取方式:其中f_c是基于CLS层的特征;而f_s则是x_s样本的平均表示;最后f_t则代表标签对应的平均表示(如图3所示):

在这里插入图片描述

本文发现了以下几点:(1)对于支持集样本,在不同位置提取句子特征能够展现出相似的性能水平。与之相比其他选项相比,从[CLS]和[CLS]+标签中提取特征通常具有更好的性能。(2)对于查询集样本,在少用类别标签的情况下表现更好。这是因为支持集在缺少ground-truth标签的情况下只能依靠所有标签的联合输入来完成任务。本文默认采用从[CLS]中提取特性的设置方法,在无特别说明的情况下,默认情况下不会将类名附加到查询样例中。

Experiment

PN被称为Prototypical Network;RRML被视为Ridge Regression Meta-Learner;DS称为Distributional Signature。

在这里插入图片描述

也研究了与不同元学习方法的结合能力以及使用不同特征的效果:

在这里插入图片描述

本文的方法能够更好地促使Bert进行注意力的的学习:

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~