论文笔记--Knowledgeable Prompt-tuning: Incorporating Knowledge into Prompt Verbalizer for Text Classific
论文笔记--Intelligent Fine-Tuning Process: This process involves integrating existing knowledge into the verbalization mechanism of the prompt verbalizer system to enhance its effectiveness in categorizing texts.
-
- 文章概述
-
- 研究综述
-
- 关键技术分析
-
3.1 prompt调优方法(KPT)
-
3.2 知识导向的prompt调优方法(KPT)
-
3.3 可学习优化:细节精炼校准
- 3.3.1 频率细化校准
- 3.3.2 相关度优化
- 3.3.3 语境化标定
- 3.3.4 可学习优化:细节精炼校准
-
4. 文章亮点
-
5. 原文传送门
Integrating Knowledge into the Instruction Generator System for Text Categorization.
1. 文章简介
Intelligent Fine-tuning Process: Integrating Knowledge for Enhanced Verbalization in Text Classification Tasks
- 列举了Shengding Hu、Ning Ding、Huadong Wang等学者
- 发布日期为arXiv预印本
- 发表在2021年份
2. 文章概括
该文章提出了一种名为Knowledgeable Prompt Tuning(KPT)的方法,并通过将外部知识整合到Verbalizer中完成技术实现。研究者进一步开发出了四种能够从外部知识中筛选出适当label words的方法。
3 文章重点技术
3.1 Prompt Tuning(KPT)
我们首先定义\mathcal{M}为语言模型。本文从文本分类任务入手,并探讨了通过KPT提升prompt tuning表现的技术。对于任意输入x = (x_0, \dots, x_n)而言,我们将输入进行分类的任务就是将其分配到标签集合y\in \mathcal{Y}中。Prompt Tuning(PT)的目标是利用一个模板(一段自然语言文本)来封装原输入内容。例如,在任务中需要将"What’s the relation between speed and acceleration?"这一问题归类为"SCIENCE"或"SPORTS"标签(分别对应标签0和1),那么PT会将其封装成x_p = [CLS]\ A\ [MASK]\ question: x的形式。随后,在经过模型\mathcal{M}处理后,在[MASK]位置填充词表单词v的概率P_{\mathcal{M}}([MASK]=v|x_p)会被映射到标签集合\mathcal{Y}上。为此我们引入verbalizer这一概念:即verbalizer是一个函数f: \mathcal{V} \to \mathcal{Y}(其中\mathcal{V}代表标签单词集合),并以\mathcal{V}_y表示对应于标签y\in\mathcal{Y}的单词集合,则有\mathcal{V}=\cup_{y\in\mathcal{\ Y}} \mathcal{\ V}_y)。这样就可以计算出预测标签的概率:即对于给定的输入x_p来说,
P(y|x_p) = g(P_{\text{\textbf{\textsc{\ M}}}} ([MASK]=v|x_p) | v ∈ 𝕏_y)
其中函数g用于将[MASK]位置填充的词表单词概率转化为对应的标签概率分布。
在具体实施时我们可以设定例如:
𝕏_1 = \{\text{"science"}\}, \\ 𝕏_2 = \{\text{"sports"}\}
这样预测结果为类别0的概率就等于[MASK]位置填充词表单词"science"的概率值。
3.2 Knowledgeable Prompt Tuning(KPT)
文章提出KPT,将外部知识融入从而提高verbalizer。文章以主题分类和情感分类为例说明KPT的运作方式。
针对主题分类(topic classification),文章选择Related Words知识图谱作为我们的外部知识数据(KB)。图谱中每个节点表示一个单词,边表示单词之间是相关的,边的score表示单词之间的相关度。假设每个标签的名称v_0(比如上述标签0对应的名称为"science")可以代表该类别的正确label word,则考虑该名称在图谱中的所有相邻且scores大于给定阈值\eta(文章取\eta=0的节点N_{\mathcal{G}}(v_0)为该标签的label words集合。
针对情感分类,文章采用开源的情感辞典用于形成标签的label words集合。
3.3 Verbalizer Refinement
鉴于上述开源数据库系统存在一定的噪声干扰,并且考虑到系统的稳定性和性能提升的需求,在文章中我们开发并应用了4种优化策略来对数据库运行过程进行优化处理。
3.3.1 Frequency Refinement
考虑到PLM在预测罕见词汇时存在一定局限性,并为此文章提出了改进方案以解决这一问题。具体而言,在面对文本分类任务时,
我们假定给定文本x在其语料库中的分布为\mathcal{D},
并基于此定义label words的先验分布为P_{\mathcal{D}}(v) = \mathbb{E}_{x\in\mathcal{D}} P_{\mathcal{M}} ([MASK]=v|x_p)。
为了估算这一理论值,
我们采用了实际数据集中的小批量无标签支持样本集合\tilde{C}作为近似估计,
并假设这些样本是从样本集均匀分布中独立抽取的。
因此,
P_{\mathcal{D}}(v)的经验估计值可表示为:
P_{\mathcal{D}}(v) \approx \frac 1{|\tilde{C}|} \sum_{x\in\tilde{C}} P_{\mathcal{M}} ([MASK]=v|x_p)
基于这一估计结果,
我们通过将label words按照其先验概率P_{\mathcal{D}}(v)进行降序排列,
并选择概率较低的一半作为候选关键词进行处理。
最终方法实现了对原始常见词汇空间的有效扩展。
3.3.2 Relevance Refinement
为了衡量每个label word与其所属标签之间的相关性文章中将每个\tilde{C}中的句子x_i(本质上与上一节中的x仅在这一节增加了索引以区别)进行了分析计算通过生成特定的概率向量来反映该label word在支持集上的表现随后通过比较不同类别间的相似度来进行优化选择具体来说文章定义了余弦相似度指标r(v,y)并对其进行了修正以解决多分类问题带来的挑战最终筛选出满足一定条件的label words以提升整体分类效果
3.3.3 Contextualized Calibration
研究显示,在某些情况下特定类型的label words相较于其他类型更容易或难以被正确识别。这些差异导致基于这些标签words的预测结果可能出现系统性偏差。为此,研究则通过采用Contextualized Calibration(CC)这一技术手段来校准模型输出的分布情况,其中其基础概率与其基础概率的比例关系决定了最终归一化处理后各概率值之和必然是单位一
3.3.4 Learnable Refinement
该文提出了一种基于学习过程提炼label words的方法,在few-shot学习框架下实现这一目标。具体而言,在每个类别中被分配一个可学习参数权重w_v(其中v表示label word),初始值设定为全零向量;随后将各类别的权重进行归一化处理(即计算出标准化权重\alpha_v = \frac{\exp(w_v)}{\sum_{u\in\mathcal{V}_y}\exp(w_u)})。这种设计旨在使模型自动赋予噪声单词较小的权重值从而有效降低其影响效果;实验结果表明这种方法能够提取出具有代表性的label words并且这些words不仅限于同义词层面(如图所示)。

4. 文章亮点
该文章提出了一种名为KPT的方法,通过有效地整合外部知识到verbalizer中来显著提升了在zero-shot和few-shot场景下的性能。此外,在实现KPT的过程中所依赖的4种精简策略也是成功的关键因素之一。实验结果表明,该方法在零样本文本分类任务中的效果与基于PT和PT+CC的方法相媲美,并且在少量样本文本分类任务中的表现则超过现有的FT方法。进一步地,在知识库(KB)中含有较多噪声的情况下,所提出的方法能够有效地从这些噪声中筛选出有益的label words以支持文本分类任务,并显著提高了模型的鲁棒性。
5. 原文传送门
Knowledgeable Prompt-Refinement: Integrating Knowledge into Prompt Synthesizer for Text Classification
