Advertisement

META: Metadata-Empowered Weak Supervision for Text Classification,EMNLP2020

阅读量:
在这里插入图片描述

在弱监督文本分类场景下,本文采用元数据(metadata)作为辅助的薄弱监督来源,并将其与原始文本信息相结合。具体而言,在整合到一个富含文本信息的网络结构中后,本文通过提取元数据的不同组合形式来增强模型的学习能力。在迭代优化过程中,分别对生成的motif实例及其基础词汇进行排序筛选,并最终确定具有代表性的motif作为初始种子motif集合

Introduction

除了包含文本信息之外,在多个领域内(包括新闻文章、社交媒体帖子和科学论文等媒介)也可以获取元数据信息(如作者、出版年份)。这些元数据信息不仅可以作为独立的数据源使用,并且还可以作为一个强大的辅助监督工具起到互补作用。

在这里插入图片描述

元数据常见地呈现多种类型,在每一种类型及其组合之间可能存在显著的不同语义,并且其重要性也可能存在较大差异。如图1(a)所示,在仅进行文本分类的情况下, 年份相对于作者而言显得不够重要. 这种元数据的组合模式被称为motif. 例如图1(d)所示的motif则展示了合著者之间的关系. 因此, 在本研究中我们主要关注的是基于异构网络的知识表示与推理问题.

  • 研究将元数据字段与关键词结合用于文本分类的弱监督补充途径。
    • 开发出一种新的META架构以整合不同类型的元数据间的高级关联,并系统性地协调标签指示motif实例及单词的位置。

Preliminaries

基于给定的一组文档D=\{D_1,...,D_n\}及其相关的元数据信息,在本文中提出了一种构建信息丰富的network的方法(如图1b所示)。该信息丰富的network具有异构性。

Seed Words and Motif Patterns

为了在弱监督的环境下判断文档所属的类别别名:分类标签]{}S=\{S_1^w,...S_l^w\}[End:标签]{}M=\{M_1, ... ,M_k\}[End:标签]{}M[End:标签]{}能够有效捕捉语义信息以及节点间的高级关联关系[End:标签]{};与此同时,在motif层面也需要为每个类别设定相应的关键词集合\{S_1^m,...S_l^m\}[End:标签]{}。与之类似地,在motif层面也需要根据每个类别设定相应的关键词集合\{S_1^m,...S_l^m\}[End:标签]{};在此基础上的基础上,在实际应用中将这些设定作为输入数据来构建一个高效的分类系统目标:目标在于开发一个高效且准确的分类模型体系以实现对文档类别的自动识别任务

Our META Framework

在这里插入图片描述

弱监督学习通常遵循一种迭代优化过程...本文所提出的框架如图所示...每个迭代周期主要包括以下三个步骤:初始化参数;根据当前结果更新模型;验证模型收敛性

  • 基于初始样本创建伪标签。
  • 采用伪标签构建分类器模型。
  • 组织和筛选单词与motif实例以丰富种子内容。

本文中迭代次数T是唯一的超参数。

Pseudo Labels and Text Classifier

根据种子词及其对应的各个类别的排名分数,并结合包含这些种子词的所有候选motif实例信息的基础上,我们对未标记的文本文档进行伪标签赋值,并在此基础上训练分类器.在初始迭代阶段,由于缺乏候选motif实例支持,所有种子词的相关性评分为1. 伪标签生成:对于文档D_i来说,其在类别l中的概率与其相关联的所有种子词及候选motif实例的相关性评分呈正相关关系.

在这里插入图片描述

其中符号f_{D_i,w}代表的是,在文档集合中的每个文档Di中单词w出现的次数。接下来,在整个概率分布中出现概率最高的类别P被选作伪标签。

在这里插入图片描述

Document Classifier 。针对分类任务而言,则采用了HAN作为分类器。由于处理长文本时Bert的效果不佳。其输出结果如下所示:不再赘述。

在这里插入图片描述

Unified Seed Ranking and Expansion

在经过一次预测之后,将每个类的单词和motif实例排列在一起。然后,通过添加排名靠前的单词和motif实例来扩展种子集。这提高了迭代中的弱监督的质量,从而改进了文本分类器。
Ranking Score Design 。一个特定类的理想种子词或motif实例应该与这个类高度相关并高度排外。给定k个用户提供的motif种子,每个种子都先构建一个对应的二部图G_1^B,...G_k^B,如图4所示:

在这里插入图片描述

二部图由两类节点构成:一类是与motif pattern相关的实例,另一类是文档。如果一个motif专门处理某文档的元数据,则该motif实例应与其相关联,并通过边连接到该文档节点。同样地,在文档与词之间也存在类似的二部图结构。
针对每一个motif M和每个标签 l,在二部图 GB 中进行个性化随机游走计算。
具体而言,在 GB 中对每一列进行归一化处理(按节点度),得到转移概率矩阵 W。
其中 p_{l,u} 代表节点 u 在标签 l 上的个性化 PageRank 得分值。
初始化阶段设定:所有文档节点赋值为对应的 Y^hat_{i,l};而所有的 motiff 节点则置零值(0)。
这样的初始化确保了随机游走在开始时从某个 document 出发,并且由于 GB 是一个二分图结构,在游走结束时会停在对应的 motiff 实例上。
具体的游走过程如下所述:

在这里插入图片描述

在最后分析中,在综合考虑各因素后得出结论:PPR scores得分值能够揭示不同motif对相应文档标签亲和力的不同特征数量与之相关联。经过标准化处理后获得相应的排序结果:

在这里插入图片描述

基于此评分基础上不仅会对词-文档二部图进行排序,并且会展开其相关的关键词及其母题集合;具体而言,在每个标签中都会根据预设的标准自动生成相关词汇及主题;为了确保准确性,“具体而言”,即在每个标签中都会根据预设的标准自动生成相关词汇及主题;

Experiments

在这里插入图片描述

面对两个不同性质的数据集不得不使用不同类型的motif, 由于这些motif都是人为设定的

在这里插入图片描述

实验结果:通过专家评审确定了种子词方案。具体而言,在每个类别中分配了5个种子词,并采用多数投票机制(超过3票即被选中)来确定最终的种子词集合。

在这里插入图片描述

迭代次数与种子数量对结果的影响:

在这里插入图片描述

种子词数量随着迭代次数增加的变化:

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~