【文献阅读】Graph Convolutional Networks for Text Classification
我们以单词共现及其在文档中的出现频率为基础,在语料库里生成一个单一的文本图随后,在该语料库上训练了该图卷积网络,并命名为Text GCN
Text GCN 被初始化为基于单词和文档的一热编码表示,在已知文档类标签作为指导的情况下共同学习单词和文档的嵌入。
Introduction
这些深度学习模型能够深刻地关联局部连续的单词结构及其语义 _ _ ,然而可能会忽视包含不连续且较长语料库中整体上的全局单词共现。距离语义(Peng et al. 2018)_ _ 。
图神经网络在被广泛认为能够处理**复杂任务时表现出色,并且能够在图嵌入过程中保持整体拓扑结构的信息。
我们从语料库中构建了一个大型图结构,在该图中单词和文档被作为节点表示出来。基于图卷积网络 (GCN) 模型(如 Kipf 和 Welling, 2017)对图进行建模是一种简单有效的图神经网络方法,在捕捉高阶邻域关系方面表现出色。单词之间的边由它们的共现关系构成,在单词与文档之间的边则由词频及其在不同文档中的出现频率来定义。接着我们将文本分类任务转化为一种节点分类问题。通过利用少量标记文档就可以实现强大的分类性能,并成功学习出可解释性的单词嵌入以及文档表示。
主要贡献:
- 我们开发了一种新型图神经网络架构专门针对文本分类任务设计
- 多个基准测试集的实验结果显示,在完全无需依赖外部预训练词向量的前提下,
我们的模型依然能够达到与当前最先进的文本分类技术相当甚至更好的性能。
该模型不仅表现出优异的整体准确率,
还能够自动生成预测单词表示以及文档级别的向量表示。
Related work
基于词嵌入模型
我们研究的这些方法与现有技术存在显著差异:现有技术基于词嵌入技术构建了文本表示模型;而我们则对词汇和文档进行嵌入学习,并应用于文本分类任务。
采用深度神经网络
虽然这些基于CNN、RNN和Attention的方法表现出色且在多个领域得到了广泛应用,但这些模型主要集中在处理局部连续词序列,并未充分利用语料库中的全局词共现信息。
图神经网络
相比于基于图神经网络的文本分类方法而言,在现有技术中通常有两种不同的思路:一种是将每个文档或句子表示为由单词节点构成的图;另一种则是利用不常见的文档引用关系来构建这些图。相比之下,在构建语料知识图谱时,我们将整个语料库中的所有文档和单词都作为节点来处理,并且无需考虑不同文档之间的相互关系。
Methodology
构建图结构文本
图中的节点:该图分为词级别和段落级别的节点类型
- 文本图中的节点总数 |V|等于文档数量与唯一词数量之和。
- 每个词或段落都被表示为一个独热向量并作为 Text GCN 的输入。
- 图的边:仅限于两种类型(从文档到词;从词到词),我们基于这些关系构建节点间的连接。
- 边权:
- 文档与词之间的关系:用于构建节点间的连接
- 词与词之间的关系:通过pointwise mutual information (PMI),一种常用的关联度量方法
来计算两者的关联程度
。正值较高的PMI值表示两词间有较强的语义相关性,
而负值则表示两词间几乎没有或相反的相关性。
因此,
我们仅在存在正向关联的情况下建立连接
在完成文本图的构建后, 将其被导入一个简单的两层GCN中(如Kipf和Welling 2017). 其中, 第二层节点(单词/文档)嵌入与其维度与标签集合具有相同规模, 并经过softmax分类器处理.
两个GCN网络结构能够实现超过两步范围的信息交流。 由此可知, 虽然图中缺乏直接的文档间连接, 但两个GCN网络结构使得文档对之间的信息交互成为可能。
Conclusion
我们基于整个语料库构建了异构的单词文档图,并将文档分类问题转译为节点分类问题。文本GCN能够有效地捕获全局单词共现信息,并充分利用有限的标记文档。
