Advertisement

Graph Convolutional Networks for Text Classification [阅读笔记]

阅读量:

Graph Convolutional Networks for Text Classification [阅读笔记]

  • 综述

  • 主要成果

  • 传统文本分类技术

  • 基于深度学习的文本分类技术

  • 图神经网络模型

    • 方法

      • 图卷积网络(GCN)
      • 文本图神经网络 Text GCN
        • 图的构建
        • 网络结构
    • 结论

简介

文章以词的共线性与文档间词关系为基础构建了语料库的知识图谱。其初始表示采用word与doc各自的独热编码方案,并在此基础上同步优化word与doc之间的相互影响关系。每个文档都被赋予相应的标签信息。实验结果表明,在训练数据占比逐渐缩减的情况下,相比于最先进的对比方法,在训练数据 scarce(稀缺)的情况下展现出更大的优势。研究表明,在面对训练 data不足的情况时, Text GCN表现出较强的稳定性.

贡献

  1. 开发了一种基于GCN的文本分类方案。该方案首次构建了一个异构网络模型来涵盖整个语料库,并同时优化神经网络的word嵌入和文档级别的表示模型。
  2. Text GCN架构无需依赖预训练的word嵌入模型以及专业领域知识。该架构能够自动生成预测词项级别的嵌入向量以及文档级别的表示模型。

相关研究

传统文本分类方法

传统的分类方法主要依赖于特征工程与分类算法的结合。其中最常使用的是 Bag-of-Words 模型。随后提出了更为复杂的表示方法,包括 ontology 中的实体表示(2011 年)以及 n-gram 等技术(2012 年)。此外,在图表示学习领域中也取得了一定进展。本文采用 TextGCN 方法时,则能够通过学习节点嵌入来获取更有效的文本表征。

基于深度学习的文本分类方法

在深度学习框架下进行文本分类的方法主要可分为两类:一类采用词嵌入技术构建模型,另一类则利用深度学习模型实现分类任务。

多项研究表明, 文本分类模型的效果与词嵌入的有效性具有高度相关性。其中一人提出, 可通过对未监督学习的单词嵌入进行聚合处理, 进而将其融入到同一类别中;另一些人则致力于共同学习单词及其对应的文档标签的嵌入。其提出的Text GCN方法与上述几种方法具有相似之处, 其主要区别在于, 他们在获取单词级别的表示后构建文本特征向量, 而Text GCN则同时学习词级和文档级表示来进行文本分类任务。

在深度神经网络框架下设计的文本分类模型中具有代表性的是卷积神经网络(CNN)和循环神经网络(RNN)。与计算机视觉领域中常用的二维卷积机制不同的是,在CNN的基本架构中采用了基于一维空间的操作。长短期记忆网络(LSTM)作为循环神经网络的一种重要变体,在处理时间序列数据方面展现出强大的能力。研究者建议在LSTM模型中引入注意力机制以增强其泛化能力。尽管这些方法在实际应用中取得了不错的效果并得到了广泛应用,然而它们仅关注于局部连续的文字序列,并未充分考虑整个语料库中的全局语义信息

图神经网络

图神经网络主要应用于关系识别任务和自动 machine translation 等领域。通过 GCN 模型对句子结构进行编码以生成知识图谱。近年来,在 GCN 相关研究中,默认假设每个 doc 由 word 节点构成的图形组成;另一种方式是基于常规的 doc 引用关系构建图谱。与这一传统不同的是,在我们的方法中采用了一种不同方法——
即同时将 doc 和 word 视为节点加入到知识图谱中;并且无需考虑 doc 之间的内部关联信息。

方法

图卷积网络(GCN)

GCN是一种多层次的人工神经网络模型。它不仅直接作用于图本身,并且能够基于节点间的邻接关系进行信息传播。该模型不仅能够直接处理图数据,并且通过其独特的架构能够提取出有意义的特征向量。本文将使用以下迭代公式来描述GCN的工作原理:
经过一次变换后得到的新表示为:

L^{(1)} = \rho(\tilde{A}XW_0)

通过递推的方式更新得到下一个状态:

L^{(j+1)} = \rho(\tilde{A}L^{(j)}W_j)

其中使用符号说明如下:

  • A: 图G的邻接矩阵;
  • \tilde{A}: 矩阵A经过归一化处理后的版本;
  • X: 包含所有n个节点特征的数据矩阵;
  • D: 图G的度矩阵;其中对角线元素为各顶点度数之和。

文本图神经网络 Text GCN

图的构建

本文将word和doc作为节点,构建知识图谱,如下图所示:

Text GCN Graph

图中:

节点总数V = doc(语料库)+unique word(词库)

E = doc-word edge + word-word edge

doc-word edge边权重 weight 由基于word在doc中出现的信息通过 TF-IDF算法计算得出。 TF-IDF算法是一种用于简单快捷地提取文档特征词的方法,在统计文档中的词频基础上实现对文档的主题分类功能,并评估每个term(term)对特定document(dok)或语料库(corpus)内某篇document(dok)的重要程度。 具体而言,在某篇document(dok)中某term(term)出现次数越多,则其重要性越大;相反地,在整个语料库内某term(term)出现次数越少,则其重要性越高。 因此,在TF-IDF算法中将某term(term)的重要性与其在document(dok)中的出现次数呈正比关系的同时与在语料库中的出现频率呈反比关系的变化规律相结合。 其核心计算公式为:

  • TF(Term Frequency 词频):某个单词在一篇文档中出现的次数及其计算方式如下所示:
    其计算公式为:
    tf_{i,j} = \frac{n_{i,j}}{\sum_k n_{k,j}}
    其中:
  • n_{i,j} 表示单词i在文档j中的出现次数

  • \sum_k n_{k,j} 表示文档j中所有单词的出现总次数

    • IDF(Inverse Document Frequency 反文档频率):包含word的doc数量的反比。如果包含word的doc越少,IDF越大,则说明词条具有很好的类别区分能力,是一个词普遍重要性的度量。计算公式如下:
      idf_i=log\frac{|D|}{|\{j:t_i \in d_j\}|}
      其中,|D|表示语料库中doc总数,|\{j:t_i \in d_j\}|表示包含词t_i的doc数目。由于可能包含词t_i的doc数目为0,通常分母改为|\{j:t_i \in d_j\}|+1

    • TFIDF = TF*IDF值越大,表示这个word对doc来说越重要。

word-word edge权重用固定大小的滑窗在语料库中滑动统计词共现信息,使用PMI(Point-wise Mutual Info)计算word-word边的权重。计算方式如下:
A_{ij}=\left\{ \begin{array}{rcl} PMI(i,j) && i,j \in words, PMI(i,j) > 0 \\ TF-IDF_{ij} && i\in documents,j\in words \\ 1 && i=j \\ 0 && otherwise \\ \end{array} \right.
PMI计算方式如下:
PMI(i,j)=log\frac{P(i,j)}{P(i)P(j)}
P(i,j)=\frac{\#W(i,j)}{\#W},\ P(i)=\frac{\#W(i)}{\#W}
其中,
\#W(i)表示包含词i的滑窗数目
\#W(i,j)表示包含词ij的滑窗数目
\#W表示滑窗总数
PMI值 >0 表示词ij语义相关性强,<0 表示词ij语义相关性弱或者没有相关性。因此本文只考虑将PMI值 >0 的words加入图G中。

网络结构

Text GCN采用双层GCN架构,在训练过程中通过梯度下降法能够学习到权重参数W_0W_1。每一步骤均整合了单词级与文档级嵌入信息,并通过以下公式表示:
Z = \text{softmax}(W_1 \cdot \text{ReLU}(W_0 \cdot X \cdot A) \cdot A)
其中\Upsilon_D表示所有带标签的文档索引集合,并采用交叉熵损失计算得到损失函数:
L = -\sum\limits_{d\in \Upsilon_D}\sum\limits_{f=1}^{F}{Y_{df}\ln Z_{df}}
其中F代表特征向量维度数即类别的总数,并且该模型通过矩阵相乘的方式实现了各层次间的嵌入信息融合

在双层GCN架构中设计文档节点(doc nodes)的标签信息可通过两类节点间的互动传播,在图结构中缺乏直接的doc-doc连接时该模型仍可实现两个文档间信息的有效传递这一特性使得其在处理基于图的多模态数据时展现出独特优势实验证明该模型在实验结果上优于单层GCN架构然而在增加更多的GCN层以期提升模型性能时并未取得预期效果

结论

Text-based Graph Convolutional Networks(T-GCN)能够捕捉全局单词间的关联性,并且能够同时也能高效地利用有限数量的带标签的文档数据

  • 参数敏感度

  • 不同窗口大小会对模型性能产生影响。实验证明,较大窗口会使平均准确率先增长,达到某个阈值后则出现下降趋势,这是因为较小窗口难以有效捕捉全局词之间的共现关系,而过大的窗口会导致关联强度较弱的边所占比例显著提高。

  • 不同嵌入维度也会对模型性能产生影响。较低维度的第一层嵌入可能不足以捕捉足够的特征信息,可能导致标签信息的重要特征被遗漏;而较高维度的第一层嵌入可能引入冗余特征,反而降低分类效果,同时导致训练所需时间明显增加。

  • 模型缺点
    尽管Text GCN展现了强大的性能,在词级和文档级嵌入表示能力方面表现出色。然而其主要缺陷在于其内在传导机制存在缺陷:测试节点doc被包含在GCN训练集中(即未标记文档的所有节点均来自训练数据)。换句话说,在没有显式引入外部信息的情况下GCN无法迅速生成嵌入表征,并且无法预测未曾见过的数据实例(如新文档)。潜在的方法包括归纳推理与快GCN架构结合应用。
    未来研究方向可能采用注意力机制以提升性能,并探索基于无监督的学习框架以扩展其适用范围。

原文链接https://arxiv.org/abs/1809.05679

全部评论 (0)

还没有任何评论哟~