Graph Convolutional Networks for Text Classification [阅读笔记]

阅读量：

Graph Convolutional Networks for Text Classification [阅读笔记]

综述
主要成果
传统文本分类技术
基于深度学习的文本分类技术
图神经网络模型
- 方法
- - 图卷积网络（GCN）
  - 文本图神经网络 Text GCN
  - - 图的构建
    - 网络结构
- 结论

简介

文章以词的共线性与文档间词关系为基础构建了语料库的知识图谱。其初始表示采用word与doc各自的独热编码方案，并在此基础上同步优化word与doc之间的相互影响关系。每个文档都被赋予相应的标签信息。实验结果表明，在训练数据占比逐渐缩减的情况下，相比于最先进的对比方法，在训练数据 scarce（稀缺）的情况下展现出更大的优势。研究表明，在面对训练 data不足的情况时, Text GCN表现出较强的稳定性.

贡献

开发了一种基于GCN的文本分类方案。该方案首次构建了一个异构网络模型来涵盖整个语料库，并同时优化神经网络的word嵌入和文档级别的表示模型。
Text GCN架构无需依赖预训练的word嵌入模型以及专业领域知识。该架构能够自动生成预测词项级别的嵌入向量以及文档级别的表示模型。

方法

图卷积网络（GCN）

GCN是一种多层次的人工神经网络模型。它不仅直接作用于图本身，并且能够基于节点间的邻接关系进行信息传播。该模型不仅能够直接处理图数据，并且通过其独特的架构能够提取出有意义的特征向量。本文将使用以下迭代公式来描述GCN的工作原理：
经过一次变换后得到的新表示为：

L^{(1)} = \rho(\tilde{A}XW_0)

通过递推的方式更新得到下一个状态：

L^{(j+1)} = \rho(\tilde{A}L^{(j)}W_j)

其中使用符号说明如下：

$A$ : 图G的邻接矩阵；
$\tilde{A}$ : 矩阵A经过归一化处理后的版本；
$X$ : 包含所有n个节点特征的数据矩阵；
$D$ : 图G的度矩阵；其中对角线元素为各顶点度数之和。

文本图神经网络 Text GCN

图的构建

本文将word和doc作为节点，构建知识图谱，如下图所示：

图中：

节点总数 $V$ = doc（语料库）+unique word（词库）

边 $E$ = doc-word edge + word-word edge

doc-word edge边权重 $weight$ 由基于word在doc中出现的信息通过 TF-IDF算法计算得出。 TF-IDF算法是一种用于简单快捷地提取文档特征词的方法，在统计文档中的词频基础上实现对文档的主题分类功能，并评估每个term（term）对特定document（dok）或语料库（corpus）内某篇document（dok）的重要程度。具体而言，在某篇document（dok）中某term（term）出现次数越多，则其重要性越大；相反地，在整个语料库内某term（term）出现次数越少，则其重要性越高。因此，在TF-IDF算法中将某term（term）的重要性与其在document（dok）中的出现次数呈正比关系的同时与在语料库中的出现频率呈反比关系的变化规律相结合。其核心计算公式为：

TF（Term Frequency 词频）：某个单词在一篇文档中出现的次数及其计算方式如下所示：
其计算公式为：
$tf_{i,j} = \frac{n_{i,j}}{\sum_k n_{k,j}}$
其中：

$n_{i,j}$ 表示单词 $i$ 在文档 $j$ 中的出现次数
$\sum_k n_{k,j}$ 表示文档 $j$ 中所有单词的出现总次数
- IDF(Inverse Document Frequency 反文档频率)：包含word的doc数量的反比。如果包含word的doc越少，IDF越大，则说明词条具有很好的类别区分能力，是一个词普遍重要性的度量。计算公式如下：
  $idf_i=log\frac{|D|}{|\{j:t_i \in d_j\}|}$
  其中， $|D|$ 表示语料库中doc总数， $|\{j:t_i \in d_j\}|$ 表示包含词 $t_i$ 的doc数目。由于可能包含词 $t_i$ 的doc数目为0，通常分母改为 $|\{j:t_i \in d_j\}|+1$
- $TFIDF = TF*IDF$ 值越大，表示这个word对doc来说越重要。

word-word edge权重用固定大小的滑窗在语料库中滑动统计词共现信息，使用PMI(Point-wise Mutual Info)计算word-word边的权重。计算方式如下：
$A_{ij}=\left\{ \begin{array}{rcl} PMI(i,j) && i,j \in words, PMI(i,j) > 0 \\ TF-IDF_{ij} && i\in documents,j\in words \\ 1 && i=j \\ 0 && otherwise \\ \end{array} \right.$
PMI计算方式如下：
$PMI(i,j)=log\frac{P(i,j)}{P(i)P(j)}$
$P(i,j)=\frac{\#W(i,j)}{\#W},\ P(i)=\frac{\#W(i)}{\#W}$
其中，
$\#W(i)$ 表示包含词 $i$ 的滑窗数目
$\#W(i,j)$ 表示包含词 $i$ 和 $j$ 的滑窗数目
$\#W$ 表示滑窗总数
PMI值 >0 表示词 $i$ 和 $j$ 语义相关性强，<0 表示词 $i$ 和 $j$ 语义相关性弱或者没有相关性。因此本文只考虑将PMI值 >0 的words加入图G中。

网络结构

Text GCN采用双层GCN架构，在训练过程中通过梯度下降法能够学习到权重参数 $W_0$ 和 $W_1$ 。每一步骤均整合了单词级与文档级嵌入信息，并通过以下公式表示：
$Z = \text{softmax}(W_1 \cdot \text{ReLU}(W_0 \cdot X \cdot A) \cdot A)$
其中 $\Upsilon_D$ 表示所有带标签的文档索引集合，并采用交叉熵损失计算得到损失函数：
$L = -\sum\limits_{d\in \Upsilon_D}\sum\limits_{f=1}^{F}{Y_{df}\ln Z_{df}}$
其中 $F$ 代表特征向量维度数即类别的总数，并且该模型通过矩阵相乘的方式实现了各层次间的嵌入信息融合

在双层GCN架构中设计文档节点（doc nodes）的标签信息可通过两类节点间的互动传播，在图结构中缺乏直接的doc-doc连接时该模型仍可实现两个文档间信息的有效传递这一特性使得其在处理基于图的多模态数据时展现出独特优势实验证明该模型在实验结果上优于单层GCN架构然而在增加更多的GCN层以期提升模型性能时并未取得预期效果

结论

Text-based Graph Convolutional Networks（T-GCN）能够捕捉全局单词间的关联性，并且能够同时也能高效地利用有限数量的带标签的文档数据

参数敏感度
不同窗口大小会对模型性能产生影响。实验证明,较大窗口会使平均准确率先增长,达到某个阈值后则出现下降趋势,这是因为较小窗口难以有效捕捉全局词之间的共现关系,而过大的窗口会导致关联强度较弱的边所占比例显著提高。
不同嵌入维度也会对模型性能产生影响。较低维度的第一层嵌入可能不足以捕捉足够的特征信息,可能导致标签信息的重要特征被遗漏;而较高维度的第一层嵌入可能引入冗余特征,反而降低分类效果,同时导致训练所需时间明显增加。
模型缺点
尽管Text GCN展现了强大的性能，在词级和文档级嵌入表示能力方面表现出色。然而其主要缺陷在于其内在传导机制存在缺陷：测试节点doc被包含在GCN训练集中（即未标记文档的所有节点均来自训练数据）。换句话说，在没有显式引入外部信息的情况下GCN无法迅速生成嵌入表征，并且无法预测未曾见过的数据实例（如新文档）。潜在的方法包括归纳推理与快GCN架构结合应用。
未来研究方向可能采用注意力机制以提升性能，并探索基于无监督的学习框架以扩展其适用范围。

原文链接 ：https://arxiv.org/abs/1809.05679

全部评论 (0)

还没有任何评论哟~

Graph Convolutional Networks for Text Classification [阅读笔记]

GraphConvolutionalNetworksforTextClassification[阅读笔记] 简介贡献相关研究传统文本分类方法基于深度学习的文本分类方法图神经网络方法图卷积...

【文献阅读】Graph Convolutional Networks for Text Classification

我们基于单词共现和文档单词关系为语料库构建单个文本图，然后为语料库学习文本图卷积网络（TextGCN）我们的TextGCN使用单词和文档的onehot表示进行初始化，然后在已知文档类标签的监督下共同...

Recurrent Convolutional Neural Networks for Text Classification阅读笔记

下面是我对这篇文章内容的整理，因为刚刚接触这一方向，读的这方面的文章还比较少，知识的了解也不够，如果有不对的地方还请大家批评指正，谢谢！ RecurrentConvolutionalNeuralNet...

Character-level Convolutional Networks for Text Classification阅读笔记

概述一篇比较经典的文本分类论文,利用charCNN结构提取特征,而没有使用目前非常流行的词向量. 作者通过实验证明,在数据量足够的情况下,深层CNN网络不需要词语信息,仅依赖字符信息就可以获得不错效...

论文阅读总结（Graph Convolutional Networks for Text Classification）

GraphConvolutionalNetworksforTextClassification（用于文本分类的图卷积网络）论文：<https://arxiv.org/abs/1809.05679v1...

《Character-level Convolutional Networks for Text Classification》论文阅读笔记

文章目录 1\.Abstract 2\.Introduction 3\.传统经典算法模型 3.1Bagofwords 3.2基于词向量的kmeans 3.3基于词的卷积网络模型 3.4长短时记忆模型 ...

TextCNN Convolutional Neural Networks for Sentence Classification阅读笔记

论文原文ConvolutionalNeuralNetworksforSentenceClassification 论文信息EMNLP2014 论文解读ZhenyuZhang&HytnChen 更新时间...

【文献阅读】Lorentzian Linear Graph Convolutional Networks For Node Classification

Abstract 大多数现有的线性GCN模型在欧几里得空间中执行神经网络操作，并未明确捕捉到真实世界数据集中以图形式建模的树状层次结构。本文尝试将双曲空间引入线性GCN，并提出了一种新的洛伦兹线性GC...

Aspect-based Sentiment Classification with Aspect-specific Graph Convolutional Networks 阅读笔记

1.Introduction 本文是2019年发表在EMNLP上的一篇论文，这也是第一次图卷积技术第一次运用在ABSA中。我们知道在ABSA中目前主流的方法是基于注意力机制的模型。

Deep Pyramid Convolutional Neural Networks for Text Categorization阅读笔记

文章目录 DPCNN 模型结构等长卷积池化固定featuremapsfilters的数量 Shortcutconnectionswithpreactivation Textregionembed...

是否确定退出登录?

Graph Convolutional Networks for Text Classification [阅读笔记]

Graph Convolutional Networks for Text Classification [阅读笔记]

简介

贡献

相关研究

传统文本分类方法

基于深度学习的文本分类方法

图神经网络

方法

图卷积网络（GCN）

文本图神经网络 Text GCN

图的构建

网络结构

结论

全部评论 (0)

相关文章推荐

Graph Convolutional Networks for Text Classification [阅读笔记]

【文献阅读】Graph Convolutional Networks for Text Classification

Recurrent Convolutional Neural Networks for Text Classification阅读笔记

Character-level Convolutional Networks for Text Classification阅读笔记

论文阅读总结（Graph Convolutional Networks for Text Classification）

《Character-level Convolutional Networks for Text Classification》论文阅读笔记

TextCNN Convolutional Neural Networks for Sentence Classification阅读笔记

【文献阅读】Lorentzian Linear Graph Convolutional Networks For Node Classification

Aspect-based Sentiment Classification with Aspect-specific Graph Convolutional Networks 阅读笔记

Deep Pyramid Convolutional Neural Networks for Text Categorization阅读笔记