Advertisement

论文《Recurrent Convolutional Neural Networks for Text Classification》总结

阅读量:

《Recurrent Convolutional Neural Networks for Text Classification》

论文信息源:Lai, S., Xu, L., Liu, K., & Zhao, J. (2015年1月). 循环卷积神经网络用于文本分类. 在 AAAI (第333卷第4589页)中

原文链接:<>

1.摘要

文本分类被视为自然语言处理领域的重要基础任务之一。传统的文本分类依赖于人工设计的特征工程,并且需要大量的人工干预。相比之下,深度学习能够自动生成特征并无需人工干预。本文采用了周期循环神经网络而非卷积神经网络,并能更有效地降低噪声水平。通过最大池化层选择最具有代表性的句子特征。

2.Introduction

文本分类在众多应用场景中扮演着关键角色.例如,在网页搜索、信息过滤以及情感分析等领域都可以看到这一技术的应用.

  • feature representation:

  • bag-of-words: 其中通常提取的一元组、二元组、n元组或其他精心设计的模式。

  • 几种经典的特征选择方法:包括频率(Frequency)、互信息(MI)、偏最小二乘法属性选择(pLSA)以及线性判别分析(LDA)。

  • 传统的特征表达方法通常忽视了背景信息、顺序关系以及深层意义。

  • 高阶n-gram与tree kernels虽然被应用于特征表达中,但也面临着稀疏性的问题,从而影响其准确性。

  • word embedding方面,word2vec成功提取了更多语法结构与语义信息。Recursive Neural Network则通过层次化处理增强了模型的能力。

  • 性能高度依赖于对文本树的构建过程,并且其构建时间复杂度为O(n²)。然而,在尝试用一棵树来表示两个句子之间的关系时也无明显效果。因此,在处理较长的句子或文档时该方法显得不够高效。

    • Recurrent Neural Network
  • 优点:此方法依赖于上下文信息。

  • 缺点:这种偏向使得后续的词语在重要性上占据主导地位。这并非理想状态,因为每个词语都有其独特的意义。

  • 所以:因此,在整个文档语义提取过程中使用该方法可能会降低有效性。

    • Convolutional Neural Network(CNN)
  • 优点:该系统(unbiased model)能够通过最大池化操作提取最重要的特征。

  • 因此,在捕捉文本语义方面表现出了色地对比于递归或循环神经网络。

  • 计算复杂度为O(n)。

  • 缺点在于CNN中的卷积核尺寸固定,在尺寸较小可能导致重要信息丢失;尺寸较大则会导致参数空间急剧增大。

  • 因此提出了一个问题:是否能从比传统窗口基神经网络中获取更多上下文信息并更加精确地表征文本语义以便于文本分类任务。

  • 基于对上述模型缺陷的研究与改进的基础上提出了一种新的Recurrent Convolutional Neural Network (RCNN)架构。

  • 双向循环结构:相较于传统的基于窗口的神经网络,在提升上下文信息提取能力方面具有显著优势。其噪声程度较低,在捕捉长距离依赖关系方面表现出更强的能力。

We utilize a bidirectional recurrent architecture, which may introduce significantly less noise compared to a traditional window-based neural network, for capturing contextual information to the maximum extent when learning word representations. Moreover, the model is capable of preserving a broader range of word ordering when learning text representations.

复制代码
* max-pooling layer池化层:自动决策哪个特征占有更加重要的作用。

We use a max-pooling layer to automatically determine which text features are most significant for classification, enabling us to extract and focus on essential components within the texts.

  • 时间复杂度:该算法的时间复杂度为O(n)
    • 我们的模型在经过实验验证后,在性能上表现出色。

3.最近研究工作

  • 文本分类

传统的文本分类问题主要聚焦于三个核心方面:特征工程、特征选择以及采用多种机器学习算法。其中,在特征工程这一环节中,最常用的方法被称为"bag-of-words"。

Bag-of-words features are predominantly utilized in the realm of feature engineering, commonly referred to as a foundational technique. Furthermore, a variety of sophisticated features have been developed. These include part-of-speech tagging techniques (Lewis 1992) and tree kernels based on syntactic analysis (Post and Bergsma 2013).

复制代码
* 特征选择:删除噪声特征:如去除停顿词,使用信息增益,L1正则

Feature selection focuses on eliminating noisy features to enhance classification performance. The prevalent approach involves removing stop words, such as "the" (e.g., in English text). Advanced strategies employ techniques like information gain, mutual information (as detailed in Cover and Thomas, 2012), or L1 regularization (as proposed by Ng, 2004) to identify beneficial features.

复制代码
* 机器学习模型:LR,朴素贝叶斯,SVM

Machine learning algorithms commonly employ classification models including logistic regression (LR), naive Bayes (NB), and support vector machine (SVM). However, these approaches exhibit the issue of data sparsity.

  • 深度学习网络

  • 针对数据稀疏性问题,深度学习网络与词向量的深入研究有效应对了这一挑战。

  • 通过词向量的研究方法,我们可以被用来评估两个词语之间的相似程度。

Using existing word embeddings, neural network models have demonstrated their exceptional performance across a variety of NLP tasks.
Socher et al. (2011b) have developed a semi-supervised recursive autoencoder model to predict sentence sentiment.
Socher et al. (2011a) introduced a method for paraphrase detection using recurrent neural networks.
Socher et al. (2013) have introduced a recursive neural tensor network to analyze the sentiment of phrases and sentences.
Mikolov (2012) has developed recurrent neural networks for building language models.
Kalchbrenner and Blunsom (2013) have proposed a novel recurrent network for dialogue act classification.
Collobert et al. (2011) have introduced convolutional neural networks for semantic role labeling.

4.本文模型

这里写图片描述

参考图1所示,在经过一层双向LSTM处理后,在该单词左侧进行前馈输入以获取其左邻域表示,在右侧进行后馈输入以获取其右邻域表示。随后将该单词自身的表示与其左右两侧获得的信息进行融合从而得到一个维度为1×3k的表示

再经过全连接层,tanh为非线性函数,得到y2。

再经过最大池化层,得出最大化向量y3.

再经过全连接层,sigmod为非线性函数,得到最终的多分类。

5. 实验

  • 数据集

  • 20Newsgroups1 This dataset includes messages from twenty newsgroups. We utilize the bydate version and select four major categories (comp, politics, rec, and religion) following Hingmire et al. (2013).

  • Fudan set2 The Fudan University document classification set is a Chinese document classification dataset comprising 20 categories such as art education and energy.

  • ACL Anthology Network3 This dataset contains scientific documents published by the ACL and related organizations. It has been annotated by Post and Bergsma (2013) with the five primary native languages commonly used by the authors: English Japanese German Chinese and French.

  • Stanford Sentiment Treebank4 The dataset consists of movie reviews parsed and labeled by Socher et al. (2013). The sentiment labels include Very Negative Negative Neutral Positive and Very Positive.

这里写图片描述

结论

相较于其他模型而言,在信息提取方面表现更为出色。由此可知该模型的表现更为突出。

全部评论 (0)

还没有任何评论哟~