论文《Convolutional Neural Networks for Sentence Classification》总结
《Convolutional Neural Networks for Sentence Classification》
Kim Y.在《arXiv预印本》中提出了利用卷积神经网络进行句子分类的研究。
文章链接:<>
1.Introduction
- 在Introduction部分的第一段中, 作者阐述了深度学习在计算机视觉和语音识别等领域的显著成就. 自然语言处理领域近年来主要聚焦于词嵌入的研究, 并对文本进行了转换为词嵌入来进行进一步分析. 具体而言, 在之前的1-of-V(基于词汇表大小)的基础上被转换为特定维度的空间中的向量. 这等同于将文本中的情感特征附加到每个词嵌入中. 通过这种转换方法使得语义相近的词语之间的余弦相似度得以计算.
第二段主要涉及基于CNN卷积器的特征提取技术。最初应用于计算机视觉领域;随后又被研究应用于自然语言处理中的语义解析、搜索以及句法模型等多个传统NLP任务,并展现出良好的效果。
本研究采用基于word2vec模型预训练Google News数据构建了本文的词向量表示。具体而言,在本研究中设置了两种不同的处理通道:一是static模式(即预训练得到的词向量在整个网络学习过程中保持固定不变);二是nonstatic模式(即不仅包含原始word2vec模型中的词汇映射关系,并且其生成的空间表达也会随着学习过程不断优化调整)。
该文针对不同领域的分类任务设计了一种通用的学习框架;各领域中所建立的模型均能提取独特的特征信息,并均能取得较好的效果。
2.Model

如图1所示,在处理文本时会将每个词语(中文需先进行分词)映射到对应的预定义维数空间中形成相应的Word2Vec模型;对于一个包含m个词语的句子而言,在这种情况下其对应的表示形式将是一个大小为m×k的矩阵;假设在整个文档中最长的一个句子包含了n个词语那么所有较短 sentences则会被补足至与之等长即它们都将会被扩展至m的数量进而生成一个统一大小的n×k维的整体Word2Vec矩阵
在本研究中设计了一种基于深度学习的方法来优化一维卷积神经网络的性能。该方法通过引入多个可学习的时滞参数来增强模型的时间分辨率感知能力,并采用多模态特征融合策略以提升模型的整体性能表现。
- 3种卷积器与矩阵分别做卷积,得到(n - h + 1)* 1 * 100的矩阵, 卷积过程如公式(1)所示。
(n - h + 1)乘以一乘以一百构成一个矩阵接着对该矩阵进行列最大值池化处理之后会得到一个大小为一乘一乘一百的向量即长度为一百的一维向量最后将三个卷积层串联起来从而形成长度为三百的一维向量。
-
将1 * 300的词向量经过全连接层,做softmax二分类。 如公式(2)所示。
-
在全连接神经网络中应用了Dropout技术以降低模型过拟合现象。其中其Dropout率设置为0.5 L2正则化系数设定为0.3 最低批次大小设定为50。
-
利用反向传播结合随机梯度下降算法对模型参数进行优化训练。
3.Datasets and Experimental Setup
- MR:电影评论单句抽取数据集.分类方法涉及检测正面/负面评论(Pang and Lee, 2005).
- SST-1:斯坦福情感树bank——它是MR的一个扩展版本,并提供训练集/验证集/测试集划分以及更细致的情感标签(非常正面、正面、中性、负面、非常负面),这些标签由Socher等(2013)重新标注.
- SST-2:与SST-1相同的是它也包含该划分但排除中性评论并采用二元标签.
- Subj:主观性数据集——任务是将一句判断为主观或客观(Pang and Lee, 2004).
- TREC:TREC问题数据集——任务是将一个问题分类到6种类型中(问题涉及询问人物、地点或数字信息等)(Li and Roth, 2002).
- CR:各种产品(相机、MP3等)的顾客评论.任务是预测正面/负面评论(Hu and Liu, 2004).
- MPQA:MPQA数据集中的一项子任务——情感极性检测任务(Wiebe et al., 2005).
实验
-
1.词向量是随机生成的特度维度的向量。
-
2.词向量是使用预先训练好的谷歌word2vec词向量。
-
3.词向量作为模型的参数不断调整。
-
4.多通道:2和3相结合,在卷积层,将两通道结果值相加。
-
实验结果如下图所示:

- 结果分析:
*在CNN-rand模型中,效果表现并不十分突出;然而,在CNN-static模型中却出现了明显的提升现象。整体来看,在本研究中引入预训练的词向量能够有效地提升模型性能。
*单通道与多通道:原本以为多通道的表现会更优,在模型设计中采用多通道机制有助于防止模型过拟合。然而,在不同数据集上这两种策略的效果呈现出明显的差异性。
4.结论
论文主要利用词向量执行卷积层运算,在实验中发现预训练的词向量显著提升了实验效果。
5.github链接
本人会持续增添新的注解,并展开相关实验。
