论文阅读笔记:A Multi-sentiment-resource Enhanced Attention Network for Sentiment Classification
这是发表在ACL2018的文章。
摘要:
情感资源库不仅包含了丰富的情感词典、巧妙运用的否定词以及灵活运用的程度修饰语等要素,在传统的情感分类体系中扮演着至关重要的角色。然而,在基于深度学习的模型架构(如CNN和LSTM)中,这些潜在的情感资源依然未被充分挖掘或应用。
随后提出了一种名为Multi-sentiment-resource Enhanced Attention Network(MEAN)的结构,在句子级情感分类任务中基于注意力机制整合了三种的情感知识到深度神经网络架构中。文章的主要创新点包括两点:第一部分是开发了一种融合型向量模型,这种模型能够有效融合字嵌体与词嵌体以表征整个句子,并且成功捕捉到某些形态特征如前缀或后缀信息;第二部分是引入一种多模态注意力机制结合多种情感资源。
实验结果证明本文提出的方法和其他方法相比有稳定的优势。
模型:
该系统由三个组成部分构成:融合的词向量模型、基于多种情感维度的关注机制以及情感分类模型
1.耦合词向量
Char-CNN能够提取字符级别的向量(如2015年其他研究报道的方法)。不使用池化层的全卷积网络(旨在更有效地捕捉语义特征)。
通过将字符的一热编码向量输入至1×1卷积神经网络以增强模型的非线性语义表达能力,并将其输出用于提取不同尺寸窗口内的局部特征块。从而最终获得该词的一阶向量表示。

2.word-level:采用Glo ve将每一个词映射为向量。
最终的词向量是由char级向量与word级向量相结合构成,在针对上下文单词以及三种不同的情感来源词汇上均采取了相同的构建方法;这些构建得到的所有词向量均为d维空间中的点。一个包含t个词语组成的句子中包含了m类情感词汇、k类程度修饰副词以及p个否定标记。

2.多情感来源注意力模型
当获取到耦合词向量时
在本研究中,我们首先构建了上下文词与三种情感资源之间的词级关系矩阵,并详细阐述了其构建过程。具体而言,在计算上述关系矩阵时,默认采用了点积作为核心运算方法。

M被定义为上下文词与情感资源之间的关系矩阵,并表征了这些词之间存在的关联程度
其次,在获取了关键信息图谱中的节点及其边权重后

随后获得增强后的上下文矩阵:

第三步,在本步骤中利用四个独立的GRU结构生成上述四个矩阵的隐藏状态矩阵,并通过以下公式进行计算:

基于GRU机制后能够提取或获取上下文信息的关联性,并且致力于构建词语间的情感关联网络。
具体计算方式如下:如果以情感矩阵作为优化基准,则具体的步骤包括

q为平均池化后的情感矩阵
α和β分别代表上下文中每个词及其所处的重要性程度,在经过情感矩阵调整后形成的新上下文矩阵中,o₁被定义为这一过程的结果。
同样地,在经过适当的处理和优化后(即通过否定词和程度词调整后的上下文矩阵),我们能够获得最终的句子表示形式。

3.句子分类器
得到句子表示后,利用softmax函数进行情感分类:

损失函数为交叉熵损失函数,为了防止过拟合又添加了一个惩罚项:

3.实验
数据集:
Movie Review (MR)2 (二分类)
Stanford Sentiment Treebank (SST)3(五分类)
三个情感资源数据集为手动标注。
实验结果:

