A Bi-Directional LSTM-CNN Model with Attention for Aspect-Level Text Classification
背景
属性级情感分析 (ABSA)是一项细致层次的情感分析任务,在自然语言处理领域正日益受到关注。该技术旨在识别句子中所涉及的属性及其相关的情感极性,并主要包含两个核心子任务:属性识别与情感分析。
例如
The food is not inexpensive but rather commendable.
鉴于人们逐渐形成习惯,在社交媒体评论中常用习语的现象日益普遍。具体表现为以下几个方面:一是习语的搭配不够规范;二是习语的适用场景不明确;三是不同群体对习语的理解存在差异。
This experience, which I find deeply troubling, pertains to the service.
The mechanism is capable of identifying attributes such as 'service'.
Without an attention mechanism, the term 'taste' might be misconstrued as an entity.
贡献
- 该研究提出了融合注意力机制与属性信息的AARCNN模型架构。
- 在ABSA任务中,关注点与属性分析是必不可少的关键环节;为此设计了两个模块:首先基于CNN构建了注意力机制以提取关注点及其权重;其次通过词嵌入方法识别并分析这些关键属性。
- 实验数据显示,在与多个基准方法对比中,所提出的方案表现最佳;此外通过引入Bi-LSTM结构显著提升了分类精度。
模型

1 Input Preprocess
第一步需要对评论中的句子进行格式化处理。假设输入的一个句子由n个连续出现的单词组成,每个单词会被映射到一个实值向量空间中

2 Memory Module
采用基于第一步词向量处理后的序列数据输入至Bi-LSTM架构中,并且其原因在于这种结构能够有效捕捉时间序列数据中的前后文关系。
这个位置非常理想,并且完美位置也十分理想;受词序影响的词语间的依赖关系需要特别注意;从而选择双层LSTM结构替代传统LSTM以提高模型性能。
当前时刻可以通过下式计算:

将两个方向的隐藏层进行拼接:

3 Attention Discover Module
通过CNN卷积层计算出注意力

经过第二步输出的隐藏层经过CNN中m个卷积核的卷积,进行元素相乘。

4 Aspect Embedding
对于给定的一组属性和实体对,请通过word embedding技术将这些属性和实体映射为对应的词向量v_t和v_a。其中每个属性的嵌入向量A_i可通过以下公式计算:

α是调节因子,控制模型识别属性或是实体的趋势。
5 Representation and Output Module
属性级句子表示R:

再将其结果放入softmax层:

实验
数据集
选取有关餐厅和相机的一些评论作为本次实验的数据集:

baseline比较

TD-LSTM(Target-DependentLSTM)

基于属性的位置开始,在前向传播的过程中对上下文信息分别进行LSTM编码器处理,能够更有效地获取情感分类任务所需的特征信息,并进一步提高模型性能。将属性序列放置在最后一个时间步单元中,则有助于更好地利用该序列所包含的语义信息。
TC-LSTM(Target-ConnectionLSTM)

对比TD-LSTM而言,TC-LSTM更好的使用了实体词和内容之间的联系
AT-LSTM(Attention-basedLSTM)


ATAE-LSTM( Attention-basedLSTMwithAspect Embedding)

AT-CNN(Attention Based Convolutional Neural Network )
本文重点提出了一种基于注意力机制的卷积神经网络(CNN)架构来处理句子对建模问题。这种建模问题在众多自然语言处理(NLP)任务中具有重要意义,具体包括问答选择(AS)、语义识别(PI)以及文本蕴含(TE)等多个关键领域。研究首先构建了基础型双向CNN网络结构,在此基础上引入了三种新型注意力机制,并取得了超越基准模型的性能提升。

BCNN

BCNN网络架构由四种不同种类的层构成:包括输入层、卷积层、平均池化层以及输出 layer. 在考虑到不同句子间的相关性问题的基础上,在此基础上运用Attention机制将原先各自独立存在的各个句子重组为一个包含了各句间上下文关联的新 model.
ABCNN-1

两个向量矩阵的欧几里德距离公式生成注意力矩阵



ABCNN-2

ABCNN-1通过输入表示层直接计算注意力权重其目的是为了提升输入特征的表现而ABCNN-2则对卷积操作后的输出执行注意力机制处理以实现对卷积特征的有效分配两者在生成注意力矩阵A的过程中采用了相同的方法即先根据给定句子生成对应的矩阵并对其进行归一化处理随后分别针对两个不同的句子计算出各自的attention权重向量这些向量分别代表了不同位置上的关注程度最终将这些权重向量应用到卷积层的结果上并通过平均池化技术将各位置上的特征进行汇总得到最终的表征
ABCNN-1与ABCNN-2不同点:
在ABCNN-1模型中采用了基于中间环节实现的影响机制,在ABCNN-2模型中则采用了直接分配权重的方式进行池化处理
由两个权重矩阵W构成的结构能够有效生成注意力特征图。相较于ABCNN-2网络而言,在参数学习方面更为复杂,并且更容易导致过拟合问题。
由于池化操作通常紧跟卷积操作后实施,在自然语言处理中这种层级结构有助于提取更高层次的信息特征。相比于卷积层直接处理词素级别(word-level)的信息,池化层能够整合更高级别的语义特征(subword-level)。例如,在卷积层中输入的是单个词素级别的向量时,在池化层中则整合了短语级(phrase-level)的信息表现。因此表明ABCNN-1和ABCNN-2分别构建了基于不同层次注意力机制的网络架构
ABCNN-3
结合前两种情况

RCNN-LSTM
本文主要探讨了利用CNN和LSTM模型对文章级别的文本进行分析,并在VA空间中预测相应的数值。其中VA维度分别衡量了情感上的兴奋和平静程度。具体而言,这两个维度的取值范围均为1至9。例如如下的句子valence-arousal rating of (2.5, 7.8)(r1) 几天前我登录了一家连锁酒店。(r2) 酒店前台服务非常糟糕,并不了解当地的景点信息。(r3) 我不会向朋友推荐这家酒店。

对比LSTM和Bi_LSTM:

双向的LSTM明显优于LSTM,此外,还存在一些特殊情况,例如:
In this scenario, we benefited from the half-price sushi deal that day, making it a cost-effective choice.
In this scenario, LSTM fails to identify the attributes and sentiment polarities. Notably, these data account for 10-15% of the test set, resulting in an accuracy rate of just 0.3%.

可视化
The food had been meticulously prepared, and the service was of impeccable quality.

