《Multi-source data fusion for aspect-level sentiment classification》论文阅读笔记
这篇论文提出了一种基于多源数据融合的方法,用于改进方面级情感分类任务。研究者通过整合领域特定的方面级语料库、句子级语料库和情感词汇库,利用BERT模型进行多任务学习,以提升模型的性能。实验结果表明,该方法在笔记本电脑和餐厅数据集上表现优异,比基线方法提升了多个指标。研究还通过消融实验验证了多源数据融合和BERT预训练的重要性。未来工作将扩展到更多任务和数据源。
《Multi-source data integration and sentiment analysis at the aspect level》
作者 Fang Chen∗, Zhigang Yuan, Yongfeng Huang
年份 2020
1.Introduction
神经网络展现出的优秀性能得益于足够大的训练语料库。然而,在细粒度的情感分析领域,方面级的情感标注任务因其特别高昂的成本而显得尤为昂贵。因此,现有的方面级语料库规模相对较小。现有的方法通常仅依赖领域特定的方面级语料库进行模型训练,而训练语料库的匮乏严重制约了系统的性能。情绪分析系统可以从多域多粒度语料库的多任务学习中获益。作者提出了一种基于多源数据融合的体层情感分类方法。通过利用BERT(Transformers)[23]的双向编码器表示,生成了_方面特定_的句子表示,并用于_方面级别_的情感分类。作者设计了一个统一的框架,旨在整合来自方面级语料库、句子级语料库和词汇级情感词汇的数据。通过多任务学习框架,将模型应用于_体层、句子层和词层_的情感分类任务。通过采用多域语料库进行训练,并借助多源数据融合技术,系统能够从各种可用资源中学习更丰富、更广泛的情感知识。
2. Related work
2.1. Aspect-level sentiment classification
Fan等人提出了一种细粒度注意机制,以缓解粗粒度注意机制所导致的信息丢失。多粒度注意则能够促进模型生成多样化的表达,从而实现更丰富的句子和语义表示。
2.2. Multi-source data fusion
2.3. Language model pre-training
在下游任务场景中应用预先训练的语言模型,主要采用基于特征的方法和微调方法两种策略。基于特征的方法通过从预训练语言模型中提取单词嵌入向量,并将其作为特征输入至不同下游任务的模型中进行处理。相比之下,微调方法则直接利用基于任务的数据集对预训练语言模型进行微调训练,从而规避了任务特定的模型架构设计需求。BERT是一种基于深度双向变换器架构的预训练语言模型。该方法通过利用大量未标注语料数据,对Masked语言模型任务和NextSentence预测任务进行了联合优化,从而为下游任务生成更丰富的语义表示。本文主要将BERT应用于句子级情感分析任务。
3. Our approach
3.1. Overview
在本研究中,我们采用了一种统一表示方法,整合了来自三个不同层级的语料数据,即方面级语料库、句子级语料库以及词汇级情感词汇。接着,通过BERT模型,我们成功地将输入序列转化为综合语义信息和情感特征的向量表示。最后一步,我们将输出向量 fed into 情感分类器,实现对文本的体层、句子层或词层的情感分析。

3.2. BERT
对于输入序列{w1,w2,...,wN},BERT首先通过标记嵌入、段嵌入和位置嵌入的总和来构建标记表示{E1,E2,...,EN}。随后,这些标记表示通过相同层数的堆叠进行编码。每一层都由一个多头自我注意模块和一个位置全连接模块组成。具体而言,对于隐藏状态序列H={h1,h2,...,hN},多头自我注意模块输出的序列S={s1,s2,...,sN}的计算过程如下:



其中,ds = dh / K,其中dh代表隐藏层的维数,K代表注意头的数量,W(K)、W(Q)、W(V)是模型参数。经过Layer Normalization处理后的输出结果。

为

,将

作为输入, 位置全连通子层的输出 O = {o1,o2, . . . ,oN} 计算如下:

W1,W2,b1,b2都是模型参数。

在layer normalization后计算如下:

。最后一层的输出用作输入序列的上下文表示。
3.3. Aspect-level sentiment classification
BERT被用于句子级的情感分类任务,作为句子分类任务进行处理。在句子的开头位置添加特殊标记[CLS],该标记对应的输出向量充当情感分类任务的句子表示。

我们从一个方面{w1,w2,...,wN}和一个句子{w′1,w′2,...,w'M}出发,将它们通过特殊的标记'[SEP]''进行连接,并将一个特殊的标记'[CLS]''作为序列的起始部分。输入序列的表示方式如下:

通过BERT对输入序列进行编码处理,并将[CLS]位置的输出向量即代表带有情感的句子表示,即作为特定方面的情感表示。

最后一步,特定于某个方面的句子表示通过输入机制被输入到由dense层和softmax层组成的分类器中,用于情感分类:


WT,bT,WR,bR为待优化参数。
3.4. Multi-source data fusion
一个优秀的情绪分析系统旨在通过获取各种资源来存储情绪知识,以应对不同的情绪分析任务。我们将方面级情感分类任务设计为一个句对分类问题。由于情感词典和句子级词汇库缺乏为每个句提供特定方面词的能力,作者采用了特殊的填充标记'[pad]''来填补槽位。具体而言,对于情感词{w},输入序列表示如下:

。当输入为句子

时,表达为


最近的研究显示,多种领域的情感分类能够显著地增强情感分析模型的泛化能力。基于此发现,作者通过多领域语料库的训练,使模型能够跨领域积累情感知识,从而在不同领域取得更好的效果。
3.5. Model training
总损失函数如图13:


其中,D是域的数目,

是方面级语料库的损失,

是句子级语料库的损失,Lw代表词级情感词汇相关的损失,λ则作为L2规则化损失Lr的重要权重系数。交叉熵损失函数则被用作评估模型性能的关键指标。

计算如图14,N为训练样本数,C为情感类别数,

为预测概率,

为1或0,表示C类是否为正确类别。
4. Experiments
4.1. Datasets

在去除冲突数据后,原始数据集中每个句子都被赋予了主题类别和情感强度。我们通过筛选包含单一主题的句子,并将对应的情感强度作为标签进行标注。
4.2. Experimental settings
4.3. Compared methods
TD-LSTM:基于目标的LSTM模型;ATAE-LSTM:注意力机制驱动的LSTM模型结合Aspect Embedding
IAN: Interactive Attention Network,它通过交互式注意力机制计算出方面词和上下文词的注意权重,并将这些方面和整个句子的表示进行串联,从而进行预测。
MemNet: Deep Memory Network,该模型将多跳注意力机制应用于单词嵌入,生成与领域相关的句子表示。最后一个注意层的输出用于预测结果。
RAM,即Recurrent Attention Network,通过将多跳注意力机制应用于LSTM的隐藏状态,从而生成特定领域的句子表示。GRU网络则通过融合每个注意层的特征,进一步提升模型性能。
该网络,命名为MGAN(F),是一种多粒度注意力机制,通过整合不同粒度的注意力权重来生成语义表示。该网络基于粗粒度和细粒度注意力机制,构建语义表示的多维度特征,并通过融合这些特征来完成预测任务。
MGAN(L): Multi-grained Alignment Network, a network for multi-grained alignment. It employs two attention-based LSTM networks to perform aspect-level classification and term-level tagging tasks separately. These networks are connected through a contrastive feature alignment module, enabling fine-grained tasks to benefit from the rich resources in the coarse-grained corpora.
4.4. Main results

模型在笔记本电脑和餐厅数据集上进行训练,其准确性分别高出2.97%、4.67%、3.44%和7.35%的水平,均显著优于最强基线。这一卓越表现主要得益于Data Fusion技术的优势,该技术通过整合多源数据,有效提升了模型的性能。Data Fusion不仅充分利用了多模态数据的互补性,还显著降低了噪声对模型性能的影响。此外,该方法还具备良好的扩展性,能够适应不同场景下的数据特点。
与LSTM相比,Transformer相比而言,更擅长捕获远程依赖关系。因此,相比而言,Transformer相比LSTM更擅长处理情感表达远离方面词的情况。
Attention Mechanism: Transformer中的多头自注意力机制能够更有效地识别关键词与上下文词之间的依赖关系。BERT的多层次结构允许本文模型通过多层结构实现多种注意机制,从而生成更精确的关键词特定的句子表示。
Language Model Pre-Training: 基于已微调的预处理模型,无需重新学习参数设置。
4.5. Ablation study(消融研究)

通过结合 MG 和 MD,我们构建了基于情感词典的基本模型,该模型从词级和句级两个层次进行分析。
全模型的精度比基本模型分别提高了2.01%和1.65%,宏F1的精度分别提高了2.64%和2.64%。
4.6. Case study

4.7. Complexity analysis

