基于方面的情感分析研究综述——论文阅读笔记
前言
学习NLP领域知识时,先从情感分析入手。
通过浏览网络上一篇关于情感级情感分析的综述性文章后,觉得值得一读就获取到该文章的原文。
An in-depth analysis of Aspect-Based Sentiment Analysis Techniques: Operations, Approaches, and Obstacles
原文地址:https://arxiv.org/abs/2203.01054
注:内容大体是原文翻译,我只是做了小幅度的调整方便阅读。
摘要
基于特定维度的情感分析模型(ABSA)主要致力于识别和解释个体意见在特定领域的态度;它是一个关键的微观层面情感评估挑战;为了应对多样化的场景需求,在ABSA领域提出了多种任务设定以系统性地探索各类情感特征及其相互关联;主要从以下四点:
- 方面概念concept word
- 方面维度category dimension
- 意见词opinion word
- 情感倾向sentiment polarity
过去开展的ABSA研究主要聚焦于单一情感维度,在这种情况下难以捕捉到完整的情感表征。相比之下,在这种情况下近期的研究则发展出了多维度的情感分析框架,并且能够较为全面地收集相关数据。然而针对这一领域的系统性综述仍显不足,并且现有的解决方案尚无法满足实际需求……
该研究为ABSA开发出一种新型分类方案,并基于情绪轴线对现有研究进行整合。该方案深入探讨了当前复合型ABSA项目的最新发展情况,并就解决方案方面展开论述。系统地阐述了基于预训练语言模型在ABSA中的应用效果及其提升水平;同时针对跨领域或语言环境的情况提出了更具实用性的技术方案。此外,在综合分析的基础上回顾了一系列前沿主题,并探讨了当前面临的主要挑战与未来发展方向
1 介绍
1.1 起源
在线内容中的意见挖掘发挥关键作用,在广泛的应用场景中不可或缺;例如电商平台客户的情绪及其成因分析有助于提升产品的竞争力和营销效果。然而海量文本难以完全人工处理,从而催生了基于自然语言处理技术的自动化分析框架用于从非结构化数据中提取情感信息
1.2 ABSA
传统的情感分析方法主要基于句/文级预测,在单一语境下的文本可能包含多种情感倾向。因此,在实际应用中这种方法未必能够完全奏效。
微粒层次的情感分析(ABSA)则专注于研究实体及其特定属性所包含的情感表达,在各个因素层面进行深入探讨。例如,在电子商务领域中讨论的产品及其相关属性(如价格、尺寸等),它能够系统地归纳并总结这些情感特征,并以细致的情感视角为后续应用场景提供丰富的情感数据
通常研究路线涉及识别各种方面级别的情感元素即具体指代层面的情感表达包括具体术语类别基本概念以及情感强度等维度的内容

1.3 单ASBA任务
ABSA的早期工作是分别识别每个情感元素。
- 方面词识别任务(aspect term extraction task):旨在识别文本中所涉及的所有方面
- 方面情感分析任务(aspect sentiment classification task):确定句子里各个方面的感情倾向
为了更全面地理解整个观点体系而言
1.4 复合ABSA任务
近年来提出了多个新的ABSA子任务及其对应的基准数据集,并旨在促进对多维度情感分析技术的研究。这些子任务被归类为复合型ABSA子任务,在与仅关注单一情感元素的传统ABSA子任务形成对比时提供了更为清晰的研究视角。
该AOPE提取任务旨在采用复合方式获取具体领域及其关联意见项(如pizza, delicious)。
现有的研究未能进行系统的回顾;特别是,在复合ABSA任务的发展方面仍存在明显的不足;作者期望通过本文来填补这一空白。
1.5 预训练语言模型PLM
BERT和RoBERTa等预训练语言模型(PLM)的推出近年来为ABSA任务带来了实质性的改进。基于PLM构建的ABSA模型在性能方面得到了显著提升。
Li等人报告了研究结果表明,在BERT基础上简单地构建了一个基础架构能够显著提升端到端ABSA任务的性能指标,并且这种改进带来的分类效果和鲁棒性表现都优于现有的专门设计方法。
尽管基于生成式语言模型(PLM)构建的 ABSA 模型已广泛应用于各个领域领域,然而由于其发布的时间相对较早,在现有的文献综述中尚未有系统探讨.因此本文作者对现有的基于 PLM 的 ABSA 模型进行了深入探讨,并对其进展与局限性展开了详细分析.
1.6 跨域传输与跨语言迁移
ABSA模型主要假设训练数据与测试数据具有相同的分布特征。然而,在涉及跨领域或跨语言应用的情景下,直接对模型进行重新训练不仅成本高昂且面临数据获取的巨大挑战。为此,通过采用跨域迁移和多语言学习策略(Cross-lingual Learning),该系统能够有效适应不同环境需求而无需依赖额外标注的大规模数据集。
1.7 现有ABSA调研情况
现有ABSA调查较多未涉及最新进展、跨域/语言迁移及PLM的影响。早期研究主要关注非神经网络方法,在这一领域取得了一定的进展;然而近年来研究逐渐转向基于深度学习的方法,并且在这一方向上取得了不少成果。但在系统性回顾ABSA任务现状、潜在影响及其跨领域/语言迁移问题的研究方面仍显不足。
1.8 小结
本文的主要目标是从现代视角系统地回顾ABSA问题的进展和挑战。
具体而言,在这一领域内,作者创建了一个新的分类体系,并通过整合多种ABSA研究进行深入探讨。该体系主要聚焦于情感元素这一核心要素,并特别关注近年来出现的复合型ABSA研究任务。
沿着这个方向,作者讨论和总结了各种方法提出的每一个任务。
此外,在深入探讨这一领域的同时
本文还对跨领域、跨语言ABSA的研究成果进行了总结。
在总结当前研究的基础上,在探讨若干前沿动态与未解问题的同时,在揭示该领域发展方向的同时,在展望其潜在前景
2 背景
2.1 4种情感要素
一般的情感分析问题包括两个关键部分:目标和情感。
在ABSA领域中, 目标可以采用具体分类c或通用术语a来进行描述, 同时情感则涵盖具体意见表达-意见术语o以及普遍的情感取向-情感极性p. 这四个核心情感要素构成了ABSA研究的基础框架, 并有效避免了混淆:
(1)aspect category—c :
维度c被定义为一个实体所拥有的独特属性集合,在特定领域已预先确定的维度集合C中占据某一位置
例如,食物和服务可以是餐厅领域的方面类别。
(2)aspect term—a
方面术语a是明确出现在给定文本中的意见目标。
在'The pizza is delicious.'这句话中,“pizza”是一个关键术语。
当目标被隐式表达时(比如,“它被定价过高了!"),我们可以将其该方面术语标记为一个名为‘null’的特殊术语。
(3)opinion term—o
意见术语o是意见持有人为表达其对目标的感情所作的表达。
例如,“The pizza is delicious."中的“delicious”就是一个意见术语。
(4)sentiment polarity—p
情感极性p指出了情绪在某一方面类别或术语的方向上,并且通常属于积极、消极或中性。
2.2 ABSA定义
由上一节得到ABSA的4大要素,对ABSA定义如下:
ABSA作为解析关注文本内容的核心问题而言,在实际应用中既可以是一个情感要素本身的存在,也可以涉及多个要素间的相互依存关系。
基于预期结果是单一情感单元还是多维度情感组合的情况
方面-意见对抽取(AOPE)是复合型的ABSA复杂问题;在这一问题中需要同时抽取领域间的所有关系类型。
通过这一视角观察分析, 该系统性地提出了一种新的分类体系 AB-SA, 并对现有作品进行了系统化的整理与归纳, 周围情感元素轴线展开. 图 2 则展示了不同 AB-SA 任务的具体表现形式及其对应的典型方法.

2.3 模型范式
在ABSA任务中,现有的主流NLP建模方式主要包括:例如基于序列级别的分类方法、基于token-level的分类技术、以及机器阅读理解模型,并辅以基于sequence-to-sequence的建模方法进行处理与分析
每个范例代表一种系统性的计算架构,专门针对特定的数据输入与输出格式设计。进一步而言,通过将任务明确为统一的形式,能够采用相同的模式来高效解决多类型的任务

此图在本研究者阅读的相关论文中未见,在网络上其他博主提及,并存在一定的差异性
_注:此图在本研究者阅读的相关论文中未见,在网络上其他博主提及,并存在一定的差异性:[基于aspect的情感分析综述 论文翻译笔记 A Survey on Aspect-Based Sentiment Analysis: Tasks, Methods, and Challenges-博客]( "基于aspect的情感分析综述 论文翻译笔记 A Survey on Aspect-Based Sentiment Analysis: Tasks, Methods, and Challenges-博客")
除了这四种基于端到端处理框架的统一模式之外,在复杂程度较高的文本理解与实体识别(ABSA)任务中,则可采用管道架构进行求解。这种架构利用多个模型协同工作以实现预测目标
2.3.1 Sequence-level Classification(SeqClass)
对于序列级分类问题而言,在处理这类问题时模型通常会先将输入文本X经由编码器Enc(·)获取相关特征,并通过后续的分类器CLS(·)对输入进行预测。输出结果Y则采用one-hot或multi-hot编码形式表示,在单标签场景中对应于单一类别标注,在多标签场景中则对应于多个类别同时被标记。

在当前深度学习背景下,编码模块Enc(·)不仅包括卷积神经网络和递归神经网络等传统架构,并且transformer则主要用于从序列中提取上下文特征。
②.在某些情况下,输入文本X可以包含多个部分 。
例如,在情感分类任务中(具体来说是某个特定类型的情感分类),将句子与特定的情感类别视为输入数据。接着编码器不仅要能够提取关键特征(如词语、语法结构等),还要能够识别不同输入之间的关系(即理解不同句子之间的互动)。
③分类器 CLS(·)通常被实现为具有池化层的多层感知器来进行分类 。
2.3.2 Token-level Classification (TokenClass)
序列标记将标签分配给输入文本中的每个标记。
① 通过编码器Enc(·)对输入文本进行编码以提取其上下文文化特征;
② 利用解码器Dec(·)生成相应的标签序列y₁至yₙ。

Dec(·)可被视为具有softmax层的多层感知机或者条件随机场(CRF)。另外还可以采用其他标记策略如BIOES标记方案(B代表开始I表示内部O表示外部E代表结束S代表单例)。
2.3.3 Machine Reading Comprehension (MRC)
机器阅读理解,从给定查询Xq条件下的输入文本X中提取连续文本范围 。
由此可见,在具备MRC范例支撑下的ABSA体系,在实际应用中必须相应地构建专属于该特定任务的检索机制。例如,在具体实施时,系统需根据不同子领域的需求动态调整其检索策略。
① 在Aspect Term Extraction(ATE)任务中, Xq可被视为以下问题形式:"What are the aspect terms.";
② 原始文本与构建的问题特定查询可作为MRC模型输入, 以便提取与特定类或主题相关的术语范围;
③ 模型通过预测结果相关区域的位置标记符ys和ye来生成这些位置标记符, 其值分别对应于结果区域起始与结束的位置信息。

其中通常有两个线性分类器位于编码器Enc(·)顶端用于分别预测起始位置和结束位置
2.3.4 Sequence-to-Sequence (Seq2Seq)
Seq2Seq框架采用输入序列X = {x1,...,xn}作为输入,旨在生成输出序列Y = {y1,...,ym}。
经典NLP应用是机器翻译任务,它还可用于解决ABSA任务。例如:
① 在给定输入句子的情况下,在不依赖外部知识的条件下直接生成相应的标签序列或期望的情感元素。
② 在ATE任务中作为示例,X可以是" The fish dish is fresh ",而Y则表现为自然语言形式的"fish dish"。
③ 它通常采用编码器-解码器模型,如Transformer模型。

其中编码模块Enc(·)负责将输入的信息按照其上下文特征进行编码;解码模块Dec(·)则根据编码后的信息以及之前生成的内容,在每一个步骤中生成新的令牌。
2.3.5 Pipeline Method (Pipeline)
管道方法按一定顺序使用不同类型的model variant来传递multiple models从而得到final result.在每个阶段previous model's prediction会被下一个model采用作为一个input依次作为input直至生成final output.
例如,在AOPE问题中专门用于提取所有(方面术语与意见术语)这对关系。进而通过引入ATE模型来潜在地提取出各个方面的术语;随后利用另一个模型来进行每个被预测出来的方面术语对应其相应的意见术语识别工作;最后将这些有效的预测结果归类为(方面项与意见项)这对关系作为最终输出。
相较于基于统一范例的传统端到端方法而言,管道架构往往具有更高的可实现性。这主要得益于各个子任务已有的高效解决方案。然而这种架构并非没有缺陷,在于早期模型产生的误差会逐渐扩散至后续环节并最终影响整体性能表现。
如果ATE model输出错误的预测,则即使后续模型具有极高的准确性,在配对提取结果上也将无法实现预期效果。值得注意的是即使在简单的ABSA任务中也难以取得理想的效果,在复杂场景下的表现通常不尽如人意尤其是那些具有挑战性的场景这也成为近年来研究者们追求构建一个通用框架的主要驱动力。
2.4 数据集&评估
以下是一些常见的数据集及其语言、数据域和URL的概述。

【注:有关数据集的介绍这里我没有放出来,有兴趣的可以看原论文了解】
在评估标准方面(Evaluation Standards),精确度评估(Precision Evaluation)作为一种广泛应用于多个任务与数据集的方法,在机器学习领域具有重要的应用价值:仅在所有预测元素与人类标注完全一致时(即零错误情况),预测结果才被视为完美正确。基于此基准标准(Baseline Standard),我们可以计算一系列分类指标(如准确性accuracy、精确率precision、召回率recall以及F1分数f1-score),并以此作为不同方法性能比较的基础依据。
3 单ABSA任务
3.1 方面术语提取_Aspect Term Extraction (ATE)
该系统的主要目的是识别客户在特定文档中的明确意见方面的内容信息。
例如,在句子"The pizza is delicious, but the service is terrible."中进行解析,能够清晰地识别出核心要素"pizza"和"service"。
根据标注数据的存在情况的ATE方法主要包含以下三种形式:有监督学习、半监督学习和无监督学习
3.1.1 有监督ATE
由于所涉及的关键术语通常指代句子中的单一词项或短语形式,在给定预标记的ATE数据样本后,则需在监督学习框架下对每个tokens进行分类。
因此人们提出了基于CRF、RNN和CNN的序列标记方法。
基于ATE在识别目标领域各个方面的需求,很多研究致力于优化word representation技术
· Yin等人利用依赖路径在嵌入空间中链接单词,学习单词表示。
· Xu等人提出的DE-CNN模型采用了双重嵌入机制,包括通用嵌入和特定领域的嵌入。
· Xu等人进一步对特定领域的数据进行训练后的BERT,以获得更好的单词表示。
· Yin等人设计了一个基于位置依赖的词嵌入(POD),同时考虑依赖关系和位置上下文。
还提出了具体的网络设计,例如:
模型构建及其对应的意见表达之间的关联,并为了理解整个句子的意义而将其转换为Seq2Seq问题,从而通过捕捉这些丰富的上下文信息来推断。
3.1.2 半监督ATE
基于有监督的Average Treatment Effect(ATE)方法需要大量标注数据,在训练高度复杂的神经网络模型时尤为突出。鉴于此巨大前期准备为半监督ATE研究的发展铺平了道路
给定一组标注过的ATE(自动机器翻译)数据集以及相对规模较大的未标注数据样本(如常见的简短评论语句),通过实施数据增强策略可有效提升生成器对目标语言表达习惯的学习能力。
现有多种增强策略已得到广泛应用, 如掩码序列到序列生成技术、软原型生成方法以及基于进步式的自监督学习策略。
3.1.3 无监督ATE
无监督ATE任务旨在提取非标注数据的关键术语并在文献中进行了深入探讨。从基于神经网络的方法的角度来看
研究团队开发了一种称为ABAE(Attention-Based Aspect Extraction Autoencoder)的关注机制自动编码模型。该模型通过引入关注机制来淡化不相关单词从而提高提取方面的一致性。
在此研究方向下 Luo等研究者通过利用义位来增强词汇语义以构建句子表示。
Liao等研究者提出了结合局部与全局语境(LCC+GBC)的神经网络架构用于体词识别。
Tulkens与van Cranenburgh开发了一种简称为CAt的关注词识别解决方案。其中他们仅使用POS标记器和域内词嵌入来提取体术语:POS标记器首先提取名词作为候选体然后采用对比注意机制来选择体。
Shi等研究者将其表述为一个自我监督对比学习任务以学习更好的方面表示。
3.2 方面类别检测_Aspect Category Detection (ACD)
ACD系统旨在从给定语句中提取相关的主题或特征。这些分类基于预先设定的标准(predefined category set),通常针对特定领域(specific domain)进行区分。
与ATE任务相比,ACD可以从两个方面受益:
① ATE专注于单一领域术语的识别与解析工作,在此过程中其分类结果可视为综合预测方案的一种形式,并能更加直接地反映意见目标。
② 即使未明确指出相关主题,A CD仍具备识别能力.例如,在分析一段文字如"It is very overpriced and not tasty", ACD能够同时识别价格price和食物food两个关键领域,而ATE则无法完成此类任务.
ACD可分为有监督ACD和无监督ACD。
3.2.1 有监督ACD
Supervised ACD tasks are commonly defined as multi-label classification problems, specifically as a sequence classification (SeqClass) problem, where each category in the task is treated as a separate label.
- 早期的研究工作RepLearn在带噪声的标记数据集上学习单词嵌入,并通过不同类型的前馈网络获取混合特征。随后使用这些特征训练一个逻辑回归模型用于预测。
- 后续的方法进一步利用任务的不同特性来提升性能水平,在具体实现中主要采用了注意力机制关注不同类别的关键部分,并结合词-词共现模式word-word co-occurrence进行分析,在评估阶段衡量句子与每类一组代表性词汇之间的文本匹配程度来判断各类别是否存在。
3.2.2 无监督ACD
为了以无监督的方式处理ACD任务,它通常被分解为两个步骤:
(1)识别候选方面术语 aspect terms;
(2)将候选方面术语分配至预定义的类别集合中的具体方面类别。
(3)例如,在实际应用中可观察到将"pizzze"与"pasta"归类于食物方面的实例。
第一步的核心与解决unsupervised ATE问题相同。
从第一步开始对每个被检测到的方面簇自动分配一个标签作为其类别是第二步最直接的方式;然而这种做法耗时且容易出错;特别是当识别出 noisy aspects时可能导致分类错误。
在CAt系统中使用余弦相似度模型计算sentence vectors与category vectors之间的相似程度来确定分类标签。
Recent studies by Shi et al. have proposed a high-resolution selective mapping strategy to enhance the precision of mappings.
3.3 意见术语提取_Opinion Term Extraction (OTE)
意见术语提取OTE是识别对某个方面的观点表达的任务。
由于意见术语与方面术语常伴有出现,在仅提取意见术语并忽视与其相关的方面时就失去了意义。
根据方面项是否出现在输入或输出中,OTE可以大致分为两个任务:
1 ) 方面意见共同提取(AOCE)
2 ) 面向目标的意见词提取(TOWE)
3.3.1 方面意见共同提取_Aspect opinion co-extraction(AOCE)
方面意见共同提取试图同时预测这些方面和意见术语。
在表3所示的运行案例中,Aoce目标输出即为两项核心指标'pizza'与'service',同时包含两种评价维度'delicious'与'terrible'.
考虑到包含两个情绪维度的复杂性,AOECE作为一个单一的ABSA任务,其未充分考虑这两个情感维度之间存在的相互影响的关系尚未被纳入模型中(例如,'delicious'这一评价性词语被用来描述'pizze'这一事物)
一般情况下,
它通常通过将TokenClass问题转化为包含两个标签集合的形式来实现对不同方面的信息和情感状态的区分地识别;
其中一种方法是采用单一标签集合(例如,在该系统中使用的形式为{B-A, I-A, B-O, I-O, N}表示开始(B)或内部(I)对应某一具体方面(A)或情感状态(O),或者没有(N))的方式;
另一种方法则是同时捕获两个情感维度。
考虑到体与观点之间的紧密联系,在AOCE领域的主要研究问题在于如何建立这种相互依存关系的形式化表示。现有方法已提出多种解决方案来刻画这一现象特征,并提出了包括基于依赖树构建的模型、引入注意力机制的方法以及通过语义分析机制来限制预测空间等多种策略。
3.3.2 面向目标的意见词提取_target-otiented word extraction(TOWE)
针对特定目标的技术方案设计目的是从文本中识别出与某一领域相关的专业术语及其对应的态度或评价信息。
如表3所示,在一个相关领域(例如,"pizza")中被假设与之并列出现的情况下,则TOWE模型旨在预测相应的意见项(例如,"delicious"")。
· TOWE也被广泛地转化为TokenClass问题针对输入的句子进行建模研究的核心目标转向了如何构建表示模型来获取意见信息。
研究团队开发了一种新的神经网络模型。该模型利用内部-外部循环机制处理信息。最终整合了内部与外部的信息形成综合语境。
· 后来的方法设法从几个方面提高提取的准确性:
- Wu等人基于典型情感分析数据集迁移潜在的情感知识以应对TOWE问题。
- Veyseh团队通过语法规则识别意见术语,并采用依赖关系树计算不同方面的距离。
- Mensah的研究表明,在处理文本编码时发现BiLSTM模型在TOWE任务中表现出良好的归纳偏差特性;然而,在引入GCN系统性地引入结构信息时仅能带来有限提升效果。
3.4 方面情绪分类_Aspect Sentiment Classification (ASC)
基于或考虑某方面的的情绪类别(ASC),旨在识别或评估某些特定方面的句子情绪极性。
每个领域都可以通过具体化为具体的术语或具体的类别来实现两个ASC问题:一个是基于具体术语的情绪分类问题;另一个是基于具体类别的情绪分类问题。
尽管存在一些细微的不同之处(例如,在某些情况下,给定的术语直接来源于句子本身),这两种设置的核心研究问题是一致的:通过何种途径利用方面(术语/类别)与上下文联系来实现情绪分类?
基于深度学习的方法开发了一系列基于神经网络的模型,并带来了显著提升。
- 为了建模方面与句子上下文之间的交互关系,在现有研究中如TC-LSTM等开创性神经网络模型采用了相对简单的融合策略。
- 基于句子内部不同部分对特定方面角色认知的直觉,在相关领域中注意力机制已被广泛应用于提取特定方面的表征信息。例如Wang等人提出的ATAE-LSTM模型就实现了这一目标:它将相关方面嵌入信息附加到输入句子的每个词向量中,并计算对应的注意力权重;随后可相应地生成针对具体情感的情感表示。
- 进一步的研究则致力于设计更为复杂的注意力机制以学习更为精细的相关方面表示。例如IAN模型实现了人机互动式的关注学习过程:一方面它能够自主地学习并生成对具体方面的关注关系;另一方面则能根据当前上下文条件自适应地调整关注权重并生成相应的相关方面表示。
- 在现有研究的基础上还探索了多种不同的网络架构选择:除了基于长短期记忆网络(LSTM)之外;研究人员还尝试并验证了卷积神经网络(CNN);以及记忆网络和门控网络等多种架构组合方案。
- 最近的语言模型研究取得了显著进展:在ASC任务领域内已逐渐占据了主流地位;例如Sun等人通过引入辅助句将ASC任务转化为一对文本分类问题:这不仅有助于更好地利用BERT这种预训练语言模型的语言理解能力;而且在实际应用中也取得了一定的实际效果。
(2)ASC研究的另一条研究路径详细地构建了句子的语法架构以用于预测。其关联的研究领域之间存在的结构关联通常反映出情感倾向。
- 利用机器学习技术挖掘出的语法树被用作分类特征。
- 由于近年来在依赖分析领域取得了显著进展[1] ,更为精确的分析树为基于依赖的关系式语义理解模型带来了显著提升。
- 遵循这一思路,在此基础上提出了多种基于图神经网络的方法来显式利用语法信息。
- 不仅关注于句子内部原有的句法结构之外[2] ,还进一步考虑文档级别的情感偏好趋势。
[1] Recent advancements in dependency analysis have shown promising results.
[2] Beyond the original syntactic structure within sentences,

4 复合ABSA任务
其旨在涵盖多种情感维度的目标是复合ABSA任务的核心要素
然而,在处理复合任务时目标不仅在于提取多个情感因素,并且还需要通过预测一对、三个或四个因素来建立它们之间的联系。图3展示了这些不同任务之间的关联性。由于四个情感因素之间存在相互依赖的关系,在这种情况下构建一个集成化的解决方案可能是一个有潜力的方向

4.1 方面意见共提取_Aspect-Opinion Pair Extraction (AOPE)
在第3.3节中提到,在研究AOCE任务时通常会揭示出一些关键特征:这些元素之间能够相互促进以提升整体效果。然而,在传统的AOCE任务处理中,默认假设其输出结果分为两个独立的部分——一个专门对应于方面的描述另一个则专注于 opinions 的收集。这种假设却忽视了二者之间的天然配对关系这一重要特性。因此这促使提出了一个新的任务——方面-意见对提取(AOPE)问题:即通过同时考虑 aspect 和 opinion 的关联性来实现更精确的任务建模与结果解释。
为了克服挑战AOPE的难题, 可以利用管道方法将其分离成若干个子任务, 并通过逐步分解问题并优化各环节间的协作关系, 最终整合这些部分以获取方面-意见对:
- 一个可能的方案是首先执行AOCE任务以收集相关领域与观点集;接着使用分类算法将潜在的领域与观点配对;具体而言,则是将aspect-opinion这对元素用于评估其有效性。
- 另一个策略则是先从数据中提取特征(称为ATE任务),随后针对每个被预测出的领域术语自动识别对应的评价术语(称为TOWE任务)。
Gao等人采用了该范式的第二种方法。首先通过MRC模型系统地识别出所有方面的关键术语;随后针对每个提取的关键术语生成相应的查询语句以定位对应的论点性术语及其文本范围。
还努力以统一的方式处理AOPE,以减轻管道方法的潜在错误传播。
- Wu团队开发了一种网格标记方案(GTS),该方案针对每一对词项分析其是否属于同一领域、同一立场或领域-立场范畴,并将传统的领域抽取任务转化为统一的TokenClass问题。
- Zhao研究者将这一问题建模为联合术语与关系提取问题,并构建了一个基于跨度的多任务学习框架(SpanMlt)。该框架首先通过跨度生成器枚举所有可能的区间,在此基础上运用两个评分器分别标注术语类型并评估配对关系。
- 类似地, Chen团队开发了一个包含两个处理渠道的模型,在该架构下分别提取方面与意见相关的术语以及关联关系.为促进各渠道间的信息交互与知识共享,在模型中引入了同步机制的设计.近期研究表明,这些语义信息在提升模型性能方面也发挥了重要作用.
4.2 端到端_End-to-End ABSA (E2E-ABSA)
对于任意一个句子,在端到端的ABSA框架下,同时识别方面项及其对应的并根据其情感极性即可得到(a,p)对。
它能够容易地分为两个子任务,具体来说是ATE和ASC。直观的方法按照一定顺序进行执行这些子任务。然而,在这种检测边界与情感极性的结合分析方法中,在分类性能上通常能够提升。
举例说明" I like pizza"这个句子,在其上下文中" like"这一符号字符象征性地显示了积极情感状态,并且还隐含着后续出现的" pizza"这一词汇具有意见性质。
基于这一发现, 科学家开发出多种方法来有效解决端到端问题. 这类方法通常可划分为两大类, 如表4所示.

- 第一种"Joint"方法通过结合多任务学习框架内两个子任务的关系来揭示两者之间的联系,并基于包含方面边界标签(第一行)以及情感标签(第二行)的两个标签集合进行预测两种类型的情感元素。随后将这两个子任务输出结果进行综合得到最终预测结果。
- 第二种方法去除了这两个子任务之间的界限,并采用了"Unified"标记方案来表示每个标记中的两种情感元素。
如表4的最后一行所示,每个令牌的标记现在包含两部分信息:
- 第一部分{B, I, E, S, O}标识相应的分类系统边界(B类边界代表该类别的起始位置,I类边界代表该类别内部的位置,O类边界代表该类别外部的位置,S为单个实例,E则表示该类别的结束位置);
- 第二部分{POS, NEG, NEU}则是用于评估结果的情感类型(其中POS代表正面情感_NEG代表负面情感_NEU则指中立情感)。
例如,在负面情感维度上,B-NEG被定义为其起始点。借助折叠标签机制,E2E-ABSA任务可通过结合TokenClass范例这一标准序列标记器得以实现。
无论采用哪种方法,一些想法往往是共享的,并在不同的模型中频繁出现。
例如,在关注方面边界与情感极性之间的关系时 ,这一现象已经被实证研究证实是一个关键因素 。在识别方面术语及其伴随的情感倾向方面发挥着指导作用的是意见术语提取这一过程
例如,在关系感知协作学习(RACL)框架中,通过明确的关联感知机制对各任务间的互动关系进行建模,并利用一种基于关联传播的机制来协调各任务间的关联关系。
Liang等人进一步开发了一种路由算法以提升各任务间的知识传递效率。文档级的情感信息也被用来向模型注入粗粒度的情感知识从而更准确地识别情感极性。
探讨如何有效处理端到端ABSA问题时,提出了三种主要的方法:管道式 pipeline approach、联合 joint strategy以及统一 unification framework。目前尚不清楚哪种方案最为理想。
先前研究表明管道方法表现出色。然而进一步研究表明使用定制化的神经网络架构配合统一化的标记策略能够实现最优效果。随后研究者们进一步验证了在预训练BERT模型顶端构建简单的线性层并采用统一标记策略能够取得令人鼓舞的效果无需复杂的架构设计。近期针对管道式、统一式或接头式方法的研究均取得了令人满意的成效
4.3 方面类别情绪分析_Aspect Category Sentiment Analysis (ACSA)
ACSA的主要目标是系统性地识别和分析所涉及的领域及其相关的情绪性质。
如表3所示的例子:一个ACSA模型预期能够识别两类特定的情感-一个是关于食物的情绪(Positive),另一个是关于服务的情绪(Negative)。
尽管ACSA与E2E-ABSA任务相近(仅在格式上有细微差别),但不论是隐式提及还是明确提及都可以提供ACSA的结果,由此导致ACSA方法得以广泛应用于该领域。
处理ACSA最直接的方法是管道方法:首先在相关领域中识别出关键方面的具体指标(即ACD任务),随后利用这些指标预测其情感倾向性(即ASC任务)。
然而,在第3.2节所述之论述基础上可知,识别句子中的属性类别并非易事。由于第一步出现误差,则整个系统的预测效果会大打折扣。同时,在两项任务之间未能认识到它们之间的关联性也是至关重要的因素。事实上,在多任务学习框架下同时处理这两项任务不仅可行而且能显著提升其性能表现。

从本质上讲,在ACD任务中被视为一个多标签分类问题(即把每一个类别标记为一个标签),而ASC任务则是对于每一个被检测出的方面类别进行多类分类处理(其中每一个情绪极性都被视为一类)。
如图4所示,现有的统一处理ACSA的方法大致可以分为四种类型:
- 笛卡尔积:通过枚举所有可能的类别-情绪组合来构建输入空间。随后将句子与特定的情绪分类对作为输入供一个分类器处理以实现预测目标这一过程返回一个二进制标签表明该情绪分类对是否存在于该句中然而这种做法会导致训练数据规模大幅增加从而显著提升计算开销。
- 加一维法:为了改进方面类别的情绪预测引入了一个额外维度'N/A'用来标记某方面在特定句中是否存在这一改进使得不同方面之间的情绪分析能够采用统一的方式处理从而有效缓解数据不足的问题。
- 层次分类法:Cai团队提出了一种基于图卷积网络(Hier-GCN)的分层模型其中较低级别的图卷积网络(A级GCNs)首先捕捉各类别间的关联关系随后更高层级(B级GCNs)则进一步挖掘类间关系并提取面向类别的情感特征最终通过集成模块整合这些特征进行多级情感预测。
- Seq 2Seq建模:Liu团队采用了基于预训练生成模型的Seq 2Seq架构将其应用于ASCA问题研究中该方法利用自然语言表达方式将文本序列映射到相应的极性标签上并通过注意力机制捕捉长距离依存关系实现了比传统分类方法更好的性能特别是在少样本学习场景下表现出显著优势。
4.4 方面情感三元组提取_Aspect Sentiment Triplet Extraction (ASTE)
该aste任务旨在从给定的句子中提取(a,o,p)三元组以揭示意见目标、其情感取向以及为何以特定意见术语表达这种情感。
由此可见,在专为单个任务设计的模型基础上发展起来的基于意见三元组的情感分析模型,在情感信息完整性方面表现出了显著的优势

该研究团队首次对ASTE任务进行了详细阐述,并进而提出了一个基于双级管道架构的新算法模型。
- 根据图5(a)所示,在初步步骤中首先运行两个序列标记模型。
- 在后续阶段中, 我们通过分类器从预测的结果中识别出关键的关系实体, 并成功构建了三元组预测结果。
(2)为了更好地挖掘多个情感元素之间的关系,人们提出了许多统一方法 。
- 张等人提出了一种多任务学习框架...其核心在于通过核心概念识别、情感表达识别以及情感关联分析等三个关键模块构建系统架构,并在此基础上应用启发式规则从各子任务的预测结果中综合生成情感三元组。
- 另一个潜在的方向在于设计统一的标签方案来一次性提取三元组...该模型基于位置感知标签方案进行扩展。
- 类似地...Wu等人则在此基础上提出了改进方案...该方法不仅继承了原有的网格标记基础...还进一步引入了极性信息提取机制。
- 基于上述观察...Xu等人提出了一个跨层次交互模型...该模型通过明确构建整体层面的任务交互关系框架来提升系统性能。
(3)其他建模范式,例如MRC 和Seq2Seq建模 也已用于解决ASTE。
- Mao等人利用特定的查询开发了一种方法来将原始问题转换为两个MRC任务:第一个MRC模型用于提取方面术语;第二个MRC模型则预测相应的意见术语和情感极性。
- Chen等人采用类似的策略来处理相关问题,并且他们还使用了一个双向的MRC框架:一个先预测方面术语、接着预测观点术语;另一个则先预测观点、再预测方面。
Seq2Seq建模提供了一种优雅的解决方案,可以一次性进行三重预测。
- 张等人将其原始任务转化为文本生成问题,并开发出两种建模方式:一种用于标记情感三元组的样式识别模式与另一种用于识别情感三元组的样式提取模式。
- Yan团队与Hsu团队以句子作为输入,并以指针索引为目标。随后为了预测意见术语或方面术语的目标,则需预测这些术语的起始索引与结束索引。
- Fei团队开发了非自回归解码(NAG-ASTE)方法;这种方法将ASTE任务建模为无序三元组集的预测问题。
4.5 方面类别情感检测_Aspect-Category-Sentiment Detection (ACSD)
尽管不同类别与相关术语都可被视为分析情感层次的考量因素,在这种情况下,情感的结果往往是由它们共同决定的。
为了识别这种复杂的相互依存关系,Wan等人提出了一种方法,即通过检测给定数据集中的所有(具体分类项,具体术语,情感倾向)三元组来进行联合预测。他们基于(具体分类项,情感倾向)这一标准,将联合预测任务划分为两个子任务类型,其核心思路与第4.3节所述ACSA任务中的"笛卡尔积"概念相契合
因此,在包含具体类别以及情感的特定句子组合中,剩下的问题是:对于这样的组合是否存在任何方面术语?如果存在,则该方面术语是什么?前一个问题可以用二进制SeqClass任务来表示;而第二个则变成了一个条件TokenClass问题。例如:
Given the sentence "The pizza is delicious," it forms a (food, POS) pair. The first sub-task will predict that such a combination exists and that the sequence tagging model should identify "pizza" as the corresponding entity term.
Then, it can output a triple (food, POS, pizza) as the prediction.
However, when receiving the same sentence with (service, POS) pair as input to this sub-task, it should predict that such a combination does not exist. The overall training objective can be achieved through combining these two sub-tasks into a joint loss function.
基于这一方向的研究路径,在Wu等人(20XX)的研究基础上构建了一个命名为MEJD的新模型框架。该模型采用句子及其所属的具体类别作为输入数据进行处理,并将剩余问题转化为:
(1)识别给定类别的情感倾向性(即SeqClass问题);
(2)当出现时,则获取相应的情绪维度(即TokenClass问题)。
(1)识别给定类别的情感倾向性(即SeqClass问题);
(2)当出现时,则获取相应的情绪维度(即TokenClass问题)。
但某些特定的方面类别可能不在相关句子中
基于特定领域中预设分类维度的有限的类别数这一事实,在上述方法中,我们可以将句子作为输入分别与各个分类组结合使用。
与之相反的是,Zhang等人利用Seq2Seq架构来处理该问题,在原始文本中加入情感特征,并将其作为生成目标序列的一部分以便建立相应的映射关系
研究团队进一步开发了一个新的情感分析系统。该系统能够生成包含各类情感元素的自然语言句子,并将其作为序列到序列学习过程中的训练数据使用。
4.6 方面情感四元预测_Aspect Sentiment Quad Prediction (ASQP)
上述所讨论的各种复合ABSA任务的主要目的是获取较为细致的情感信息 ,或者采用针对提取的格式(如AOPE方法)或三联体提取(如ASTE技术的数据)的数据。
虽然在不同场景中可能有用,但具备一次性预测四个情感元素能力的模型被认为完美地整合了多维度的情感信息
Cai等人对ASQP任务展开了深入研究,并特别关注其中隐含的观点或立场。其认为,在现实世界的诸多场景中,默认情况下人们会根据自身经历形成一些默认的看法与态度(即"空"),这些默认的看法与态度常被纳入情绪四元体模型中进行分析。为此其团队提出了两个新的数据集(均带有情感四元体标注),并通过整合现有模型构建了一系列Pipeline型基线模型来进行该任务的基础性验证工作。
Zhang等人开发了一种基于解释性建模策略的新方法,在端到端的情境下预测情感四元组关系。具体而言他们将注释的情感元素与预先设计好的模板相结合并将原始文本生成问题转化为基于目标序列的任务从而实现了对原始四元体预测问题的有效求解为此方法能够充分挖掘标签语义(即情感元素所具有的具体意义)。
基于以上思路后续的研究者们进一步将这一研究方向拓展至更为复杂的层次即将该任务抽象化为生成意见树或建立结构性模式的形式。
相较于其他ABSA任务而言, ASQP最为全面同时也是最为具有挑战性的领域.其主要困难在于不同情感因素之间的精确融合.鉴于信息技术的重要性以及巨大的提升潜力(例如,目前性能最优的模型在基准测试集上的F1得分仅为约40%),研究者们普遍认为未来将会在这一领域取得更为突破性的进展
5 ABSA与预先训练的语言模型
现有主流神经ABSA模型通常会通过预先训练得到的词向量表示(主要采用Word2Vec和GloVe等方法)与针对任务优化设计的神经网络架构进行整合结合。
虽然与早期基于特征的方法相比,此类方法的有效性随着改进逐步达到极限:
(1)context-free word embeddings are inadequate to model the interdependent emotional relationships within a sentence.
(2)A commonly used ABSA dataset may not be sufficient to model the scale required for training complex neural architectures.
(1)context-free word embeddings are inadequate to model the interdependent emotional relationships within a sentence.
(2)A commonly used ABSA dataset may not be sufficient to model the scale required for training complex neural architectures.
过去几年里
最初的工作未在特定任务的模型设计方面投入过多精力而采用了PLM上下文嵌入作为单词嵌入的一种替代方案基于预训练知识丰富的特性这种上下文化的信息应用显著提升了系统的性能表现
- 例如,在E2 E-ABSA任务中基于预训练语言模型叠加了几种标准预测层的研究工作引起了关注。他们通过在这些模型中叠加最简单的线性分类层就达到了比以往人工设计神经网络 ABSA 模型更好的性能。
- 类似地,在BERT的基础上直接将给定句子与其相关方面进行连接作为PLM输入,并结合其句子级输出(即[BERT] CLS 位置表示)构建了ASC任务的新方法。
- 此外,在与领域及特定任务相关的数据集上经过进一步微调训练后模型能够更好地捕捉到这些领域的特定知识从而显著提升了其在这些领域的表现。
但是,在仅仅将PLM作为上下文感知嵌入层这一做法尚显简单的同时也不够完善。从ABSA任务的角度深入分析可知:复杂的实际应用场景往往不仅涉及对序列或标记级标签的识别能力要求更为基础之外还需求求系统具备对各标签间相互依存关系的深入挖掘能力;因此必须进行更为细致的设计与构建以充分释放PLM在上下文信息处理方面的强大潜力。
基于当前PLM技术,在预训练过程中积累的知识可能难以充分地引导并应用于处理相关的ABSA任务。为此已进行了大量工作以提高针对不同下游ABSA任务的应用能力。
- 最早的研究者采用Sun等人的方法将其转化为一对一的任务设定。
- 由于BERT在处理句子对分类问题(如问答)方面具有显著的优势
- 因此他们为每个具体领域构建了一个辅助句子,并将原始句子与构建的句子输入到BERT中
- 从而实现了比之前更好的性能。
- 遵循类似的思想
- Gao等研究者Chen等研究者以及Mao等研究者提出了基于MRC建模的方法来解决AOPE和ASTE等任务。
- 通过将原始任务分解成一系列MRC流程
- 从而能够自然地捕获这些成对关系。
- 此外
- 利用预训练生成模型(如BART和T5)
- 是解决各种 Aspect-Level情感分析(ABSA)任务的重要手段。
- 其核心思想在于将原始任务转化为序列到序列的问题
- 并使标签语义得以自然地融入其中。
(2)除了担当ABSA模型核心组件之外,在处理ABSA任务的过程中PLM还能从其他方面获得益处。例如,在其预训练阶段所采用的语言建模任务通常能实现生成数据增强的能力。
- Li 等人基于PLM构建了条件文本生成器,并开发了一种掩蔽-预测策略以生成ATE任务的强化训练语句。
- Hsu等人未依赖外部语言资源而通过PLM实现了语义保留增强的方式,在一系列ABSA测试中显著超越了基于PLM的传统方法。
(3)尽管常被忽视且略具新颖性,PLM的一个潜在优势在于为不同种类的ABSA模型构建更为精确的关系网络。具体而言,在这些任务中显式利用语义关联确实是有益处的。然而,在这些任务中显式利用语义关联确实是有益处的。然而,在这些任务中显式利用语义关联确实是有益处的。不过需要注意的是,在这些任务中显式利用语义关联确实是有益处的。不过需要注意的是,在这些任务中显式利用语义关联确实是有益处的。不过需要注意的是,在这些任务中显式利用语义关联确实是有益处的。不过需要注意的是,在这些任务中显式利用语义关联确实是有益处
- 初次探索:Wu团队采用独特的探测手段从预训练语言模型(PLM)中提取依存关系解析树,并将所得结果传递至基于依存关系的情感分析系统(ABSA)模型中,在传统解析器构建的相关模型中取得了显著提升。
- 在此之后:Dai团队运用ASC数据对PLM进行微调训练以融入情感知识;通过这种方法建立面向情感关系分析的情感依存树模型后,在多个国家范围内表现出了最先进的依存关系基础模型。
目前而言,在自然语言处理领域中存在一种普遍认可的观点:这些学习机制能够精确地捕捉输入词的意义信息。
然而,在基于自我注意力机制生成的语境化嵌入(该方法捕获了句子内部完整的单词依存关系)的情况下,在进行ABSA任务时可能会显得多余。
事实上清晰地引导了具有意义结构的PLM表示实现进一步转换;而通过分析基于' [CLS ] '标记进行预测任务的优势表现,则间接表明这种冗余现象的存在
以何种方式利用PLM融合具有其意义的稀疏结构,并通过提炼内部的全连接自注意力机制来更有效地获取ABSA相关的表征?这方面的研究值得进一步的关注与深入的研究。
另一方面,基于PLM的ABSA模型的鲁棒性仍有提高的空间。
此外
此外
作者认为,在利用PLM深入理解方面级情感时能够被发现具有鲁棒性(即这种能力不会受到反向意见或情感否定的影响),而非避免建立基于这两者的虚假关联关系是构建基于PLM的ABSA模型的未来挑战。但这一目标仍需克服诸多挑战。
6 可迁移ABSA
6.1 跨域ABSA
在单个领域的有监督ABSA模型已经取得了显著的进步。然而,在涵盖多个未知或预设的领域的真实场景中,这些模型很可能无法达到令人满意的结果。
其主要原因在于各个领域对同一个意见目标的不同关注重点通常会导致不同的方面被强调或忽略。此外,该模型由于缺乏针对未知领域常见词汇的知识储备,难以有效理解和应用这些领域的技术方法
一种简明有效的途径是通过生成具有标签的样本数据集,并对其他领域中的模型进行重新训练。
由于ABSA任务要求精确标注,在实际操作中获得足够的标注数据通常成本高昂甚至不可能实现。通过采用领域适应技术可以在较低成本下实现跨域预测目标,并通过这种方法提供了将ABSA系统有效地推广至其他领域的方法大致上来说,在这两种主要方法中:一种是基于特征信息的设计机制;另一种则是利用数据驱动的技术实现信息传递。
(1)基于特征的传输
基于特征的迁移的核心思想是为ABSA任务学习与领域无关的表示。
- Jakob及其合作伙伴Gurevych和Chernyshevich通过在跨域ATE任务的CRF标记器中应用跨域不变的丰富句法特征来具体化这一核心思想。
- Wang与Pan开发了一个依赖性边缘预测任务以强化句法感知表示的学习过程,并旨在降低单词级别的领域偏移问题。
- 为此研究团队还结合了其他辅助任务包括领域分类、基于方面-意见交互的任务以及意见项检测等以全面提升多领域的表示学习效果。
- 相比之下Chen与Qian采取了一种更为直接的方式即聚合每个词的句法角色并将句法嵌入作为连接源域与目标域的关键桥梁从而显著提升了领域适应的效果。
- Liang等人基于目标域中存在的基础一级方面类别注释提出了一种交互传递网络架构以便捕获并利用跨领域不变类目-术语之间的相关性。
(2)基于数据的传输
通过信息的传递,旨在重新分配训练数据的分布,并为了更好地将ABSA模型应用于目标域。
- Ding等人采用高精度语法模式以及一些与领域无关的意见术语来构建目标领域特定的伪标记数据集。随后将这些伪标记的目标数据扩展至源域训练集,并以此为基础构建跨域ABSA模型。
- Li等人采用了类似方法构建目标领域的伪标记数据集,并对源域训练实例进行了重新加权处理。
- Yu等人设计了一种观点约束的遮蔽语言模型而非基于未标记的目标域数据生成监督信号。该模型以源域标注评论作为输入并执行从源域到目标域的本地观点术语转换作为银层训练数据。
- 此外Gong等人将实例级别的重新加权策略与辅助任务中的领域不变表示学习相结合从而加强了基于特征传输和基于数据传输的有效性以更好地适应跨领域的E2 E-ABSA任务。
- Pereg等人与Rietzler 等人利用PLM嵌入作为跨领域ABSA预测的关键特征并取得了令人满意的实验结果这表明大规模预训练PLM已经具备较强的领域独立性表示能力。
- Xu等人通过持续利用多个相关领域的无标注文本对BERT进行预训练进一步增强了PLM在不同领域的特异性并显著提升了BERT在E2 E-ABSA任务中的跨领域泛化能力。
这些成果展示了,在跨领域ABSA中将特征导向的数据传输与数据导向的学习机制进行整合能够带来显著效果。通过预训练语言模型作为模块集成使用,则能够显著提升领域适应能力。
6.2 跨语言ABSA
在现有研究中,大多数ABSA工作集中在资源充足的领域(主要为英语)。然而,在实践中时态下,则往往是由不同的语言来表达。
然而,在标注每种语言的数据时可能会遇到时间和资源上的挑战;这些研究推动了跨语言领域中基于翻译 adapters 的研究。鉴于在不同语境下的翻译可能存在多种限制因素,在这种复杂背景下开展大规模 XABSA 研究仍然充满挑战;大多数研究集中在基础层面的任务上;例如基于翻译 adapters 的术语提取方法(如 XATE),情感分类任务同样面临类似的挑战;以及端到端的目标导向 ABMA 模型等。
要实现跨语言迁移,关键问题是获取目的语中的语言专有知识。
早期的方法主要依仗翻译系统获取这些知识。随后步骤中,我们采用现成的机器翻译技术,将待处理文本由源语言转换为目标语言表达形式。在此基础上,标签信息也被相应地映射至目标语言领域,具体操作包括直接转换或借助单词对齐工具如FastAlign来进行精确匹配,其中FastAlign是一种广泛应用于跨语言任务中的对齐算法,特别适用于那些要求标注层次详细标注的任务,例如Text-to-Ann (XATE)这类 ABSA 问题场景。
由于这一过程涉及多步转换与精确对齐工作,因此我们可以基于所获得的数据构建相应的 ABSA 模型。
由于这种方法的高度性能严重受限于机器翻译及自动标签投影的准确性,在数据质量方面已开发出多种技术以提升其效果。这些技术包括协同训练方法、基于实例的选择策略以及对SMT进行限制的技术
基于大规模的双语对照文档集合进行先期训练所得的多语言词向量模型同样应用于XABSA系统。该系统通过建立在同一公共向量空间中的表示形式可以在无需考虑语言差异地应用中实现任务目标。
- 例如, Wang 和 Pan 利用了一种基于转换机制的方法致力于解决 XATE 任务. 通过对抗网络,他们成功地将不同语言的表示对齐到共享的空间中.
- Jebbara 和 Cimiano 考虑了零样本跨语言实体识别 (zero-shot ATE) 任务中的双层跨语言词嵌入方案. 尤其值得指出的是,他们的研究表明,通过从多个源语言进行转换处理,能够显著提升该类任务的表现.
基于对单language pre-training language model的成功经验的学习,在开发multi-language pre-training model framework的过程中, 其在cross-lingual natural language processing应用中展现出显著优势
通常情况下,在大量的多语言语料库中进行了PLM的预训练阶段;随后,在源语言的数据基础上进行了微调训练;最终,该系统能够直接应用于目标语言测试数据的推理工作(即零样本迁移学习)。
由于预训练阶段积累的语言知识的存在,在零样本迁移方面已取得显著成效,并被广泛应用于多种跨语言自然语言处理任务的关键手段。然而,在预训练步骤中所积累的语言知识对于xabsa问题而言可能显得不足。
为了补偿这一问题,在模型训练过程中可以通过翻译生成(pseudo)标记的目标语言数据来补充其目标语言的知识资源。
- 例如,在多语言模型开发过程中,Li等研究者设计了一种预热策略,通过分析多语言翻译数据中的知识结构,有效提升了模型的学习效果。
- 张等学者认识到高质量的目标语言数据具有重要的价值,并在此基础上创新性地设计了一种无需依赖对齐标签的投影技术,从而实现了高质量伪标签目标数据的生成。
它们显示了,在基于这些数据微调mPLM时,则可以为XABSA任务构建强有力的基础模型。
尽管单语ABSA问题研究相对较少,但XABSA问题在研究上仍显不足。尽管mPLM如今已在多种跨语言NLP任务中得到广泛应用,但将其成功应用于XABSA领域仍面临诸多挑战:因为针对任何ABSA任务而言都至关重要的是语言特定的知识。因此,在模型中注入更丰富的目标语言知识以实现自适应策略显得尤为必要。另一方面,在现有研究中主要局限于较为简单的ABSA任务:深入探索难度较大且复杂的复合型ABSA任务间的跨语言迁移仍具较大挑战性和实用性
7 挑战和未来方向
过去十个年头里我们不断观察到,在过去十个年头里我们不断取得重大成就——无论是在应对新的任务还是采用新的方法上都如此显著的进步。然而尽管取得了一定的成就,在构建出更加智能化与强大的ABSA系统仍然面临着诸多挑战——在这段内容中,请允许我探讨一下当前面临的诸多挑战,并提出了若干可能的方向供研究者进一步探索。
7.1探索更大、更复杂的数据集
在第2.4节中提到,在这项研究中所使用的大多数现有的ABSA数据集均源自SemEval共享挑战,并不仅限于此,在针对特定任务进行研究的过程中,我们对这些数据集进行了额外的数据清洗和注释工作
尽管规模较小的数据集(例如,几百条样本)使得难以准确评估不同模型的表现
目前,在常规做法中使用多个随机种子(如5至10个)进行模型训练,并通过计算各运行的综合得分来评估模型性能。然而,在保证公平性的前提下,“建议采用更为丰富的数据集以获得更可靠的比较结果。”
此外,在现有的基准数据集中虽然能够为不同方法提供有价值的测试环境但为了更好地适应现实世界的复杂场景仍需进一步提出更具挑战性的基准数据集。例如包含来自多个领域以及跨语言评论的数据集将有助于评估跨领域与多语言的抽象概念边界检测系统(ABSA)性能。
此外, 因为用户的意见可以用多种形式表达出来, 所以我们还想通过多样来源的数据集合取不同意见共享平台上的信息, 并采用问答平台或客户服务对话框等具体途径.
7.2 多模态ABSA
多数现有的ABSA作品倾向于对带有强烈观点的内容进行深入分析,并涵盖如客户反馈信息或社交媒体内容等类型的信息。
然而,在分享自己的观点时,用户倾向于通过多种形式(例如图像)来传达自己的想法。因为不同类型的媒体内容往往具有密切关联性,在这种情况下利用这种多模态信息可以帮助我们更深入地评估用户在各个方面的感受状态。
近期针对多模态ABSA的研究主要关注于简单的任务类型,例如多模态ATE与多模态ASC等。为了整合来自不同模态的信息来源,默认情况下会先将文本与图像分别编码为特征表示,并通过设计一系列交互机制来进行特征融合以实现最终目标。
最近的研究基于E^{2} E-ABSA 任务在单文本模式下完成了对多模态 E^{2} E-ABSA 任务的研究。其目的是为了探索多模态场景中两个子任务之间的关联关系。他们开发了一种多模态联合学习方法,并通过结合跨体征关系检测技术来获取所有方面的术语和情感极性对应关系。
尽管有这些初步的尝试,仍然存在一些有希望的方向:
(1)从领域角度来看, 应当着重解析高难度的多模态ABSA问题;
(2)从方法论层面而言, 应该探索更加先进的技术路径, 以整合各类多模态意见信息; 具体而言, 可以通过构建基于PLM的技术框架来实现这一目标.
预期多模态ABSA会受到更广泛的重视,并因其实用性而备受关注。
7.3 多任务统一模型
当我们介绍各种ABSA任务时,在其中可以看到一些概念和模型设计不断涌现出来。
事实上,在解决一个ABSA任务时所获得的方案往往能够轻松地应用于处理另一个相关性较高的
问题,
这是因为这类问题通常具有密切关联性。
肯定会提出一个统一的模型来处理多个(而非全部)ABSA任务的问题。如果能够实现这一点,则无需单独开发每个任务的具体模型。实际上,在实践中这非常有用:因为我们不想每当出现新的数据时都不希望重新训练模型架构以适应不同类型的注释意见而不断调整现有架构。在第2.3节中我们探讨了如何通过相同的建模方式来解决不同任务的问题即当它们可被视为相同建模方式的应用时。
- 最近的研究结果表明,在这一领域上取得了一些探索性进展。具体而言,在构建MRC模型时采取了两种不同的方法:一种是基于针对特定任务的设计方案;另一种则是直接利用自然语言形式生成的目标情感信息来实现对Seq2Seq架构的构建。
- 除了在相同的架构基础上解决多个子类别的能力之外,Zhang等人的研究表明,当采用相同的基础架构时,子类别间的特定知识能够方便地实现不同ABSA子类别的知识共享(被称为跨任务迁移)。我们期待未来会有更多相关研究探索这一领域,最终推动开发出更具实用价值的ABSA系统。
7.4 终身ABSA
长期学习也被视为持续教育的一种形式,其目标在于通过从前任务中获得的经验与知识,在一系列后续任务中进行相应的调整以促进未来的learing
Chen等人主要从终身学习出发点深入探讨了情感分析,并提出了针对不同的情感状态进行持续性分析的问题。该问题需要建立一个系统来应对各种不同的情感识别需求。Wang等人则将其融入到记忆网络中用于处理相关的ASC任务
近期的研究开始聚焦于探讨顺序学习过程中的灾难性遗忘问题而非将其视为知识积累的跨领域情感分析的扩展应用
然而,在现有研究中,主要聚焦于域增量学习问题中的一种特定任务类型(如ASC),这些研究假设所有任务均采用固定的标签类别(包括正、负和中性等分类),并无需依赖任务相关信息。
为了研发更先进的长期ABSA系统, 必须深入研究类与任务的增量学习. 例如, 领域类别在不同应用场景中表现各异, 这就要求该方法具备适应各类别变化的能力.
此外,跨任务转移已被实证证明能够显著成功地实现已从基础型ABSA任务中获得的知识向高级型ABSA迁移。因此,在不同类型的ABSA任务中深入研究终身学习具有重要意义。
8 总结
本研究旨在系统性地探讨基于情感分析的各个方面及其相关问题。该研究涵盖了其主要任务、研究方法及相关的挑战与未来方向。首先,在介绍ABSA框架下四个核心情感维度的基础上对其具体定义展开了详细阐述,并介绍了典型的建模模式以及现有资源的构建方式。其次,在详细阐述了不同ABSA任务的具体解决方案的基础上着重讨论了复合型ABSA任务的最新进展。此外,在根据所涉及的情感维度对现有研究进行系统分类的基础上总结了各个任务中不同建模模式的典型代表方法,并通过这一方式为当前的研究进展提供了一个清晰的整体轮廓图景。随后,在探讨如何利用预训练语言模型提升各类型ABSA表现能力的过程中指出了该技术带来的显著改进效果,并对其优点与局限性进行了深入分析。最后,在概述了跨领域与跨语言环境下相关系统的最新发展动态后提出了对未来进一步优化这类系统的几点建议,并对未来可能的研究方向进行了展望
