Advertisement

论文阅读笔记:Transformation Networks for Target-Oriented Sentiment Classification

阅读量:

此论文由港中大与腾讯人工智能实验室于2018年发表于ACL会议。

摘要

本文模型采用三层架构,在底层配置了双向LSTM单元,在顶层则采用了卷积神经网络(CNN)。为了替代基于注意力机制的RNN架构来获取最具分类价值的特征。然而卷积神经网络(CNN)在捕捉实体嵌入信息方面存在局限性。为此我们设计了一种称为CPT(Context-Preserving Transformation)的功能模块用于将实体嵌入融入词义表示过程。尽管这一特征转换过程可能导致上下文信息丢失。为此我们设计了一种'保持语境'机制能够整合经由变换后的特征与保留原有语境信息的特征。文中提出的模型T-net整体框架如左图所示。

Architecture of TNet
Details of a CPT module

模型介绍

1)Bi-directional LSTM Layer

该结构由双向LSTM层构成,在其输入端接受目标句子的词向量表示,并经过处理后输出带有语义关联性的词向量序列。

2)Context-Preserving Transformation

这部分完成的功能有两个,一是将具有上下文信息的词向量结合特定目标信息,一是保存上下文信息。
2.1)Target-Specific Transformation
在这一层首先用另一个LSTM生成目标向量的词表示(右图中绿色部分),计算每一个目标词向量和每一个输入词向量的关联度,然后通过关联度生成基于上下文的目标词向量 ,然后将由第一层得到的词表示与本层得到的词向量表示进行全连接(fully-connected),得到结合目标信息的词向量表示
2.2)Context-Preserving Mechanism
将2.1得到的结合了目标信息的词向量表示与第一层得到的具有上下文信息的词向量进行结合,本文提出了两种结合方法LF和AS。
Lossless Forwarding(无损转发):将上下文信息直接加到2.1得到的词向量表示上;
Adaptive Scaling(自适应缩放):将上下文信息以不同的权重加到2.1得到的词向量表示上;

2.3) Convolutional Feature Extractor

第三层为融合位置信息的CNN层用于从2.2中获取到特征信息并完成分类

实验部分

本研究在三个典型数据集上实施了四项实验任务,并对传统情感分析技术进行了系统比较。(1)作为基础模块,在各测试集上与传统情感分类技术展开对比;(2)采用注意力机制和全连接层替代原有的CPT架构,并观察其对分类效果的影响;(3)分析了深度转换策略、语义保持模块以及位置编码对于提升模型性能的关键作用;(4)评估了保持长短期记忆能力对于提升模型泛化能力的作用

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~