Advertisement

VistaNet: Visual Aspect Attention Network for Multimodal Sentiment Analysis 论文解读

阅读量:

VistaNet: Visual Aspect Attention Network for Multimodal Sentiment Analysis

文章目录

  • VistaNet: Visual Aspect Attention Network for Multimodal Sentiment Analysis
    • Abstract

    • Introduction

      • Problem
      • Contributions
    • VistaNet网络结构

      • Word Encoder with Soft Attention
      • Sentence Encoder with Visual Aspect Attention
      • Sentiment Classification
    • Experiments

      • Baselines
      • Results
    • Conclusion

    • Reference

Abstract

检测一个文档表达出来的情感对于很多应用都是一个关键任务,比如给用户偏好建模、检测顾客行为、评估产品质量等。传统上,情感分析主要依赖文本内容。手机通常是人们手中唯一的相机,受此驱使,网络上的内容(点评,博客、推特)变得越来越多模式,也就是说文本内容加上照片。问题随之而来,这些视觉成分可不可以对情感分析有帮助呢?我们提出了Visual Aspect Attention Network(VistaNet),利用了文本和视觉成分。我们发现在许多情况下,图片对于文本起到了支持性作用,强调了文本实体中的显著部分,而不是独立于文本来表达情感。因此,我们不用视觉信息作为特征,VistaNet利用attention机制将视觉信息作为可以来指明文档中重要句子的对齐手段。与视觉特征和文本attention相比,在饭店评论上的实验显示出采用视觉方面的attention更有效果。

Introduction

在大网络时代,人们越来越依赖于评价 软件,比如吃饭前都会去研究评论。

所以情感分析 很重要。(文本分类;文本特征和监督学习;DNN)

文本中不同的部分 对于情感分析贡献不一样。

Problem

现在的评价内容不止有 文本,还有图像、音频、视频。

这里我们专注于图片

Contributions

  1. 首先将图片作为文本分析的attention
  2. 提出VistaNet,将视觉信息作为句子级别的对齐
  3. 在Yelp饭店评论上做实验,效果好,并且可以延伸到其他带有图片的文档。

VistaNet网络结构

文档集C,包含若干文档c。每个文档包含L个句子si(i从1到L)和M个图片aj(j从1到M)。每个句子si里包含T个单词(wi,1,wi,2……wi,T)。

整个结构分为三层:

  1. 底层:用soft attention的word encoding层(将词表示转化为句表示)
  2. 中间层:sentence encoding层(将句表示转化为文档级别的表示)
  3. 顶层:分类层,对每个文档给出一个情感标签。
    在这里插入图片描述

Word Encoder with Soft Attention

对于每个单词wi,t,使用学习到的词嵌入矩阵We得到词嵌入xi,t
x_{i,t} = W_ew_{i,t},\, t\in[1,T]
为了编码整个词嵌入的序列,用了带有GRU的双向RNN,接受输入xi,t,输出隐藏层状态h_{i,t} = [\stackrel{\rightarrow}{h}_{i,t},\stackrel{\leftarrow}{h}_{i,t}],方括号中前者是前向RNN生成的,后者是后向RNN生成的。
h_{i,t} = Bi-RNN(x_{i,t})
对于句子表示来说,每个词的作用不一样,所以我们用soft attention。其中U随机初始化,得到了最终的句表达s_i
u_{i,t} = U^Ttanh(W_wh_{i,t}+b_w)\\ \alpha_{i,t} = \frac{exp(u_{i,t})}{\sum_texp(u_{i,t})}\\ s_i = \sum_t\alpha_{i,t}h_{i,y}

Sentence Encoder with Visual Aspect Attention

与前一层类似,接受句输入之后先过一个Bi-RNN。
h_i =Bi-RNN(s_i)
图片会对句子有贡献,所以我们采用visual aspect attention。

首先要获得图片的编码,我们用VGG-16的FC7层,m_j是个4096维的向量。

对于图像表示m_j,句子表示h_i
p_j = tanh(W_pm_j+b_p)\\ q_i = tanh(W_qh_i+b_q)\\ v_{j,i} = V^T(p_j\odot q_i+q_i)\\ \beta_{j,i} = \frac{exp(v_{j,i})}{\sum_iexp(v_{j,i})}\\ d_j = \sum_i\beta_{j,i}h_i
d_j是对于每个图像而言的文档表示(image-specific document representation)。我们想找到每个d_j对于最终文档表示d的贡献。
k_j = K^Ttanh(W_dd_j+b_d)\\ \gamma_j = \frac{exp(k_j)}{\sum_jexp(k_j)}\\ d=\sum_j\gamma_jd_j
一些文档可能会没有足够的图片来支撑语义,所以我们给每个文档加了“MEAN”图片来起到“global” aspect的作用。

Sentiment Classification

d作为特征,用softmax分类。训练时最小化交叉熵损失,l为ground truth。
\rho = softmax(W_cd+b_c)\\ loss = -\sum_dlog\rho_{d,l}

Experiments

数据集用的是Yelp上的美国五个城市的在线评论。任务是情感分类,评价标准是分类准确率。
在这里插入图片描述

Baselines

集合图片表示时,有两种:平均池化a和最大池化m

  1. BiGRU学习文本,VGG学习图片,然后concatenate。
  2. HANATT(state of the art)
  3. Tensor Fusion Network

Results

下图是与baseline比较
在这里插入图片描述

下图是自身比较(architecture ablation analysis),表明每一部分都有贡献。
在这里插入图片描述

下图表示图片数量增加会有效果变好的趋势。
在这里插入图片描述

Conclusion

提出了一个利用视觉信息做情感分析的VistaNet。

三层:聚合词到句的表示;到image-specific的文档表示;到最终的文档表示。

将图片作为文档中那部分更重要的对齐手段

实验验证了效果

Reference

论文地址

全部评论 (0)

还没有任何评论哟~