Advertisement

Hierarchical Attention Networks for Document Classification阅读笔记

阅读量:

文章目录

模型架构基于层次化注意力机制构建的词编码器与句编码器组成的嵌入式信息处理体系

复制代码
* Document Classification
  • 实验
    • 数据集
    • 参数
    • 实验结果

模型结构

Hierarchical Attention

Word Encoder

Encoder采用的双向GRU

Word Attention

在本研究中,在处理句子时我们假设u_w作为一个context vector, 可被视为用于表示上下文信息的重要参数,并且其实际值是通过随机初始化后再通过训练过程来逐步优化确定的关键变量.

Sentence Encoder

Sentence Attention

Document Classification

实验

数据集

  • Yelp reviews
  • IMDB reviews
  • Yahoo answers
  • Amazon reviews

参数

首先, 把文档切分成句子, 并用CoreNLP分词.

  • 训练集:验证集:测试集的比例为80%:10%:10%
  • 词嵌入维度为20
  • GRU单元维度为5(单向情况下输出维度为5;双向后拼接后输出维度变为1)
  • 批量大小设为6
  • 使用SGD优化器并搭配动量项(动量因子设为9/1)

实验结果

全部评论 (0)

还没有任何评论哟~