论文笔记：A Gated Self-attention Memory Network for Answer Selection

阅读量：

作者：陈宇飞

单位：燕山大学

论文地址：https://www.aclweb.org/anthology/D19-1610/
论文代码：https://github.com/laituan245/StackExchangeQA

一、研究问题

答案选择（AS）是一个重要的研究问题，在许多的领域都有应用，以往的深度学习方法主要采用比较-聚合的结构，本文将采用一种新的方法结构来完成答案选择任务。

二、解决思路

本文首先分析了以往的一些模型，比如(Bian等人的Dynamic-Clip Attention model)，分析这些模型中都存在前几层只是单纯的把问题和候选答案分别编码成了向量表示的序列，但是这些序列都是相互独立的，完全忽略了该序列与另一个序列之间的信息联系的问题，这也是本文为解决这个问题所提出的模型的设计思路和创新点，本文提出使用记忆网络（memory network）和自注意力两个架构，同时结合来自大规模在线语料库的简单迁移学习技术来完成答案选择任务。

三、模型设计

3.1 The gated self-attention mechanism

与传统的注意力机制求输入向量序列 $X=[x_1..x_n]$ 与上下文信息 $c$ 之间的相关性得分 $\alpha$ 相比，本文提出了一种叫做门控注意力机制的新方法，在传统注意力的基础上加入了自注意力 $s_i^j$ 用来表示序列中的第 $i$ 个单词和序列中的第 $j$ 个单词的注意力分数，也就是向量 $x$ 的自注意力分数，然后再计算向量 $c$ 和向量 $x$ 的注意力分数 $s_i^c$ ，最后将计算的相关性分数汇总成 $g_i$ ，其本质就是想把两个向量 $c$ 和 $x$ 同时融入到attention机制中。
在这里插入图片描述

3.2 Combining with the memory network

因为在大多数以前的存储器网络架构中，存储器单元之间的交互相对有限，在每一跳，单个控制向量只能用于独立解释每个存储单元。为了克服这一限制。本文模型设计采用记忆网络与上述门控自我注意机制相结合的方法，其中简化记忆流程如下图。
在这里插入图片描述

其中用 $c_k$ 来控制上下文， $x_1^k...x_n^k$ 作为第 $k$ 个位置的跳跃点记忆值，控制向量 $c$ 是随机初始化的，初始记忆向量 $x_1^k...x_n^k$ 可以采用word2vec、GloVe、BERT等来获取。每次门控自我注意机制的计算结果作用在记忆单元的更新计算中，公式如下。
在这里插入图片描述

由于上述公式已经处理了记忆向量 $x_i^{k+1}$ ，所以在更新控制器 $c_k$ 时只需将每个记忆向量 $x_i^{k+1}$ 求和取平均，无需进行加权平均，公式如下。
在这里插入图片描述

3.3 GSAMN for answer selection

在做答案选择任务时，方法就比较简单了。先将问题和答案进行拼接，然后当作一个输入序列输入模型，将任务视为一个二分类问题。

3.4 Transfer Learning

因为现在大量公共社区问答平台的兴起，这些平台包含大量的问答对，同时会包含很多领域的问答，这就为本文的迁移学习提供了一个很好的机会。首先使用从社区问答平台中爬取的数据集预先训练一个答案选择模型，然后本文采用了WikiQA数据集和TrecQA数据集作为实验数据集，在预先训练好的模型上进行微调。该迁移学习方法的优势在于数据获取简单，只需要在相关网站爬取数据即可，且可以提升模型性能。

四、实验分析

4.1 Ablation Analysis

消融实验部分较为简单，只是单纯的将模型做了拆分，列出了实验结果，没有进行分析，实验结果如下，其中消融实验只做了BERT baseline、[BERT + GSAMN]、[BERT + Transfer Learning] 三个，其他为对比实验结果。
在这里插入图片描述

4.2 对比实验

本文使用[BERT+Transformers]、[BERT+Transformers+Transfer Learning]，在Bert之后加入额外的6层的Transformers并没有对模型有提升，原因是BERT本身已经包含12个Transformer layers，堆叠更多的层将没有任何帮助，尤其是在测试的数据集不大的情况下。

全部评论 (0)

还没有任何评论哟~

论文笔记：A Gated Self-attention Memory Network for Answer Selection

作者：陈宇飞单位：燕山大学论文地址：https://www.aclweb.org/anthology/D191610/ 论文代码：https://github.com/laituan245/Sta...

《SELF-ATTENTION GENERATIVE ADVERSARIAL NETWORK FOR SPEECH ENHANCEMENT》论文笔记

论文地址：https://ieeexplore.ieee.org/abstract/document/9414265 会议:ICASSP2021 Abstract 目前语音增强的对抗生成网络仅依赖于卷...

NLP论文笔记 Reinforced Self-Attention Network: a Hybrid of Hard and Soft Attention for Sequence Modeling

论文ReinforcedSelfAttentionNetwork:aHybridofHardandSoftAttentionforSequenceModeling Shen,Tao,etal.Rein...

论文笔记《Gated-Attention Readers for Text Comprehension》

来源1606.01549 这篇论文提出的模型叫做GAReader,用的是GRU,GRU中的两个门及候选状态的推理公式如下： GAReader的实现思路为： 1，对于query首先也是用双向GRU处理，...

论文笔记-Suppress and Balance: A Simple Gated Network for Salient Object Detection

Hello,今天是论文阅读计划的第19天啦～也是我在这30天中要介绍的最后一篇目标检测的论文啦一、背景最显著的目标检测方法使用的基本结构是三角网或特征金字塔网络FPN。这些方法忽略了编码器与解码...

论文笔记：Graph Attention Network with Memory Fusion for Aspect-levelSentiment Analysis

GraphAttentionNetworkwithMemoryFusionforAspectlevelSentimentAnalysis（方面级情感分析的带有记忆融合的图注意力网络） 1摘要方面级情...

论文笔记——Gated-Attention Readers for Machine Reading Comprehension

Inroduction 本文是ACL2017的一篇文章，用更细粒度的gatedattention对背景文章和问题进行计算。作者是CMU的GraduateResearchAssistant:Bhuwan...

【论文笔记14】Gated-Attention Readers for Text Comprehension

本文主要介绍GAreader模型的基本思想，由论文《GatedAttentionReadersforTextComprehension》提出，论文直通车 1论文概述本篇论文的思想其实是很简单的，可以...

论文笔记：Exploiting WordNet Synset and Hypernym Representations for Answer Selection

作者：陈宇飞单位：燕山大学论文地址：https://www.aclweb.org/anthology/2020.aaclmain.14/ 目录一、研究问题二、解决思路三、模型设计 3.1Wo...

论文笔记《Self-Attention ConvLSTM for Spatiotemporal Prediction》

目录 1\.Abstract 2\.Introduction 3\.Method 3.1模型整体结构 3.2SAM模块 3.2.1FeatureAggregation特征聚合 3.2.2MemoryU...

是否确定退出登录?

论文笔记：A Gated Self-attention Memory Network for Answer Selection

目录

一、研究问题

二、解决思路

三、模型设计

3.1 The gated self-attention mechanism

3.2 Combining with the memory network

3.3 GSAMN for answer selection

3.4 Transfer Learning

四、实验分析

4.1 Ablation Analysis

4.2 对比实验

全部评论 (0)

相关文章推荐

论文笔记：A Gated Self-attention Memory Network for Answer Selection

《SELF-ATTENTION GENERATIVE ADVERSARIAL NETWORK FOR SPEECH ENHANCEMENT》论文笔记

NLP论文笔记 Reinforced Self-Attention Network: a Hybrid of Hard and Soft Attention for Sequence Modeling

论文笔记《Gated-Attention Readers for Text Comprehension》

论文笔记-Suppress and Balance: A Simple Gated Network for Salient Object Detection

论文笔记：Graph Attention Network with Memory Fusion for Aspect-levelSentiment Analysis

论文笔记——Gated-Attention Readers for Machine Reading Comprehension

【论文笔记14】Gated-Attention Readers for Text Comprehension

论文笔记：Exploiting WordNet Synset and Hypernym Representations for Answer Selection

论文笔记《Self-Attention ConvLSTM for Spatiotemporal Prediction》