Advertisement

【文献阅读】Convolutional Sequence to Sequence Learning

阅读量:

Introduction

卷积神经网络在序列建模中不太常见

相较于循环层而言,在卷积神经网络中(CNNs),通过生成固定大小的上下文来表示信息是一种特性;然而,在深度学习架构中设计出更大的有效上下文窗口大小实际上可以通过叠加更多的层次来进行扩展

解决方案:

我们开发了一种全卷积的序列到序列建模框架。我们的模型集成了一种门控线性单元 (Dauphin et al., 2016) 和残差连接 (He et al., 2015a)。我们在每个解码器层中采用了注意力机制,并验证了每个注意力层仅带来微不足道的计算开销。

RNN-Seq2Seq

现有的各种编码器-解码器架构已经被提出,并且其主要差异体现在条件输入方式以及使用的 RNN 类型上

注意力机制能够解决单个向量难以全面表征整个文本序列信息的问题

在编码器-解码器架构中,循环神经网络的主要选择包括长短期记忆网络(LSTM)以及门控循环单元(GRU)。这些结构通过保持并更新长期依赖关系的能力,在处理序列数据时展现出强大的性能表现。该机制能够捕获来自前一时间步的信息,并有效建模长期依赖关系。

最近的方法还依赖双向编码器来构建过去和未来上下文的表示

卷积结构

采用卷积神经网络架构(convolutional neural network, CNN)取代 recurrent 网络以推导中间编码器状态z以及解码器状态h

Position Embedding

词嵌入:w_1,w_2,...w_m
位置嵌入:p_1,p_2,...,p_m
组合:w_1+p_1,w_2+p_2,...,w_m+p_m

位置嵌入在我们的架构中具有显著的重要性,在这种情况下它们起到了关键作用

卷积块

例如,以 k=5 堆叠 6 个块会产生 25 个元素的输入字段,即每个输出取决于 25 个输入

注意力机制

相较于传统的attention机制,在计算c的过程中,本方法将原始输入向量e纳入考虑。

参考

https://zhuanlan.zhihu.com/p/51952607
https://zhuanlan.zhihu.com/p/26918935

全部评论 (0)

还没有任何评论哟~