循环神经网络(RNN) 和长短期记忆网络(LSTM)

阅读量：

循环神经网络(RNN)

循环神经网络是一种用于处理序列数据的神经网络。

RNN 的输入输出：用「动图」和「举例子」讲讲 RNN

右侧展示了 RNN 模型在时间维度上的展开图。这一过程由编码器完成其目的即从序列输入中逐步提取数据并将其转化为向量（即表示输入）。

对于第

时刻，

是当前时刻的输入，用于实时更新状态；

处于上一层隐藏状态的变量用于存储信息，在文本处理中前面提供的有助于理解后续内容的关键信息。

基于 RNN 编解码架构的模型可用于自动机器翻译任务中。输入端为英文文本片段，在经过编码器逐步处理后生成固定长度的序列表示，在解码器端则通过逐步生成的方式完成目标语言句子的构建过程。编码器部分负责从英文输入中提取关键词汇信息并构建向量表示，在解码器部分则通过动态更新机制完成目标语言句子的合成工作

RNN 模型也有明显的缺点：

训练速度较慢：输入需逐个处理而不能并行操作
存在明显的局限性在于其难以高效处理过长的序列数据，在此情况下不仅会引发梯度消失问题还会导致计算效率显著下降

长短期记忆网络(LSTM)

Long Short Term Memory网络被称作是一种创新性设计的RNN架构。该网络旨在解决长期序列训练过程中常见的梯度消失与爆炸问题。与普通RNN相比，在处理较长序列时表现出更好的性能优势。

相比 RNN 只有一个传递状态，LSTM 有两个传递状态

和

LSTM 由遗忘门、输入门和输出门构成。其中：

遗忘门负责处理上一个状态下遗失哪些信息；
输入门调控如何将新信息融入到当前的状态中去；
输出门负责管理如何从状态下提取所需的信息出来。

LSTM 前向传播的过程

更新遗忘门输出：

第一步是由遗忘门(sigmoid layer)决定舍弃什么信息。

更新输入门两部分输出：

第二步是决定存储什么新信息，分为两部分：

一是输入门(sigmoid layer)决定将要更新哪些值；

二是创建候选值(

)，存储的是当前时间点可能会存入

的信息。

结合以上两部分来更新

：

删除决定要忘记的信息，然后存储决定要保存的新信息。

更新输出门输出

首先决定要输出哪部分(sigmoid layer)，然后输出决定要输出的部分。

Reference

https://zhuanlan.zhihu.com/p/36455374

https://towardsdatascience.com/illustrated-guide-to-transformer-cf6969ffa067

http://colah.github.io/posts/2015-08-Understanding-LSTMs/

https://towardsdatascience.com/animated-rnn-lstm-and-gru-ef124d06cf45

全部评论 (0)

还没有任何评论哟~

循环神经网络(RNN) 和长短期记忆网络(LSTM)

循环神经网络RNN 循环神经网络是一种用于处理序列数据的神经网络。 RNN的输入输出：用「动图」和「举例子」讲讲RNN 右侧是RNN在时间上进行展开的示意图。这个过程由Encoder完成，目的是从序列...

【神经网络】循环神经网络RNN和长短期记忆神经网络LSTM

循环神经网络RNN和长短期记忆神经网络LSTM 欢迎访问Blog总目录！文章目录循环神经网络RNN和长短期记忆神经网络LSTM 1.循环神经网络RNN（RecurrentNeuralNetwork...

循环神经网络(RNN)与长短期记忆网络(LSTM)

文章目录循环神经网络RNN RNN网络结构 RNN的神经元个数 RNN前向传播 RNN反向传播 RNN的梯度消失问题长短期记忆网络LSTM LSTM结构 LSTM反向传播 LSTM神经元个数循环...

循环神经网络（RNN）与长短期记忆网络（LSTM）讲解

循环神经网络（RNN）对于典型的深度神经网络（DNN），就是通过在输入层与输出层之间增加隐藏层来构建网络，如下图所示。与DNN不同的是，循环神经网络（RNN）赋予了网络对前面的内容的一种“记忆功能...

循环神经网络（RNN）与长短期记忆网络（LSTM）详解

一、背景介绍对于文本、声音、视频等序列数据来说，理解每一个词和每一帧的意义往往需要前文或者历史信息。而普通的网络模型中，全连接网络的参数量过大，实用性不佳；卷积神经网络的卷积核往往比较小，不能够得到...

RNN循环神经网络进阶——GRU门控循环和LSTM长短期记忆网络

目录门控循环单元的组成长短期记忆网络的组成 GRU和LSTM的对比门控循环单元GRU RNN不能处理太长的序列，因为序列信息都放在隐藏状态里面，就类似一个带时间序列的MLP,当时间很长的时候，隐...

从RNN循环神经网络到长短时记忆网络LSTM

前言本文从一个简单的例子出发,介绍了RNN及其两种变体LSTM和GRU的基本原理,了解循环神经网络能够解决什么问题,以及能够应用在哪些领域。 1）本文重点：本文重点研究RNN及其变体的原理和解决的问...

5 什么是LSTM-RNN（长短期记忆循环神经网络）？

RNN循环神经网络是有其弊端的，例如有这样一段话我们需要处理：今天我要做西红柿鸡蛋，我需要先去市场买两个西红柿，再买两个鸡蛋，回家之后，切西红柿，点火，放锅…… 我们需要让计算机判断我们做了一道什么...

循环神经网络LSTM（长短期记忆模型）

目录递归神经网络基础概念长时依赖问题 LSTM神经网络 RNN具体结构 LSTM结构 LSTM解析利用LSTM进行时间序列分析预测时间序列实战递归神经网络基础概念不只是关注当前数据，...

序列模型：循环神经网络（RNN）+长短时记忆神经网络（LSTM）

一.传统的神经网络与循环神经网络处理文本序列的区别 1.传统神经网络处理文本序列（1）在不同的例子中，输入长度Tx和输出长度Ty可能不一样，因此可能用的padding或零填充，但是效果不是很好。（...

是否确定退出登录?

循环神经网络(RNN) 和 长短期记忆网络(LSTM)