循环神经网络

阅读量：

循环神经网络特点：旨在更好地捕捉时序数据而设计。该网络通过引入状态变量以存储和反映过去的输入信息，并通过这些状态与当前输入共同作用于确定当前输出的行为模式。

Recurrent Neural Networks (RNNs) are commonly employed to process sequential data, such as a sequence of text tokens, speech sounds, shopping or viewing sequences, even extends to analyzing the spatial patterns within image rows or columns. Additionally, RNNs exhibit a broad range of practical applications, including language models, text classification, machine translation systems, audio recognition systems, image analysis methods, handwritten character recognition systems and recommendation systems. Furthermore, they have been successfully applied in diverse fields such as natural language processing and computer vision.

以上是书中得描述，重点，处理序列数据。

语⾔模型

$⻓度为T的词的序列W_1W_2,. . . ,W_T$

语⾔模型的计算

基于上述假设，我们可以推导出概率模型为 $P(w₁, w₂, ..., w_T) = \prod\limits_{t=1}^T P(w_t | w₁, ..., w_{t-1})$

n元语法

随着序列长度的增长，在计算并保存多词联合出现几率方面所面临的复杂度将呈现显著增长趋势。

这里跳过了条件概率下的前几项。
马尔可夫链具有"无记忆"的特性：其未来的状态仅受当前状态的影响，在时间序列中与其他时间点的状态无关，并且维基百科解释进一步阐述了这一特性。

⻓度为4的序列w1, w2, w3, w4在⼀元语法、⼆元语法和三元语法中的概率分别为

$P(w_1, w_2, w_3, w_4) = P(w_1)P(w_2)P(w_3)P(w_4)$

$P(w_1, w_2, w_3, w_4) = P(w_1)P(w_2 | w_1)P(w_3 | w_2)P(w_4 | w_3)$

该式表明多元变量的概率分布可以通过链式法则分解为一系列条件概率的乘积形式。
具体而言，在马尔可夫假设下，
$P(X,Y,Z,Y) = P(X) \cdot P(Y|X) \cdot P(Z|X,Y) \cdot P(Y|X,Y)$
该模型即为基于相邻状态的大igram模型，
其中 $P(Y|X)$ 表示在给定X的情况下Y发生的几率。

循环神经⽹络

⮍为了严格要求所有特定长度的序列被存储为历史信息

不含隐藏状态的神经⽹络

我们关注一个仅包含一层隐藏层的人工神经网络模型。其中X∈R^{{n×d}表示输入特征矩阵。假设隐藏层的激活函数是ϕ，则该层输出H∈R}{n×h}由以下公式计算：
H = ϕ(XW_{xh} + b_h)

在本模型中，在处理序列数据时，
我们引入了三个关键组件：

隐藏层权重矩阵 $W_{xh} ∈ R^{d×h}$ ；
隐藏层偏置矩阵 $b_h ∈ R^{1×h}$ ；
隐藏变量 $H∈ R^{n×h}$ ，其中 $h$ 表示隐藏单元的数量。
在计算过程中，
这两项由于维度不一致，
需要通过广播机制进行合并运算。

将隐藏变量 $H$ 作为输出层的输入项，并设定其维度大小为 $q$ （类似于分类问题中的类别数量），其中 $n \times h$ 维的隐藏状态通过矩阵乘法与 $h \times q$ 维权重矩阵相乘得到 $n \times q$ 维的结果矩阵，并在此基础上加上一个大小一致的偏置项矩阵 $b_q$

其中输出向量 $O ∈ ℝ^{n×q}$ 是一个 $n \times q$ 维的实数矩阵；其对应的权重矩阵为 $W_hq ∈ ℝ^{h × q}$ , 偏置矩阵为 $b_q ∈ ℝ^{1 × q}$ 。在分类任务中, 我们可以直接采用 $\text{softmax}(O)$ 来计算各类的概率。

含隐藏状态的循环神经⽹络

现在我们探讨输入数据具有时间相关性的场景。假设 $X_t ∈ R^{n×d}$ 表示序列中第 $t$ 个时间步的小批量输入，在 $t$ 时刻通过加权矩阵 $W_{xh}$ 将输入空间映射到隐状态空间以生成当前时刻的隐状态 $H_t ∈ R^{n×h}$ 。值得注意的是，在这里我们存储了前一时间步的隐状态 $H_{t−1}$ 并引入了一个新的加权矩阵 $W_{hh} ∈ R^{h×h}$ 来描述当前时刻如何利用前一时刻的信息构建隐状态。具体而言：

H_t = ϕ(XW_{xh} + H_{t−1}W_{hh} + b_h)

相较于常规架构，在这里我们增加了一项 $H_{t−1}W_{hh}$ 。从上述公式可以看出，在相邻时间步之间存在这样的关系：这一设计使得网络在每个时刻的状态都与其历史信息紧密相连。具体而言，在神经网络模型中，这种机制类似于将当前时刻的状态视为对过去历史的一个总结或记忆体功能。基于此特性，在深度学习领域被命名为长短时记忆单元（LSTM）。值得注意的是，在定义这一特性时依赖于前一个时刻的状态值这一特点使得整个过程呈现出一种递归性质；基于这种递归计算方式形成的网络体系即被称为循环神经网络（Recurrent Neural Network），简称RNN

全部评论 (0)

还没有任何评论哟~

循环神经网络进阶（门控循环神经网络、LSTM、深度循环神经网络、双向循环神经网络）

文章目录门控循环神经网络GRU 长短期记忆LSTM 深度循环神经网络双向循环神经网络门控循环神经网络GRU 该网络的提出也同样是为了应对普通RNN的梯度问题基本原理看这一篇就能懂：转载自知乎 ...

深度神经网络和循环神经网络,深层循环神经网络

深度学习和有效学习的区别深度学习和有效学习的区别分别是：1、深度学习是：DeepLearning,是一种机器学习的技术，由于深度学习在现代机器学习中的比重和价值非常巨大，因此常常将深度学习单独拿出来...

循环神经网络

通过5个条件判定一件事情是否会发生，5个条件对这件事情是否发生的影响力不同，计算每个条件对这件事情发生的影响力多大，写一个循环神经网络模型pytorch程序,最后打印5个条件分别的影响力。示例在这...

循环神经网络

特点：上一阶段（时间步）的输出作为输入进入当前时间步。预测模型循环神经网络由循环神经原组成，循环神经元一般有两个输入，一个是前阶段的信息，一个是当前阶段的信息。同时产生一个输出，可以作为下一阶段的...

循环神经网络

循环核我们可以利用卷积神经网络实现离散数据的分类，然而有些数据是与时间序列相关的，是可以根据上文预测出下文的。比如我们的大脑就可以利用脑记忆体提取出历史数据进行分析来预测接下来有可能出现的数据，比如...

循环神经网络

循环神经网络特点：为更好地处理时序信息而设计的。它引⼊状态变量来存储过去的信息，并⽤其与当前的输⼊共同决定当前的输出。循环神经⽹络常⽤于处理序列数据，如⼀段⽂字或声⾳、购物或观影的顺序，甚⾄是图像中...

循环神经网络

感知机与神经网络感知机生物神经元感知机的概念感知机（Perceptron），又称神经元（Neuron，对生物神经元进行了模仿）是神经网络（深度学习）的起源算法，1958年由康奈尔大学心理学教授...

循环神经网络

一、循环神经网络简介循环神经网络挖掘数据中的时序信息以及语义信息的深度表达能力，在语音识别、语言模型、机器翻译以及时序分析等方面实现了突破。 1、循环神经网络简介循环神经网络的主要用途是处理和预测...

循环神经网络

循环神经网络（RNNs） 1RNN结构 RNNRecurrentneuralnetwork是为了解决什么一个问题的呢？因为一般情况下序列的信息决定事件本身。

循环神经网络

基本结构如图所示，从图中可以看到输入x，隐含层，输出层等，这些与传统神经网络类似。自循环W却是它的一大特色。其中U是输入层到隐含层的权重矩阵，W是状态到隐含层的权重矩阵，s为状态，V是隐含层到输出...

是否确定退出登录?

循环神经网络

语⾔模型

语⾔模型的计算

n元语法

循环神经⽹络

不含隐藏状态的神经⽹络

含隐藏状态的循环神经⽹络

全部评论 (0)

相关文章推荐

循环神经网络进阶（门控循环神经网络、LSTM、深度循环神经网络、双向循环神经网络）

深度神经网络和循环神经网络,深层循环神经网络

循环神经网络

循环神经网络

循环神经网络

循环神经网络

循环神经网络

循环神经网络

循环神经网络

循环神经网络