李宏毅机器学习：RNN（下）

阅读量：

RNN的Learning

当RNN应用于Learning任务时，在构建损失函数方面有哪些具体方法？以slot filling任务为例，在每个输入样本中，其输出与对应的参考向量之间的交叉熵计算出来后相加即为损失函数。
在训练过程中，在每一步都应该确保word序列保持完整性，并应先通过前向传播获取当前状态信息, 再通过后向传播获取误差信息。
建立好损失函数后采用梯度下降算法进行优化。
该优化算法逐渐演变为Backpropagation Through Time（BPTT）算法。

然而，在这种情况下进行梯度下降优化可能会出现不稳定现象。相对于其他模型而言，RNN的训练难度较大。其error surface通常呈现出两种情况：较为平缓或者非常陡峭。在进行梯度下降优化时，在这种情况下可能会导致优化路径出现剧烈波动，并且可能导致损失急剧上升或者参数估计出现不稳定性（NAN现象）。解决这一问题的方法是引入梯度裁剪机制：当单个梯度的模长大于设定阈值时，则将该梯度缩放至该阈值。

The reasons behind the rough error surface in RNNs are intriguing. It is not merely due to the gradient vanish issue, as similar problems persist when ReLU is employed.

其本质在于：由于RNN处理的是temporal sequence, 相同的权重在不同时间点被反复应用

（gradient在w=1处很大，在w=0.99处很小）

为了解决这一问题，请问采用最广泛的技术是什么？ LSTM 是一种非常流行的解决方案。为何选择将一般的 RNN 升级为 LSTM？因为 LSTM 具有独特的机制来应对梯度消失的问题：它通过调整误差表面使其更加平坦，在一定程度上缓解了梯度消失的问题。虽然 LSTM 并未完全消除梯度爆炸的风险（这个问题仍需其他方法解决），但其设计使得这种现象的影响相对较小。那么，请问 LSTM 具体是如何实现这一效果的呢？在一般的 RNN 中，在每一时间点上神经元的输出会被存储到记忆中去。在这种情况下，在每一个时间点上神经元的记忆都会被重置（即洗掉）。相比之下，在 LSTM 中，则是将记忆中原有的值乘以一个系数后再与输入结合在一起（即 memory 和 input 是一种加法关系）。因此，在 LSTM 中如果 weight 影响到了 memory 的值的话（假设 forget gate 未将其关闭），这种影响将会永久保留下来（除非 forget gate 设定较大的偏置使其通常处于开启状态）。而 SimpleRNN 则会像这样不断冲刷掉所有的记忆信息。如果采用 LSTM 时出现过拟合现象，则可以考虑尝试使用 GRU 模型替代。 GRU 的核心思想是“去除旧信息的同时保留新信息”，它通过输入门控和遗忘门控的工作机制实现了这一目标：当输入门开启时（即 input gate 打开），遗忘门则关闭（即 forget gate 关闭），从而实现对旧信息的有效抑制和新信息的有效纳入。

其它处理gradient descent的技巧还有clockwise RNN, SCRN……

如果对网络随机权重进行初始化的一般Recurrent Neural Network (RNN)，则其采用ReLU激活函数的表现会劣于采用sigmoid激活函数的表现。然而[Quoc V. Le, arXiv'15]指出：如果采用单位矩阵对一般RNN的权重进行初始化，则其采用ReLU激活函数的表现会优于LSTM模型的表现。

全部评论 (0)

还没有任何评论哟~

李宏毅机器学习：RNN（下）

RNN的Learning RNN在Learning时如何定义lossfunction呢？以slotfilling为例，对每个输入,其输出的与相应的referencevector计算crossentro...

机器学习（李宏毅）——RNN

一、前言本文章作为学习2023年《李宏毅机器学习课程》的笔记，感谢台湾大学李宏毅教授的课程，respect！！！二、大纲引例 RNN历史基本思想 RNN变形 RNN训练三、引例学习RNN之...

李宏毅-机器学习-RNN-笔记

文章目录前言 1RNN 1.1引例导入 1.2RNN 1.3举例 2LongShorttermMemeory（LSTM） 2.1LSTM基本组成 2.2LSTM实例 2.3LSTM结构 3RNN应用...

李宏毅机器学习课程-RNN与LSTM0303

B站李宏毅2021春机器学习课程P36P37 目录 1、RNN 2、RNN类型 3、LSTM 4、RNN不好训练的原因 5、LSTM能解决gradientvanishing梯度消失 6、CTC 1、...

台大李宏毅机器学习（一）——RNN&LSTM

课件下载地址：http://speech.ee.ntu.edu.tw/tlkagk/courses/ML2016/Lecture/RNNv2.pdf 视频：<https://www.bilibili....

李宏毅机器学习

P2机器学习、深度学习基本概念一、机器如何找到函数，三步。（一）Model——Functionwithunkonwnparameters 写出一个带有未知参数（parameter）的函数f，即先猜...

李宏毅机器学习

P4分类宝可梦一、regression做classification任务若使用回归regression输出是数值的方式来进行分类任务，可不可行？假设只有两类，那将一类看作是1，一类是1，那么计算...

李宏毅机器学习

P1–机器学习介绍我们为什么要学习机器学习机器学习是什么机器学习的learningmap 1. 我们为什么要学习机器学习现有的机器学习有很多种方法，比如在图像分割领域有传统基于水平集活动轮廓模...

李宏毅机器学习

P3深度学习简介一、定义神经网络上图网络的已知量——feature，即最左侧的：1，1；经过与黑色箭头上的参数——weight相乘；累加：（第一个x=1与w=1相乘）+（第二个x=1与w=2相...

李宏毅机器学习

P5CNN图像识别 CNN主要用来做图像识别即根据图像进行分类，输入是一张图片，输出是向量，向量的维度就是图像的类别个数，模型的输出经过softmax函数后得到y‘，然后计算y'与yhead之间的交叉...

是否确定退出登录?

李宏毅机器学习：RNN（下）

RNN的Learning

全部评论 (0)

相关文章推荐

李宏毅机器学习：RNN（下）

机器学习（李宏毅）——RNN

李宏毅-机器学习-RNN-笔记

李宏毅机器学习课程-RNN与LSTM0303

台大李宏毅机器学习（一）——RNN&LSTM

李宏毅 机器学习

李宏毅 机器学习

李宏毅机器学习

李宏毅 机器学习

李宏毅 机器学习

李宏毅机器学习

李宏毅机器学习

李宏毅机器学习

李宏毅机器学习