RNN,LSTM,GRU循环神经网络变化史
RNN
上下文推理,处理时间序列。


LSTM(加入了三个门)
遗忘门、输入门、输出门分别代表了信息处理的不同阶段;当前单元的状态即为细胞的状态机;当前时刻隐层的状态:施密德胡贝尔先生创建了长短时记忆网络模型(LSTM),他指出:"你可以用五行代码编写它";构建神经网络体系需要进行海量计算;而LSTM算法旨在捕捉数据中的有意义关联;他提出,在数据分析中将时间序列数据纳入分析框架,并将过去的重要事件记录下来;随后将其应用到神经网络体系中,在观察未来事件之间潜在联系的基础上得出结论;这种巧妙设计推动了人工智能系统的自主进化,在大量文本学习后得以实现;从而使其能够识别语言中的微小差异
GRU
减少了门的数量和输出量。
在 LSTM 和 GRU 之间进行比较时,GRU 由于参数数量较少且收敛速度更快,在实际应用中所需时间也显著减少。
就性能而言,在 LSTM 和 GRU 之间难以得出明确的结论。
然而,在某些情况下二者之间的性能差距并不明显,
远不如通过优化激活函数(如将tanh改为其变体)或调整权重初始化来获得显著提升。
因此选择GRU作为基本单元并非绝对必要,
而是基于其更快的收敛速度以及缩短迭代周期的优势。
如果在实现上未采用其他优化技巧,
尝试将GRU替换为LSTM可能会带来意外的好结果,
但这并不意味着LSTM就一定更好,
只能说各有优劣取决于具体任务和数据集的选择。
所以说深度学习领域充满了玄学色彩。
双向RNN
正向RNN中的每个时间步长上的处理单元既可以采用传统的普通RNN结构作为基础设计,在此基础上还可以结合门控神经网络的思想实现 LSTM 或 GRU 等更为复杂的结构设计方式。在正向传播过程中与反向传播过程中的权重参数并不完全相同。
激活函数
这里附一张激活函数的图

最后
掌握基本神经网络单元是构建系统的基础,在这些高级任务中应用时,则更多地依赖于深层学习技术以及前沿研究方法如迁移学习、嵌入技术与注意力机制的应用。为了提升能力水平,在阅读论文的同时还需深入研究论文并实践相应的代码开发与调试工作才能逐步实现对该领域核心概念的有效掌握。
