【论文】Deep learning in neural networks: An overview
周论文分三个部分:第一部分是论文导读,主要阐述论文内容和观点;第二部分是个人总结,也就是自己的看法;第三部分是相关资料,就是扩展和补充的一些知识或者资料。
第一篇论文是DL中一篇经典综述,最近在看Manning的自然语言处理课程,所以近期的论文可能都是课程中提供的论文资料~不说废话了,开始吧 ~
默认缩写


《Deep learning in neural networks: An overview》
论文导读**
本篇论文主要整理了深度可监督学习、不可监督学习、增强学习及计算发展,以及大型深度网络的编码研究。
论文一共分为7个部分:
1、介绍深度学习在神经网络中的应用;
2、神经网络面向事件的表示激活方法(看完返回来检查翻译,感觉翻译的不对)
3、CAPS深度及相关问题
4、再探DL的几个主题
5、由不可监督神经网启发的几种可监督神经网络
6、为增强学习构建的FNNs及RNNs深度网络
7、小结展望
第一部分:介绍深度学习在神经网络中的应用
本部分主要介绍了神经网络的历史发展
- 运用神经元的非线性模型的研究至少可以追溯到二十世纪60年代至70年代;
- 梯度下降法最早用于可监督学习,发展于二十世纪60年代至70年代之间,1981年运用在神经网络上;
- 基于BP的深度网络研究在20世纪80年代遇到瓶颈,直到90年代才正式成为一个明确的研究课题;
- 20世纪90年代至21世纪初,可监督DL取得了很多成就;
- 2000年之后,深度神经网络在大量应用上优于其他机器学习方法(核技巧),从而引起了各界的广泛关注。
- 自2009年起,可监督深度神经网络赢得了很多官方举办的国际模式识别比赛,其识别准确率甚至在某些限定领域超越了人类视觉识别准确率。此外,DNN还与RL的一般研究领域相关;
另外本部分简单介绍了RNN。RNN是所有神经网络结构中最深的网络的结构;利用大规模并行计算的RNN大幅降低了计算成本。
(这部分内容百度上很多而且更通俗易懂,有兴趣的童鞋可以自己搜索神经网络的发展历史和RNN的介绍,大概看几篇基本上就全了)
第二部分
这部分主要讲了神经网络如何传播和计算,涉及一些基本概念,比如FNN结构是非循环拓扑、RNN是循环拓扑、权重的概念等,用了一个例子,讲的比较细,唯一的缺陷是没有配套理解的图,纯的文字和数学描述和超长的句子让非英语母语的读者很容易读着读着就绕进去了。
这部分建议百度RNN/FNN及前向传播机制。
第三部分
这部分提出一个问题:
How deep is deep?多深的网络才算是深度网络,作者的定义是10层。这个没有精确解,但是文章认为10层已经足够深了。
第四部分:
本部分介绍深度学习的主要几个研究方向
1、用于监督学习/强化学习的动态规划
2、无监督学习如何与监督学习及强化学习结合
3、通过深度SL/RL/UL学习层次表征。(从数据中抽取更深层次的表征意义)
4、奥卡姆剃刀:压缩及最小化描述长度。
寻找求解计算但简单、低复杂度的RL/SL神经网络
(奥卡姆剃刀:如无必要,勿增实体;即简单有效原理)
5、用于深度学习神经网络的快速图形处理单元。(GPU)
(介绍GPU的发展,硬件也是很重要滴)
第五部分:由不可监督神经网启发的几种可监督神经网络
本部分主要介绍了DL与NNs的一些重要技术及历史节点
5.1节 介绍了20世纪40年代以来的早期浅层神经网络模型
- 早期的神经网络模型不具备学习能力;
- 第一个关于UL的想法由Hebb在1949年提出;
- NNs是线性回归方法的变体,最早可以追溯到高斯与1795年的文献。
5.2节介绍了与现代DL相关的生物学启示
5.3节介绍了GMDH系统(第一个前馈DL系统)
- GMDH:Group Method of Data Handling 数据处理的组方法。
- 方法:给定一个训练集,通过回归分析训练网络,然后借助一个单独的验证集进行修剪。该验证集使用决策正则化方法来剔除多余的单元。
5.4节介绍了1979年的一个相对较深的神经认知网络。(该网络和现代深度神经网络框架很想,因为它结合了CNN、权重和次采样机制)
- 第一个具有深度意义的网络——Neocognitron(1979,Fukushima)。引入CNN(现在的叫法,之前叫Convolutional NNs),类似现代神经网络中的拥有交替的卷积和下采样层的基于梯度的纯监督前馈深度学习网络。但没有使用BP,而是使用基于WTA(Winner-Take-All)的无监督学习方法设置权重或直接预置权重。网络使用空间平均的方法实现下采样。
5.5节介绍了BP算法和其在1960-1981年之间的历史发展及以后的相关历史
- 使用梯度下降法最小化误差可以溯源大20世纪60年代初;其数学方法可以溯源到欧拉-拉格朗日变分法方程(1744)、迭代链式规则(1696)和动态规划(1957)。
- BP第一次应用在神经网络上是在1981年;并于1986年得到促进与普及。
- 后面介绍了BP的发展、计算方法及伪代码。这块就不展开了。
5.6节介绍了20世纪80年代后期BP与深度神经网络结合时候出现的一些问题,并提及了当时提出的一些解决办法
- 问题:BP理论上可以实现深度问题,但实际只在浅网中有效。(1991年解决,5.9节部分)
- 几个相关想法:
1、关于处理长时间滞后(梯度爆炸)及网络深度问题;
#序列处理方法:基于RNN单元激活衰减因子的BP聚焦方法、时滞神经网络(TDNN)、外源输入的非线性自回归RNNs等。(并不是很好的解决办法,要么只适应浅层网络,要么需要外部微调延迟常数,另外还会出现别的问题)(通过随机RNN权重的办法可以更快的解决评估子类方法的某些简单但深入的基准问题。)
#Nerual Heat Exchanger
#混合方法(通过逻辑推理初始化一个潜在的深层FNN)
2、通过梯度下降法改进BP网络
3、寻找简单、低复杂度、能解决问题的神经网络
4、无监督学习与监督学习的结合
5.7节介绍了1987年提出的第一个层次堆栈,该堆栈由几个基于UL的自动编码器构成(1987)
5.8节是关于BP应用于CNN的介绍(1989)(与5.4节相对应)
5.9节解释了1991年发现的BP的几个基本DL问题——梯度消失/梯度爆炸问题
(列举了部分问题的研究工作)
- (1991)通过无监督学习缓解RNN层次结构预训练。
- 一个类似LSTM的网络(对应5.13,5.16,5.17,5.21-5.23节)
- GPU强大的计算能力
- Hessian自由优化——解决FNN/RNN的一些问题
- 随机权重法及一些搜索方法
5.10节解释了一个深度RNN栈如何通过UL预训练以解决深度超过1000的DL问题。
- RNN堆栈实际上是是数据的“深度生成模型”,压缩后可重建。
5.11节介绍的是当今广泛应用的最大池化方法
5.12节介绍的是SL NNs在1994赢得一场重大的比赛
(1994年,一个具有内部时延线的神经网络赢得了一场比赛,该网络层次并不深)——时延机制的重要性
5.13节介绍LSTM
(LSTM的发展及应用,写的挺细,太多了此处就不展开了…= =…)
5.14节介绍2003年由浅层FNNs与CNN/深层FNN/LSTM结合赢得的一场模式识别竞赛
5.15节主要关于基于UL预训练的深度置信网络(DBNs)及相关的自动编码器。
5.16节介绍第一个基于SL的GPU CNN、基于BP的MPCNNs及LSTM栈
5.17节-5.22节 简介自2009年以来的深度神经网络赢得了各类官方比赛头筹
(金钱就是动力)
5.23节 介绍目前两种比较成功的结构——LSTM RNN和GPU MPCNN
5.24节 提及了近期在NNs中改进DL的一些技巧
- 深度置信网络(DBN)通过随机梯度下降和有限波兹曼机Tikhonov正则化来降低由隐藏单元输入的扰动;
- 训练层次CNN以重建被结构化噪声破坏的图像,从而加强更深层上的抽象图像表示;
- Dropout正则化
- RELUs
- 选择合适的学习算法十分重要
5.25节讨论了人工神经网络如何帮助理解生物神经网络
5.26节讨论了神经网络中DL与尖峰神经元结合的可能性
- 生物神经元并不是一直在进行“沟通”,而是在有尖峰信号来的时候才工作,其余时间保持静默;
- 一个启发网络——Spiking Net
第六部分 用于增强学习的前向深度学习神经网络和深度循环卷积网络
- 通过增强学习生成深度RNN
- 传统增强学习和马尔科夫决策过程的深度前向传播神经网络
- 一个部分可观测的马尔科夫决策过程的深度增强学习RNN——POMDPs
- 通过FNNs与RNNs的深层无监督学习促进增强学习
- 利用FNNs与RNNs进行深度强化学习和子目标学习(将RL任务分解成子任务)
- 通过NN直接搜索/策略梯度/演化的深度强化学习;
- 通过间接策略搜索/压缩搜索的深度强化学习
- 通用RL(一般意义上的RL)
第七部分 总结展望
1、深度学习神经网络与SL/UL/RL联系紧密;
2、注意力机制
3、未来的深度神经网络将考虑硬件功耗,两种可能的解决方式:
(1)Winner-Take机制;(局部竞争,局部神经元处于激活状态,其余神经元被关闭)
(2)立体的神经元结构;
(3)通用学习算法;
个人总结
哈哈,刚入坑,很多专有名词自己不确定翻译的对不对,如有错误,望大家谅解并提出,我会尽力改正!
之前看论文总觉得差不多就行了,没想到静下来整理发现有很多细节真的很重要,有时候一个小地方没理解整段可能就垮掉了。这篇论文看了好几天(很多细节没整理出来是因为真的太细了T_T),整理过程中觉得自己太菜了,很多概念还需要补充,而且一些很重要的东西自己根本没有弄明白(所以这篇导读可能会误人子弟)。等过一段时间再回头来改…
相关资料
