基于梯度的优化方法(一) ——梯度下降原理浅析
深度学习
(deep learning)系列 笔记

所谓优化本质上就是在寻求一个函数的最大或最小数值的问题。而寻找最大数值的问题实际上等价于寻找最小数值的问题。由此可见,在优化过程中我们通常会关注并尝试使某个特定函数的数值达到最低水平。
通过导数这一数学工具,在研究函数极限及其连续性方面所建立的基本理论下,我们可以从而得出结论:对于微小的变化率而言

,下面的式子恒成立(具体分析用到数学知识)




sign(x)也叫Sign(x),在数学运算及计算机科学领域内被定义为取输入数值正负性质的一种函数。
当x>0,sign(x)=1;
当x=0,sign(x)=0;
当x<0, sign(x)=-1;)
因此我们受到启发后,并对x进行调整以改善y目标函数的值采用梯度下降法

简单来讲,沿着函数的下降方向移动,寻求全局最小点。
在实际应用中经常会遇到一些问题,在数学领域中这些情况被称为极值与最值问题。特别是在深度学习算法中,在优化目标函数的过程中经常面临全局最优解难以实现的情况。为此我们需要引入局部最优解的概念即使不能完全达到全局最低点但也可以通过寻找一个相对较低的水平从而使用局部最低点作为替代方案

在应对多维的输入时,问题会变得更加有趣。
当前输入是一个n维向量,在计算其梯度变化时相当于对向量进行求导运算的结果仍是一个向量。为了便于理解这一过程我们借鉴之前一维梯例降方法的核心思想来探讨方向导数问题。鉴于公式编辑技术的限制为了避免复杂的数学推导过程我直接引用了书中现有的表述方式以确保论述简洁明了。

其中会用到标量对多矩阵的链式求导,(这里引用某位大佬的一篇博文)

有了这个公式,上面的推导就一目了然了。
请关注我们的讨论内容,在这一系列中我们将深入探讨连续空间的相关特性。值得注意的是,在处理离散空间时的操作通常被称为爬山算法。如果您对此感兴趣,请继续关注后续更新。
