梯度下降原理及理解

阅读量：

梯度下降是神经网络中最常用的求极值点（鞍点）的方法，本文以BP神经网络为例，介绍梯度下降的数学原理及推广。

代价函数

为了量化我们神经网络的拟合效果，我们定义一个代价函数：

我们训练算法的目的，就是最小化权值和偏置的代价函数 $C(w,b)$ 。

针对代价函数，我们试着回答以下两个问题：

为什么不直接采用分类（识别）正确的数量作为评价指标呢？

这是因为在神经网络中，被正确分类的图像数量所关于权值和偏置的函数并不是一个平滑的函数。

大多数情况下，对权值和偏置的微小变动完全不会影响被正确分类的图像数量，这让我们很难去解决如何改变权重和偏置来取得进改进的性能。

为什么要用二次函数呢？

代价函数并不是唯一的，不同的代价函数的评价指标也是不同的。但二次函数是使用得最广泛的，并且具有特殊的语义–均方误差（MSE）。我们接下来还会看到更多的代价函数，在计算时就会知道二次函数的优越性了。

为什么要梯度下降？

我们现在的目标是想要找到 $C$ 的全局最小值。当然，对于简单的二次型函数，我们很快就能找到最小值。但回想一下我们是怎么做的呢？

一种方法就是直接用偏导去找极值点。但如果变量很多，比如神经网络至少有上千个变量和偏置，计算非常复杂。

另外一种方法是使用梯度下降。考虑我们目前有两个变量 $v_1，v_2$ ，当我们在 $v_1和v_2$ 方向分别移动一个很小的量（沿着梯度方向），这时候会发生如下变化：

我们需要使用一种方法选择 $\Delta v_1和\Delta v_2$ 使得 $\Delta C$ 为负，这样我们就可以使得不断减小，逼近最小值。我们用 $\nabla C$ 来表示梯度向量，即：

因此可以被重写为：

这个式子有着很重要的意义：我们发现将 $v$ 的变化关联为的变化，正如我们期望的用梯度表示。并且，我们知道了如何选取 $\Delta v$ 才能让为负数。假设我们选取：

这里的 $\eta$ 是一个很小的正数，我们称为学习速率 。方程告诉我们， $\Delta C\approx \nabla C \cdot \Delta v = -\eta ||\nabla C||^2$ 。由于 $||\nabla C||^2 \ge0$ ，这保证了 $\Delta C \le 0$ 。即，如果我们按照方程的规则去改变，那么会一直减小，不会增加。因此我们可以计算，来移动点的位置：

然后我们用它再次更新来计算下一次移动，因此我们迭代进行，就可以获得一个全局的最小值。

思考：

由上面的公式，是不是我们增大学习速率，就能使变得更小，使得梯度下降速率更快呢？

可惜不是的。当过大时，上面的等式 $\Delta C\approx \nabla C \cdot \Delta v$ 就不再成立，因此要选择合适的学习速率尤其重要。

Batch gradient descent（BGD）

在神经网络中如何引用梯度下降算法去学习呢？我们很容易得到以下方程：

注意，我们的代价函数为 $C = \frac {1}{n} \sum _x C_x$ ，它是遍历每个样本代价 $C_x = \frac {||y(x - a)||^2}{2}$ 的平均值。因此，我们需要为每个训练样本输入单独计算梯度值 $\nabla C_x$ ，然后求平均值。但当训练输入的数量过大时会花费很长时间，这样会使得学习变得相当缓慢。

但是，在输入样本不太大时，这种方法（BGD）是经常被采用的。

Stochastic gradient descent（SGD）

随机梯度下降 的算法能加速学习。其思想就是通过选取小量训练输入样本来计算，进而估算。通过计算少量样本的平均值我们可以快速得到一个对于实际梯度很好的估算，这有助于加速梯度下降，进而加速学习过程。

例如我们可以随机选取小量的 $m$ 个训练输入来工作。我们将这些训练输入记做 $X_1,X_2,...X_m$ ，并称为mini-batch。假设样本数量足够大，我们期望 $\nabla C_{X_j}$ 的平均值大致相当于整个的平均值，即：

实验证明这种方法（Mini-batch BGD）能较快的收敛到一个较小的值。

欢迎关注我的个人博客。

全部评论 (0)

还没有任何评论哟~

梯度下降原理及理解

梯度下降是神经网络中最常用的求极值点（鞍点）的方法，本文以BP神经网络为例，介绍梯度下降的数学原理及推广。代价函数为了量化我们神经网络的拟合效果，我们定义一个代价函数：我们训练算法的目的，就是最...

梯度下降原理（个人理解）

梯度下降基本概念：梯度下降是在监督学习中，为了优化模型参数，求出损失函数Jθilossfunction取得最小值时，对应的参数θ值的一种迭代算法数学公式：对于一般的线性回归，假设函数可表示为...

算法原理：理解梯度下降

算法原理：理解梯度下降 1\.背景介绍 1.1机器学习的重要性在当今的数据时代，机器学习已经成为各行各业不可或缺的技术。无论是推荐系统、自然语言处理、计算机视觉还是其他领域,机器学习都扮演着关键的角...

梯度下降原理及Python实现

tensorflow 梯度下降原理

minimize== defcomputegradientsself,loss,varlist=None, gategradients=GATEOP, aggregationmethod=None, ...

梯度下降的原理

本文来了解一下梯度下降算法的基本原理，不涉及复杂的数学推导。机器学习问题很大程度上来说其实就是找到一个合适的目标函数，然后不断优化参数的最优化过程，而梯度下降正是最优化过程中的重要算法。

梯度下降法原理

（该博文为一网友所写，非常详细易懂，故搬运过来以后方便回忆学习）一、为什么需要梯度下降法每个算法模型都有自己的损失函数，而损失函数包含了各个位置上的参数，我们的最终目标都是要找到使模型损失函数尽可...

梯度及梯度下降法原理、公式推导

导数、偏导数、方向导数、梯度理解梯度首先要理解导数、偏导数、方向导数。导数：指的是一元函数y=fx在某一点处沿x轴正方向的变化率。若导数大于0，说明函数值在该点处沿x轴正方向是递增的，若导数小于...

挖掘原理|梯度下降原理

什么是梯度以下内容都是基于欧氏距离进行推算定义：f在点P0存在对所有自变量的偏导数，则称向量fx1,fx2,...,fxn为f在P0的梯度，记作：\boldsymbolgrad\f=fx1,fx2...

理解梯度下降

作者PHANI8 编译VK 来源AnalyticsVidhya 介绍在这篇文章中，我们将了解什么是真正的梯度下降，为什么它变得流行，为什么AI和ML中的大多数算法都遵循这种技术。

是否确定退出登录?

梯度下降原理及理解

代价函数

为什么要梯度下降？

Batch gradient descent（BGD）

Stochastic gradient descent（SGD）

全部评论 (0)

相关文章推荐

梯度下降原理及理解

梯度下降原理（个人理解）

算法原理：理解梯度下降

梯度下降原理及Python实现

tensorflow 梯度下降原理

梯度下降的原理

梯度下降法原理

梯度及梯度下降法原理、公式推导

挖掘原理|梯度下降原理

理解梯度下降