神经网络中的梯度下降——Gradient Descent

阅读量：

1 什么是梯度下降

梯度下降可以对神经网络中的成本函数（cost）进行反向传播，通过不断迭代，更新权值w、b，找到损失函数最低点，最终使我们的模型达到更优的效果。

成本函数有几种，不具体介绍，简单记为，这里对模型进行输入X， lpha 是模型训练后得到结果，是标准答案，模型训练的目的是使输出的结果 lpha 更接近标准答案，即要找到损失函数的最低点。下面是交叉熵(cross entropy)成本函数， 不具体介绍

2 梯度下降为什么能找到最低点

见链接。

3 具体过程

这是一个浅层神经网络

单个神经元

公式化后

再加1层后

前向传播

z1=w1*X+b1

a1=σ1（z1）

z2=w2*a1+b2

a2=σ（z2）

其中，X、b是1维列向量，w是2维矩阵，对应的输出a1、a2也是1维列向量，a2也是模型输出，σ是激活函数，为了计算我们假设σ为sigmoid（细节见往期）

[(https://ad.itadn.com/c/weblog/blog-img/images/2025-05-31/YtcrgpTzJ0Ob3QjiMGlCKI7aXHso.png)( "")

反向传播

rac{artial J}{artial a2}=rac{1-y}{1-a2}-rac{y}{a2}
rac{artial a2}{artial z2}=a2
rac{artial z2}{artial w2}=a1
rac{artial z2}{artial b2}=1
rac{artial z2}{artial a1}=w2
rac{artial a1}{artial z1}=a1
rac{artial z1}{artial w1}=X
rac{artial z1}{artial b1}=1
rac{artial J}{artial w2} =rac{artial J}{artial a2}rac{artial a2}{artial z2}rac{artial z2}{artial w2} =*a1 =dw2
rac{artial J}{artial b2} =rac{artial J}{artial a2}rac{artial a2}{artial z2}rac{artial z2}{artial b2} =a2-y =db2
rac{artial J}{artial w1} =rac{artial J}{artial a2}rac{artial a2}{artial z2}rac{artial z2}{artial a1} rac{artial a1}{artial z1}rac{artial z1}{artial w1} =w2a1**X =dw1
rac{artial J}{artial b1} =rac{artial J}{artial a2}rac{artial a2}{artial z2}rac{artial z2}{artial a1} rac{artial a1}{artial z1}rac{artial z1}{artial b1} =w2a1* =db1

更新权值

w=w-lpha *dw
b=b-lpha *db

反向传播重点就是链式求导原则，其实我感觉就是复合函数求偏导，理解不难，但在实际代码实现时，要注意各个参数的维度，这里涉及矩阵乘法。

全部评论 (0)

还没有任何评论哟~

神经网络中的梯度下降——Gradient Descent

1什么是梯度下降梯度下降可以对神经网络中的成本函数（cost）进行反向传播，通过不断迭代，更新权值w、b，找到损失函数最低点，最终使我们的模型达到更优的效果。

神经网络梯度下降算法（gradient descent）笔记

总体思路：结合代码分析：

梯度下降 (Gradient Descent)

1\.背景介绍 1.1机器学习中的优化问题机器学习的核心任务之一是找到一个模型，该模型能够以最佳的方式拟合给定的数据。这个过程通常涉及到优化一个损失函数，该函数衡量模型预测值与实际值之间的差异。梯度...

梯度下降 (Gradient Descent)

梯度下降GradientDescent 1\.背景介绍 1.1问题的由来在机器学习和深度学习领域,优化算法是模型训练中不可或缺的一部分。而在众多优化算法中,梯度下降GradientDescent无疑...

梯度下降 (Gradient Descent)

梯度下降GradientDescent 作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming 关键词：梯度下降优化算法深度学习机器学习神经网络 1...

梯度下降 Gradient descent

文章非原创，内容均引用自别处，已在下文中注明出处梯度下降Gradientdescent 什么是梯度梯度是偏导数的集合梯度下降算法 xt+1=xt\eta⋅\nablafxt 其中，xt是自变量参...

Gradient Descent（梯度下降）

梯度下降是一种常用的优化算法，用于找到函数局部的最小值，通常用于优化lossfunctionorcostfunction 梯度下降有两个参数分别是梯度（Gradient）：梯度指出了函数在当前点处上升...

梯度下降法（Gradient descent）

1\.梯度下降法简介 11 以下是定义了一个损失函数以后，参数theta对应的损失函数J的值对应的示例图，我们需要找到使得损失函数值J取得最小值对应的theta（这里是二维平面，也就是我们的参数只有一...

梯度下降法（Gradient Descent）

梯度下降法（GradientDescent）是一种常用的优化算法，用于寻找目标函数（通常是损失函数）的最小值。梯度下降法通过沿着目标函数梯度的负方向迭代更新参数，以逐渐接近最小值点。

梯度下降法(Gradient descent)

梯度下降法Gradientdescent 标签：机器学习 1.梯度下降法有什么用梯度下降法用来求函数的极小值，且是一种迭代算法，由于计算效率高，在机器学习中常常使用。梯度下降法经常求凸函数conve...