Adam（Adaptive Moment Estimation）

阅读量：

Adam（Adaptive Moment Estimation）

Adam（Adaptive Moment Estimation）是一种自适应学习率优化算法，结合了动量法和RMSProp的优点。它不仅考虑了梯度的一阶矩（动量），还考虑了梯度的二阶矩（RMSProp），通过自适应调整学习率，使得参数更新更加稳定和高效。

Adam优化算法的原理

Adam优化算法通过以下步骤来更新参数：

计算梯度的动量估计（Exponential Moving Average of Gradient, 一阶矩估计） ：
$m_t = \beta_1 m_{t-1} + (1 - \beta_1) g_t$
其中：
- $m_t$ 是梯度的动量估计。
- $g_t$ 是当前梯度。
- $\beta_1$ 是动量超参数，通常取值为0.9。

计算梯度平方的动量估计（Exponential Moving Average of Squared Gradient, 二阶矩估计） ：
$v_t = \beta_2 v_{t-1} + (1 - \beta_2) g_t^2$
其中：
- $v_t$ 是梯度平方的动量估计。
- $\beta_2$ 是RMSProp超参数，通常取值为0.999。

偏差校正 ：
由于动量估计和梯度平方的动量估计在初始时刻可能偏向于零，Adam引入了偏差校正：
$\hat{m}_t = \frac{m_t}{1 - \beta_1^t}$
$\hat{v}_t = \frac{v_t}{1 - \beta_2^t}$

更新参数 ：
$\theta_t = \theta_{t-1} - \alpha \frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon}$
其中：
- $\theta_t$ 是第 $t$ 次迭代的参数。
- $\alpha$ 是学习率。
- $\epsilon$ 是一个小常数，用于防止除零错误，通常取 $10^{-8}$ 。

具体数据示例

假设我们有一个简单的线性回归问题，训练数据集如下：

x	y
1	2
2	3
3	4
4	5

我们要拟合的线性模型为 $h(\theta) = \theta_0 + \theta_1 x$ 。

步骤1：初始化参数

假设 $\theta_0 = 0$ ， $\theta_1 = 0$ ，学习率 $\alpha = 0.01$ ， $\beta_1 = 0.9$ ， $\beta_2 = 0.999$ ， $\epsilon = 10^{-8}$ ，并且初始化动量项和二阶矩估计 $m_0 = 0$ ， $v_0 = 0$ 。

步骤2：计算梯度

损失函数 $J(\theta)$ 为均方误差（MSE）：
$J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} (h(\theta) - y_i)^2$
其中， $m$ 是训练样本的数量。

对于第一个样本 $(x_1, y_1) = (1, 2)$ ，模型预测值为：
$h(\theta) = \theta_0 + \theta_1 x_1 = 0$

计算损失函数对参数的梯度：
$\frac{\partial J}{\partial \theta_0} = h(\theta) - y_1 = 0 - 2 = -2$
$\frac{\partial J}{\partial \theta_1} = (h(\theta) - y_1) x_1 = -2 \cdot 1 = -2$

步骤3：更新动量项和二阶矩估计

更新动量项：
$m_{t,0} = \beta_1 m_{t-1,0} + (1 - \beta_1) g_{t,0} = 0.9 \times 0 + 0.1 \times (-2) = -0.2$
$m_{t,1} = \beta_1 m_{t-1,1} + (1 - \beta_1) g_{t,1} = 0.9 \times 0 + 0.1 \times (-2) = -0.2$

更新二阶矩估计：
$v_{t,0} = \beta_2 v_{t-1,0} + (1 - \beta_2) g_{t,0}^2 = 0.999 \times 0 + 0.001 \times (-2)^2 = 0.004$
$v_{t,1} = \beta_2 v_{t-1,1} + (1 - \beta_2) g_{t,1}^2 = 0.999 \times 0 + 0.001 \times (-2)^2 = 0.004$

偏差校正：
$\hat{m}_{t,0} = \frac{m_{t,0}}{1 - \beta_1^t} = \frac{-0.2}{1 - 0.9^1} = \frac{-0.2}{0.1} = -2$
$\hat{m}_{t,1} = \frac{m_{t,1}}{1 - \beta_1^t} = \frac{-0.2}{1 - 0.9^1} = \frac{-0.2}{0.1} = -2$
$\hat{v}_{t,0} = \frac{v_{t,0}}{1 - \beta_2^t} = \frac{0.004}{1 - 0.999^1} = \frac{0.004}{0.001} = 4$
$\hat{v}_{t,1} = \frac{v_{t,1}}{1 - \beta_2^t} = \frac{0.004}{1 - 0.999^1} = \frac{0.004}{0.001} = 4$

更新参数：
$\theta_{t,0} = \theta_{t-1,0} - \frac{\alpha}{\sqrt{\hat{v}_{t,0}} + \epsilon} \hat{m}_{t,0} = 0 - \frac{0.01}{\sqrt{4} + 10^{-8}} \times (-2) = 0.01$
$\theta_{t,1} = \theta_{t-1,1} - \frac{\alpha}{\sqrt{\hat{v}_{t,1}} + \epsilon} \hat{m}_{t,1} = 0 - \frac{0.01}{\sqrt{4} + 10^{-8}} \times (-2) = 0.01$

第二次迭代

假设下一次随机选择的样本是 $(x_2, y_2) = (2, 3)$ 。

计算新的预测值：
$h(\theta) = \theta_0 + \theta_1 x_2 = 0.01 + 0.01 \times 2 = 0.03$

计算新的梯度：
$\frac{\partial J}{\partial \theta_0} = h(\theta) - y_2 = 0.03 - 3 = -2.97$
$\frac{\partial J}{\partial \theta_1} = (h(\theta) - y_2) x_2 = -2.97 \times 2 = -5.94$

更新动量项：
$m_{t,0} = \beta_1 m_{t-1,0} + (1 - \beta_1) g_{t,0} = 0.9 \times (-0.2) + 0.1 \times (-2.97) = -0.467$
$m_{t,1} = \beta_1 m_{t-1,1} + (1 - \beta_1) g_{t,1} = 0.9 \times (-0.2) + 0.1 \ times (-5.94) = -0.872$

更新二阶矩估计：
$v_{t,0} = \beta_2 v_{t-1,0} + (1 - \beta_2) g_{t,0}^2 = 0.999 \times 0.004 + 0.001 \times (-2.97)^2 = 0.012$
$v_{t,1} = \beta_2 v_{t-1,1} + (1 - \beta_2) g_{t,1}^2 = 0.999 \times 0.004 + 0.001 \times (-5.94)^2 = 0.04$

偏差校正：
$\hat{m}_{t,0} = \frac{m_{t,0}}{1 - \beta_1^t} = \frac{-0.467}{1 - 0.9^2} = -2.47$
$\hat{m}_{t,1} = \frac{m_{t,1}}{1 - \beta_1^t} = \frac{-0.872}{1 - 0.9^2} = -4.591$
$\hat{v}_{t,0} = \frac{v_{t,0}}{1 - \beta_2^t} = \frac{0.012}{1 - 0.999^2} = 6$
$\hat{v}_{t,1} = \frac{v_{t,1}}{1 - \beta_2^t} = \frac{0.04}{1 - 0.999^2} = 20$

更新参数：
$\theta_{t,0} = \theta_{t-1,0} - \frac{\alpha}{\sqrt{\hat{v}_{t,0}} + \epsilon} \hat{m}_{t,0} = 0.01 - \frac{0.01}{\sqrt{6} + 10^{-8}} \times (-2.47) \approx 0.02$
$\theta_{t,1} = \theta_{t-1,1} - \frac{\alpha}{\sqrt{\hat{v}_{t,1}} + \epsilon} \hat{m}_{t,1} = 0.01 - \frac{0.01}{\sqrt{20} + 10^{-8}} \times (-4.591) \approx 0.02$

第三次迭代

假设下一次随机选择的样本是 $(x_3, y_3) = (3, 4)$ 。

计算新的预测值：
$h(\theta) = \theta_0 + \theta_1 x_3 = 0.02 + 0.02 \times 3 = 0.08$

计算新的梯度：
$\frac{\partial J}{\partial \theta_0} = h(\theta) - y_3 = 0.08 - 4 = -3.92$
$\frac{\partial J}{\partial \theta_1} = (h(\theta) - y_3) x_3 = -3.92 \times 3 = -11.76$

更新动量项：
$m_{t,0} = \beta_1 m_{t-1,0} + (1 - \beta_1) g_{t,0} = 0.9 \times (-0.467) + 0.1 \times (-3.92) = -0.812$
$m_{t,1} = \beta_1 m_{t-1,1} + (1 - \beta_1) g_{t,1} = 0.9 \times (-0.872) + 0.1 \times (-11.76) = -1.906$

更新二阶矩估计：
$v_{t,0} = \beta_2 v_{t-1,0} + (1 - \beta_2) g_{t,0}^2 = 0.999 \times 0.012 + 0.001 \times (-3.92)^2 = 0.027$
$v_{t,1} = \beta_2 v_{t-1,1} + (1 - \beta_2) g_{t,1}^2 = 0.999 \times 0.04 + 0.001 \times (-11.76)^2 = 0.079$

偏差校正：
$\hat{m}_{t,0} = \frac{m_{t,0}}{1 - \beta_1^t} = \frac{-0.812}{1 - 0.9^3} = -2.89$
$\hat{m}_{t,1} = \frac{m_{t,1}}{1 - \beta_1^t} = \frac{-1.906}{1 - 0.9^3} = -6.79$
$\hat{v}_{t,0} = \frac{v_{t,0}}{1 - \beta_2^t} = \frac{0.027}{1 - 0.999^3} = 9$
$\hat{v}_{t,1} = \frac{v_{t,1}}{1 - \beta_2^t} = \frac{0.079}{1 - 0.999^3} = 26$

更新参数：
$\theta_{t,0} = \theta_{t-1,0} - \frac{\alpha}{\sqrt{\hat{v}_{t,0}} + \epsilon} \hat{m}_{t,0} = 0.02 - \frac{0.01}{\sqrt{9} + 10^{-8}} \times (-2.89) \approx 0.03$
$\theta_{t,1} = \theta_{t-1,1} - \frac{\alpha}{\sqrt{\hat{v}_{t,1}} + \epsilon} \hat{m}_{t,1} = 0.02 - \frac{0.01}{\sqrt{26} + 10^{-8}} \times (-6.79) \approx 0.03$

总结

Adam优化算法结合了动量法和RMSProp的优点，通过考虑梯度的一阶矩和二阶矩来自适应调整学习率，使得参数更新更加稳定和高效。通过具体数据的示例，可以清楚地看到Adam如何在每次迭代中逐步计算动量和二阶矩估计，并通过偏差校正和参数更新来加速模型的收敛。

全部评论 (0)

还没有任何评论哟~

Adam（Adaptive Moment Estimation）

Adam（AdaptiveMomentEstimation） Adam（AdaptiveMomentEstimation）是一种自适应学习率优化算法，结合了动量法和RMSProp的优点。

Adam（自适应矩估计，Adaptive Moment Estimation）

Adam（自适应矩估计，AdaptiveMomentEstimation）是一种用于优化问题的迭代算法，结合了RMSprop和Momentum的优点。Adam算法使用指数加权移动平均来估计一阶矩（梯度...

从Stochastic Gradient Descent到Adaptive Moment Estimation

引言深度学习优化算法，基本的发展历程就是： SGDSGDMNAGAdaGradAdaDeltaAdamNadam 当说到优化算法时，我们说的是什么？优化算法对于优化算法，给定一个具有参数θ的目标...

AdaBins：Depth Estimation using Adaptive Bins

文章目录一、AdaBins处理的问题二、AdaBins整体架构 1.MVIT 2.个人理解一、AdaBins处理的问题？并提出了全局信息处理如何帮助改进整体深度估计的问题。提出了一种基于变换...

AdaBins: Depth Estimation using Adaptive Bins

论文来源 code 本文仅作学习分享摘要本文的核心：单张RGB图像→估计高质量稠密深度图本文的工作流程：一个基线编码解码卷积网络＋基于transformer的架构块block，核心:AdaBi...

Rectifying Pseudo Label Learning via Uncertainty Estimation for Domain Adaptive Semantic Segmentatio

全文翻译如下：摘要本文重点研究在语义分割的背景下，将源领域的知识迁移到目标领域的无监督领域自适应。现有方法通常将伪标签作为基本真值来充分挖掘未标记的目标域数据。然而，目标域数据的伪标签通常由源域上...

Boosting Monocular Depth Estimation Models to High-Resolution via Content-Adaptive Multi-Resolution

1.下载项目 gitclonehttps://github.com/compphoto/BoostingMonocularDepth.git 2.创建环境 condacreatenHighResDep...

Non-uniform Blur Kernel Estimation via Adaptive Basis Decomposition论文阅读

NonuniformBlurKernelEstimationviaAdaptiveBasisDecomposition 1\.研究目标与实际意义 1.1研究目标 1.2实际意义 2\.创新方法：自适应...

PCL：实现moment of inertia estimation转动惯量估计（附完整源码）

PCL：实现momentofinertiaestimation转动惯量估计 include<pcl/test/gtest.h include<pcl/pointcloud.h include<pcl/...

《AWR Adaptive Weighting Regression for 3D Hand Pose Estimation》研读与实践

《AWR:AdaptiveWeightingRegressionfor3DHandPoseEstimation》略读与实践这是一篇深度图手部关键点坐标估计的文章（以下简称AWR），目的是利用带有关键...

是否确定退出登录?

Adam（Adaptive Moment Estimation）

Adam（Adaptive Moment Estimation）

Adam优化算法的原理

具体数据示例

步骤1：初始化参数

步骤2：计算梯度

步骤3：更新动量项和二阶矩估计

第二次迭代

第三次迭代

总结

全部评论 (0)

相关文章推荐

Adam（Adaptive Moment Estimation）

Adam（自适应矩估计，Adaptive Moment Estimation）

从Stochastic Gradient Descent到Adaptive Moment Estimation

AdaBins：Depth Estimation using Adaptive Bins

AdaBins: Depth Estimation using Adaptive Bins

Rectifying Pseudo Label Learning via Uncertainty Estimation for Domain Adaptive Semantic Segmentatio

Boosting Monocular Depth Estimation Models to High-Resolution via Content-Adaptive Multi-Resolution

Non-uniform Blur Kernel Estimation via Adaptive Basis Decomposition论文阅读

PCL：实现moment of inertia estimation转动惯量估计（附完整源码）

《AWR Adaptive Weighting Regression for 3D Hand Pose Estimation》研读与实践