DECOUPLED WEIGHT DECAY REGULARIZATION

阅读量：

引言

Adam作为一种常用的深度学习优化方法，在其提出时就展现出很好的效果。然而，在实际应用中发现了诸多问题，并在多个数据集上的表现均不及SGDM等方法。针对Adam的研究工作已有较多进展。此前有关于优化算法发展历史的报道：从Stochastic Gradient Descent到Adaptive Moment Estimation，其中也介绍了部分与Adam效果不匹配的研究成果。针对这一问题本研究仍采取相同的研究对象，并参考了DECOUPLED WEIGHT DECAY REGULARIZATION这篇论文。作者指出，在现有的深度学习框架中采用L2正则化的方法来处理权重衰减的做法虽简单但并不理想，在自适应梯度方法如Adam中与权重衰减并不完全等价

算法

Weight decay在优化过程中扮演着重要角色，在于约束那些具有较大数值的参数。通过这种方法，在整个训练过程中迫使网络中各层权值趋于最小化数值。这一策略不仅有助于防止过拟合现象的发生，还与其背后的理论基础——奥卡姆剃刀原则相一致。相对而言更为简单的模型通常具有较小的参数量，并且这种配置往往能够实现更好的泛化能力

对于SGD来说，L2正则与Weight Decay都可以用以下形式表达：

正则化操作在目标函数中加入权重参数的L2范数以防止过拟合问题；相比之下，在梯度更新阶段直接从各参数中减去相应比例的部分值以模拟Weight Decay的效果。然而它们的表现形式却是一致的；Adam优化算法引入了自适应的学习率机制以加速收敛过程；假设仍然采用L2正则化方法来实现Weight Decay策略，则对于大小相同的两个权重而言，在梯度较大的情况下其衰减幅度会比另一个更大。

基于前面的分析可知，在优化过程中, 二阶动量V会根据实际的更新操作数量动态调整, 这将使优化算法中的学习速率随之降低, 进而使得模型参数的更新幅度逐渐缩小。进一步观察到的是, 在深度学习模型中, 参数更新与损失函数之间的关系具有显著的影响, 因此作者针对解耦两者关系提出了解决方法:

该方法同样极为简便。值得注意的是，在实现过程中作者依照原始Weight Decay的定义，在训练过程中直接将权重衰减加入优化器中，并成功实现了对权重衰减作用的效果。

结果

作者实验了多种形式的模型，效果均比原始版本要好，具体参考原论文：

上面是对SGD和Adam的比较：

In Figure 2, we evaluate the performance of L2 regularization versus decoupled weight decay across both stochastic gradient descent (SGD) and Adam optimizers, with the comparison presented separately for each optimizer in two distinct rows.

左侧展示了传统的方法；值得注意的是，在该方法中存在显著的学习率与权重衰减之间的相关性；右侧则采用了一种更为先进的方法；其优化范围显著扩大；在此背景下，在这种情况下参数调节变得更加简便，并且能够有效地定位到最优解。

结论

该算法采用AdamW方法，并实现了对学习率与权重衰减的分离处理；此方法适用于所有自适应优化算法。

引用

1、解耦的权重衰减正则化
2、<>

全部评论 (0)

还没有任何评论哟~

DECOUPLED WEIGHT DECAY REGULARIZATION

引言 Adam作为一个常用的深度学习优化方法，提出来的时候论文里的数据表现都非常好，但实际在使用中发现了不少问题，在许多数据集上表现都不如SGDM这类方法。

weight decay

1、定义：在损失函数中，weightdecay是放在正则项前面的一个系数,在模型训练过程中设置权重衰减为了应对模型过拟合问题（使得在梯度下降过程中权重乘以一个系数实现权重的缩小）对上述函数进行推导后...

learning rate 和weight decay

首先，假设我们有lossfunction为E\mathbfw 梯度下降算法告诉我们，为了最小化lossfunction为，要在E的最快速下降的方向修改权值： \beginequationwi\left...

tf.nn.l2_loss() 与权重衰减（weight decay）

权重衰减（weightdecay） L2正则化的目的就是为了让权重衰减到更小的值，在一定程度上减少模型过拟合的问题，所以权重衰减也叫L2正则化。 L2正则化就是在代价函数后面再加上一个正则化项：其中...

超参数 learning rate,weight decay和momentum

先看几个公式！ ........1 ......2 .........3 超参数是指机器学习模型里面的框架参数，和训练过程中学习的参数（权重）不一样，超参数通常是手工设定，不断试错调整，或者对一系列穷...

【神经网络】权重衰减（weight-decay）

权重衰减（weightdecay）权重衰减方法高维线性回归实验从零开始实现初始化模型参数定义L2范数惩罚项定义训练和测试观察过拟合使用权重衰减简洁实现小结权重衰减上一节中我们...

权重衰退，weight decay，L2正则化

参考李沐老师的教材写的。通过函数与0的距离来衡量函数的复杂度。但是怎么精确的确定一个函数和0之间的举例呢？没有一个正确答案。一种简单的方法是通过线性函数中的权重向量的某个范数来度量其复杂性，例如...

Caffe中learning rate 和 weight decay 的理解

Caffe中learningrate和weightdecay的理解在caffe.proto中对caffe网络中出现的各项参数做了详细的解释。 1.关于learningrate optionalflo...

PyTorch笔记23--正则化之weight decay

正则化与偏差方差分解 Regularization：减小方差的策略误差可分解为：偏差，方差与噪声之和。即误差=偏差+方差+噪声之和偏差度量了学习算法的期望预测与真实结果的偏离程度，即刻画了学习算法...

torch笔记十六 | 权重衰退（Weight Decay）

一种常见的处理过拟合的方法。 1.使用均方范数作为硬性限制控制模型容量的两种方式：参数的数量、参数的选择范围。该方法是通过限制参数值的选择范围，来控制模型容量的。 minlw,bs.t.\left\...

是否确定退出登录?

DECOUPLED WEIGHT DECAY REGULARIZATION

引言

算法

结果

结论

引用

全部评论 (0)

相关文章推荐

DECOUPLED WEIGHT DECAY REGULARIZATION

weight decay

learning rate 和weight decay

tf.nn.l2_loss() 与 权重衰减（weight decay）

超参数 learning rate,weight decay和momentum

【神经网络】权重衰减（weight-decay）

权重衰退，weight decay，L2正则化

Caffe中learning rate 和 weight decay 的理解

PyTorch笔记23--正则化之weight decay

torch笔记十六 | 权重衰退（Weight Decay）

tf.nn.l2_loss() 与权重衰减（weight decay）