DECOUPLED WEIGHT DECAY REGULARIZATION
引言
Adam作为一种常用的深度学习优化方法,在其提出时就展现出很好的效果。然而,在实际应用中发现了诸多问题,并在多个数据集上的表现均不及SGDM等方法。针对Adam的研究工作已有较多进展。此前有关于优化算法发展历史的报道:从Stochastic Gradient Descent到Adaptive Moment Estimation,其中也介绍了部分与Adam效果不匹配的研究成果。针对这一问题本研究仍采取相同的研究对象,并参考了DECOUPLED WEIGHT DECAY REGULARIZATION这篇论文。作者指出,在现有的深度学习框架中采用L2正则化的方法来处理权重衰减的做法虽简单但并不理想,在自适应梯度方法如Adam中与权重衰减并不完全等价
算法
Weight decay在优化过程中扮演着重要角色,在于约束那些具有较大数值的参数。通过这种方法,在整个训练过程中迫使网络中各层权值趋于最小化数值。这一策略不仅有助于防止过拟合现象的发生,还与其背后的理论基础——奥卡姆剃刀原则相一致。相对而言更为简单的模型通常具有较小的参数量,并且这种配置往往能够实现更好的泛化能力
对于SGD来说,L2正则与Weight Decay都可以用以下形式表达:

正则化操作在目标函数中加入权重参数的L2范数以防止过拟合问题;相比之下,在梯度更新阶段直接从各参数中减去相应比例的部分值以模拟Weight Decay的效果。然而它们的表现形式却是一致的;Adam优化算法引入了自适应的学习率机制以加速收敛过程;假设仍然采用L2正则化方法来实现Weight Decay策略,则对于大小相同的两个权重而言,在梯度较大的情况下其衰减幅度会比另一个更大。

基于前面的分析可知,在优化过程中, 二阶动量V会根据实际的更新操作数量动态调整, 这将使优化算法中的学习速率随之降低, 进而使得模型参数的更新幅度逐渐缩小。进一步观察到的是, 在深度学习模型中, 参数更新与损失函数之间的关系具有显著的影响, 因此作者针对解耦两者关系提出了解决方法:

该方法同样极为简便。值得注意的是,在实现过程中作者依照原始Weight Decay的定义,在训练过程中直接将权重衰减加入优化器中,并成功实现了对权重衰减作用的效果。
结果
作者实验了多种形式的模型,效果均比原始版本要好,具体参考原论文:

上面是对SGD和Adam的比较:
In Figure 2, we evaluate the performance of L2 regularization versus decoupled weight decay across both stochastic gradient descent (SGD) and Adam optimizers, with the comparison presented separately for each optimizer in two distinct rows.
左侧展示了传统的方法;值得注意的是,在该方法中存在显著的学习率与权重衰减之间的相关性;右侧则采用了一种更为先进的方法;其优化范围显著扩大;在此背景下,在这种情况下参数调节变得更加简便,并且能够有效地定位到最优解。
结论
该算法采用AdamW方法,并实现了对学习率与权重衰减的分离处理;此方法适用于所有自适应优化算法。
引用
1、解耦的权重衰减正则化
2、<>
1、解耦的权重衰减正则化
2、<>
