DEEP FRANK-WOLFE FOR NEURAL NETWORK OPTIMIZATION 论文阅读总结

阅读量：

DEEP FRANK-WOLFE FOR NEURAL NETWORK OPTIMIZATION 论文阅读总结

这篇论文是我为了完成模式识别课程项目而精心挑选的一篇论文。挑选它的原因在于该论文提供了GitHub上的开源代码，便于我借鉴现有的技术方案实现和对比分析。

虽然也是阅读过，并非完全没有接触过相关内容。于是进行了归纳整理工作。归纳出的内容与论文的要求不完全一致，并且其中包含了有个人观点和相关背景知识。

作为一名刚开始投身科研领域的新人，在阅读这篇论文之前我对相关领域缺乏专业知识导致诸多疑问亟需学习解答。在文章中我可能会基于已有知识进行推测或理解其中某些部分可能较为晦涩或难以把握。我的主要目的是记录自己的学术成长历程同时也希望能为同样正在阅读这篇论文的朋友们提供一些帮助与启发。如有不足之处希望大家给予指正我将及时修改以期完善思考过程

论文地址：https://arxiv.org/abs/1811.07591

github项目地址：https://github.com/oval-group/dfw

这篇论文想解决什么问题？

我们已知深度神经网络的反向传播即为损失函数最优解的搜索过程，并且目前最常用的方法被认为是随机梯度下降算法（SGD）。

但SGD也并非完美无缺，在更新权重的过程中必须设置一个合适的学习速率（learning rate）。这一参数不仅由人工设定并经过调试才能发挥作用，并且缺乏现成的公式或客观标准可供参考；然而，在算法迭代过程中逐渐减小的学习速率能够有效提升整体性能。一方面，在迭代初期较大的学习速率有助于迅速跳过局部极小值；另一方面，在后期逐步减小的学习速率则能够避免错过全局最优解。因此，在这一过程中的合理调节和控制以实现最优效果则是当前研究中的一个重要课题。

当然, 尽管SGD模型在学习率方面存在一定的问题, 但经过手动微调参数后, 模型的整体性能依然表现出色。具体来说, 在迭代过程中的某些特定阶段, 学习率会被按比例衰减。为了进一步提高优化器的迭代效率和最优解的准确度, 我们需要深入研究这一问题。

算法介绍

DFW所采用的损失函数为HingeLoss，在SVM算法中也被采用，并且同样适用于其他线性凸函数的情况。
此外还支持诸如L1Loss等其他类型的损失函数。
其具体的定义如下：

\text{Hinge Loss}(w, x, y) = \max(0, 1 - y \cdot f(w, x))

对于HingeLoss而言，在每个样本中所有被误分类为其他类别的实例得分均需低于与其应属于的真实类别得分低1个单位。具体而言，在真实类别对应的得分我们称作 $s_1$ 的情况下（例如 $s_1=10$ ），被误分类实例对应的得分为 $s_2$ （例如 $s_2=8.5$ ）。当 $s_2 < 9$ 时，则该实例对应的损失为零；而当 $s_2 > 9$ 时，则超出部分直接计入总损失；一个样本的所有误分类实例对应的损失之和即构成该样本总的HingeLoss值。

毫无疑问，在论文中采用的HingeLoss损失函数虽然适用于多标签分类任务，并经过适当的平滑处理以缓解其局限性。然而这个简单的函数显得不足。具体的优化细节将在后续部分进行补充

在定义了损失函数后，则需要更新权重的计算式。这个公式看起来较为复杂，在我之前一直花了不少时间去仔细推敲过它的具体形式。不过虽然困难重重但我始终认为深入理解其本质会更有助于掌握模型的工作原理。于是乎我想尝试向大家解释这个公式的来源。当然如果实在没有兴趣深入探究其中奥秘的话则可以选择直接跳过这部分内容。

首先我们了解SGD算法更新权重的过程是通过将梯度与学习率相乘来实现的；其公式可表示如下：

我认为该式子可能为该领域一个封闭解。我对相关背景知识了解有限，可能属于基础性内容。进一步查阅相关资料后发现PGD方法具有相似特征，两者可能存在密切关联。也就是说：这意味着该式子可能与PGD方法存在某种联系。

这里作者参考近端梯度下降算法，对更新公式进行了线性化：

而非对损失函数实施泰勒展开后，并随后将其argmin转换为min的操作，则导出了以下学习目标；这些目标可被视为DFW算法的学习目标，并进而被命名为Loss-Preserving Linearization：

采用这一设定的原因是什么呢？其效果曲线较之前表现出显著优势。这种观点是否过于绝对？这些改进缺乏坚实的理论基础。只要实验结果令人满意，则该算法可被视为有效。即便该方法看似存在书写错误（即‘错’方法），但只要有理想效果，则有潜力发表相关论文。

阐述了损失函数与权重更新机制的相关内容后, 我们今天要介绍的是DFW算法。它同样是基于梯度下降的方法, 具有两个显著特点:一是最佳步长设置, 二是其中具体的数学推导对我来说较为复杂。如对这部分内容感兴趣的朋友可以自行查阅论文附录部分, 我将简单概括其核心思路。

之前不是提到了那个用于求解最小值的权重更新公式吗？作者采用Frank-Wolfe算法对这个公式的对偶问题进行了迭代优化，在每一次迭代过程中均能计算出相应的最优步长。

另外一个特点等同于SGD在计算成本上是相同的。为了节省时间,我就不打算详细列举证明过程了。其实就是一个总结性的观点。

此外作者也加入了动量机制，并且对损失函数进行了平滑处理。

整体的算法伪代码如下：

从算法代码中可见，在除蓝色行外基本上都是现有的研究成果；其中蓝色行是DFW的核心地位，并采用可自适应调节的步长。

实验

采用该算法后需实施实验验证。研究者分别在其图像分类与自然语言处理领域进行了评估，并将实验结果展示于此处。对比分析可知，在DFW与SGD之间各有优势特点；然而，在同类算法中DFW表现更为突出。

主要涉及图像分类任务的研究中，在基于CIFAR-10/CIFAR-100的数据集上进行实验对比研究，在DenseNet和WRN等深度学习架构上的实验对比

该自然语言识别任务的数据集基于Stanford Natural Language Inference (SNLI)数据库，并采用开源技术进行开发；该系统基于开源模型构建，并参考了前人的一篇论文内容。

总结

最后作者对现有研究进行了系统归纳与总结，并重点分析了DFW算法的优势所在：相较于其他自适应优化方法，在性能上更优的是DFW算法在精度上表现不相上下。值得注意的是，在实际应用中与SGD相比，在精度上表现不相上下这一特点使得DFW算法展现出显著优势：其显著优势在于能够实现参数的自适应优化，并且无需人工干预调参步骤

后续的研究重点中进一步指出, 当前学习目标并未包含正则化信息, 这一观点在改进权重更新公式的部分中得到了阐述, 即通过改变泰勒展开的对象从而避免了损失函数进行泰勒展开, 但值得注意的是, 正则系数仍然参与了这一过程. 因此推测，在不使正则系数受到泰勒展开影响的情况下获得更好的优化效果或许是可行的.

全部评论 (0)

还没有任何评论哟~

DEEP FRANK-WOLFE FOR NEURAL NETWORK OPTIMIZATION 论文阅读总结

DEEPFRANKWOLFEFORNEURALNETWORKOPTIMIZATION论文阅读总结这篇论文是我为了完成模式识别课程项目而挑选的论文，之所以选择这篇论文是因此它提供了github的开源代...

Deep Neural Network for YouTube Recommendation论文阅读

DeepNeuralNetworksforYouTuberecommendations论文阅读背景推荐youtube视频的挑战： 1.Scale：现有的推荐算法能够在小数据集上表现良好，但难以应对...

Deep Multi-scale Convolutional Neural Network for Dynamic Scene Deblurring论文阅读

DeepMultiscaleConvolutionalNeuralNetworkforDynamicSceneDeblurring 1\.论文的研究目标与实际问题 2\.论文的创新方法、模型与公式 2...

论文阅读：ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation

文章目录 1摘要 2亮点 2.1initial模块和bottlebeck模块 2.1.1initial模块 2.1.2bottlebeck模块 2.2PReLU 2.3普通卷积、非对称卷积、空洞卷积混...

【论文阅读34】DeepMB: Deep neural network for real-time optoacoustic image reconstruction ...

DeepMB:Deepneuralnetworkforrealtimeoptoacousticimagereconstructionwithadjustablespeedofsound 论文题目：De...

论文阅读：Deep Neural Networks for Object Detection

最近一直在看论文，感觉一直看也不是个办法，不如写写看心得体会。如果能遇到志同道合的朋友，那就更棒啦！话不多说，就来讲讲今天看的这篇论文好了：《DeepNeuralNetworksforObjectDe...

【论文阅读】Deep multi-path convolutional neural network joint with salient region attention for facial。。。

论文阅读笔记引言网络结构实验结果引言引言部分其实没说什么，就提了一句：如果我们用权重去衡量“每个patch”或“某些区域”在表情识别任务中的重要性的话会更好。

论文阅读：Neural Aggregation Network for Video Face Recognition

Title： NeuralAggregationNetworkforVideoFaceRecognition，微软亚研院CVPR2017的paper，实现的是利用一个attention机制对输入的一个...

论文阅读：Deep & Cross Network for Ad Click Predictions

论文题目：Deep&CrossNetworkforAdClickPredictions 作者：RuoxiWang、BinFu、GangFu、MingliangWang 1论文要点该模型是对Wide&...

Deep Unfolding Network for Image Super-Resolution 论文阅读

DeepUnfoldingNetworkforImageSuperResolution论文阅读超分问题是低级视觉领域中的经典的病态问题基于模型的方法可以通过统一的最后后验框架来解决不同种类的病态问...

是否确定退出登录?

DEEP FRANK-WOLFE FOR NEURAL NETWORK OPTIMIZATION 论文阅读总结