Advertisement

【论文阅读】ResNet : Deep Residual Learning for Image Recognition

阅读量:

Deep Residual Learning for Image Recognition

原文链接

Abstract

更为复杂的神经网络在训练过程中面临诸多挑战。针对这一问题,ResNet提出了一种基于残差学习的创新性框架设计来简化更深层网络的学习过程。该方法将每一层被重新定义为一种能够学习其输入特征与输出特征之间关系的新机制——基于输入端点的残差函数_(residual functions with reference to the layer inputs)_。与传统方法直接学习无参考函数不同,这种设计显著提升了模型的学习效率与效果。论文详细阐述了以下三点:
1)通过引入跳跃连接的方式实现了模型参数的有效共享与优化效率提升
2)相比简单叠加各层的方法,在深度扩展的同时能够更好地保持分类性能
3)采用层次化误差回传机制使得模型在各层间能够更加稳定地进行参数更新

Motivation

深度 网络通过端到端多层次架构整合了低、中以及高阶特征,并形成了分类器。而特征的不同层次 通过增加网络深度 来进一步丰富。
由此引发一个问题:是否只需简单地叠加更多的网络层 就能实现学习更优质的模型?

首要挑战是:在深度学习中常见于神经网络训练过程中所面临的关键问题之一是参数更新过程中的梯度消失或爆炸现象( vanishing/exploding gradients )。这一问题早在网络训练初期就会影响其收敛性。为此研究者们提出了多种解决方案其中较为有效的措施包括采用初始化归一化方法以及引入中间归一化层来改善这一状况从而帮助网络实现多层结构的有效训练并完成反向传播过程中的随机梯度下降优化步骤( SGD )。

更深层次的网络收敛后呈现出一种退化现象_(degradation problem)_:当网络深度逐渐增加时,其准确率会先趋于平缓并随后急剧减少。值得注意的是,在适当深度设置下新增更多的网络层并不会解决这一问题——反而会导致训练误差显著上升!

在这里插入图片描述

训练集上准确率的退化表明了不是所有的系统都是同样容易优化。考虑一个浅层的结构和它更深层次的对应结构,即基于它增加更多网络层。
存在一个构建深层结构的方法:增加的网络层是恒等映射 (identity mapping) ,其他的网络层直接从训练好的浅层结构中复制。这表明了深层的模型不应该产生比其对应的浅层模型更高的训练误差 。也就是说,至少应该是相等的训练误差。但实验表明了,现有的求解方法并不能训练得到和浅层模型效果相当或者更好的结果。

Details

论文提出了深度残差学习框架 (deep residual learning framework) 作为解决网络退化问题的新方案。该框架的核心思想在于通过叠加多个非线性层来逼近残差映射,并避免直接拟合复杂的潜在函数关系。具体而言,在所需函数\mathcal{H} (x)的基础上减去输入信号x得到\mathcal{F}表达式:\mathcal{F} := \mathcal{H}(x) - x;而原始的目标函数则可表示为\mathcal{F}(x) + x。研究表明,在优化目标方面选择残差映射而非原始映射更具优势。特别地,在极端情况下当恒等变换成为最优解时,在推导过程中将残差项设为零能够更简便地逼近叠加后的非线性变换

论文研究了响应模式 *(Response Pattern)*的标准偏差, 如图所示。Layer Response定义为BN层后接非线性激活前的每个3×3卷积层的输出结果。观察到,与普通架构相比,在ResNet结构中各层的响应幅度较低,并且随着网络深度增加,在每一新增的ResNet块中所贡献的信息量逐渐减少。这表明,当网络层数增多时,单个ResNet块对信号修改的作用会减弱。恒等映射设计作为一种有效的预处理手段,通过保持输入与输出之间的近似一致关系的方式进行参数优化更容易发现微调过程中的潜在问题

在这里插入图片描述

该表达式由带有短连接的前馈神经网络实现,并主要通过对元素级相加完成后续非线性处理。如图所示:短连接以一种straightforward的方式执行恒等映射操作,并整合至堆叠网络层输出中。此方法既未引入新参数也未提升计算负担;因此整个网络仍可利用反向传播与随机梯度下降进行端到端训练。

在这里插入图片描述

当输入输出通道数量发生变化时(即发生维数变化的情况),短连接会进行一次线性变换以适应新的通道数量。值得注意的是,在没有发生维数变化的情况下(即输入输出通道数量保持不变),虽然同样可以选择方阵 W_s ,但论文中通过实验验证表明恒等映射就足够解决问题,并且这种方法更为经济实惠,并不需要对信号进行额外处理)。因此,在存在匹配需求的情况下才采用这种策略。

在这里插入图片描述

论文中指出残差函数可采用多层结构构建,并支持三层或更深层次的设计方案。然而仅包含一层时却无法展现出显著优势。对于卷积神经网络模型而言,则具备良好的适用性。其中\mathcal{F}(x)被定义为一系列连续应用后的结果,并用于实现两个特征图在各通道上的叠加过程。

针对上述提出的维度扩展问题文中提供了以下两种解决方案:
1)继续执行恒等映射策略,在新增维度上填充零值
2)通过使用1×1尺寸的卷积操作来施加投影变换

关于原文中实际应用的说明及实验的具体结果就不做过多说明啦~

全部评论 (0)

还没有任何评论哟~