深度学习论文:Deep Residual Learning for Image Recognition
论文:
Abstract
传统的深度神经网络在训练过程中面临诸多挑战。为了简化对更深网络(如ResNet)进行训练的过程,本文提出了残差块这一关键组件。通过重新定义基于输入参考的设计方案,并通过详实的数据支撑展示了残差结构的优势。在ImageNet基准数据集上实现了152层深度的设计(较之VGG架构高出8倍),尽管计算复杂度有所增加,在ImageNet测试集中验证的结果显示错误率为3.57%。
表征深度在许多视觉识别任务中起着关键作用。得益于我们的表征极为深入,在COCO目标检测数据集上实现了28%的性能提升。深度残差网络构成了我们参加ILSVRC & COCO 2015竞赛所采用模型的基础,并不仅在ImageNet检测和ImageNet定位方面取得了显著成绩,在COCO检测与COCO分割领域也持续领先。
1. Introduction
深度卷积神经网络在图像识别领域取得了显著的进步,在这一领域内人们通常会融合包含低层次、中层次和高层次特征的信息,并且其中每个特征层级的高度则可通过堆叠更多的层来实现。根据最新的研究证据表明网络深度对于性能至关重要,在ImageNet等大型数据集上取得领先地位的研究都采用了具有数百层甚至更深结构的设计,并且已经证明了这种设计能够显著提升分类性能与目标检测精度之间的平衡关系。
在深度的重要性驱动下,存在一个问题:学习更好的网络是否像叠加更多层那样简单呢?这一挑战早在训练初期就显现出来,被称为"著名(notorious)"的梯度消失/爆炸问题。然而,通过归一初始化和中间归一化层的有效处理,该挑战已基本得到缓解,从而使得多层架构能够在反向传播过程中通过随机梯度下降实现稳定收敛。
当较深的网络架构开始收敛时,则揭示了一个退化现象:随着网络深度的增加(即模型结构不断加深),其分类精度会先达到饱和水平(这并非不可预测),随后急剧下降。令人意想不到的是这种退化并非源于过拟合问题。我们进行了充分的实验验证:在选择适当深度的模型架构时进一步添加新的层将显著提高训练误差率(见图1所示)。

此类训练集准确率出现了下降趋势,并非所有的系统都具有相同的优化难度。为了更好地理解这一现象,请我们深入探讨一种较为浅层的架构及其与之相对应的深层架构。在这种架构下,在现有基础上增加额外层数即可实现对复杂架构的支持。针对更为复杂的模型而言,在现有架构中引入恒等映射(Identity Mapping)机制能够有效防止过深网络带来的问题——即通过引入恒等映射机制能够有效防止过深网络带来的计算冗余与性能下降的问题。值得注意的是,在这种情况下其余各层则直接继承自上一层的信息,并且通过引入恒等映射机制能够有效防止过深网络带来的问题——即较深网络不会出现比较浅网络更大的训练误差现象。然而实验结果表明,在现有求解器难以达到与恒等映射相当的效果(或在合理时间内无法完成该任务)。
(从ResNet的设计角度来看,在叠加更多的层时,并不具备退化问题的核心原因在于它至少具备恒等映射的能力。)
在本文中, 我们采用了深度残差学习框架以解决退化问题. 与直接使多个堆叠层拟合预设基础函数相比, 我们旨在显式地使各层拟合一种残差函数(residual mapping)。我们将目标基础函数表示为H(x), 并令叠加而成的非线性层去近似F(x)=H(x)-x这一辅助函数. 这样, 原始函数就被重新定义为F(x)+x的形式. 假设优化该辅助函数比优化原始未标记函数更为容易, 在极端情况下, 当恒等变换是最优解时, 将其误差压缩至零往往比依靠多层叠加去近似恒等变换更为简便
F(x)+x可以通过前馈神经网络中的跳跃连接(shortcuts)来实现(如图所示)。这种跳跃连接设计允许直接将输入信号传递到更深的层次而不经过中间层处理,在本案例中仅实现了简单的恒等映射功能;将这些中间输出结果与后续叠加层的结果相加以提升整体表现。值得注意的是该方法既未引入额外参数也未增加计算复杂度;同时整个网络依然能够采用反向传播结合随机梯度下降法进行端到端训练并支持像caffe这样的公共框架实现而不必修改求解器设置
在学习过程中,残差函数F(x)被定义为H(x)减去x之差值,在实际应用中其代表的是输入与输出之间的差异。若残差函数F(x)=0时,则表明该系统构建了一个完美的恒等映射关系H(x)=x。相对而言,在拟合恒等映射H(x)=x时更容易实现,在这种情况下拟合残差比直接拟合恒等映射更为简便易行

类似的现象也在CIFAR-10上呈现出来,在一定程度上反映出优化过程中的挑战以及我们方法效能的优势不仅限于单一数据集的情况。我们不仅在拥有百层架构的数据集中实现了高效的模型训练,在探索更高层次架构时也取得了令人瞩目的成果。
基于ImageNet分类数据集的研究中,在采用极深残差网络时取得了显著的效果。其中拥有152层深度的残差网络仍然是目前为止在该数据集上实现的最大深度模型。通过集成方法,在ImageNet测试集中top-5误差率为3.57%,并在2015年的ILSVRC分类竞赛中取得了冠军成绩。此外,在其他识别任务中的表现同样出色,并且在ILSVRC 2015以及COCO竞赛中也分别获得了第一名:包括ImageNet检测、ImageNet定位、COCO检测以及COCO分割等项目均取得了优异成绩。这一有力证据表明残差学习原理具有广泛适用性
2. Related Work
残差表示(Residual Representations ):在图像识别领域中使用时,在字典中的残差向量被用来构建VLAD(Vector of Locally Aggregated Descriptors),而Fisher Vector通常被视为一种基于概率的VLAD变体,并且在图像检索与分类任务中均表现出色。相比于直接对原始矢量进行编码,在向量量化过程中对残差向量进行编码更为高效。
在基础视觉计算和计算机图形学领域中,在解决偏微分方程组的问题时
跳接(Shortcut Connections ):有关跳接的理论与实践研究具有较长的历史。传统的MLP训练方法通常会附加一个直接将输入连接到输出的线性层。值得注意的是,在GoogleNet架构中的一些中间层通过直接连接至辅助分类器来处理梯度消失与梯度爆炸问题。研究表明者们已通过设计特定的跳跃连接机制来优化各层的响应特性、传播效率及误差传递。例如,在[43]的研究中所提出的Inception模块将一个跳跃连接分支与其更深的分支串联起来构建模块结构。
同时,在文献[41,42]中指出(highway networks),通过整合带有可学习参数的数据依赖型'门'(gates)来实现跳跃连接与门函数结合的功能。这些'门'是依赖数据并带有参数的(但我们的跳跃连接是没有参数的(input x))。当一个gated shortcut关闭(接近于零时),highway networks中的层就表示非残差函数;相反地,在我们的公式中总是能够学习到残差函数(identity shortcuts始终处于打开状态)以确保所有输入信息都被传递给下一层,并且还有额外的信息需要进行学习(值得注意的是):高阶路网并没有随着深度的增长而表现出精度提升的效果。
3. Deep Residual Learning
3.1. Residual Learning
将H(x)视为基础映射,在神经网络中通常由若干个层次构成(并非必须是整个网络),其中每个层次处理特定输入数据x。假设多个非线性处理单元能够近似复杂函数,则它们也能拟合误差项F(x)=H(x)-x(此处假设输入与输出维度相同)。基于此理论基础,在实际应用中我们预期这些堆叠层应直接拟合误差项F(x)=H(x)-x而非试图逼近原始目标函数H(x)本身。尽管这两种形式都能渐近地接近同一个预期的目标(基于相同的前提条件),但它们在学习难度上的表现可能存在差异。
(不再学习输入到输出的映射,而是学习“ 输入减输出 ”)
这种重新定义的目的主要聚焦于揭示违背直觉的现象(图1左)。正如我们在介绍中所讨论,在某些情况下额外添加的新层能够实现恒定映射。然而深网模型往往具有更高的训练误差水平。尽管如此退化现象却表明传统的求解器可能会遇到困难以接近最优解这一目标情况。基于残差网络的方法则可以通过使多个非线性层的学习权重趋近于零从而有效地逼近最优解这一目标情况。
在实际情况中,在大多数情况下,并非所有场景下都采用恒等变换作为最佳选择。然而,在这种情况下,并非所有场景下都采用零变换作为基准模型时,在重新制定问题后可能会有所帮助。当最佳函数与恒等变换相差较小时,在学习过程中所获得的最佳解通常会呈现与之相似但并非完全一致的状态;在这种情况下,在学习过程中所获得的最佳解通常会呈现与之相似但并非完全一致的状态。(即虽然最佳解会受到初始条件的影响而有所变化)此外,在这些情形下,在这些情形下,在这种设置下所得到的最佳模型往往会比直接从头开始训练更加稳定且易于收敛;实验表明(图7),经过这种方法训练后得到的结果具有更好的泛化能力
In real cases, 在实际情况中,在大多数情况下, it is unlikely that identity mappings are optimal." 这意味着恒等映射并非最佳选择。然而, 我们的重新表述可能会帮助预处理问题." 如果最优函数与恒等映射的距离比零映射更近", 那么求解器更容易通过相对于恒等映射来找到扰动", 而不是将函数作为新的一个来学习." 实验结果(图7)表明, 学习到的残差函数通常具有较小的响应值", 这表明恒等映射能够提供合理的预处理效果."
3.2. Identity Mapping by Shortcuts
我们对每几个堆叠的层依次进行残差学习;在本文中,在形式上定义了一个残差块;参考图示2可知其具体结构。

x和y分别代表残差块的输入与输出向量;其中函数F(x, {Wi})表示要学习的残差映射关系,在图2所示结构中,F=W2σ(W1x),其中σ表示Rectified Linear Unit(ReLU)激活函数,bias项为了简便起见被省略掉了;随后在相加完成后再应用第二个非线性Relu激活函数。公式(1)中的跳跃连接既没有额外参数也没有增加计算复杂度;这种特性不仅在实践中具有显著优势,在对比基础网络与残差网络时同样意义重大;因此我们可以公平地比较同时拥有相同参数数量、相同网络深度、相同宽度以及相同计算成本水平下的朴素网络与残差网络表现(除忽略逐元素相加操作的影响)。这样,在参数数量、网络深度、宽度以及计算成本一致的情况下, 我们可以公平地比较朴素网络与残差网络的表现(除忽略逐元素相加操作的影响)。这不仅简化了对比框架, 而且有助于深入理解两者的性能差异。
公式(1)中指出F和x应具有相同的维度;若其维度不符,则可通过与矩阵Ws相乘的方式实现匹配以保证结果的一致性。

同样,在公式(1)中使用Ws矩阵与x相乘也是可行的。通过实验结果表明恒等映射足以解决退化问题且经济高效,在调整匹配维度时因此Ws矩阵已经足够。残差函数F的形式较为灵活,在本文实验中主要涉及两层或三层的函数F(如图5所示),还可以设计得更加复杂一些。如果F仅包含一层,则公式(1)简化为线性变换:y = (W₁ + I)x,在这种情况下跳跃连接将不起任何作用。
考虑到为了简化考虑而提出的表示方法是基于全连接层的架构设计;然而这种结构同样适用于卷积层结构。函数F(x, {Wi})能够表示多个卷积层结构;其中element-wise addition则对每个特征图进行逐通道计算以完成特征融合过程。
3.3. Network Architectures
我们评估了各种普通/残差网络,并发现了它们之间的共同特征。作为讨论的实例,我们对ImageNet上的两个模型进行了详细说明。
Plain Network. 基于图3中间的结构作为基准模型(Plain Network),这一设计主要受到图3左边VGG网络的启发。采用3×3卷积核设计,并遵循以下两个基本原则:首先,在保持输出特征图尺寸一致的情况下,各层使用的滤波器数量相同;其次,在减少特征图尺寸时(即进行下采样操作),滤波器数量相应增加一倍以维持计算效率。在实现下采样过程中,默认使用步长为2的一系列卷积操作。网络架构随后接续了一个全局平均池化层(Global Average Pooling),并以一个包含1000个神经元的一层全连接(Fully Connected)神经网络完成最终输出。如图3所示,在中间部分包含共计34个具有权重连接的神经元层。
值得特别注意的是,在滤波器数量和计算复杂度方面,在仅拥有34层结构的情况下
Residual Network. 基于所述plain网络,在其右侧添加跳跃连接以将其转换为对应的残差版本。当输入与输出维度相同时(如图3右侧所示),该跳跃连接可以直接执行恒等映射操作。(A)若特征图尺寸扩大,则该跳跃连接将直接执行恒等映射操作,并通过添加零填充层来提升特征图尺寸。(B)若采用投影Ws(如公式(2)所示),则需利用1×1卷积层对输入进行投影以匹配目标空间维度。(A)与(B)两种方案在跨越不同大小特征图时均采用步长为2的操作

3.4. Implementation
将图像 resize 处理,在短边长度位于[256,480]区间内随机采样以调节尺寸。从图像及其水平翻转中随机裁剪出大小为 ^{} ^{} ^{} ^{} ^{} ^{} ^{} ^{} ^{} ^{} ^{}^{}^{}^{}^{}^{}^{}\text{的区域}(此处假设裁剪区域大小固定)。每个像素值减去平均值\text{Ref. } [ ] ,并应用预定义的标准颜色增强方案$\text{Ref. } [ ] 。在每次卷积操作后对激活进行批量归一化处理,并引用文献\text{Ref. } [ ] 。初始化权重参数\text{Ref. } [ ] $$ ,并基于零初始值对普通与残差网络进行全参数训练。采用 mini-batch 大小设置为 \texttt{}`` \texttt{} 的 SGD 算法。学习率起始值设为 $\texttt{}`` $\texttt{} 。当验证误差趋于稳定时将学习率除以 \texttt{}`` \texttt{} ,并参考文献中的建议完成总共约 $\texttt{}`` $\texttt{} 次迭代的训练过程
在实验过程中,旨在通过对比分析来验证方法的有效性。我们采用了standard 10-crop测试方案,并以获得最佳效果为目标,在[40,12]范围内选择一个fully convolutional form,并设置图像的最短边长度为{224、256、384、480、640}。
4. Experiments
(wc 本来都写完了 然后没保存 全都没了! 从简重新写一下)
4.1. ImageNet Classification
用于ImageNet 1000分类任务中进行性能评估,在该数据集上设置了三组样本:包含约一百二十八万张训练样本、五千张验证集图像以及一百万张测试图像,并以top-1和top-5的误差率作为评价标准
Plain Networks. 首先考察18层与34层Plain网络的表现并进行了系统性分析。其中图3展示了其架构配置以及各组成部分的具体参数设置情况(见表1)。实验数据显示,在深度方向上(即增加到第600个卷积神经元时),采用更多层数会使验证集误差上升明显(如图5右所示)。进一步观察发现,在每一百步迭代周期内(即每一百个批量处理周期),模型在训练与验证阶段的表现均有一定程度的下降趋势(如图5左所示)。值得注意的是,在此过程中出现了模型退化现象:即使当前设置下(即仅使用第9个卷积神经元作为特征提取器),较深网络并没有带来额外的优势

我们发现越深网络难以优化的原因并非梯度消失现象所导致;采用Batch Normalization机制的这些plain nets在训练过程中能够保证前馈传播中信号具有合理的方差水平;通过实验验证,在应用Batch Normalization后,在反向传播过程中各层参数更新所呈现出来的范数特征均为健康状态;经过测试发现,在经过34层设计后仍能保持较高的分类准确率;进一步分析表明,在较深网络架构中可能存在指数级收敛速度较低的现象;

随后评估了18层和34层的ResNet架构。其基础结构与 plain 网络保持一致,在每两个 3×3 滤波器之间增加了跳跃连接机制(图3右)。在初步对比实验中(表2及图4右),通过恒等映射的方式,在维度扩展时采用补零策略,并将平移操作替换为跳跃连接方式处理特征映射间的差异。研究发现了以下三点关键结论:第一点是基于深度学习的残差网络相较于较浅版本表现更为优异(测试集准确率提升约2.8%),且其训练误差与验证误差之差显著缩小;第二点是经过深度学习训练后残差网络表现出更优的 top-1 错误率(表2显示减少了约 3.5%);第三点是相较于 ResNet 结构 plain 网络,在较浅深度下同样能够获得较高的分类精度,并且残差网络具有更快的收敛速度。

Identity vs. Projection Simplification Strategies. Table 3 compares the three approaches: (A) In dimension expansion, appending zeros serves as the default approach with no additional parameters (see Figure 4 right and Table 2). (B) Dimension expansion uses Ws to map the new dimensions (Equation 2), while employing identity mappings for all other connections. (C) All connections utilize Ws mappings. The results in Table 3 indicate that B outperforms A slightly, perhaps due to A's lack of residual learning in the zero-padding component. C surpasses B marginally, likely attributed to the extra parameters introduced by multiple (13 in total) projection layers in C. However, the slight differences among A/B/C demonstrate that projection mappings are not essential for solving degradation issues. Therefore, in the remainder of this paper, we exclude option C to reduce memory and computational complexity as well as model size. Identity mapping is particularly crucial for maintaining model simplicity without introducing additional bottlenecks as discussed in the following sections.

Deeper Bottleneck Architectures.

50-layer ResNet: 将34层ResNet中的2个残差块升级至3个以实现50 layer ResNet结构(表1),通过选择方案B来提升模型维度该模型具有约38 billion FLOPs
基于更多三层残差块构建的 101 层及 152 层 ResNets:通过引入更多残差块构建了 ¹⁰¹ 和 ¹⁵² 层 ResNet 模型,在即便深度显著提升的情况下(尽管其复杂度仅为约 ¹¹³ ×10^9 次 FLOPs),其复杂度仍低于 VGG-¹⁶/¹⁹(分别约为 ¹�³ 和 ¹�⁶ ×10^9 次 FLOPs)。相较于仅包含 ³⁴ 层、50 层、₁₀₁ 层和 ₁₅₂ 层的 ResNets 的表现而言(表3 和表4),这些模型在分类精度方面表现更为出色,并且未观察到任何退化迹象;由此可得,在增加网络深度的过程中获得了显著提升了分类精度的优势。

Performance Compared to State-of-the-art Models:** Table 4 presents the performance of the best single-model approaches across various configurations. Among these, the baseline ResNet with 34 layers achieved particularly strong performance in terms of accuracy, surpassing even shallow networks as documented in Table 1. Interestingly, a deeper ResNet with 52 layers achieved a top-5 validation error of 4.49%, outperforming all previous ensemble methods as documented in Table 5. The study then combines six models with varying depths into an ensemble system (as submitted by two models with 152 layers each). Our experimental results demonstrate that the proposed approach achieves a test set top-5 error rate of 3.68%, ranking first at the 2018 ILSVRC competition.

4.2. CIFAR-10 and Analysis
基于CIFAR-10数据集展开了一系列研究(5,0k训练图片、1,Ok测试图片以及1O个类别),其主要目的是深入探究极深网络的性能特征而非当前领城的最佳模型(SOTA)。该网络架构的主要组件包括输入尺寸为32×32像素且已去均值化的图像处理模块。具体而言,在该架构中首先执行一次深度为3×3卷积操作(总计6n次),随后在尺寸分别为{32, 16, 8}且具有各自特征图数量{I6, 32, 64}的不同层级上继续施加额外的深度卷积操作。为了实现有效的特征提取与信息压缩,在每一级特征图中均采用步长为2的卷积进行下采样处理,并最终通过全局平均池化操作及一个包含I十个单元的Softmax全连接层实现分类任务目标。整个网络共有I十n+Z个带权重的操作单元。当采用跳跃连接策略时(即每两个连续的深度卷积模块之间插入一次跳跃连接),总共引入了I十n/二=三n次跳跃连接操作(如选项(A)所示)。因此,在保持与plain网络相同深度与计算复杂度的前提下实现了完全相同的功能特性

实验设置采用weight\_decay=1e^{-4}、momentum=0.9等参数配置,并基于文献[12]中的权重初始化方法展开研究。模型在两个GPU环境下采用批量大小为128的并行训练策略,并结合BN层而不使用Dropout技术以提升网络表征能力。具体而言,初始学习率为1e^{-1},并在第32, 48千次迭代时将学习率分别除以十,在第64千次迭代时停止优化过程。整个训练过程基于文献[24]所提出的简单数据增强方法进行操作:即对原始图像四周各增加4个像素后进行随机裁剪生成新的样本块(每个样本块尺寸为32\times 32)。需要注意的是,在测试阶段仅对原始分辨率下的单一视图进行评估。
我们对n={3,5,7,9}进行了比较研究,并获得了从20层到56层的网络结构系列。以图6(左)为例,在plain网络架构中观察到随着深度增加,在trainig error上呈现出显著上升的趋势。这种现象与ImageNet(图4右)以及文献[41]中所展示的情况具有相似性特征,并揭示了一个关键性问题:过深的网络架构在优化过程中面临本质挑战。以图6(右)为例展示了ResNet的表现,在 ImageNet数据集上该架构通过有效的解决了这一挑战,并且随着深度增长其分类精度显著提升。

对n=18的情况进行进一步研究后发现了一种包含有更多层次深度的新架构——一个具有超过百层结构的设计方案——得到了一个包含有更多层次深度的新架构——得到了一个包含有更多层次深度的新架构——得到了一个包含有更多层次深度的新架构——得到了一个包含有更多层次深度的新架构——得到了一个包含有更多层次深度的新架构——得到了一个包含有更多层次深度的新架构——得到了一个包含有更多层次深度的新架构——得到了一个具有更高层数的设计方案——通过这一设计获得了一个拥有更高层数的设计方案——通过这一设计获得了一个拥有更高层数的设计方案——通过这一设计获得了一个拥有更高层数的设计方案

本节分析了层响应的标准偏差

Investigating a network with over 1,558 layers.
尽管模型规模较大(1202层),但仍存在一些尚未解决的问题。尽管两者的训练误差具有相似性(尽管两者都有类似的训练误差),但测试结果表明我们的110层网络表现更好。我们推测这可能与过拟合有关。对于该小数据集而言,这样的网络规模(19.4 million parameters)显得有些过大。通过应用maxout[9]或dropout[13]等强正则化手段,在该数据集上可以获得更好的效果(如[9,25,24,34]所展示的)。在本文中,默认情况下我们未采用maxout或dropout,并且仅通过设计将正则化机制融入网络架构中。这种做法是为了避免分散对难以优化问题的关注度量标准,在未来研究中可能会考虑结合更强的正则化方法以进一步改善效果
4.3. Object Detection on PASCAL and MS COCO
本方法在其它识别任务中具有良好的泛化性能。表7和表8显示了PASCAL VOC 2007 and 2012年[5]和COCO[26]的目标检测baseline结果。我们采用Faster R-CNN[32]作为检测方法。这里我们感兴趣的是用ResNet-101替换VGG-16[40]之后的改进。使用这两种模型的检测实现(见附录)是相同的,因此只能将增益归因于更好的网络。最值得注意的是,在具有COCO数据集上,我们获得了COCO标准度量(mAP@[.5,.95])6%的提升,相对提高了28%,这个增益仅仅是由于学习的表征(This gain is solely due to the learned representations.)。
我们借助深度残差网络,在ILSVRC和COCO竞赛中取得了多个挑战任务的一等奖;包括ImageNet检测、ImageNet定位、COCO检测以及COCO分割等;详细信息可参考附录部分。

References
[1] Y. Bengio, P. Simard, and P. Frasconi. Learning long-term dependencies with gradient descent is difficult. IEEE Transactions on Neural Networks, 5(2):157–166, 1994.
[2] C. M. Bishop. Neural networks for pattern recognition. Oxford university press, 1995.
[3] W. L. Briggs, S. F. McCormick, et al. A Multigrid Tutorial. Siam, 2000.
[4] K. Chatfield, V. Lempitsky, A. Vedaldi, and A. Zisserman. The devil is in the details: an evaluation of recent feature encoding methods. In BMVC, 2011.
[5] M. Everingham, L. Van Gool, C. K. Williams, J. Winn, and A. Zisserman. The Pascal Visual Object Classes (VOC) Challenge. IJCV, pages 303–338, 2010.
[6] R. Girshick. Fast R-CNN. In ICCV, 2015. [7] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR, 2014.
[8] X. Glorot and Y. Bengio. Understanding the difficulty of training deep feedforward neural networks. In AISTATS, 2010.
[9] I. J. Goodfellow, D. Warde-Farley, M. Mirza, A. Courville, and Y. Bengio. Maxout networks. arXiv:1302.4389, 2013.
[10] K. He and J. Sun. Convolutional neural networks at constrained time cost. In CVPR, 2015.
[11] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. In ECCV, 2014.
[12] K. He, X. Zhang, S. Ren, and J. Sun. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification. In ICCV, 2015.
[13] G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R. R. Salakhutdinov. Improving neural networks by preventing coadaptation of feature detectors. arXiv:1207.0580, 2012.
[14] S. Hochreiter. Untersuchungen zu dynamischen neuronalen netzen. Diploma thesis, TU Munich, 1991.
[15] S. Hochreiter and J. Schmidhuber. Long short-term memory. Neural computation, 9(8):1735–1780, 1997.
[16] S. Ioffe and C. Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In ICML, 2015.
[17] H. Jegou, M. Douze, and C. Schmid. Product quantization for nearest neighbor search. TPAMI, 33, 2011.
[18] H. Jegou, F. Perronnin, M. Douze, J. Sanchez, P. Perez, and C. Schmid. Aggregating local image descriptors into compact codes. TPAMI, 2012.
[19] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick, S. Guadarrama, and T. Darrell. Caffe: Convolutional architecture for fast feature embedding. arXiv:1408.5093, 2014.
[20] A. Krizhevsky. Learning multiple layers of features from tiny images. Tech Report, 2009.
[21] A. Krizhevsky, I. Sutskever, and G. Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, 2012.
[22] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel. Backpropagation applied to handwritten zip code recognition. Neural computation, 1989.
[23] Y. LeCun, L. Bottou, G. B. Orr, and K.-R.M¨uller. Efficient backprop. In Neural Networks: Tricks ofthe Trade, pages 9–50. Springer, 1998.
[24] C.-Y. Lee, S. Xie, P. Gallagher, Z. Zhang, and Z. Tu. Deeplysupervised nets. arXiv:1409.5185, 2014.
[25] M. Lin, Q. Chen, and S. Yan. Network in network. arXiv:1312.4400, 2013.
[26] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Doll´ar, and C. L. Zitnick. Microsoft COCO: Common objects in context. In ECCV. 2014.
[27] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In CVPR, 2015.
[28] G. Mont´ufar, R. Pascanu, K. Cho, and Y. Bengio. On the number of linear regions of deep neural networks. In NIPS, 2014.
[29] V. Nair and G. E. Hinton. Rectified linear units improve restricted boltzmann machines. In ICML, 2010.
[30] F. Perronnin and C. Dance. Fisher kernels on visual vocabularies for image categorization. In CVPR, 2007.
[31] T. Raiko, H. Valpola, and Y. LeCun. Deep learning made easier by linear transformations in perceptrons. In AISTATS, 2012.
[32] S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. In NIPS, 2015.
[33] B. D. Ripley. Pattern recognition and neural networks. Cambridge university press, 1996.
[34] A. Romero, N. Ballas, S. E. Kahou, A. Chassang, C. Gatta, and Y. Bengio. Fitnets: Hints for thin deep nets. In ICLR, 2015.
[35] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, et al. Imagenet large scale visual recognition challenge. arXiv:1409.0575, 2014.
[36] A. M. Saxe, J. L. McClelland, and S. Ganguli. Exact solutions to the nonlinear dynamics of learning in deep linear neural networks. arXiv:1312.6120, 2013.
[37] N. N. Schraudolph. Accelerated gradient descent by factor-centering decomposition. Technical report, 1998.
[38] N. N. Schraudolph. Centering neural network gradient factors. In Neural Networks: Tricks of the Trade, pages 207–226. Springer, 1998.
[39] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun. Overfeat: Integrated recognition, localization and detection using convolutional networks. In ICLR, 2014.
[40] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In ICLR, 2015.
[41] R. K. Srivastava, K. Greff, and J. Schmidhuber. Highway networks. arXiv:1505.00387, 2015.
[42] R. K. Srivastava, K. Greff, and J. Schmidhuber. Training very deep networks. 1507.06228, 2015.
[43] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. In CVPR, 2015.
[44] R. Szeliski. Fast surface interpolation using hierarchical basis functions. TPAMI, 1990.
[45] R. Szeliski. Locally adapted hierarchical basis preconditioning. In SIGGRAPH, 2006.
[46] T. Vatanen, T. Raiko, H. Valpola, and Y. LeCun. Pushing stochastic gradient towards second-order methods–backpropagation learning with transformations in nonlinearities. In Neural Information Processing, 2013.
[47] A. Vedaldi and B. Fulkerson. VLFeat: An open and portable library of computer vision algorithms, 2008.
[48] W. Venables and B. Ripley. Modern applied statistics with s-plus. 1999.
[49] M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional neural networks. In ECCV, 2014.
