Advertisement

(NIN网络)Network in Network论文阅读笔记

阅读量:

文章目录

  • 网络在网络论文阅读笔记 2014

    • 摘要
      • 第1章 引言
      • 第2章 卷积神经网络
    • 第3章 网络在网络
    • 3.1 多层感知机卷积层
    • 3.2 全局平均池化
    • 3.3 网络在网络结构
  • 4 实验

    • 4.1 概述
  • 4.2 CIFAR-10 数据集

  • 4.3 CIFAR-100 数据集

  • 4.4 街景住房数字 AVHND 数据集

  • 4.5 手写数字最小化问题

  • 4.6 使用全局平均池化作为正则化方法

  • 4.7 神经网络交互网络可视化研究

    • 5.Conclusions

Network in Network论文阅读笔记2014

Abstract

我们开发了一种新型深度网络架构,并以"Network in Network(NIN)"命名以提升模型对感受野内局部特征的分辨能力。传统的卷积层依赖于线性滤波器进行特征提取后并配合非线性激活函数完成信息处理过程。相比之下,在本研究中我们构建了一个微型神经网络来深入分析感受野内的数据特征。多层感知机(MLP)作为一个有效的函数逼近工具被用于实现这一微分层次结构。在输入处理时采用了与CNN相似的方式生成特征图矩阵,并将这些特征图传递给下一层处理单元进行进一步分析。值得注意的是,在深层的NIN架构中可以通过多级小型网络模块的组合设计构建出一个更深的模型架构,并在此基础上实现了对样本分类任务的支持。具体而言,在分类层阶段我们将经过池化处理后的特征图作为输入并结合全局平均池化技术提取全局表征信息这一步骤相较于传统全连接层不仅简化了计算流程还能显著提高模型解释性和防止过拟合性能表现出了更好的优势特性

1.Introduction

CNN由一系列卷积层和池化层构成,在卷积层中每个滤波器通过内积操作将输入信号与局部感受野范围内的特征进行匹配,并经过非线性激活函数处理后生成特征图;随后每个池化层则负责对输入的空间信息进行采样压缩以降低计算复杂度。

CNN中的卷积核对于它包含的data来说是一种广义线性模型(Generalized linear model,GLM),我们认为GLM的抽象等级比较低。**所谓抽象,我们的意思是该特征对于相同概念的变体是不变的。**使用一个更有力的非线性函数近似器替换GLM可以提升模型的抽象能力。**当要学习的潜在concepts是线性可分得时候,GLM可以取得很好的抽象效果,也就是说,不同的概念可以由GLM定义的平面分开。**因此,传统的CNN简单的就假设这些潜在概念是线性可分得。然而,实际情况下,同种概念的数据也可能以一种非线性流形存在,因此可以表示这些概念的representations通常都是输入的高度非线性函数。在NIN中,我们使用一个“micro network”替代GLM,这个微小网络是一个普通的非线性函数近似器(approximator)。我们选择MLP作为微小网络的实例,它是一个通用函数逼近器和也是一个可通过反向传播训练的神经网络。

在图1中,我们进行了对比分析以探讨我们的MLPConv结构与CNN在特征提取方面的异同。具体而言,这两种结构都实现了将感受野范围内的输入信号转化为特征向量的目标。我们的研究发现,在每个局部感受野内配置一个由多个带有非线性激活函数的全连接层组成的MPL(Multiplexed Layer),能够有效提升特征提取效率。这些MPL模块在不同局部感受野之间具有共享性,并通过滑动窗口机制(类似于CNN的操作)生成特征图作为上一层处理的基础输入。将这些MLPConv模块串联起来构成了我们的网络架构NIN。

不同于传统CNN架构中将FC层用于分类任务**,** 我们直接将最后一个mlpconv层在空间上的输出通过全局平均池化操作转化为单一特征向量**,** 并将其传递至softmax层进行分类. 在传统CNN设计中**,** 由于中间各FC层之间的信息传递机制尚不透明**,** 因此难以深入解析目标类别特征如何反推至先前的卷积特征. 相比之下**,** 全局平均池化操作不仅增强了特征图与类别之间的联系**,** 而且通过引入micro network提升了模型的局部建模能力. 此外**,** FC层虽然结构简洁便于实现**,** 但其易受过拟合困扰且高度依赖于dropout正则化手段. 相反地**,** 全局平均池化操作本身具備正则化功能**,** 能够有效防止整体网络架构发生过拟合现象.

2.Concolutional Neural Networks

经典的CNN网络由多个堆叠的卷积层与空间池化层构成。其核心机制在于利用线性卷积核与非线性激活函数(如ReLU、sigmoid与tanh等)生成多通道的空间特征图。以ReLU为例,在实际应用中其计算公式如下:
f_{i,j,k} = \max(\mathbf{w}_k^\top \mathbf{x}_{i,j}, 0)
其中(i,j)表示特征图中的像素坐标位置;\mathbf{x}_{i,j}代表以(i,j)为中心的空间局部输入区域向量;\mathbf{w}_k则对应第k个输出通道的空间权重向量。

该模型能够有效表示线性可分的概念;然而,在大多数情况下,默认好的representations通常是非线性的。在传统CNN架构中,默认为了应对这一问题,默认采用了足够多的filter以覆盖所有潜在的概念;这些filter可能用于检测同一概念的不同变体形式;当一个概念被赋予过多滤波器时,默认会对下一层引入额外负担;因为下一层处理时,默认要考虑上一层所有变体的变化组合;在CNN架构中,默认较高层的位置映射对应于原始输入区域较大的部分;通过结合底层低级concepts进行组织排列,默认生成更高层次的概念特征;因此,默认我们认为,在输入到下一层之前对每个局部patch进行更好的抽象是有益的行为。

在最近的研究中,通过对仿射特征图施加最大池化操作以缩减特征图的数量(仿射特征图指的是未经激活函数处理后的卷积输出)。

但是,maxout方法的一个前提条件是,概念集必须存在于输入空间中,而这一条件往往难以满足现实情况下的各种复杂场景。因此,当潜在的概念分布呈现出高度非线性特征时,仅仅依赖于简单的函数近似可能无法达到预期效果,这就促使我们探索更为通用性的函数近似器方案。基于此原则,我们提出了一种新型网络架构,NIN网络,其核心特点是在每层卷积操作中引入微网络结构来提取局部区域特征并生成更高层次的抽象表征

micro networks被用于滑窗操作,在此前的研究中已有提及。然而它们仅限于特定任务,并且仅包含单一的sliding网络架构。神经网络架构(NIN)则从更为广泛的角度出发,并将微分子网整合进CNN架构中,并实现了各层次特征的更优抽象能力。

3.Network In Network

3.1MLP Convolution Layers

在未预先指定潜在概念分布的情况下,在局部块进行特征提取的过程对于应用一个通用函数近似器来说至关重要。因为这能将潜在概念映射至更为抽象的表现形式。径向基网络(Radial basis network)与多层感知机(MLP)作为广为使用的通用函数近似器具有显著的优势。我们选择使用MLP主要有两个原因:第一点在于其与卷积神经网络(CNN)的架构相契合,在训练过程中均采用反向传播算法;第二点在于其能够自然地构建出深度网络结构这一特点与CNN中层层递进的特征提取机制具有高度的一致性。基于此我们将其命名为mplconv网络并采用MLP替代传统的GLM模型来计算输出值。图1展示了mplconv层与传统卷积操作之间的区别关系。而 mplpconv层的具体计算过程如下所示:
f_{i,j,k_1}^1 = \max(w_{k_1}^{T}x_{i,j}+b_{k_1}, 0)
以此类推直到
f_{i,j,k_n}^n = \max(w_{k_n}^{nT}f_{i,j}^{n-1}+b_{k_n}, 0)
其中n表示MLP中的层数目激活函数采用RELU激活函数进行激活

从跨特征图(cross-feature map)的角度来看,在普通卷积层上执行级联跨特征图参数聚合这一操作相当于每个池化单元会对输入特征图进行加权线性重组,并经过ReLU激活函数处理。其后的MLPConv层会继续执行这一操作以实现信息传递。这样的架构能够实现不同通道间复杂且可学习的信息交互。

同样地,在这个框架下也可以认为是1×1卷积层的扩展形式;这样的视角能够帮助我们更清晰地认识NIN的整体架构。

在比较中分析maxout层的特点:该层通过从多个仿射变换生成的不同特征图中选择最大值来进行池化操作,并最终得到一个更高效的表征学习机制。该过程所得到的最终特征图及其计算公式如下所示

具体来说,在处理未经激活的卷积结果时,我们通过m个神经元来完成仿射层的操作。每一个神经元为仿射层的每一个位置分配一个权重系数,并计算出对应的结果。随后我们选择具有最高结果的权重系数作为最终特征向量。

被maxout生成的一个分段线性函数能够代表任意凸函数的形式。针对所有这些凸函数,在其定义域内的样本点会落在某个特定阈值范围内。由此可知,在对每个局部patch应用凸函数近似后,maxout能够通过基于潜在概念且可被这些概念通过凸集分离的情况来生成分类超平面。mlpconv层采用了通用函数近似器这一技术,并且在功能上超越了maxout这一方法论。

3.2Global Average Pooling

传统的卷积神经网络(CNN)通常在较低层级应用卷积操作。这些网络模块随后用于分类任务,并通过全连接(FC)层进行特征表达。具体而言,在这一架构中,经过池化处理后的输出特征向量被传递至全连接(FC)层进行进一步处理和分类决策。

但是FC层容易出现过度拟合现象,这会影响整体性能。Dropout作为一种常用的正则化技术,在提升模型泛化能力的同时有效抑制了过度拟合现象。

在本文中, 我们提出了一个被称为"全局平均池化"的新策略, 用以取代传统CNN中的全连接层. 该方法通过计算每个mlpconv层输出特征图的均值, 并将结果转化为向量输入到softmax层. 全局平均池化的优势在于, 它更为自然地适应于卷积神经网络的卷积结构, 并增强了特征图与各类别的关联性. 此外, 由于其不含可学习参数, 全局平均池化能够有效防止过拟合. 同时, 它整合了空间信息, 因此对输入图像的空间平移等变化表现出较强的鲁棒性

我们可以将全局平均池化视为一个结构化的正则化器,在此过程中使特征图转化为concepts与categories各自的confidence maps。由于采用了mlpconv层,在此过程中全局平均池化表现出良好的效果。

3.3Network In Network Structure

NIN的整体架构由多个mlpconv模块串联而成,在每两个连续的mlpconv模块之间均配置一个上采样层(upsampling layer)。图2详细展示了具有三个mlpconv模块的NIN网络架构示意图,在每一个单个module内部设置了三层感知机(perceptron)。值得注意的是,在设计过程中可以通过调节各module的数量及其深度来优化模型性能。

4.Experiments

4.1Overview

基于四个标准数据集(包括CIFAR-10、CIFAR-100、SVHN以及MNIST)对我们的NIN网络进行性能评估,在网络架构设计中我们采用了三层mlpconv模块构建主干结构。对于每层mlpconv单元,在完成卷积运算后均施加最大池化操作,并将池化窗口尺寸依次减半以提高信息提取效率。值得注意的是,在最后一层mlpconv单元中我们未采用Dropout正则化处理,在其余两层mlpconv单元中分别施加了Dropout操作以增强模型泛化能力。在默认配置下,默认情况下所有网络组件均采用全局平均池化替代全连接层进行特征聚合操作(如图2所示)。为确保模型训练的有效性,在网络初始化阶段我们引入了L2范数权重衰减作为正则化手段。具体实验细节可参考附录部分详述。

我们模仿AlexNet的训练方案。设置为128的batchsize无法使准确率进一步提高;将学习率减少至原来的十分之一,并在最多两次迭代后停止调整。

4.2CIFAR-10

CIFAR-10数据集涵盖共计5万零图片用于训练以及仅占总样本量约1/5的部分用于测试。每一张图片均为分辨率32 by 32的RGB图像,在该数据集中我们特意选取了最后1千零4百张训练图片来构成验证集。

如图3所示,在MLPConv层之间引入Dropout技术来增强网络性能,在测试集上的错误率降低了超过20%。我们采用了图像平移和平移翻转作为数据增强措施。

4.3CIFAR-100

CIFAR-100数据集与CIFAR-10数据集在图像尺寸规格上完全一致,在分类任务中涉及的类别数量也有所不同:前者分为124个类别而后者则仅有24个类别。值得注意的是,在架构设计上与该模型基本一致的是我们所提出的改进型ResNet网络,在于其最后一层全连接层(mlpconv)的输出维度有所提升——具体来说,在标准ResNet的基础上增加了5倍的计算量以实现分类任务所需的结果多样性。

4.4Street View House Numbers

该数据集包含630,420张分辨率均为32×32的彩色图像,划分为训练集、测试集以及额外的数据源。识别任务旨在识别图像中心处所展示的数字。所采用的架构采用了全局平均池化技术

4.5MINST

MINST 数据集中的图像均为 28×28 像素的单色手写数字图像,并包含 6 万张训练图片和 1 万张测试图片。采用了类似于 CIFAR-10 的数据架构, 然而每个 MLP 所生成的特征图数量有所减少, 这是因为该任务相对简单, 所需参数量较少, 我们未对数据进行增强处理即进行测试。也取得了显著的效果。

4.6Global Average Pooling as a Regularizer

我们在CIFAR-10数据集上进行测试,对比了全局池化与FC层的效果。

能够观察到缺乏dropout层的全连接(FC)层在测试集上的性能最差

在此基础上, 我们研究了全局平均池化在传统CNN架构中的正则化能力。通过构建一个基于传统CNN架构的深度学习模型: 包括三层卷积层和一个局部性映射层, 局部连接层输出了16个特征图经后处理得到带Dropout的全连接层输出结果。为了保证实验的一致性, 我们将数量缩减至与类别数目一致(如CIFAR-10数据集中的10个类别)。随后我们将该模块替换进全连接层后进行验证实验, 在CIFAR-10数据集上评估性能变化情况。

采用全连接层(FC)的模型达到了最低误分类率,在测试集上的误分类率达到最低水平为17.5%。通过引入Dropout技术优化后,在测试集上的误分类率进一步降至15.99%。采用全局平均池化层进行特征提取后,在测试集上的误分类率约为16.46%,这略高于未使用Dropout技术时基于CNN获得的结果(约提升约1%)。这一结果表明,在一定程度上全局平均池化层作为一种有效的正则化手段能够提升模型性能(误分类率约为提升约1%),但其效果略逊于Dropout技术。

4.7Visualization of NIN

我们显著提升了神经网络中的MLP卷积层对特征图的表现能力。效果如何?我们直接获取了在CIFAR-10数据集上经过训练的模型中最后一个MLP卷积层的输出,并对其进行了可视化展示。

如图4所示,则展示了若干实例图像与其对应类别特征图。观察发现,在所有特征图中具有最高激活值的是ground truth类别对应的特征图,并且其增强程度主要得益于全局平均池化机制的作用。进一步分析可知,在ground truth类别对应的特征图上我们可以观察到最强的激活值出现在与目标在原有图像中的相对应位置上。若训练数据不仅包含类别标签还包含目标框信息,则效果将更加显著。

这个可视化进一步验证了NIN的有效性,并通过基于更强局部感受野网络结构来进一步提升性能;全局平均池化机制又增强了类特征图的表现能力;这些技术方案都可以应用于目标检测任务中

5.Conclusions

本研究提出了一种新型深度网络NIN。该网络架构由两个关键组件构成:首先包含MLPConv模块(通过多层前馈神经网络实现卷积操作),其次采用全局平均池化替代全连接层。值得注意的是,在特征提取方面,该模块表现出比传统方法更为突出的优势。同时,在防止过拟合问题方面具有显著的效果。通过该网络架构在多个实验数据集上的测试与对比分析表明,在分类任务中表现出了较高的准确性和稳定性。通过对中间层特征图的可视化分析可知,在最后一层中生成的MLPConv输出结果能够有效反映各类别特征,并且这一特性也有助于提升基于NIN进行目标检测的效果。

全部评论 (0)

还没有任何评论哟~