Advertisement

CNN图像分类模型(四)——GoogLeNet

阅读量:

一)简介

基于LeNet和AlexNet框架设计的经验积累下形成的VGG架构通过小型卷积核与多层次结构实现了显著提升,并特别突出了'深度'这一关键因素的重要性。曾以某种架构在该竞赛中获得第一名的是另一种基于Inception范式的神经网络架构,在优化了计算资源利用效率的同时实现了更深广度(通道数)的设计目标。作为特定应用案例提交至该竞赛中的一例,在LSVRC14上被命名为GoogLeNet(致敬LeNet),它采用了拥有22层深层设计方案但仅包含AlexNet参数量级三分之一的独特架构设置。

二)GoogLeNet介绍

2.1)NIN简介

Network in Network(NIN)作为GoogleNet的重要组成部分。这些先前的网络架构(如LeNet、AlexNet和VGGNet)在设计理念上存在共通之处:它们均采用卷积层提取图像特征,并通过全连接层进行回归分类任务。除了引入ReLU激活函数与Dropout技术外,主要通过增加中间层的宽度与深度来优化模型性能。而NIN则提出了一种不同的方法:串联多个卷积层与全连接层构成小规模模块化结构,并以此为基础构建深层网络架构。

mlpconv层和1x1卷积

CNN高层特征主要由低层特征通过特定运算组合形成。基于这一思路, 作者进而提出了每个局部感受野中更为复杂的运算, 导出了MLP卷积层, 以替代传统的卷积结构。实际上由卷积与传统MLP相结合构成。因为Convolution是线性的, 而MLP是非线性的, 这样结合就能生成更高级别的抽象特征, 其泛化能力更强。下图对比了传统卷积层与MLP卷积层的结构。

在这里插入图片描述

另外,在mlp卷积层中被称为“全连接层”的其实是核尺寸为1x1的卷积层。关于其意义主要有两点:
1)通过实现跨通道信息的交互与整合来提升网络表达能力;
2)通过减少输入通道数量进而降低卷积核的数量及运算复杂度

全局均值池化(global average pooling)

该论文建议采用全局平均池化操作替代最终的全连接层。由于全连接层参数众多且容易过拟合因而会影响模型的整体泛化能力。采用全局平均池化操作能够缓解上述问题并带来显著的优势包括:相较于全连接层在参数数量上有所减少的同时也降低了过拟合的风险。此外该方法通过将特征图直接映射到类别特征从而简化了网络架构进而提升了计算效率。最后通过将空间位置上的特征进行汇总处理从而增强了模型对输入空间变换的鲁棒性。

2.2)GoogLeNet

引用:https://my.oschina.net/u/876354/blog/1637819
<>

全部评论 (0)

还没有任何评论哟~