【卷积神经网络】经典分类网络结构
经典分类网络结构
-
学习目标
-
1. LeNet-5解析
-
- 1.1 网络结构
- 1.2 参数形状总结
-
2. AlexNet
-
3. 卷积网络结构的优化
-
- 3.1 常见结构特点
-
第四节 Inception模块
- 第四节第1小节 MLP卷积(基于1×1尺寸的卷积)
- 第四节第1小节第2条 MLP的定义(即基于单像素尺寸的卷积操作)
- 第四节第2小节 输出通道数量变化情况
- 第四节第3小节 Inception模块的工作原理
- 第四节第4小节 基于Inception的设计策略优化
- 第四节第5小节 GoogLeNet模型架构概述
- 第四节第1小节 MLP卷积(基于1×1尺寸的卷积)
-
5. 卷积神经网络用于展示特征
-
6. 案例研究:基于预训练模型实现VGG分类预测
-
7. 总结与展望
学习目标
- 学习目标
-
掌握LeNet-5的基本架构
-
熟悉主流的分类器设计思路
-
理解几种典型卷积神经网络的优化策略
- 探讨NiN网络中一维可分离卷积层的工作原理及其在特征提取中的应用
- 分析Inception模块在提升模型性能方面发挥的关键作用
-
了解卷积神经网络学习过程内容
-
下面我们将重点分析几种典型网络架构,并深入探讨大多数网络的基本特征。在这里,请让我们了解卷积神经网络的发展历程。

1. LeNet-5解析
随后我们采用了改进后的卷积网络架构(此处对原名进行了适当调整),其主要目标便是识别并分类数字图像。系统将逐步阐述整个网络架构的设计原理,并对各层输入与输出之间的关系进行详细推导。
1.1 网络结构

- 激活层 通常不在网络图中进行绘制,默认情况下。
- 该网络结构当时采用了sigmoid和Tanh函数,并未采用Relu函数。
- 将其视为一层,并且即使未包含参数也可以完成相应的功能。
1.2 参数形状总结
| shape | size | parameters | |
|---|---|---|---|
| Input | (32,32,3) | 3072 | 0 |
| Conv1(f=5,s=1) | (28,28,6) | 4704 | 450+6 |
| Pool1 | (14,14,6) | 1176 | 0 |
| Conv2(f=5,s=1) | (10,10,16) | 1600 | 2400+16 |
| Pool2 | (5,5,16) | 400 | 0 |
| FC3 | (120,1) | 120 | 48000+120 |
| FC4 | (84,1) | 84 | 10080+84 |
| Ouput:softmax | (10,1) | 10 | 840+10 |
- 中间的特征大小变化不宜过快
事实上,在过去几十年里,众多机构及学者开发了多种类型的网络架构。深入研究现有模型的结构与机制是探索如何构建有效的网络架构的最佳途径。其中,在ImageNet挑战赛中取得优异成绩成为主流做法,并被广泛应用于各类实际应用场景中。
2. AlexNet
2012年,Alex Krizhevsky和Ilya Sutskever在多伦多大学Geoff Hinton的研究团队下研发出了一种深度卷积神经网络——AlexNet,在该年度的ImageNet LSVRC比赛中获得了冠军,并且其准确率显著高于 runner-up(其中top5误差率为15.3%,而第二名为26.2%)。这一成果引发了广泛关注,并使该网络架构成为具有里程碑意义的神经网络结构。

- 网络规模:约6千万个参数(其中包含五组二维卷积层和三层全连接结构)
- 该网络采用了非线性激活函数ReLU进行特征提取
- 通过应用Dropout技术减少模型过拟合的可能性
- 批标准化模块被成功引入到网络结构中
3. 卷积网络结构的优化
3.1 常见结构特点
整个过程:AlexNet—NIN—(VGG—GoogLeNet)—ResNet
NIN 引入单像素核卷积后,在 VGG 基础上取得了突破性进展。
该网络架构在2014年的图像分类比赛中获得第二名(仅落后 GoogLeNet 一点),并首次实现目标域检测任务的最佳表现。
值得注意的是:
- 计算资源消耗显著高:1.4\times 10^8 参数
- 网络深度较深:共 19 层
- 模型架构分为:
- VGG 16
- VGG 19

- GoogleNet作为2014年的人工智能竞赛中的冠军级模型,在该领域展现了卓越的技术实力。
- 该模型揭示了一种关键机制:通过增加卷积层的数量和深度能够显著提升网络性能。
- 同时需要指出的是,在此过程中并未验证较浅层结构的效果是否存在同样优势。
- 模型规模较大的参数量
- 包含22层
- 采用Inception模块方案
- 基于InceptionV1的设计方案
- 改进至InceptionV2的方案
- 继承自InceptionV3的技术路线
- 最新版本则采用InceptionV4架构

在接下来的部分中, 我们将对卷积网络架构中的常见模块进行详细分析, 以探究这些模块所带来的优势。
4. Inception 结构
在NiN结构中所起的作用的是应用了1×1卷积结构。
4.1 MLP卷积(1x1卷积)

- 目的 : 该研究旨在构建一种新型深度网络架构,并命名为"网络中的网络"(NIN),以强化其在局部区域的特征区分能力。
- 做法 : 本研究采用了多层感知机(MLP)卷积作为替代方案,取代了传统的线性卷积核设计。
作用或优点:重要性: 重要作用: 通过可逆设计实现了通道数的增减功能的同时降低了模型复杂度
多个一乘一卷积层不仅可以减少计算量还能灵活调节通道数量 这种设计大大提升了模型性能
4.2 1x1卷积介绍

从图形界面观察到实现一个1 \times 1卷积的过程,在此基础之上假设仅包含3个1 \times 1滤波器的情况下,则输出尺寸维持在56×56×3的结果不变。然而,在每个滤波器内部具备三个参数作用机制时
- 1、看作是对三个通道进行了线性组合。
从技术角度来看, 这些滤波器被理解为一个简单的神经元结构, 其中每个神经元参数的数量与前一层的输出通道数完全一致, 从而确保了参数数量的一致性.
经过完成卷积操作后,在后续步骤中立即加入非线性激活函数,则可构建一个较为基础的多层感知机(MLP)模型。
4.3 通道数变化
实际上,在1x1网络中对通道数量的影响并非其核心优势所在。相比之下,在3×3和5×5卷积层中同样能够实现通道数量的调整。
而1x1卷积的参数并不多,我们拿下面的例子来看。

- 保持通道数不变
- 提升通道数
- 减少通道数
4.4 Inception层
这个结构 其实还有名字叫盗梦空间结构 。
目的:替代人工决定使用1x1、3x3或5x5层,并由网络自动选择合适的层结构以减少不必要的计算负担。

- 主要特点在于所有卷积和池化操作后的输出均呈现出一致的尺寸。
- 特殊类型的池化层通过添加padding并设定步长为1的方式实现了尺寸的一致性,并采用了32个通道数进行处理。
- 输出的空间维度为固定大小即28×28,在深度方向上则达到了256个通道。
- 在参数数量上具有显著优势,在分类任务中的性能表现与AlexNet或VGG等知名模型相当。
4.5 Inception改进
改进目的 :减少计算,如5 x 5卷积那的运算量

- 上面的参数:5 x 5 x 32 x 192 =153600
- 下面的参数:192 x 16 + 5 x 5 x 16 x 32 = 3072 + 12800 = 15872
由于该结构涉及大量计算,在优化过程中可能会遇到瓶颈问题。为了优化该结构,我们将这一改进称为网络中的"瓶颈"。当缩小该网络时其规模反而增大。
那么这样改变会影响网络的性能和效果吗?
GoogleNet也就是这样展现了很好的性能。通过合理设计的网络架构中采用Inception模块能够使得计算开销降低带来显著的性能提升。
4.6 GoogleNet结构
其中包含了多个Inception 结构。

完整结构:

5. 卷积神经网络学习特征可视化
我们肯定会有疑问真个深度的卷积网络到底在学习什么?
可以通过网络学习过程中生成的特征图进行可视化呈现,并与原始图像进行对比分析,观察各层处理后的效果。
- 可视化案例使用的网络

- 可视化结果





在卷积神经网络中,
layer1和layer2所提取的基础特征主要集中在图像的低级属性上,
例如颜色和边缘等基本元素。
随后,
layer3开始学习更加复杂的纹理特征,
其中包含了如网格纹理等具有特定模式的细节。
而到了layer4阶段,
模型能够识别出更高级别的抽象特征,
例如能够分辨出动物头部形状的关键特性。
最终,
在layer5中,
网络会捕捉到更为完整的独特鉴别特征,
从而实现对图像内容的深入理解。
6. 案例:使用pre_trained模型进行VGG预测
Google 在支持单个预测任务(如 VGG)时表现出色。因此我们采用 VGG 以评估其性能。
卷积神经网络
卷积神经网络
卷积神经网络
7. 总结
熟悉LeNet-5网络的工作原理及其计算方式
加油!
感谢!
努力!
