CNN图像分类模型(三)——VGGNet
一)简介
VGG Net是由牛津大学视觉几何组与Google DeepMind公司研究人员共同研发的一项具有里程碑意义的深度卷积神经网络,在第31届国际计算机视觉竞赛(ILSVRC 2014)中获得了第二名的成绩。
该方法的主要贡献在于采用了小尺寸滤波器以显著提升网络深度,并使该架构扩展至16至19层时展现出更高的模型效果。
二)VGGNet模型解析
论文中展示了一系列不同的VGG模型结构,如下图所示。

各网络均采用了通用架构设计模式,在此基础之上它们仅呈现出不同的深度层次。以A为例,在其架构中包含了总计11个权重层:其中8个为卷积结构、剩余3项则配置为全连接单元。B则由9个权重构成:其中6个为卷积结构、其余3项则配置为全连接单元。C则由7项权重组成:包括5项卷积模块以及2项以上的全连接组件依次排列组合而成。D同样遵循这一模式:采用4种不同的模块组合方式来构建其完整的计算流程框架。右侧所有架构均以A为基础构建而成。实验数据显示,在分类与定位任务中表现最为突出的是最后两组模型——即拥有最深深度的第16号与第19号VGGNet架构。
2.1)VGG-16网络结构
在网页上展示了VGG-16网络结构图更为清晰。其他人都可以访问该平台,并了解各层的大致情况。http://ethereon.github.io/netscope/#/gist/dc5003de6943ea5a6b8b

图像输入
该输入是一个尺寸为224×224像素的RGB图像,在预处理阶段计算得到三个通道各自的均值参数;随后会对每个像素进行减去均值的操作(该操作完成后会使得迭代次数减少并加快收敛速度)。
卷积层C1_1、C1_2
C₁₁层采用3×3大小的卷积核块,并包含64个滤波器;其padding设置为1; stride设置为1。
经过ReLU₁₁激活后得到的特征图维度为(Size) ₂₂₄×₂₂₄×₆₄。
C₁₁层采用3×3大小的卷积核块,并包含64个滤波器;其padding设置为1; stride设置为1。
经过ReLU₁₂激活后得到的特征图维度为(Size) ₂₂₄×₂₂₄×₆₄。
池化层P1
MaxPooling:核尺寸2x2,stride=2
特征图112x112x64
卷积层C2_1、C2_2
在C₂₁层中:卷积核尺寸为3×3矩阵形式且数量共计为128个;经过ReLU₂₁激活处理后得到特征图维度大小为[batch_size, 64, 64, 5]
池化层P2
MaxPooling:核尺寸2x2,stride=2
特征图56x56x128
卷积层C3_1、C3_2、C3_3
在C7_7层中使用了大小为三乘三的卷积核以及数量为700个神经元配置
池化层P3
MaxPooling:核尺寸2x2,stride=2
特征图28x28x256
卷积层C4_1、C4_2、C4_3
C4_1层:使用内核尺寸为3×3的卷积操作,并配置了516个内核;经过ReLU激活后得到输出特征图大小为[Height×Width×Channels]=[28×
池化层P4
MaxPooling:核尺寸2x2,stride=2
特征图14x14x512
卷积层C5_1、C5_2、C5_3
C5_1部分:采用3×3尺寸的卷积核块共计512个,在padding参数设置为1的情况下执行一次卷积运算;经过ReLU激活后的输出特征图尺寸为14×14×512
池化层P5
MaxPooling:核尺寸2x2,stride=2
特征图7x7x512
全连接层FC6
FC6:4096个7x7卷积核,映射到4096个神经元
ReLU6
Drop6:dropout ratio=0.5
全连接层FC7
FC7:4096个神经元,与FC6的神经元全连接
ReLU7
Drop7:dropout ratio=0.5
全连接层FC8
FC8:1000个神经元,与FC6的神经元全连接
softmax输出层
完成分类任务
2.2)VGG网络分析
相较于AlexNet, VGGNet凭借其独特的特点值得注意的是该种网络架构在图像识别领域取得了显著的研究成果
