Advertisement

论文笔记:ImageNet Classification with Deep Convolutional Neural Networks

阅读量:

ImageNet Classification with Deep Convolutional Neural Networks

概要

开发了深度卷积神经网络模型Alexnet旨在对ImageNet图像数据集进行分类。在2012年ILSVRC分类比赛中取得了优异成绩。

  • 经过基于ImageNet的训练后, 该卷积神经网络达到了当时最佳的分类效果。
  • 通过GPU优化的卷积运算和其他计算手段的应用, 在CNN模型中实现了高效的处理。
  • 为了提升模型性能并降低过拟合风险, 我们引入了一系列新的技术手段。

数据集

ImageNet涵盖大约2.2万个类别,并总计约1.5千万张带标签的图片的数据集。ILSVRC比赛采用ImageNet的一个子数据集,涉及大约1千个类别。

在预处理阶段, 对所有图像进行尺寸调整至 ^{2} \times 1^{4} \times 1^{4} 像素; 对于呈长方形的图片, 则将其短边缩放到 ^{1} \times 1 像素, 并从中截取中心区域.

网络结构

整个网络包括5层卷积层和3层全连接层,其中使用了一些当时的新技术。

ReLU

文章提出了新的激活函数ReLU:

对于深度卷积神经网络,使用ReLU的训练速度远远快于tanh。

多GPU训练

当时的GTX580GPU只有3GB内存,大大限制了可训练的网络大小。

文章将网络拆分在了两个GPU上进行训练,将top-1和top-5错误率降低了1.7%和1.2%。

LRN

文章提出了局部响应归一化LRN:

其中ax,yi表示(x,y)位置上第i个kernel的计算结果。

在某些特定层应用了一种基于LRN的技术后,在经过ReLU激活函数的基础上实现了更好的特征提取效果。其中参数包括k=2、n=5、α=1×10^-4、β=0.75,在测试集上使top-1和top-5分类错误率分别降低了1.4%和1.2%。

重叠池化

网络采用了大小为3×3、步长设置为2的池化层,在池化过程中实现了部分区域的重叠覆盖,并成功地将top-1和top-5分类错误率分别减少了0.4%和0.3%。

整体结构

第一个卷积块从输入分辨率224\times 224\times 3的数据图像出发,并应用了96组11\times 11\times 3大小的空间可学习滤波器进行特征提取(并行计算分布在两个GPU上)。第二个卷积块采用了5\times 5\times 48大小的空间可学习滤波器共256组进行特征提取。第三个卷积块运用了3\times 3\times 256大小的空间可学习滤波器共384组继续深度提取特征。第四和第五个小块分别应用了K \times K \times C_{in}大小的空间可学习滤波器(分别为K=3, C_{in}=192)以及K=3, C_{in}=192的小尺寸滤波器组共分别对应于数量均为C_out=分别为\{C_{out}=}\{C_{out}=}的情况。全连接网络包含多个隐藏单元以实现分类任务目标,并最终输出空间维度为\{C_{out}=}

减少过拟合

数据增强

从大小为[公式] [公式] 的图像中随机提取大小为[公式] [公式] 的区域,并对其水平方向进行镜像翻转。这样可使训练样本数量增加至原来的约[数值] 倍。有效降低了模型过拟合的风险,在预测过程中采用被测样本的四个角落区域以及中心位置处的缩放后的子窗口。

另一种方法是调整图像RGB通道的亮度。该文章首先通过主成分分析处理RGB像素值。接着,在每张训练图像中加入以下计算结果:将每个主成分与其对应的特征值相乘,并与均值为1、标准差为0.1的随机数值相乘的结果相加,并将此结果作为后续处理的基础。

这种方法可以降低top-1错误率1%。

dropout

dropout会随机以特定概率将部分神经元置零而不参与运算;其作用是使每个训练样本都会产生不同的网络结构但仍共享相同的权重参数;在推理过程中所有神经元均恢复全部活性但输出结果需乘以一个因子0.5;这样处理有助于降低模型过拟合程度

训练细节

训练使用随机梯度下降,每个batch128个样本,学习率0.0005。

权值初始化遵循均值为零、标准差为零点零一的高斯分布规律,在第2、4、5个卷积层以及全连接层中设置了偏置参数为一的设定,在其他相关组件中则保持偏置参数设置为零的状态。

结果

在ILSVRC-2010数据集上网络取得了top-1和top-5错误率37.5%和17.0%。

全部评论 (0)

还没有任何评论哟~