深度卷积神经网络——Deep Convolutional Neural Networks
这份笔记是关于深度学习专家Hinton于2012年在NIPS期刊上发表的经典论文《ImageNet分类与深度卷积神经网络》的学习内容。
1.关于对数据集ImageNet的处理:
研究者将图片进行下采样处理以达到固定分辨率256×256的效果。对于一个矩形图像,在进行尺寸调整时会确保短边长度被精确设置为256像素,并随后提取中央区域作为一个大小为256×256的图像片段作为最终结果。在训练集的数据预处理过程中除了对每个像素执行均值归一化处理外并未采用其他复杂的预处理手段。Hinton在其网络模型中主要基于RGB值进行直接训练而不涉及额外的技术干预。
2.数据集:暂不作翻译和解析。
3.框架:包括5个卷积神经网络层和3个全连接层。
3.1. ReLU Nonlinearity.
一个神经元的激活函数划分为两种类型:一种是非饱和型(如tanh(x)),另一种是饱和型(如max(0, x))。Hinton将其命名为Rectified Linear Units(ReLUs)。与前者相比,在运行速度上提高了约六倍的原因在于当输入值为负时...无法发挥作用。
3.2.多GPU训练
因为单个NVIDIA GTX 580显卡仅提供3GB内存,在处理包含120万个训练样本的数据集时会遇到瓶颈问题。因此导致120万个训练样本无法一次性加载到同一块显卡内存中。从而使得Hinton提出了一种基于跨显卡并行的方法来解决这一挑战性问题。该方法的核心思想是通过技术手段将卷积核数量的一半分配到同一块显卡上,并进一步采用策略,在特定层之间实现数据交互与同步机制以提高计算效率和资源利用率。
3.3.局部响应归一化
ReLU具有显著的优点:无需对输入进行归一化处理即可避免饱和(saturating)。
此处未提供具体公式,请参考相关文献
3.4.重合池化
原本就是将一个矩形特征图(feature map)划分为多为不相交的小矩形(通常大小一致),然后每个小区域仅保留其最大值元素以生成新的特征图(feature map)。这一过程的主要意义在于显著降低计算复杂度的同时增强对平移变化的鲁棒性——即在图像 undergo 小幅度偏移后仍能有效提取具有相似特性的关键信息。而本节所讨论的是重合池化(overlapping pooling),其核心思想是突破传统池化方法中所要求的小区域必须互不重叠的限制条件——允许这些小区域之间存在一定程度的空间重叠区域(overlap)。根据Hinton的研究发现,在使用重合池化结构时不仅能够有效降低分类系统的错误率还能一定程度上减少模型发生过拟合的风险——这其实是一个非常巧妙的设计技巧。
