(AlexNet)ImageNet Classification with Deep Convolutional Neural Networks阅读笔记
基于深度卷积神经网络的ImageNet分类
可在线访问的学术资源链接:http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks
论文主要贡献
AlexNet以其创新性地将LeNet的核心理念进行了深化与拓展,并将其基本原理成功应用于深度且宽度较大的网络架构中。这项研究的主要创新之处体现在以下几个方面:
归一化好处
归一化处理有助于加快网络的收敛速度;
通过引入竞争机制,在局部神经元中较大的响应值会相对放大并抑制较小反馈的神经元。
神经网络的学习过程本质上就是学习数据分布特征的过程;一旦训练数据与测试数据的经验分布存在显著差异,则网络的学习能力会受到严重影响;此外,在每次迭代过程中采用不同批次的数据进行梯度下降(batch gradient descent)训练时,则需要不断适应新的数据分布特性;这种特性会导致网络的学习效率降低。
值得注意的是,在深度网络中各层之间的学习具有严格的依赖关系:一旦前面几层出现微小的变化,则会导致后续各层的学习效果发生相应变化;如果在训练过程中输入数据的经验分布不断发生变化,则会显著影响整个网络的学习速度。

a代表经过卷积层处理(包括卷积运算和下采样)后的输出数据,
这个输出数据的结构是一个四维数组[batch,height,width,channel],
其中:
- batch:批次数量(每一批是一张图片),
- height:图像高度,
- width:图像宽度,
- channel:通道数(即每个图片经过处理后在某个特定通道下的神经元数量)。

该训练者开发了一个规模较大的深度卷积神经网络,并将其应用于ImageNet lsvprc -2010竞赛的数据集。该网络能够将120万张高分辨率图像分类到1000个不同的类别中。在测试数据集上取得了优异成绩,在前1名错误率方面达到了37.5%,远优于之前的记录;同时在前5名错误率方面也取得了显著的成绩(17.0%)。该模型拥有6千万参数以及65万个神经元,并由多个组件模块构成包括5个卷积层以及3个全连接层等关键组件模块组成。其中一些卷积层之后紧跟max-pooling层以进一步精炼特征信息,并最终通过一个具有1000输出单元的softmax层完成分类任务。为了提高效率,在设计时采用了非饱和神经元并借助高效GPU实现了快速的卷积运算过程。此外为了防止过拟合问题采用了一种称为“dropout”的正则化方法这一技术手段已被证明非常有效可靠并且得到了广泛应用。最后在ilsvrc -2012竞赛中通过引入一种变体模型取得了令人瞩目的成绩其前5名测试者的准确率达到15.3%相较于第二名选手的26.2%表现出了显著的优势。
译文
1、introduction
目前的目标识别方法主要使用机器学习方法。为了提高它们的性能,我们可以收集更大的数据集,学习更强大的模型,并使用更好的技术来防止过度拟合。直到最近,带标签的图像数据集还相对较小——大约是数万个图像的数量级(例如,NORB[16]、Caltech-101/256[8,9]和CIFAR-10/100[12])。使用这种大小的数据集可以很好地解决简单的识别任务,特别是如果用保存标签的转换来扩展它们。例如,MNIST数字识别任务的当前最佳错误率(0.3%)已经接近人类表现[4]。但是,在现实环境中,物体表现出相当大的可变性,因此,为了学会识别它们,有必要使用更大的训练集。事实上,小型图像数据集的缺点已经得到了广泛的认识(例如,Pintoetal.[21]),但它只是最近才开始能够收集具有数百万张图像的标记数据集。新的更大的数据集包括LabelMe[23],它由数十万张完全分割的图像组成,和ImageNet[6],它由超过22000个类别的超过1500万张标记的高分辨率图像组成。
要从数以百万计的图像中了解成千上万的物体,我们需要一个具有巨大学习能力的模型。然而,对象识别任务过于复杂性,即使使用像ImageNet这样大的数据集也无法解决这个问题。因此,为了补偿我们的数据欠缺,我们的模型还应该具有大量的先验知识。卷积神经网络就是具有先验知识的模型之一[16,11,13,18,15,22,26]。它们的能力可以通过改变网络的深度和宽度来控制,它们还对图像的本质(即统计的平稳性和breadth像素依赖性)做出了强有力且基本正确的假设。因此,与同样大小层的标准前馈神经网络相比,卷积神经网络具有更少的连接和参数,因此更容易训练,且性能只会稍逊色一些。
尽管CNNs具有诱人的性能,尽管其局部架构效率很高,但将其大规模应用于高分辨率图像的成本仍然高得令人望而却步。幸运的是,目前的GPU加上高度优化的二维卷积实现,已经足够强大,可以促进大型CNNs的训练,而且最近的数据集(如ImageNet)包含了足够多的标记示例,可以训练不会出现严重过拟合问题的模型。
本文的具体贡献如下:我们对在ILSVRC-2010和ILSVRC-2012比赛[2]中使用的ImageNet的子集数据训练了迄今为止最大的卷积神经网络之一,并取得了迄今为止在这些数据集上报道过的最好的结果。我们编写了一个高度优化的2D卷积的GPU实现和所有其他的训练卷积神经网络的固有操作,我们已经把这些公开1。我们的网络包含了许多新的、特殊的的特征,提高了网络性能,减少了训练时间,这些将在第3节详细讲述。即使有着120万个训练数据,我们的网络规模还是过大,这使我们不得不重视过拟合问题,所以我们使用了一些有效的技术来防止过度拟合,这将在第4节中描述。我们最终的网络包含5个卷积层和3个全连接层,这个深度似乎很重要:我们发现去掉任何卷积层(每个层都包含超过1%的模型参数)都会导致性能下降。
最后,网络的规模主要由当前GPU的可用内存和我们愿意花费的训练时间的限制。我们的网络在两个GTX 580 3GB GPU上需要训练5到6天的时间。我们所有的实验都表明,更快的GPU和更大的可用数据集都可以改善结果。
2、The dataset
ImageNet是一个包含超过150万张标注图像的巨大数据库,并划分为22,000个类别。这些图像主要来自网络,并通过Amazon Mechanical Turk的人工标注工具进行分类标记。自2010年起,在Pascal视觉对象挑战赛框架下每年举办一次名为ImageNet大型视觉识别挑战赛(ILSVRC)的比赛活动。ILSVRC采用ImageNet的一个子集共1,000个类别,在每个类别中约有1,000张图像构成训练集、5,000张作为验证集和15,000张作为测试集图片资料库的大规模视觉识别挑战赛数据集共有约375万张图片
3、The Architecture
该网络架构如图所示。该架构由八个学习层构成:其中五个是卷积层、三个是全连接层。接下来,我们将阐述该网络架构的独特之处及其创新特征。各章节按照其重要性程度被排序:其中最重要者排于首位。

- 3.1 ReLU Nonlinearity
将输出函数f视为输入变量x的形式进行建模的标准方法是采用双曲正切函数(tanh)或sigmoid函数来表示其形式。从基于梯度的时间效率角度来看,在实现相同激活程度的情况下, 饱和类型的非线性单元(如max(0,x))相较于这些饱和类型的非线性单元而言, 显著降低了收敛速度甚至停滞不前的可能性。继Nair和Hinton[20]之后, 我们将具有max(0,x)这种特性的一类神经元称为修正线性单元(ReLU)。与传统tanh激活函数相比, 使用ReLU激活函数构建深度卷积神经网络能够实现显著更高的训练效率(快了数倍)。具体展示了在一个特定的四层卷积网络架构下, 在CIFAR-10数据集上达到25%训练误差所需的具体迭代次数(Iterations)。该图表明确显示:如果采用传统的饱和型神经元模型来进行参数优化, 就无法有效利用规模较大的神经网络架构来进行实验研究。

此前已有研究者已在CNN架构中探索过替代传统神经元模型的想法。例如,在Jarrett等人(2011)的研究中指出非线性函数f(x)=|tanh(x)|与其变体之间的对比归一化方法,并通过采用局部平均值池化技术,在Caltech-101数据集上的实验结果显示显著优势。然而,在该数据集上,则更关注于防止过拟合问题,并发现这一效果与采用ReLU激活函数时提升训练集适应速度的效果存在差异。对于大型模型而言,在处理大规模数据时其性能表现会受到较大程度的影响。
-
3.2 Training on Multiple GPUs(在多个GPU上训练)
GTX 580 GPU只有3GB的内存,这限制了可以在其上训练的网络大小。事实证明,GPU无法容纳120万个训练样本训练出的网络。因此,我们将网络分布在两个gpu上。现在的GPU可以很好地跨GPU并行,因为它们不需经过主机内存就可以直接读写彼此的内存。
我们采用的并行方案实际上是将一半的内核(或神经元)放在每个GPU上,还有一个额外的技巧:GPU只在特定的层中通信。这意味着,例如,第3层的内核从第2层的所有内核映射中获取输入。然而,第4层的内核只从位于同一GPU的第3层内核映射中获取输入。选择连接模式对于交叉验证来说是一个问题,但是这允许我们精确地调整通信量,直到它是计算量中可接受的一部分。由此产生的结构有点类似于Cires an etal使用的“柱状”CNN[5],只是我们的列不是独立的(参见图1)。与在一个GPU上训练每个卷积层一半内核的网络相比,该方案将我们的前1和前5级错误率分别降低了1.7%和1.2%。双gpu网络的训练时间比单gpu网络略短。 -
3.3 Local Response Normalization
ReLUs有一个理想的特性,即不需要对输入进行标准化,以防止其饱和。如果至少有一些训练的例子对ReLU产生了积极的输入,学习就会发生在那个神经元上。但是,我们仍然发现遵循局部正规化方案有助于泛化。用a^{i}_{x,y}表示在位置(x,y)应用核i计算得到的神经元活性,再应用ReLU非线性,得到响应归一化的b^{i}_{x,y}表达式:

在相同空间位置上进行n个相邻内核映射的求和运算(其中N表示层内的总核数),而内核映射的具体顺序则是在训练前就已经预先确定好的。这种响应归一化方法实际上是一种横向抑制机制的设计思想来源于真实神经元的行为模式,在不同神经元之间通过计算输出值实现了对大型活动区域的竞争抑制效果。为了便于模型训练与评估我们设定了一系列超参数:常数k、n、α和β均被设定为超参数,在验证过程中起关键作用;具体来说我们选择k=2 n=5 α=10^−4以及β=0.75这些具体数值作为实验的基础参数设置。在应用ReLU激活函数后我们引入了这一归一化过程(如3.5节所述)。
该方法与Jarrett等人提出的局部对比归一化方案存在相似之处但我们的设计更倾向于将此称为"亮度标准化"(Brightness Normalization)因为其未涉及平均值减除的操作步骤。通过响应规范化机制我们可以显著地提高模型的分类性能:具体而言测试集上的错误率分别降低了1.4%和1.2%(对应前1名和前5名分类任务)。此外我们在CIFAR-10数据集上的实验结果表明该方法具有良好的泛化性能:四层卷积神经网络在未经归一化的测试阶段表现出错误率为13%而在引入亮度标准化后错误率降至11%
-
3.4 Overlapping Pooling
CNNs中的池化层总结了同一内核映射中相邻神经元组的输出。一般的,相邻的池化层的邻区不重叠(如[17,11,4])。更确切地说,一个池化层可以看作是由一个间隔为s像素的池单元网格组成,每个网格汇总一个以池单元位置为中心的大小为z×z的邻域。如果我们设s = z,我们可以得到CNNs中常用的传统局部池。如果我们设置s <z,我们得到重叠池。这是我们在整个网络中使用的,s = 2 z = 3。与不重叠方案s = 2、z = 2相比,该方案top1和top5的错误率分别降低了0.4%和0.3%,产生了等维度的输出。我们在训练过程中观察到,具有重叠池的模型更不容易过拟合 -
3.5 Overall Architecture

如图所示, 此网络包含8个带权重的模块; 前5个模块由卷积操作构成, 剩余3个模块采用全连接设计. 最终, 最后一层全连接模块经由1000路softmax处理, 生成覆盖超过1000个类别标签的概率分布. 为了优化分类性能, 我们通过最大化多项式逻辑回归目标来构建此网络结构. 在此过程中, 第二、四、五模块中的卷积核仅与前一模块位于同一GPU上的核产生关联关系. 第三模块中的每个卷积核均与第二模块的所有核建立关联关系. 全连接模块中的每个神经元均与前一层的所有神经元相互联结. 在第一及第二卷积模块之后紧跟响应标准化组件. 参见第3.4节所述, 第五卷积模块同时参与响应标准化操作. 每一模块均采用ReLU激活函数进行非线性变换

2、convolutional 2

3、convolutional 3

4、convolutional 4

5、convolutional 5

6、full-connected 6

7、full-connected 7

8、full-connected 8

第一卷积层对输入图像224\times 224\times 3进行处理时采用了11\times 11\times 3的96个卷积核(每个GPU分配48个),其步长设定为4(这是指相邻卷积核空间中神经元中心点之间的间距)。随后采用3\times 3的最大池化操作进行降采样处理,并设置池化的步长为2。第二卷积层将前一层经归一化处理后输出的数据作为输入,并采用5\times 5\times 48的总共有256个卷积核(每个GPU分配128个)进行滤波操作,在此过程中也设置了步长为2的最大值池化操作。第三、四、五卷积层之间直接关联而不设置任何中间池化或规范化步骤。第三卷积层包含大小为3\times 3\times 256并共有384个(每个GPU分配192个)的卷积核以连接第二卷积层的输出数据(经过归一化融合)。第四卷积层同样包含大小为3\times 3\times 192并共有384个内核;第五卷接包含了大小仍为3\times 3\times 192但数量减少至共拥有256个内核。最后全连接层各自拥有数量分别为4096个神经元节点。

4、Reducing Overfitting
该系统包含拥有6,872,456个参数的神经网络架构设计。
ILSVRC分类器中的1,002个类别对每个训练样本从图像到标签之间的映射施加了严格的约束条件。
然而这些约束条件不足以防止模型在训练过程中过度拟合这些数据。
接下来我们将详细阐述两种主要策略以有效防止模型过度拟合。
- 4.1 Data Augmentation
减少图像数据过拟合的最简单和最常见的方法是使用标签保留转换(例如,[25,4,5])来人为地扩大数据集。我们采用了两种不同的数据增强形式,这两种方法都允许从原始图像生成转换后的图像,并且只需要很少的计算,因此转换后的图像不需要存储在磁盘上。在我们的实现中,转换后的图像是用Python代码在CPU上生成的,而GPU则正在训练前一批图像。因此,这些数据扩充方案实际上是不需要计算的。
数据增强的第一种形式包括产生图像变换和水平翻转。我们从256×25张图像中随机抽取224×224块图像(以及它们的水平翻转)实现了这种方式,并在这些图像上训练我们的网络。这将我们的训练集的大小增加了2048倍,尽管由此产生的训练示例当然是高度相互依赖的。如果没有这个方案,我们的网络就会出现严重的过度拟合,这将迫使我们使用更小的网络。在测试时,网络通过提取5个224×224个patch(四个角patch和中心patch)以及它们的水平翻转(总共10个patch)进行预测,并将网络的softmax层在这10个patch上做出的预测求平均。


另一种数据增强方式是通过调整RGB通道强度来实现。具体而言,在整个ImageNet训练集中执行主成分分析(PCA)。对于每一个训练样本图像Ixy=[IxyR,IxyG,IxyB]T,在其各个RGB通道上叠加经过计算得到的结果:[p1,p2,p3][α₁λ₁,α₂λ₂,α₃λ₃]T。其中p_i和λ_i分别代表RGB像素3×3协方差矩阵中的第i个特征向量和对应的第i个特征值;α_i则来自前面提到过均值为0、标准差为0.1的高斯分布(Gaussian distribution)中的随机变量。每个α_i仅在一次迭代中被使用一次,并在下一次图像训练前重新采样以获得新的系数集合。这种方法近似地捕捉到了自然图像中的一个重要特性:即使光照的颜色和亮度发生变化时也不会影响目标物体的身份特征;该方法较之前的版本减少了top 1测试错误率至少超过1%
4.2 Dropout
通过集成多种模型的预测来降低测试误差[1, 3]是一种非常成功的策略之一;但对于需要持续几天时间进行训练的大规模神经网络来说,这种方法似乎过于昂贵。然而,在这种情况下效果显著的一种模型组合方法只耗费两倍于训练成本。这是一种最近引入的技术叫做“dropout”[10];它会以50%的概率将每个隐层神经元的输出设为零。这些"失活"神经元不再参与前向传播或反向传播过程。因此,在每次输入时神经网络都会采样出一个不同的架构结构;但所有架构都共享相同的权重参数。该技术通过减少复杂神经元之间的相互适应性来提高性能(因为一个神经元无法依赖特定其他神经元的存在),迫使网络学习更加鲁棒的特征表示:在与其他多个随机子集神经元结合时这些特征会更加有用。在测试阶段我们使用全部神经元但它们的输出乘以0.5;通过对指数数量级的不同失活模式预测分布进行几何平均这是一种合理的近似方法。
我们在图2中的前两个全连接层采用了这个方法如果没有采用dropout技术我们的网络会在训练过程中出现严重的过拟合现象;而采用dropout大致使收敛所需的迭代次数翻了一番。
5、Details of learning
我们使用随机梯度下降来训练我们的模型,样本的batch size为128,动量为0.9,权重衰减为0.0005。我们发现少量的权重衰减对于模型的学习是重要的。换句话说,权重衰减不仅仅是一个正则项:它减少了模型的训练误差。权重w的更新规则是:
v_{i+1}:=0.9v_i-0.0005 \epsilon w_i-\epsilon< \left.\frac{\partial L}{\partial w}\right|_{w_i}>_{D_i}
w_{i+1}:=w_i+v_{i+1}
i是迭代索引,v是动量变量,\epsilon是学习率,< \left.\frac{\partial L}{\partial w}\right|_{w_i}>_{D_i}是目标函数对w,在w_i上的第i批微分D_i的平均
我们使用均值为0,标准差为0.01的高斯分布对每一层的权重进行初始化。我们在第2,4,5卷积层和全连接隐层将神经元偏置初始化为常量1。这个初始化通过为ReLU提供正输入加速了学习的早期阶段。我们在剩下的层将神经元偏置初始化为0。
我们对所有的层使用相等的学习率,这个学习率是我们在训练过程中手动调整得到的。当验证误差在当前的学习率下停止减小时,我们遵循大佬们的经验将学习率除以10。初始学习率为0.01,在训练停止之前降低三次。我们遍历120万图像的训练数据集,迭代约90次来训练神经网络,在两个NVIDIA GTX 580 3GB GPU上花费了五到六天。
6、Results
大佬的一些成果,错误率指标等,此处略去一万字
- 6.1 定性评估(Qualitative Evaluations)
如图所示,在全连接层中网络学得了大量频率相关和方向选择相关的滤波器,并掌握了各种颜色特征。值得注意的是两个GPU表现出的专业化特性,在第3.5节所述受限制连接的结果中得到体现。GPU 1上的滤波器主要表现为无色特征,在每次运行时都会展现出这种专业化特性;而GPU 2上的滤波器则主要表现为色彩相关的特征,并且这种特性与基于GPU重新编号的不同随机权重初始化方法无关。

在下图的左侧部分,我们通过计算8张测试图像上的top-5预测结果来定性评估网络学到了什么内容。值得注意的是即使目标不在图像中心位置也能被网络识别出来例如左上角的小虫子这一现象表明大多数top-5标签都是合理的。例如对于美洲豹这一物种只有其他种类的猫被认为是看似合理的标签。而在某些案例中如格栅和樱桃等图片中网络对焦点区域的识别效果并不理想

(左)8张ILSVRC-2010测试图像和我们的模型认为最可能的5个标签。每张图像的下面是它的正确标签,正确标签的概率用红条表示(如果正确标签在top 5中)。(右)第一列是5张ILSVRC-2010测试图像。剩下的列展示了6张训练图像,这些图像在最后的隐藏层的特征向量与测试图像的特征向量有最小的欧氏距离。
探索网络可视化知识的另一种方式是思考最后的4096维隐藏层在图像上得到的特征激活。如果两幅图像生成的特征激活向量之间有较小的欧式距离,我们可以认为神经网络的更高层特征认为它们是相似的。图4表明根据这个度量标准,测试集的5张图像和训练集的6张图像中的每一张都是最相似的。注意在像素级别,检索到的训练图像与第一列的查询图像在L2上通常是不接近的。例如,检索的狗和大象似乎有很多姿态。我们在补充材料中对更多的测试图像呈现了这种结果。
通过两个4096维实值向量间的欧氏距离来计算相似性是效率低下的,但通过训练一个自动编码器将这些向量压缩为短二值编码可以使其变得高效。这应该会产生一种比将自动编码器应用到原始像素上[14]更好的图像检索方法,自动编码器应用到原始像素上的方法没有使用图像标签,因此会趋向于检索与要检索的图像具有相似边缘模式的图像,无论它们是否是语义上相似。
7、Discussion
我们研究表明,在高度具有挑战性的数据集上利用纯监督学习配置大型深度卷积神经网络可以获得非常理想的效果。值得注意的是,在移除一个卷积层的情况下我们的模型性能会有所下降。例如,在移除任何一个中间层时都会导致top-1精度下降约2%。因此深度参数对于实现我们的研究结果至关重要。为了简化实验过程我们未采用任何无监督预训练方法尽管我们期望这种方法在计算资源充足的条件下会有助益特别是在当标注数据量无法同步增长时增大网络规模可能会带来帮助。到目前为止我们的研究结果已有所提升主要得益于更大的网络架构和更长的训练时间但我们仍需进一步提高以达到与人类视觉系统下颞线相当的水平(视觉专业术语)。最后我们计划将该方法应用于视频序列分析因为视频序列的时间序列特性能够提供静态图像所不具备的重要信息这些信息在静态图像分析中往往缺失或不够明显。
Reference
[1] R.M.BellandY.Koren.Lessonsfromthenetflixprizechallenge.ACMSIGKDDExplorationsNewsletter, 9(2):75–79, 2007.
[2] A. Berg, J. Deng, and L. Fei-Fei. Large scale visual recognition challenge 2010. www.imagenet.org/challenges. 2010.
[3] L. Breiman. Random forests. Machine learning, 45(1):5–32, 2001.
[4] D. Cires ̧an, U. Meier, and J. Schmidhuber. Multi-column deep neural networks for image classification. Arxiv preprint arXiv:1202.2745, 2012.
[5] D.C. Cires ̧an, U. Meier, J. Masci, L.M. Gambardella, and J. Schmidhuber. High-performance neural networks for visual object classification. Arxiv preprint arXiv:1102.0183, 2011.
[6] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. ImageNet: A Large-Scale Hierarchical Image Database. In CVPR09, 2009.
[7] J. Deng, A. Berg, S. Satheesh, H. Su, A. Khosla, and L. Fei-Fei. ILSVRC-2012, 2012. URL http://www.image-net.org/challenges/LSVRC/2012/.
[8] L. Fei-Fei, R. Fergus, and P. Perona. Learning generative visual models from few training examples: An incremental bayesian approach tested on 101 object categories. Computer Vision and Image Understanding, 106(1):59–70, 2007.
[9] G. Griffin, A. Holub, and P. Perona. Caltech-256 object category dataset. Technical Report 7694, California Institute of Technology, 2007. URL http://authors.library.caltech.edu/7694.
[10] G.E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R.R. Salakhutdinov. Improving neural networks by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580, 2012.
[11] K. Jarrett, K. Kavukcuoglu, M. A. Ranzato, and Y. LeCun. What is the best multi-stage architecture for object recognition? In International Conference on Computer Vision, pages 2146–2153. IEEE, 2009.
[12] A. Krizhevsky. Learning multiple layers of features from tiny images. Master’s thesis, Department of Computer Science, University of Toronto, 2009.
[13] A. Krizhevsky. Convolutional deep belief networks on cifar-10. Unpublished manuscript, 2010.
[14] A. Krizhevsky and G.E. Hinton. Using very deep autoencoders for content-based image retrieval. In ESANN, 2011.
[15] Y. Le Cun, B. Boser, J.S. Denker, D. Henderson, R.E. Howard, W. Hubbard, L.D. Jackel, et al. Handwritten digit recognition with a back-propagation network. In Advances in neural information processing systems, 1990.
[16] Y. LeCun, F.J. Huang, and L. Bottou. Learning methods for generic object recognition with invariance to pose and lighting. In Computer Vision and Pattern Recognition, 2004. CVPR 2004. Proceedings of the 2004 IEEE Computer Society Conference on, volume 2, pages II–97. IEEE, 2004.
[17] Y. LeCun, K. Kavukcuoglu, and C. Farabet. Convolutional networks and applications in vision. In Circuits and Systems (ISCAS), Proceedings of 2010 IEEE International Symposium on, pages 253–256. IEEE, 2010.
[18] H. Lee, R. Grosse, R. Ranganath, and A.Y. Ng. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations. In Proceedings of the 26th Annual International Conference on Machine Learning, pages 609–616. ACM, 2009.
[19] T. Mensink, J. Verbeek, F. Perronnin, and G. Csurka. Metric Learning for Large Scale Image Classification: Generalizing to New Classes at Near-Zero Cost. In ECCV - European Conference on Computer Vision, Florence, Italy, October 2012.
[20] V. Nair and G. E. Hinton. Rectified linear units improve restricted boltzmann machines. In Proc. 27th International Conference on Machine Learning, 2010.
[21] N. Pinto, D.D. Cox, and J.J. DiCarlo. Why is real-world visual object recognition hard? PLoS computational biology, 4(1):e27, 2008.
[22] N. Pinto, D. Doukhan, J.J. DiCarlo, and D.D. Cox. A high-throughput screening approach to discovering good forms of biologically inspired visual representation. PLoS computational biology, 5(11):e1000579,2009.
[23] B.C. Russell, A. Torralba, K.P. Murphy, and W.T. Freeman. Labelme: a database and web-based tool for image annotation. International journal of computer vision, 77(1):157–173, 2008.
[24] J.SánchezandF.Perronnin.High-dimensionalsignaturecompressionforlarge-scaleimageclassification. In Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on, pages 1665–1672. IEEE,2011.
[25] P.Y. Simard, D. Steinkraus, and J.C. Platt. Best practices for convolutional neural networks applied to visual document analysis. In Proceedings of the Seventh International Conference on Document Analysis and Recognition, volume 2, pages 958–962, 2003.
[26] S.C.Turaga,J.F.Murray,V.Jain,F.Roth,M.Helmstaedter,K.Briggman,W.Denk,andH.S.Seung.Convolutional networks can learn to generate affinity graphs for image segmentation. Neural Computation, 22(2):511–538, 2010.
