Advertisement

【MobileNetsv1】: Efficient Convolutional Neural Networks for Mobile Vision Applications

阅读量:

MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

MobileNets:用于移动视觉应用的高效卷积神经网络

https://arxiv.org/pdf/1704.04861.pdf)
2017
Andrew G. Howard Menglong Zhu Bo Chen Dmitry Kalenichenko
Weijun Wang Tobias Weyand Marco Andreetto Hartwig Adam


摘要

我们提供了一种称为MobileNets的高效模型类,用于移动和嵌入式视觉应用。 MobileNets基于一种简化的架构,使用深度可分离卷积来构建轻量级深度神经网络。我们引入了两个简单的全局超参数,可以有效地权衡延迟和准确性。这些超参数允许模型构建者根据问题的约束条件选择适合其应用程序的正确大小的模型。我们进行了大量的资源和准确性权衡实验,并在ImageNet分类任务上展现出与其他流行模型相比的较强表现。然后,我们展示了MobileNets在包括对象检测、细粒度分类、面部属性和大规模地理定位等各种应用和用例中的有效性。


1.介绍

自从AlexNet [19]通过赢得ImageNet挑战赛:ILSVRC 2012 [24]而普及了深层卷积神经网络以来,卷积神经网络已成为计算机视觉中无处不在的东西。总体趋势是为了实现更高的准确性而制作更深和更复杂的网络[27、31、29、8]。然而,提高准确性的这些进步未必能使网络在大小和速度方面更加高效。在许多现实世界的应用程序中,如机器人、自动驾驶汽车和增强现实,识别任务需要在计算资源有限的平台上及时完成

本文描述了一种高效的网络架构和一组两个超参数,以构建非常小型、低延迟的模型,这些模型可以轻松地匹配移动和嵌入式视觉应用的设计要求。第2节回顾了构建小型模型的先前工作。第3节介绍了MobileNet架构和两个超参数宽度乘数和分辨率乘数,以定义更小更高效的MobileNets。第4节描述了在ImageNet以及各种不同应用和用例中的实验。第5节总结和结束。
aaaaAAaaaa可爱的小猫咪"

Figure 1. MobileNet models can be applied to various recognition tasks for efficient on device intelligence.


2. 先前工作

近期文献中对构建小型和高效的神经网络的兴趣正在增加,例如[16、34、12、36、22]。许多不同的方法可以一般性地归为压缩预训练网络或直接训练小型网络两类。本文提出了一类网络架构,使模型开发者可以特定选择与其应用程序的资源限制(延迟、大小)相匹配的小型网络。MobileNets主要关注优化延迟,但也产生小型网络。许多有关小型网络的论文只关注大小,而不考虑速度。

MobileNets主要是由最初在[26]中引入并随后在Inception模型[13]中使用以减少前几层计算的深度可分离卷积构建的。扁平化网络[16]将完全分解的卷积用于网络构建,并展示了极度因式分解网络的潜力。独立于本文,因子化网络[34]引入了类似的因式卷积和拓扑连接的使用。随后,Xception网络[3]演示了如何扩大深度可分离滤波器以超过Inception V3网络的性能。另一个小型网络是Squeezenet [12],它使用瓶颈方法设计了一个非常小的网络。其他降低计算量的网络包括结构变换网络[28]和深煎卷积神经网络[37]。

获得小型网络的另一种方法是缩小,因式分解或压缩预训练网络。文献中提出了基于产品量化[36]、哈希[2]、剪枝、向量量化和霍夫曼编码[5]等压缩方法。此外,已经提出各种因式分解来加速预训练网络[14、20]。训练小型网络的另一种方法是蒸馏[9],它使用更大的网络来教授较小的网络。它与我们的方法相辅相成,并在第4节的一些用例中进行了介绍。另一种新兴的方法是低位网络[4、22、11]。


3. MobileNet 架构

本节中,我们首先描述了 MobileNet 架构的核心层,即深度可分离卷积。然后,我们描述了 MobileNet 网络结构,并总结了两个模型缩小超参数:宽度乘数和分辨率乘数。

3.1. 深度可分离卷积


MobileNet 模型基于深度可分离卷积构建,这是一种将标准卷积分解为深度卷积和 1×1 的点卷积的因式分解卷积形式。对于 MobileNets,深度卷积将单个滤波器应用于每个输入通道。然后,点卷积应用 1×1 卷积来组合深度卷积的输出。标准卷积在一步中过滤和组合输入,深度可分离卷积将其分成两个层,一个用于过滤,一个用于组合。这种因式分解的效果是大幅度降低计算量和模型大小。图 2 显示了标准卷积如何被分解为深度卷积和 1 × 1 点卷积。

标准卷积层将 D_F×D_F×M特征图 F 作为输入并产生一个 D_F×D_F×N 特征图 G,其中 D_F 是输入特征图的空间宽度和高度(假设为正方形),M 是输入通道数(输入深度),D_G 是输出特征图的空间宽度和高度,N 是输出通道数(输出深度)。

标准卷积层由大小为 D_K ×D_K ×M×N的卷积核 K 参数化,其中 D_K 是内核的空间维度,假定为正方形,M 是输入通道数,N 是输出通道数,如前所述。

在假定步长为 1 和填充的情况下,标准卷积的输出特征图计算如下:

G _ { k ,l , n } = \sum _ { i , j , m } K _ { i , j , m, n } ·F _ { k + i -1 , l+j -1 , m }\tag{1}

标准卷积的计算成本为:

D _ { K } \cdot D _ { K } \cdot M \cdot N \cdot D _ { F } \cdot D _ { F }\tag{2}

其中计算成本取决于输入通道数 M、输出通道数 N、内核大小D_k × D_k 和特征图大小D_F × D_F的乘积。MobileNet 模型解决了每个术语及其相互作用。首先,它使用深度可分离卷积来分解输出通道数和内核大小之间的交互作用。

标准卷积操作的效果是基于卷积核过滤特征并组合特征以产生新表示。过滤和组合步骤可以通过使用称为深度分离卷积的因式分解卷积中的因式化卷积分成两个步骤,从而大大降低计算成本。

深度可分离卷积由两层组成:深度卷积和点卷积。我们使用深度卷积对每个输入通道(输入深度)应用单个滤波器。然后,使用简单的 1×1 点卷积来创建输出深度的线性组合。MobileNets 对两层都使用批归一化和 ReLU 非线性函数。

对于每个输入通道(输入深度),具有一个滤波器的深度卷积可以写成:

\hat G _ { k , 1 , m } = \sum _ { i , j } \hat K _ { i , j,m } \cdot F _ { k + i -1 ,l+j-1,l+j-m} \tag{3}

其中 \hat K 是大小为 D_K × D_K × M 的深度卷积内核,\hat K 的第 m 个滤波器应用于F 中的第 m 个通道,以生成过滤后输出特征图 \hat G 的第 m个通道。

深度卷积的计算成本为:

D _ { K } \cdot D _ { K } \cdot M \cdot D _ { F } \cdot D _ { F } \tag{4}

深度可分离卷积相对于标准卷积非常高效。然而,它只过滤输入通道,而不会将其组合以创建新的特征。因此,需要使用额外的层通过 1×1 卷积计算深度可分离卷积的输出的线性组合,以生成这些新的特征。

深度可分离卷积和 1×1(点卷积)的组合称为深度可分离卷积,最初在[26]中引入。

深度可分离卷积成本为:

D _ { K } \cdot D _ { K } \cdot M \cdot D _ { F } \cdot D _ { F } + M \cdot N \cdot D _ { F } \cdot D _ { F }\tag{5}

这是深度和 1×1 点卷积的总和。

通过将卷积表示为过滤和组合的两个步骤,我们可以减少计算量。

{D _ { K } \cdot D _ { K } \cdot M \cdot D _ { F } \cdot D _ { F } + M \cdot N \cdot D _ { F } \cdot D _ { F } \over D _ { K } \cdot D _ { K } \cdot M \cdot N \cdot D _ { F } \cdot D _ { F }} =\frac { 1 } { N } + \frac { 1 } { D _ { k } ^ { 2 } }

MobileNet 使用 3×3 的深度可分离卷积,它的计算成本仅为标准卷积的 1/8 到 1/9 左右,并且只有微小的精度降低,详见第四部分。

在空间维度中进行进一步分解(例如[16,31])并不能节省太多的计算量,因为深度卷积所花费的计算量很少。

3.2 网络结构和训练


MobileNet 结构是基于深度可分离卷积构建的,如前一节所述,除了第一层是完全卷积外。通过用简单的术语定义网络,我们能够轻松地探索网络拓扑以找到好的网络。MobileNet 结构定义在表 1 中。除了最后一个全连接层没有非线性激活函数并馈送到分类的 softmax 层外,所有层都后跟 batchnorm[13] 和 ReLU 非线性激活函数。图 3 对比了具有正常卷积、batchnorm 和 ReLU 非线性激活函数的层与具有深度卷积、1×1 点卷积以及每个卷积层之后的 batchnorm 和 ReLU 的分解层。下采样使用深度卷积中的步长卷积以及第一层。最后一个平均池化将空间分辨率减少到全连接层之前的 1。MobileNet 具有 28 层,包括深度卷积和点卷积。

仅用小数量的乘加运算符定义网络是不够的,还要确保这些操作可以高效实现。例如,非结构化稀疏矩阵操作通常不比密集矩阵操作更快,直到非常高的稀疏程度为止。我们的模型结构将几乎所有的计算都放入密集的 1×1 卷积中。这可以使用高度优化的通用矩阵乘法(GEMM)函数实现。通常,卷积是通过 GEMM 实现的,但需要在记忆中进行初始重新排序,称为im2col,以便将其映射到 GEMM 中。例如,这种方法在流行的 Caffe 包 [15] 中使用。1×1 卷积不需要进行内存重排,并且可以直接用 GEMM 实现,这是最优化的数值线性代数算法之一。MobileNet 在 1×1 卷积中花费了 95% 的计算时间,其中 75% 的参数如表 2 所示。几乎所有的额外参数都在全连接层中。

Table 2. Resource Per Layer Type

Type Mult-Adds Parameters
Conv 1 × 1 94.86% 74.59%
Conv DW 3 × 3 3.06% 1.06%
Conv 3 × 3 1.19% 0.02%
Fully Connected 0.18% 24.33%

MobileNet 模型在 TensorFlow[1] 中使用 RMSprop[33] 和异步梯度下降进行训练,类似于 Inception V3[31]。然而,与训练大模型相反,我们使用较少的正则化和数据增强技术,因为小模型很少遇到过拟合问题。当训练 MobileNet 时,我们不使用边头或标签平滑,并通过限制用于大 Inception 训练的小裁剪尺寸的大小来额外减少图像扭曲的数量[31]。此外,我们发现在深度过滤器上几乎不需要或没有权重衰减(l2 正则化),因为它们的参数很少。对于下一节中的 ImageNet 基准测试,所有模型均使用相同的训练参数进行训练,而与模型的大小无关。

3.3 宽度乘数:更窄的模型

虽然基本的 MobileNet 结构已经很小且延迟很低,但是很多时候特定用例或应用程序可能需要模型更小、更快。为了构建这些更小和计算成本更低的模型,我们引入了一个非常简单的参数α,称为宽度乘数。宽度乘数α的作用是在每个层中统一缩小网络。对于给定的层和宽度乘数α,输入通道数 M 变为 αM,输出通道数 N 变为 αN

带有宽度乘数α的深度可分离卷积的计算成本为:

D _ { K } \cdot D _ { K } \cdot \alpha M \cdot D _ { F } \cdot D _ { F } \cdot D _ { F } + \alpha M \cdot \alpha N \cdot D _ { F } \cdot D _ { F }\tag{6}

其中α ∈ (0,1],通常设置为 1、0.75、0.50.25。α = 1 是基线 MobileNet,α < 1 是减小的 MobileNet。宽度乘数使计算成本和参数数量约为α2 的平方减少。宽度乘数可以应用于任何模型结构以定义新的更小的模型,具有合理的精度、延迟和大小权衡。它用于定义一个需要从头开始训练的新缩小结构。

3.4 分辨率乘数:降低表示

减少神经网络计算成本的第二个超参数是分辨率乘数ρ。我们将其应用于输入图像,并随后将每个层的内部表示相应地降低相同的乘数。在实践中,我们通过设置输入分辨率来隐式设置ρ。

现在我们可以将我们网络的核心层的计算成本表示为深度可分离卷积,其中宽度乘数α和分辨率乘数ρ为:

D _ { K } \cdot D _ { K } \cdot \alpha M \cdot p D _ { F } \cdot p D _ { F } + \alpha M \cdot \alpha N \cdot p _ { F } \cdot p D _ { F }\tag{7}

在移动网络中,输入分辨率通常被隐式地设置为224、192、160或128,其中ρ ∈ (0, 1]。ρ = 1是基准MobileNet,而ρ < 1则是降低计算量的MobileNets。分辨率乘数通过ρ来减少计算成本。

例如,我们可以看一下MobileNet中典型层的情况,并了解深度可分离卷积、宽度乘数和分辨率乘数如何减少成本和参数。表3显示了对一个层进行顺序应用架构缩小方法时的计算和参数数量。第一行显示了具有14×14×512大小的输入特征图和大小为3×3×512×512的内核K的全卷积层的Mult-Adds和参数。在下一节中我们将详细探讨资源和精度之间的权衡。

4.实验

在本节中,首先调查深度可分离卷积以及通过缩小网络的宽度而不是层数来选择缩小的影响。然后展示减小网络的两个超参数:宽度乘数和分辨率乘数的权衡,并将结果与许多流行模型进行比较。接下来,我们研究MobileNets应用于许多不同的应用程序。

4.1. 模型选择

首先,我们展示了使用深度可分离卷积的MobileNet与使用全卷积构建的模型的结果。在表4中,我们看到使用深度可分离卷积相比于全卷积仅使ImageNet的准确度降低1%,但节省了大量的Mult-Adds和参数。

接下来,我们展示了将宽度乘数较小的较细模型与使用较少层数的较浅模型进行比较的结果。为了使MobileNet更浅,表1中具有14×14×512大小的可分离滤波器的5个层被删除。表5显示,在相似的计算和参数数量下,使MobileNets变窄比使它们变浅好3%。

4.2. 模型缩小超参数

表6显示了使用宽度乘数α缩小MobileNet架构的准确性、计算和大小之间的权衡。准确性平稳下降,直到α = 0.25时,架构变得太小。

表7显示了通过训练具有降低输入分辨率的MobileNets的不同分辨率乘数的准确性、计算和大小之间的权衡。随着分辨率的降低,准确度平稳下降。

图4显示了由宽度乘数α ∈ \{1, 0.75, 0.5, 0.25\}和分辨率\{224、192、160、128\}的叉积制造的16个模型的ImageNet准确性和计算之间的权衡结果是对数线性的,并且当α = 0.25时,模型变得非常小。

图5显示了由宽度乘数α ∈ \{1, 0.75, 0.5, 0.25\}和分辨率\{224、192、160、128\}的交叉制造的16个模型的ImageNet准确性和参数数量之间的权衡结果。

表8将完整的MobileNet与原始GoogleNet [30]和VGG16 [27]进行比较。MobileNet几乎像VGG16一样准确,但大小只有其32倍,计算强度也只有其27倍。相比于GoogleNet,它更准确,而且大小更小,计算强度也少2.5倍以上。

表9比较了宽度乘数α = 0.5和降低分辨率160×160的缩小MobileNet与AlexNet [19]的差异。在比AlexNet小45倍和计算次数少9.4倍的情况下,缩小的MobileNet比AlexNet好4%。它还比Squeezenet [12]更好,大小约相同,计算量少22倍。

4.3. 细粒度识别

我们在Stanford Dogs数据集[17]上训练MobileNet进行细粒度识别。我们扩展了[18]的方法,并从网络收集比[18]更大但有噪声的训练集。我们使用嘈杂的网络数据预先训练一个细粒度狗识别模型,然后在Stanford Dogs训练集上微调该模型。表10显示了在Stanford Dogs测试集上的结果。MobileNet几乎可以实现[18]的最新结果,且计算和大小大大降低。

4.4. 大规模地理定位

PlaNet [35]将确定照片在地球上的位置作为分类问题。该方法将地球分为一系列用作目标类别的地理单元,并在数百万个带有地理标记的照片上训练卷积神经网络。 PlaNet已被证明可以成功地定位各种照片,并且优于解决同一任务的Im2GPS [6, 7]。

我们使用MobileNet架构对PlaNet进行重新训练。虽然基于Inception V3架构的完整PlaNet模型具有5200万参数和5.74亿个多加乘运算,但MobileNet模型仅具有1300万参数,其中通常情况下3百万用于主体,1000万用于最终层,580000个多加乘运算。如表11所示,尽管MobileNet版本更加紧凑,但与PlaNet相比,性能仅略有降低。此外,它仍然远远优于Im2GPS。

4.5. 人脸属性

另一个MobileNet的应用是压缩具有未知或奇特训练程序的大型系统,例如面部属性分类任务。我们证明了MobileNet和蒸馏[9]之间的协同关系,在这里蒸馏是一种深度网络的知识转移技术。我们试图减少具有7500万参数和16亿多加乘运算的大型面部属性分类器。该分类器在类似于YFCC100M [32]的多属性数据集上进行训练。

我们使用MobileNet架构对面部属性分类器进行蒸馏。蒸馏[9]通过训练分类器来模拟较大模型输出而不是地面实况标签来工作,从而使得可以从大型(并且可能无限的)未标记数据集进行训练。通过结合蒸馏训练的可扩展性和MobileNet的简洁参数化,最终系统不仅不需要正则化(例如权重衰减和早期停止),而且还表现出增强的性能。从表12可以看出,基于MobileNet的分类器对于激进的模型缩小是有韧性的:它实现了与内部相似的平均属性精度(平均AP),同时只消耗多加乘运算的1%。

4.6. 目标检测


MobileNet也可以作为现代物体检测系统中有效的基本网络进行部署。我们报告了在COCO数据上针对物体检测训练的MobileNet结果,这是基于赢得2016 Coco挑战的最近工作[10]。在表13中,MobileNet在Faster-RCNN [23]和SSD [21]框架下与VGG和Inception V2 [13]进行比较。在我们的实验中,SSD使用300输入分辨率进行评估(SSD 300),而Faster-RCNN则与300和600输入分辨率进行比较(FasterRCNN 300,Faster-RCNN 600)。Faster-RCNN模型每个图像评估300个RPN提议框。这些模型在COCO train+val中进行训练,排除8k minival图像,并在minival上进行评估。对于两种框架,MobileNet仅使用一小部分计算复杂度和模型大小就可以实现与其他网络可比的结果。

4.7. 面嵌入

FaceNet模型是最先进的面部识别模型[25],它基于三元组损失构建面部嵌入。为了构建移动FaceNet模型,我们使用蒸馏来通过在训练数据上最小化FaceNet和MobileNet输出之间的平方差异来进行训练。非常小的MobileNet模型的结果可以在表14中找到。

5. Conclusion

我们提出了一种基于深度可分离卷积的新模型体系结构称为MobileNets。我们研究了导致高效模型的一些重要设计决策。然后,我们演示了如何通过使用宽度乘数和分辨率乘数来交换合理数量的准确性以减少大小和延迟来构建更小,更快的MobileNets。我们随后比较了不同的MobileNets和流行模型,展示了其卓越的大小,速度和精度特征。我们最后演示了MobileNet应用于各种任务时的有效性。为了帮助采用和探索MobileNets的下一步,我们计划在Tensor Flow中发布模型。

References

[1] M. Abadi, A. Agarwal, P. Barham, E. Brevdo, Z. Chen, C. Citro, G. S. Corrado, A. Davis, J. Dean, M. Devin, et al. Tensorflow: Large-scale machine learning on heterogeneous systems, 2015. Software available from tensorflow. org, 1, 2015. 4
[2] W. Chen, J. T. Wilson, S. Tyree, K. Q. Weinberger, and Y. Chen. Compressing neural networks with the hashing trick. CoRR, abs/1504.04788, 2015. 2
[3] F. Chollet. Xception: Deep learning with depthwise separa-ble convolutions. arXiv preprint arXiv:1610.02357v2, 2016. 1
[4] M. Courbariaux, J.-P. David, and Y. Bengio. Training deep neural networks with low precision multiplications. arXiv preprint arXiv:1412.7024, 2014. 2
[5] S. Han, H. Mao, and W. J. Dally. Deep compression: Com-pressing deep neural network with pruning, trained quantiza-tion and huffman coding. CoRR, abs/1510.00149, 2, 2015. 2
[6] J. Hays and A. Efros. IM2GPS: estimating geographic in-formation from a single image. In Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition, 2008. 7
[7] J. Hays and A. Efros. Large-Scale Image Geolocalization. In J. Choi and G. Friedland, editors, Multimodal Location Estimation of Videos and Images. Springer, 2014. 6, 7
[8] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learn-ing for image recognition. arXiv preprint arXiv:1512.03385, 2015. 1
[9] G. Hinton, O. Vinyals, and J. Dean. Distilling the knowledge in a neural network. arXiv preprint arXiv:1503.02531, 2015. 2, 7
[10] J. Huang, V. Rathod, C. Sun, M. Zhu, A. Korattikara, A. Fathi, I. Fischer, Z. Wojna, Y. Song, S. Guadarrama, et al. Speed/accuracy trade-offs for modern convolutional object detectors. arXiv preprint arXiv:1611.10012, 2016. 7
[11] I. Hubara, M. Courbariaux, D. Soudry, R. El-Yaniv, and Y. Bengio. Quantized neural networks: Training neural net-works with low precision weights and activations. arXiv preprint arXiv:1609.07061, 2016. 2
[12] F. N. Iandola, M. W. Moskewicz, K. Ashraf, S. Han, W. J. Dally, and K. Keutzer. Squeezenet: Alexnet-level accuracy with 50x fewer parameters and¡ 1mb model size. arXiv preprint arXiv:1602.07360, 2016. 1, 6
[13] S. Ioffe and C. Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. arXiv preprint arXiv:1502.03167, 2015. 1, 3, 7
[14] M. Jaderberg, A. Vedaldi, and A. Zisserman. Speeding up convolutional neural networks with low rank expansions. arXiv preprint arXiv:1405.3866, 2014. 2
[15] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Gir-shick, S. Guadarrama, and T. Darrell. Caffe: Convolu-tional architecture for fast feature embedding. arXiv preprint arXiv:1408.5093, 2014. 4
[16] J. Jin, A. Dundar, and E. Culurciello. Flattened convolutional neural networks for feedforward acceleration. arXiv preprint arXiv:1412.5474, 2014. 1, 3
[17] A. Khosla, N. Jayadevaprakash, B. Yao, and L. Fei-Fei. Novel dataset for fine-grained image categorization. In First Workshop on Fine-Grained Visual Categorization, IEEE Conference on Computer Vision and Pattern Recognition, Colorado Springs, CO, June 2011. 6
[18] J. Krause, B. Sapp, A. Howard, H. Zhou, A. Toshev, T. Duerig, J. Philbin, and L. Fei-Fei. The unreasonable ef-fectiveness of noisy data for fine-grained recognition. arXiv preprint arXiv:1511.06789, 2015. 6
[19] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems, pages 1097–1105, 2012. 1, 6
[20] V. Lebedev, Y. Ganin, M. Rakhuba, I. Oseledets, and V. Lempitsky. Speeding-up convolutional neural net-works using fine-tuned cp-decomposition. arXiv preprint arXiv:1412.6553, 2014. 2
[21] W. Liu, D. Anguelov, D. Erhan, C. Szegedy, and S. Reed. Ssd: Single shot multibox detector. arXiv preprint arXiv:1512.02325, 2015. 7
[22] M. Rastegari, V. Ordonez, J. Redmon, and A. Farhadi. Xnor-net: Imagenet classification using binary convolutional neu-ral networks. arXiv preprint arXiv:1603.05279, 2016. 1, 2
[23] S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. In
Advances in neural information processing systems, pages 91–99, 2015. 7
[24] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, et al. Imagenet large scale visual recognition challenge. International Journal of Computer Vision, 115(3):211–252, 2015. 1
[25] F. Schroff, D. Kalenichenko, and J. Philbin. Facenet: A uni-fied embedding for face recognition and clustering. In Pro-ceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 815–823, 2015. 8
[26] L. Sifre. Rigid-motion scattering for image classification. PhD thesis, Ph. D. thesis, 2014. 1, 3
[27] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014. 1, 6
[28] V. Sindhwani, T. Sainath, and S. Kumar. Structured trans-forms for small-footprint deep learning. In Advances in Neural Information Processing Systems, pages 3088–3096, 2015. 1
[29] C. Szegedy, S. Ioffe, and V. Vanhoucke. Inception-v4, inception-resnet and the impact of residual connections on learning. arXiv preprint arXiv:1602.07261, 2016. 1
[30] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1–9, 2015. 6
[31] C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, and Z. Wojna. Rethinking the inception architecture for computer vision. arXiv preprint arXiv:1512.00567, 2015. 1, 3, 4, 7
[32] B. Thomee, D. A. Shamma, G. Friedland, B. Elizalde, K. Ni, D. Poland, D. Borth, and L.-J. Li. Yfcc100m: The new data in multimedia research. Communications of the ACM, 59(2):64–73, 2016. 7
[33] T. Tieleman and G. Hinton. Lecture 6.5-rmsprop: Divide the gradient by a running average of its recent magnitude. COURSERA: Neural Networks for Machine Learning, 4(2), 2012. 4
[34] M. Wang, B. Liu, and H. Foroosh. Factorized convolutional neural networks. arXiv preprint arXiv:1608.04337, 2016. 1
[35] T. Weyand, I. Kostrikov, and J. Philbin. PlaNet - Photo Ge-olocation with Convolutional Neural Networks. In European Conference on Computer Vision (ECCV), 2016. 6, 7
[36] J. Wu, C. Leng, Y. Wang, Q. Hu, and J. Cheng. Quantized convolutional neural networks for mobile devices. arXiv preprint arXiv:1512.06473, 2015. 1
[37] Z. Yang, M. Moczulski, M. Denil, N. de Freitas, A. Smola,
L. Song, and Z. Wang. Deep fried convnets. In Proceedings of the IEEE International Conference on Computer Vision, pages 1476–1483, 2015.1

全部评论 (0)

还没有任何评论哟~