[论文解读]ICML 2019|EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
题目 :EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
作者 :GOOGLE Mingxing Tan Quoc V. Le
Motivation:
作者认为网络的扩展是对效果有很大帮助的,但是人们一直没有找到一个有效的扩展方法。通过人工去调整 depth, width, resolution 的放大或缩小的很困难的,在计算量受限时有放大哪个缩小哪个,这些都是很难去确定的。作者发现在网络扩展时,通过平衡网络的深度、宽度、像素大小之间的关系来建模,可以取得惊人的效果,因此提出EfficientNet.
还是先看效果图:

Related Works:
计算accuracy:
单stage:

多stage:


作者得出accuracy 与(d,w,r)有关。
又做实验发现,单独增加某一项参数很快就达到瓶颈了。

因此,提出 Compound Scaling。
又做了Compound Scaling的实验:


Li就是深度,Li越大重复的卷积层越多,网络越深;
Ci就是channel数目,也就是网络的宽度
Hi和Wi就是图片的分辨率
作者得出必须 balance all dimensions of networkwidth, depth, and resolution(使d, w, r 均衡的进行扩展),因此作者提出以下方法:

其中 \beta和 \gamma在约束上会有平方,是因为如果增加宽度或分辨率两倍,其计算量是增加四倍,但是增加深度两倍,其计算量只会增加两倍。
首先:固定公式中的φ=1,然后通过网格搜索(grid search )得出最优的α、β、γ,得出最基本的模型EfficientNet-B0.最后作者找到 α = 1.2,β =1.1,γ = 1.15。
网格搜索法 是指定参数值的一种穷举搜索方法,通过将估计函数的参数通过交叉验证的方法进行优化来得到最优的学习算法。即,将各个参数可能的取值进行排列组合,列出所有可能的组合结果生成“网格”。然后将各组合用于训练。在拟合函数尝试了所有的参数组合后,返回一个合适的分类器,自动调整至最佳参数组合。
作者在文中3次提到 a small grid search,好像没说怎么做的,不过在参考论文中猜想应该是用的MnasNet 。
其次:固定α、β、γ的值,使用不同的φ,得到EfficientNet-B1, …, EfficientNet-B7
EfficientNet使用了MobileNet V2中的MBCConv作为模型的主干网络,同时也是用了SENet中的squeeze and excitation方法对网络结构进行了优化
得到模型后就是大量的Experiments
Experiments :
就这样一路碾压经典网络,还是不多说直接上图:


8个数据集中干掉了5个top 1

我觉得这篇论文的最大功臣应该属于被作者轻描谈写的MnasNet,及作者的Compound Scaling思路。
【完】
