Advertisement

【深度学习】Swin-Transformer和EfficientNet对比分析

阅读量:

【深度学习】Swin-Transformer和EfficientNet对比分析

复制代码
    文章目录
    1 概述
    2 算法解析
    	2.1 Speed
    	2.2 EfficientNet v2算法详解
    	2.3 渐进学习
    3 EfficientUNet
    4 总结
    
    
      
      
      
      
      
      
      
      
    
    代码解读

1 概述

仅在两天前[Swin Transformer]就以惊人的Top-1准确率(86.4%)赢得了[Transformer family]对ImageNet的统治。随后,在AutoML的强大助力下[Convolutional Neural Networks led by Quoc V.Le]成功夺取了这一领地(87.3%)。此次性能拔群的成果正是本研究重点介绍的EfficientNet v2模型[1]。

该方法是如何实现高效性能的关键在于其创新性地结合了自适应搜索机制与深度学习技术。具体而言,在优化网络超参数方面采用了基于梯度的方法,并在此基础上实现了对多任务学习的支持。

除了提升效率外, 该方法将加快训练速率设为目标之一. 在分析当前主流卷积神经网络相关算法后发现, 影响其收敛效率的主要因素包含计算复杂度与内存消耗两大类. 并以此为基础进行研究, 最终成功缩小了模型搜索范围.

2 算法解析

2.1 Speed

在训练一个网络时,作者发现了几个影响训练速度的因素,它们分别是:

较大的图像作为输入会导致训练速度减慢。在神经网络较浅层的位置上应用深度卷积运算相较于普通卷积而言会表现出较低的效率。对于EfficientNet v1模型而言,在各个层级上采用统一的比例因子进行尺寸调整并非最佳策略。

另一个因素与我们对深度可分离卷积先前认知上的差异形成了冲突。我们曾认为深度卷积通常既速度快又参数量少的操作,在这一认知下,在许多场景下确实展现出这样的优势特性。然而这种差异的存在源于当前一些专用化加速设备或移动设备对普通卷种运算效率的显著提升效果,在特定条件下甚至可能超过传统深度可分离卷机计算能力的表现水平。那么,在提升硬件性能与优化算法设计之间究竟哪个更为重要?这需要通过实验数据来进行深入分析验证。研究者比较了EfficientNet各阶段使用Fused-MBConv替代MBConv的效果(如表1所示),发现这一更换策略不仅提升了预测速度而且也提高了分类精度水平

在这里插入图片描述

2.2 EfficientNet v2算法详解

EfficientNet v2的算法包括两个核心方面:

复制代码
    使用新的搜索空间和奖励函数搜索一个新的模型架构;
    使用渐进学习(Progressively Learning)动态的调整正则尺度和输入图像尺寸的关系来对网络进行训练。
    
    
      
      
    
    代码解读
在这里插入图片描述
在这里插入图片描述

2.3 渐进学习

在之前的讨论中我们已经阐述过模型经过设计使其正则化尺度与输入分辨率呈近似线性关系这一特性因此在优化神经网络架构的过程中当我们在调节一个网络的输入图像尺寸时相应的策略是同步调节网络结构中的正则参数设置以显著提升模型性能这一概念正是EfficientNet v2提出的渐进式学习框架(Progressive Learning)的核心内容

EfficientNet v2的渐进学习分成两步:

在训练阶段初期阶段时,在低分辨率下进行数据增强,并采用较弱强度的正则化方法;随后,在后续阶段时,在高分辨率下提升模型复杂度,并结合强度更高的正则化方法进行优化。在EfficientNet v2中使用的正则类型有三类

在这里插入图片描述

3 EfficientUNet

在这里插入图片描述
在这里插入图片描述

其参数规模仍然是介绍其网络架构的基础内容。

在这里插入图片描述

通过前面的内容分析可知,我们能够构建EfficientNetB0网络模型;其余版本的具体参数可在下表中查看。

在这里插入图片描述

input_size表示训练网络时输入使用的图像大小。
width_coefficient表示在channel维度上设置的比例因子。
depth_coefficient表示在depth维度上设置的比例因子。
在MBConv结构中的每个dropout层都会采用指定的drop_connect_rate作为丢弃率。
最后一个全连接层之前的dropout层位于stage9 Pooling与全连接层之间,并使用给定的 dropout_rate 作为丢弃率。

4 总结

自今年初起,Vision Transformers与CNN技术派别之间的竞争已进入白热化阶段,在这一背景下,ImageNet Top-1准确率持续刷新新高。本文重点介绍的是EfficientNet v2所蕴含的独特价值,在于系统性探讨了图像尺寸与正则尺度间的内在关联。其渐进学习过程呈现出从轻度过拟合到深度过拟合的发展轨迹,在这一过程中融合了多图像尺度与正则尺度策略的选择权平衡机制。这种多尺度融合策略无疑极大地提升了模型在不同分辨率下的适应能力

该研究通过对比实验评估了所提出方法在迁移学习方面的性能。从实验结果来看,在与现有卷积神经网络及Transformer架构相比时,本研究提出的方法在泛化能力方面表现更为突出。

全部评论 (0)

还没有任何评论哟~