Advertisement

A ConvNet for the 2020s 论文阅读

阅读量:

A convnet for the 2020s

代码

该摘要探讨了Vision Transformers(ViTs)如何迅速取代传统的ConvNets并成为图像分类任务中的最先进模型。然而,在处理一般计算机视觉任务时(如目标检测与语义分割),ViTs仍面临挑战。为此研究引入了层次结构的Transformer(如Swin Transformers),通过重新引入卷积神经网络的一些先验知识来增强视觉表示能力。值得注意的是,在这一改进过程中,并未仅归因于Transformer的固有优势属性;相反地,这项工作揭示了纯基于卷积神经网络的设计潜力与极限表现。我们逐步将标准ResNet架构"现代化"至视觉转换器设计框架中,并识别出几个关键组件组合对性能提升产生了显著影响。基于此深入探索后提出了一系列完全由标准卷积模块构建的纯ConvNet模型系列——ConvNeXt系列模型。这些全基于卷积神经网络的设计架构不仅在ImageNet top-1准确率方面与Transformers展开激烈竞争(达87.8%),更在COCO检测任务及ADE20K分割任务中超越了Swin Transformers的表现;同时成功保持了传统卷积神经网络的简洁性和高效性

引言

该领域在深度学习方面取得了长足进步。这一进步主要得益于神经网络的发展与应用尤其是卷积神经网络(ConvNet)的复兴起到了关键作用。过去十年间视觉识别技术实现了从特征工程向网络架构设计(ConvNet)的转变这一变革推动了计算机视觉领域的快速发展尽管反向传播算法可追溯至20世纪80年代[42]但直到2012年底才真正展现出其在计算机视觉领域的潜力AlexNet[40]的引入催生了"ImageNet时刻"[59]开创了计算机视觉的新纪元随后该领域呈现出爆发式增长VGGNet[64]Inceptions[68]ResNetResNeXt[28,87]DenseNet[36]MobileNet[34]EfficientNet[71]以及RegNet[54]等具有代表性的网络模型在准确率效率与可扩展性等多个方面进行了深入研究并提出了一系列富有创见的设计原则

ConvNet在计算机视觉中的广泛应用于并非偶然:许多视觉处理场景固有地采用了滑动窗口策略,在高分辨率图像处理中尤为明显。该网络模型具有内在归纳偏差使其特别适合各种计算机视觉任务。其计算过程采用了滑动窗口的方式进行共享计算因此卷积层具备很高的效率[62]。过去尽管卷积神经网络主要应用于单一类型目标如数字与人脸检测但受限于技术限制其应用范围较为局限直到2010年基于区域的人工智能系统开始将卷积层作为视觉识别领域的基础模块加以运用

在同一时间段内,在线教育平台[()上展开的一场教育改革中

尽管这项技术在图像分类任务中取得了显著成果

ViT采用的全局注意力机制计算复杂度较高

原始的transformer存在一些局限性。通过混合策略来弥补这一局限,Hierarchical Transformers采用了混合方法进行优化。具体而言,在Transformer模型中重新引入了滑动窗口机制(即本地窗口内的注意力计算),使得其行为更加贴近卷积神经网络(CNN)的本质特征。值得注意的是,在这一领域中Swin Transformer[45]堪称开创性研究,在首次证明Transformers可作为通用视觉主干的同时,在多个计算机视觉任务上均取得了超越现有方法的表现。值得注意的是,在这种成功模式下揭示了一个重要事实:卷积并非已弃不用的事实:反而依然深受欢迎。

从这一角度看,在Transformer的发展历程中存在诸多追求恢复卷积的操作[55]。这些探索虽然带来了高昂的成本:滑动窗口机制下的自注意力难以承受计算开销;而采用高效技术[45]则能提升速度但会增加系统设计的复杂性。然而这一反差几乎令人啼笑皆非:卷积神经网络(ConvNet)已经具备了诸多优势,并且以一种简洁且直接的设计方案实现了这些功能。令人意外的是其简单性——唯一的缺陷似乎源于Transformer在视觉任务中表现出色的现象:尽管这种现象本身并不明显存在但其背后的原因却十分明确——即Transformer展现了卓越的缩放能力而多头自注意力正是其核心驱动力。

相较于经过十年逐步优化的传统卷积神经网络(CNN),Vision Transformers代表了一种革命性的突破。在现有研究中,默认将Vision Transformer与传统的CNN进行对比分析时通常采用系统级对比方法(例如Swin Transformer与ResNet)。虽然CNN模型与其层级化架构设计相结合后仍展现出一定的异化现象(即两者既有显著差异又具备诸多相似之处),但这种异化主要体现在两者的共性在于它们都具备类似的归纳偏差。本研究的核心目标是通过细致分析两者的架构差异并试图消除潜在干扰因素,在量化评估网络性能的基础上探索Vision Transformer(ViT)与其替代方案间的差距缩小可能性及纯CNN模态的最大性能边界。

基于改进的方法对标准ResNet(如ResNet50)进行过训练后作为起点。随后我们将这一架构逐步向其中融入层次化视觉Transformer模块(如Swin-T)。为了探究这一关键问题:Transformers的设计决策如何影响ConvNet的性能?我们在实验过程中发现了几个关键组件的存在差异。因此我们提出了一种全新的纯ConvNet架构ConvNeXt。在ImageNet分类[17]、COCO目标检测与分割[44]以及ADE20K语义分割[92]等多个视觉任务上进行了评估。令人瞩目的是完全由传统卷积模块构建而成的ConvNeXts不仅在准确率方面与Transformer不相上下而且在效率和扩展性等方面表现同样出色。这一结果表明即使采用最基础的传统卷积模块也能实现与现代Transformer架构相当甚至更好的性能表现。

我们希望通过新增的研究视角与探讨,质疑传统认知,并促使人们重新评估卷积神经网络在计算机视觉中的作用。

ConvNet的现代化:路线图

在本节中,我们探讨了从ResNet到与Transformers相近的ConvNet的演变路径.对FLOPs而言,在分析两种模型时发现:其中一个是基于ResNet-50和Swin-T结构的组合.

4.5imes10{^{9}}

,另一个是ResNet-200/Swin-B模式,其FLOPs约为

15.0imes10{^{9}}

。为了简单起见,我们将用ResNet-50/Swin-T复杂度模型给出结果。

本研究的路径规划简述如下。基于ResNet-50架构展开研究。随后,在针对Vision Transformers的训练方法基础上优化ResNet-50模型参数,并实现了超越原始架构的表现。这将是我们的基线。接着,在研究过程中归纳出以下五项核心改进策略:1) 宏观架构优化;2) 引入了ResNeXt模块;3) 设计了逆向瓶颈结构;4) 采用大尺寸卷积核策略;5) 构建了多层次微观架构优化方案。如图2所示,在"网络现代化"过程中各关键阶段均实现了相应的性能提升。

训练技巧

除了网络架构的设计外, 训练方法同样会对最终性能产生重要影响. Vision Transformers不仅引入了新的模块与架构设计, 同时还融合了多种创新性训练技术(如AdamW优化器). 这些技术主要体现在优化策略以及相关的超参数设置上. 因此, 第一步工作是采用Vision Transformer的训练方法对基线模型进行初步训练. 最近的研究[7,81]表明, 采用一组创新性训练技术能够显著提升ResNet-50模型的表现. 在本研究中, 我们采用了类似于DeiT[73]与Swin Transformer[45]的创新性训练方法. 训练周期从最初的90个epoch扩展到了300个epoch. 在具体实现中, 我们采用了AdamW优化器[46], 并结合了多种数据增强技术: 混合增强[90], 剪切混合增强[89], 随机增强[14], 随机擦除[91], 以及包括随机深度[36]和标签平滑[69]等在内的正则化方案. 这种综合性的强化训练策略使得ResNet-50模型的分类精度从76.1%[1]提升到了78.8%(+2.7%), 这一显著的进步表明传统ConvNet与Vision Transformers之间的性能差异在很大程度上可能源于不同的训练方法的影响. 在整个"现代化"过程中, 我们将采用具有相同超参数设置的统一训练配方. 对于ResNet-50模型上的每个区域评估指标, 我们均采用了三个不同随机种子下的平均值作为最终结果

宏观设计

本节我们将深入探讨Swin Transformers这一架构的宏观设计。该架构基于ConvNet[28,65]的设计理念,在多级结构中实现了特征图分辨率的逐步提升。在本节中提出了两项创新性设计理念:一是计算阶段比值(stage compute ratio)的设计优化;二是引入了‘元胞核’(stem cell)结构作为基础单元。

Changing stage compute ratio

ResNet架构中跨阶段计算资源的初始设计主要基于经验而非理论推导。其中,'res4'这一阶段特别注重与下游任务的兼容性要求,在目标检测等场景中表现突出。相比之下,Swin Transformer采用了相似的设计理念,'stage compute ratio'的比例在此处有所差异——分别为1:1:3:1和1:1:9:1两种配置模式适用于不同规模的网络架构。值得注意的是,在这一改进方案实施后,'每个模块的数量'发生了变化——从ResNet-50中的(3,4,6,3)被优化为(3,3,9,3)。这种改动不仅实现了模块数量与计算资源的最佳匹配,'model accuracy'也相应提升了约0.6个百分点(从78.8%提升至79.4%)。值得注意的是,'researchers have conducted extensive studies on computational distribution'并已取得一定成果[52-54]。未来的研究可能会进一步探索更加高效的配置方案

From now on, we will use this stage compute ratio

Changing stem to “Patchify”

标准ResNet架构中所采用的stem cell部分包含一个7×7尺寸的卷积层,并设置其步长为2;随后执行max-pooling操作,从而实现图像空间的四倍下采样。在Vision Transformer架构中,则采用了"patching"策略;这等同于采用了较大尺寸的卷积内核(例如4×4或8×8),并在此基础上结合多头自注意力机制实现特征提取;特别地,在ImageNet数据集上的分类任务中应用该改进方案后,在保持原有计算复杂度的基础上,在测试集上实现了约1.5%的准确率提升。

卷积核大小设置为14或16,并采用非重叠卷积。Swin Transformer采用了类似的"补丁"层,并采用小尺寸的补丁(4像素),为了适应架构的多阶段设计。我们采用了一个尺寸为4×4且步长为4的卷积层。通过这一调整,在测试集上的准确率从79.4%提升至79.5%。这表明,在ResNet中使用stem时将其替换为一个更简单的"补丁"层将能够获得类似性能。

We utilize a patchify stem within the network architecture, which employs four-by-four non-overlapping convolutions.

ResNeXt-ify

在此部分中,我们借鉴了ResNeXt[87]的核心思想。相比普通ResNet而言,在性能与精度之间实现了更好的平衡。核心组件是分组卷积。其指导原则在于通过增加组的数量来扩大网络的宽度。具体而言,在瓶颈层采用分组卷积设计使得浮点运算量得到显著减少。

在本研究中,在我们的实验设置中,我们采用了深度卷积技术作为核心模块之一。这种技术属于一种特殊的分组卷积类型,在该特定情况下当组的数量与通道数量相等时被采用。深度卷积操作已被广泛应用于MobileNet[34]和Exception[11]等主流模型中。通过与自注意力机制的结合使用,在深度卷积操作中仅对空间维度进行信息融合处理的特点得到了充分验证。值得注意的是,在结合1*1卷积层后实现了空间维度与通道维度的独立变换特性——这一特性也为Vision Transformer所共有。具体而言,在这种混合策略下要么仅实现空间维度信息的融合要么仅实现通道维度信息的融合,并不具备同时跨两个维度进行信息融合的能力。此外,在实际应用过程中我们发现深度卷积操作不仅能够有效降低网络计算复杂度(FLOPs)水平,并且在实验结果上也证实了其对分类精度提升的积极影响——这与ResNeXt提出的网络宽度扩展策略不谋而合。通过将网络宽度从64个通道扩展至96个(如Swin-T所采用),最终实现了网络性能指标的显著提升——准确率提升了约2.5个百分点的同时计算复杂度也达到了5.3G FLOPs的新高

反向瓶颈

其中一项关键设计是,在Transformer块中引入了反向瓶颈结构。具体而言,在MLP块中,输出通道数是输入的四倍(见图4)。值得注意的是,这种基于Transformer的设计思路不仅限于自注意力机制,在卷积神经网络领域也有应用。该方法在此基础上被MobileNet V2[61]采用并进一步发展,在此基础上又被广泛应用于多种先进的ConvNet架构[70, 71]。

我们现在将使用反向瓶颈

大卷积核

在这一部分的研究中,我们特别关注了大型卷积核的行为特性。Vision Transformers最为显著的特点是非局部自注意力机制,这种机制赋予了每一层网络全局感受野的能力。尽管以往基于ConvNet架构[40,68]采用了较大尺寸的内核,但现代实践中普遍采用的是通过堆叠较小尺寸(具体为3×3大小)的卷积核来构建网络结构[65]。这种设计选择在当前主流GPU架构下展现出较高的计算效率[41]。然而,Swin Transformers在此基础上重新引入了局部窗口机制,但其窗口尺寸设定为至少7×7,明显大于ResNe(X)等架构所采用的3×3内核大小限制.在此背景下,我们进一步探讨了在常规卷积网络中应用较大尺寸内核的可能性及其潜在优势

Moving up depthwise conv layer

为了深入探究大内核的特性与应用,我们需要将深度卷积层向上迁移至更深的网络层次(如图3所示)。这一架构在Transformer模型中尤为常见:MSA模块通常位于MLP模块之前。基于反向瓶颈块的设置,在复杂/低效模块中引入MSA结构会带来一定的优化空间。

这一中间步骤将浮点运算减少到4.1G,导致性能暂时下降到79.9%。

增加内核大小

在进行了充分的准备后,在进行图像分类任务时,在进行了充分的准备后

We will use 7*7 depthwise conv in each block.

Micro Design

在本节内容中,我们从细微粒度的角度探讨了多种架构间的差异——这些探索主要围绕层级结构展开,并特别关注激活函数与规范化层的选择方案。

Replacing ReLU with GELU

NLP与vision架构之间的主要区别在于对激活函数的具体采用方式。尽管许多激活函数已被开发出来并被广泛应用在各种模型中,在卷积神经网络(CNN)领域中仍普遍采用ReLU[49]这一简单高效的激活函数。值得注意的是,在原始Transformer论文[77]中也采用了ReLU作为其基础激活函数。作为一种更为平滑的变体,高斯误差线性单元(GELU)[32]被广泛应用于最新的Transformer架构中,并在包括谷歌BERT[18]、OpenAI GPT-2[52]以及最近提出的ViTs等模型中取得了显著效果。通过在我们的ConvNet中将ReLU替换成GELU……

Fewer activation functions

Transformer和ResNet架构之间的一个细微差别在于Transformer模块所使用的激活函数数量较少。考虑一个包含键/查询/值线性嵌入层、投影层以及MLP块中包含两个线性层的Transformer模块。与之相对应的是,在传统的CNN架构中,在每个卷积层通常都会附加一个激活函数。在本研究中,我们探索了在遵循相同基本策略的前提下(即每个模块均附加一个激活函数),性能会如何变化。具体而言,在保留相同设计策略的情况下(即每个模块均附加一个激活函数),通过将残差块中的所有GELU激活层(除了两个1*1维度的残差连接)替换为Transformer模块的结构配置方式,在不改变其他组件的情况下实现了性能上的显著提升(从80.6%提升至81.3%),这一结果与Swin-T模型的表现相当接近。

We will now use a single GELU activation in each block.

Fewer normalization layers

Transformer 块通常也具有较少的归一化层。在这里,我们移除了两个 BN 层,并在 1×1 卷积之前留下了一个 BN 层。这进一步提高了性能至 81.4%,比Swin-T 的结果更好。需要注意的是,在每个块中归一化层的数量比 Transformers 要少一些(根据经验,在块开头添加额外的 BN 层并不能显著提升性能)。

用LN代替BN

批归一化(BatchNorm)作为卷积神经网络(ConvNet)的关键组件之一,在提升模型收敛性和防止过拟合方面发挥了重要作用。然而批归一化也存在一些复杂性问题,在某些特定场景下可能对模型性能产生负面影响[84]。尽管如此,在视觉任务领域已有诸多替代归一化方法被提出和探索[60, 75, 83],但批归一化(BN)因其广泛的适用性和卓越的效果仍被普遍采用。相比之下在transformer架构中采用了更为简单的层归一化(Layer Normalization)方法即Layernorm(LN),这种设计使得在不同应用场景下均取得了良好的性能表现。

仅使用LayerNorm替代BatchNorm在原始ResNet架构中会导致性能下降[83]。在完成网络架构及训练方法的全面优化后,我们进一步探讨了LayerNorm替代BatchNorm的影响。通过实验分析发现,我们的ConvNet模型在训练过程中无需担忧LayerNorm的应用,该配置能够有效提升计算效率且保证模型稳定性;经过测试发现,在这种配置下ConvNet模型的准确率达到81.5%。

From now on, we will employ one LayerNorm as the default normalization strategy for every residual block.

Separate downsampling layers

ResNet中的空间下采样采用步长为2 的卷积层来实现这一技术性改进措施显著影响了模型训练的效果 Swin Transformer中 在相邻级之间增加了单独的空间下采样模块 为了实现类似效果的目的 在本研究中我们设计并实现了基于2×2卷积层的空间降采样模块 这一技术性改进措施显著影响了模型训练的效果 进一步研究表明 在处理不同空间分辨率区域时加入归一化处理有助于提升模型稳定性 经过优化后的新模型达到了82 0 的准确率水平 显著超过了当前主流方法Swin T 81 3 的性能水平

本研究采用独立的下采样机制。这一创新性设计直接催生了我们的核心模型架构,并命名为ConvNeXt。

ResNet与Swin块结构对比可见于图4。
ResNet-50、Swin-T及convenxt-T的具体架构分析见表9。

Closing remarks

我们成功开发出了一种纯ConvNeXt架构,在ImageNet-1K分类任务中展现出超越Swin Transformer的性能水平。值得注意的是,在现有的Vision Transformers研究中尚未出现过这些设计元素——它们均是在过去十年中各自独立开展研究的结果。相比之下,在经典的ConvNet架构中并未采用这些创新性设计——这些方法在当时均为独立探索课题而非集体协作项目的研究成果。我们的模型在保持与Swin Transformer相似的计算复杂度(FLOPs)、吞吐量和内存占用的前提下实现了完全相同的功能特性,并且无需依赖任何特殊的模块构建机制

这些成果令人振奋, 但尚不完全令人信服——目前的研究仍局限于小规模, vision Transformers 的真正区别在于其 扩展能力. 此外, 这一问题是当前领域关注的核心议题:ConvNet 是否能在目标检测和语义分割等下游任务上与Swin Transformer相比的竞争性, 是计算机视觉从业者普遍关心的问题. 在下一节中, 我们将通过放大 ConvNeXt 模型的数据量和参数量, 并在其多维度视觉识别任务中进行评估.

ImageNet的实证评估

我们开发了多个ConvNeXt变体类型(包括T/S/B/L系列),其计算复杂度与Swin系列网络相近,并参考文献[45]中的内容进行设计。其中前两个系列(T和B)分别对应于ResNet-50和ResNet-200的经典架构设计。特别地,在第三个系列中(XL),采用了更大规模的设计方案。所有这些变体系列均基于相同的模块化设计框架展开发展,并且仅限于在每个阶段中调整通道数量C以及块数量B的不同设置以实现多样化性能特性。

与ResNets及Swin Transformer类似,在各个新阶段中,通道数量均会翻倍。我们进行了如下配置设置

本研究在验证集上实现了ImageNet-1K测试集的最高精度。此外,在包含约一千万图像的不同类别(基于包含约一千个类的子集)的大规模数据集中 ImageNet-22K 进行了预训练工作。随后,在 ImageNet-1K 上对预训练模型进行了微调,并对其性能进行了评估。本研究采用了统一的分辨率策略,在统一分辨率下分别完成了针对不同图像尺寸大小的数据处理。通过先对更大规模的数据集进行预训练,并在此基础上逐步优化模型参数,在较小规模的数据集中进一步提升性能。

Results

ImageNet-1K

表1上部分展示了与两种最新的Transformer变体模型(包括DeiT [73] 和 Swin Transformer [45]) 以及 RegNets [54)、EfficientNets [71) 和 EfficientNets V2 [72) 的对比实验结果。研究发现,在超越两款强大的基准模型的基础上,在性能评估指标方面(如精度计算权衡和推理吞吐量),该方法不仅在超越两款强大的基准模型的基础上,在超越两款强大的基准模型的基础上,在超越两款强基底模型的同时, 还具有更高的泛化能力优势. 通过引入动态多级特征融合机制, 该方法不仅实现了比传统多层感知机更强的表示能力, 还显著提升了网络的收敛速度.

在研究结果中发现ConvNeXt-B这一模型具有显著优势:相比Swin-B提升了约0.6个百分点(准确率从84.5%提升至85.1%),然而其推理性能却提升了高达12.5%(95.7图像/秒对比85.1图像/秒)。

通过测试发现,在分辨率值从224提升至384时(...),ConvNeXt-B相较于Swin-B在浮点运算与吞吐量方面的优势更为显著。同时,在升级至ConvNeXt-L的过程中也验证了这一现象的存在(...)。该模型在这一升级阶段实现了85.5%的性能提升幅度。

ImageNet-22K.

表1下方部分详细列出了基于ImageNet-22K微调所得模型的效果。

该研究框架在ImageNet-1K和EfficientNetV2-L的基础上,在配备先进模块(如Squeeze-and-Excitation网络[35])以及渐进学习机制的情况下达到了最优水平。然而,在采用基于ImageNet-22K的预训练策略方面仍存在不足。

在性能方面显著超越了EfficientNetV2,并且这一发现有力地支持了大规模训练在模型优化中的关键作用。

Isotropic ConvNeXt vs. ViT

在本次消融实验中, 我们考察了基于ViT风格[20]各向同性架构的ConvNeXt块设计, 该架构无下采样模块, 且在各个深度保持相同的特征分辨率(如14×14)。我们通过与ViT-S/B/L(384/768/1024)相同的特征维数构建各向同性ConvNeXt-S/B/L模型, 深度设置为18/18/36以匹配参数数量及触发器个数, 并保持原有的块结构不变(如图4所示)。采用DeiT[73]改进型ViT-S/B监督训练方法与MAE[26]改进型ViT-L监督训练方法作为基础, 因为其采用了较优的训练策略而优于原始ViT[20]模型设计。与先前相同的是ConvNeXt模型的训练设置, 但引入了更长的预热阶段以提升性能表现ImageNet-1K分类任务结果见表2, 表现表明基于非层次结构实现的ConvNeXt块设计具有与ViT相当的竞争优势

下游任务的评估

Object detection and segmentation on COCO.

我们采用ConvNeXt网络作为Mask R-CNN的主要组件,在经过精心设计的实验环境中对该模型进行了参数微调与增强版本的构建(具体参考文献[C27][9])。基于Swin Transformer架构(如文献[C45]所述),本研究引入了多尺度特征提取策略,并配合先进的AdamW优化算法以实现模型的快速收敛与性能提升。

表3展示了目标检测与实例分割的结果,并对Swin Transformer、ConvNeXt以及传统ConvNet(包括ResNeXt)进行了比较。无论模型的复杂度如何变化,在此研究中发现ConvNeXt的性能达到了与Swin Transformer相当甚至更好的水平。

Semantic segmentation on ADE20K

基于ConvNeXt主干网络的UperNet[85]被用于评估ADE20K语义分割任务。各模型变体均经过16万次迭代训练,并采用批量大小为16。其他实验参数设置参考文献[6](详细内容可在附录A.3中查阅)。表4展示了多尺度验证中的验证mIoU指标。通过调整模型容量,ConvNeXt架构展示了多样化的性能表现。

Remarks on model efficiency

在相同的FLOPs情况下(即计算复杂度相当),基于深度卷积的设计相较于单纯采用密集卷积的传统CNN架构而言运行速度较慢且内存占用更大。自然会质疑这种设计是否会导致整体效率下降。研究表明 ConvNeXts 在推理性能上与Swin Transformer 不相上下甚至略胜一筹 这一优势尤其体现在处理高分辨率图像的任务中(具体比较可参考表1 和表3)。值得注意的是 ConvNeXts 的训练阶段对内存的需求显著低于 Svin Transformers 例如 使用 ConvNeXt-B 主干网络配置下的训练级联掩码RCNN 在单个GPU批量处理2张图时峰值内存占用达到17.4GB 这相比起 Svin-B 的参考值18.5GB 显著减少了约6.9% 的内存需求

相关工作

混合模型

在研究领域取得了显著进展的是一种将卷积与自注意力机制相结合的混合模型。值得注意的是,在Transformer(ViT)出现之前的研究重点主要集中在通过自注意力/非局部模块(参考文献[8, 55, 66, 79])来增强传统卷积神经网络(ConvNet),从而实现对长期依赖性的捕捉。最初版本的ViT[20]首次提出了一种融合机制,在此基础上,大量后续研究工作聚焦于两种途径:一种是通过显式机制引入卷积先验(参考文献[15-18]),另一种则是采用隐式的策略(参考文献[45])。

最近基于卷积的方法

Han等人[25]研究表明,局部transformer注意力等价于非均匀动态深度卷积.随后将动态或规则深度卷积替代了Swin中的MSA模块,其性能几乎与Swin相当.同时研究工作ConvMixer[4]显示,在小规模设置下,深度卷积可作为一种具有前景的设计方案用于混合策略.该方法通过优化补丁尺寸以达到最佳效果,从而使得吞吐量较其他基准方案显著降低.另外,GFNet[56]则利用快速傅里叶变换(FFT)进行令牌间的混合运算.值得注意的是,尽管FFT也是一种典型的卷积操作,但其核尺寸为全局且填充方式遵循循环模式.与其他最新的Transformer架构或基于CNN的设计相比,本研究的主要目标之一在于深入探索标准ResNet架构的现代化路径,并致力于实现最先进水平的性能表现.

总结

在二十世纪初,《Vision Transformers》(VIT),尤其是具有分层结构的《Swin Transformers》,逐渐取代传统的卷积神经网络(CNN)并成为通用视觉主干网络的主要选择之一。

在卷积神经网络领域中普遍认可的是 Vision Transformer(Vision Transformer)较之于 Convolutional Neural Network(CNN)展现出更高的准确率、效率以及可扩展性特点。基于此认识基础之上我们提出了一种全新的纯 Convolutional Neural Network 架构 ConvNeXts 这一创新性设计能够在多个关键指标上超越现有的层次式视觉Transformer模型 同时保持着传统 CNN 模型所独有的简洁高效特性值得注意的是 这一发现令人深思 而我们的 ConvNeXt 模型本身并不完全是新的 回顾过去十年的发展历程 我们发现许多模块化的组件是经过独立优化设计的 但并未形成统一的整体优化框架这一研究发现可能颠覆现有认知模式 在重新评估传统深度学习架构方面具有重要意义

全部评论 (0)

还没有任何评论哟~