A ConvNet for the 2020s(2022 CVPR)
| 论文标题 | A ConvNet for the 2020s |
|---|---|
| 论文作者 | Zhuang Liu, Hanzi Mao, Chao-Yuan Wu, Christoph Feichtenhofer, Trevor Darrell, Saining Xie |
| 发表日期 | 2016年01月01日 |
GB引用:
Mr. Liu Zhuang, Ms. Hanzi Mao, Dr. Wu Chao-Yuan, et al., have developed a convolutional neural network (CNN) tailored for the advancements of the 21st century[J]. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), vol. 3(4), pp. 5878–5887.
[1]Mr. Zhuang Liu, Ms. Hanzi Mao, Dr. Chao-Yuan Wu, et al., developed a convolutional neural network (CNN) tailored for the advancements of the 21st century[J]. IEEE/CVF CVPR Workshops & Conferences vol., no., pp.
摘要
本文介绍了一种名为ConvNeXt的纯卷积神经网络模型。该模型通过逐步优化标准ResNet架构实现了与层级Transformer模型相当的性能。经过优化调整后的网络设计、训练技术和模块配置显著提升了ConvNeXt在多个视觉识别任务上的表现,并且其性能甚至超过了Swin Transformer。该模型不仅继承了传统卷积网络的简洁性和高效性特性,并且在面对大规模预训练数据时展现出卓越的扩展性和抗干扰能力。
研究问题
在2020年代初期阶段时下最前沿的人工智能技术——即深度学习中的卷积神经网络(CNNs),其核心竞争力能否超越基于自适应核方法的传统视觉模型——即Vision Transformers?与此同时,在不改变模型架构的前提下能否通过改进其内部参数计算机制来进一步提高模型性能?从算法层面出发如何优化CNNs以实现更好的泛化能力及效率提升?
研究方法
实验研究:
比较研究: 通过比较分析各种不同的设计方案(包括宏架构与残差模块等),观察这些架构对ConvNeXt模型性能的影响,并发现部分设计能够明显提高该模型的准确率。
混合模型研究: 融合卷积神经网络(ConvNets)与 Transformer 的优势,并通过优化网络结构参数及激活函数设计等技术手段,在提升分类精度的同时实现了对传统 ConvNet 方法的成功借鉴。
研究思路
- 现代化ConvNet设计(Modernizing ConvNet Design) :
作者基于一个标准的ResNet架构,在采用优化的训练策略后实现了相较于原始ResNet性能提升,并将其作为基准模型记录下来。
然后作者经过一系列步骤对ResNet架构进行现代化处理使之更接近视觉变换器的设计并且深入研究了影响其性能差异的关键组件

- 探索关键组件(Exploring Key Components) :
该论文深入探讨了多种设计决策方案,在宏观层面涵盖了设计方案(包括阶段比例计算与stem模块优化);同时对ResNeXt架构进行了创新性改进;此外还引入了倒置瓶颈结构这一关键改进措施;并且采用了较大尺寸核块的设计策略;微观层面则着重考虑了激活函数选择与规范化层设置等问题。
基于这些优化措施和改进策略,在研究过程中,作者成功识别了几个核心模块。这些模块对于提高其性能水平至关重要
- 提出ConvNeXt模型(Proposing ConvNeXt Models) :
- 基于前述研究获得的结论,作者提出了一组纯ConvNet模型,并将其命名为ConvNeXt。
基于标准ConvNet模块构建的ConvNeXt,在准确性、可扩展性和稳定性等方面与Transformer模型相媲美。
这些模型不仅在保持标准ConvNet的简单性和高效性的同时,在性能表现上也与Swin Transformer相近的表现水平。
- 广泛的实验评估(Extensive Experimental Evaluation) :
该研究者对ConvNeXt模型进行了系统性评估,在包括ImageNet分类、COCO目标检测以及ADE20K图像分割等多维度的任务场景中进行了详细测试。
实验结果表明,在这些特定任务上,ConvNeXt的表现不亚于具有相同复杂度的Swin Transformer模型。基于这些方法开发的研究不仅成功开发了一种高效的新视觉识别模型,并且也颠覆了人们对传统卷积神经网络(ConvNets)与Transformer架构在网络视觉任务中的性能水平的传统认知。
具体设计步骤
-
训练策略的优化 :在保持原有框架的基础上进行了系统性改进(采用AdamW优化器配合数据增强技术等),显著提升了模型的整体性能表现。
-
整体架构设计 :
- 阶段计算比例优化 :将ResNet各阶段计算资源分配比例进行了精细调节(分别为3:3:9:3),这一设置既保持了传统结构的优势又借鉴了Swin Transformer的有效经验。
- 基于ViT风格的Patchify方案采用 :创新性地引入了类似于ViT模型中的"Patchify"技术路径,在输入预处理环节应用4×4非重叠卷积操作(具体指核尺寸为每维4个像素的非重叠可学习卷积操作),这一设计既保证了特征提取的有效性又降低了模型的整体复杂度。
-
ResNet改进方案:引入分组卷积(grouped convolutions),尤其是深度可分离卷积(depth-wise separable convolutions),以降低运算复杂度并提升网络性能。
-
反转瓶颈结构:参考Transformer中的反转瓶颈设计,在保持模型简洁的同时显著提升了模型深度

- 大卷积核 :使用更大的卷积核(如7×7)来模拟Transformer中的全局感受野。

- 微观设计 :
- 激活函数类型更换:采用Gaussian Error Linear Unit(GELU)替代ReLU。
- 缩减数量优化:缩减每个模块中的激活函数与归一化层数量设计,使其结构趋近于Transformer的设计思路。
- 归一化层更换策略:采用Layer Normalization替代Batch Normalization以提升模型性能。
- 独立下采样模块设计:在各阶段之间增加独立的下采样模块以增强特征提取能力,并模仿Swin Transformer的空间聚合机制。
网络架构细节

研究背景
自2010年代起至今,在深度学习领域经历了重大的发展与进步。这一阶段尤其凸显出神经网络的复兴作用,并且这一趋势尤其体现在卷积神经网络(ConvNets)的发展中。计算机视觉领域从工程特征向架构设计转型 ,而卷积神经网络(ConvNets)则在这一体域中占据主导地位,并在其所擅长的高质量图像处理中展现出独特的优势——其独特的"滑动窗口"机制成为视觉感知的基础架构。卷积神经网络(ConvNets)不仅包含若干固有的归纳偏置特性,在多种计算机视觉应用中均展现出卓越性能——其中最主要的特性之一是平移不变性;此外由于其高效的计算能力得到了广泛认可——当采用"滑动窗口"方式进行操作时能够实现计算资源的有效共享
然而,在Vision Transformers(ViT)被引入之前的一段时间里**,** 计算机视觉领域正经历着根本性的转变。ViT在图像分类任务中展现出色性能的同时**,** 其基于全局注意力机制的设计却带来了计算复杂度上升的问题。分层架构通过重新整合一些自适应网络特征提取技术——例如局部窗口注意力机制——成功实现了Transformer模型在通用视觉骨干方面的实际应用,并在其所覆盖的一系列视觉任务中取得了令人瞩目的效果。值得注意的是**,** 这些混合架构方法的有效性更多地得益于Transformer模型固有的优势特性而非传统卷积神经网络所带来的归纳偏差
研究目的及创新点
本研究旨在通过逐步优化标准ResNet(卷积神经网络)的设计方案,并借鉴视觉Transformer的技术路径来进行深入分析和改进。研究者希望通过这一过程识别出对性能有显著影响的关键性设计决策,并最终推出一种创新性的纯卷积网络模型——ConvNeXt。该模型不仅继承了传统卷积网络结构上的简洁高效特点,在多个计算机视觉基准测试中还与基于Transformer架构的竞争性模型展开较量。
研究文献表明,在多种视觉任务中融合了基于卷积神经网络的先验知识(例如Swin Transformer)后的方法表现优异。然而这种混合方法的有效性主要得益于分层结构带来的优势而非基于卷积操作所带来的固有归纳偏差 。为了应对这一问题该研究文献提出了一系列解决方案
- 深入分析现有的卷积神经网络架构设计空间,并系统性地评估纯卷积神经网络(CNN)在性能方面的潜力上限。
- 通过渐进式转换策略将标准ResNet架构逐步优化为类似于视觉变换器的设计模式,并深入探讨对性能表现具有显著影响的关键模块。
- 构建了一系列基于纯CNN的新架构系列——即ConvNeXt系列模型——这些创新设计能够在准确性与可扩展性方面与现代视觉编码器(如Vision Transformer)在准确性与计算效率之间取得平衡,并且维持传统CNN结构的直观性和计算效率。
研究的价值在于突破性地挑战了现有对卷积网络在计算机视觉领域重要性的一般认知。尽管过去十年间Transformer架构已经在图像分类等任务中取得了令人瞩目的成就[1](虽然Transformers已广泛应用于多个领域),但本研究发现:通过适当调整设计策略与技术细节,在不牺牲性能的前提下完全基于传统卷积神经网络架构即可实现与基于Transformer的竞争水平表现,并且这种纯粹的卷积架构还可以适用于图像分类、目标检测以及语义分割等多个关键任务这一发现不仅凸显了卷积操作在现代计算机视觉体系中的重要性而且可能促使研究人员重新审视未来计算机视觉模型的发展方向
创新点 :
- 按照步骤将标准ResNet按照"现代化"的方式转换为Vision Transformer的设计框架,并在此过程中重新引入了几种新的ConvNet先验技术。
- 基于标准ConvNet模块构建的ConvNeXt模型在各项基准测试中展现出显著的竞争优势,在准确性、可扩展性和稳健性等方面与Transformer展开激烈竞争。
- 现代化过程涉及的变化包括使用深度卷积代替传统卷积层、增加网络宽度以提升处理能力、调整阶段计算比率以优化效率,并采用GELU激活函数替代ReLU激活函数等,并对微观架构和宏观布局进行优化调整。
实验和结论
在图像分类任务中进行训练
该研究在其大规模图像分类基准ImageNet-22K上展开了系统性研究,并对ConvNeXts网络架构进行了长期持续的训练与优化。其中进行了5轮预热阶段的准备,并展开了90轮完整的 Epoch 训练。在此研究中未采用指数移动平均机制(EMA)。其他实验设置参考了ImageNet-1K的标准做法。
在ImageNet-¹₀₀₀上实施微调训练

ImageNet (预)训练

研究者在表格5列出了ConvNeXts模型在ImageNet-1K上的训练结果以及ImageNet-22K预训练配置。除了随机深度率外的所有ConvNeXt变体采用了统一配置。
在第 2 节中关于‘现代化 ConvNet’的实验部分中,请问您提到什么?此外,在 ImageNet-1K 设置中我们采用了表5的数据表格,并且为了避免使用EMA带来的负面影响,在模型包含BatchNorm层的情况下选择不启用该技术
在第3.3节中讨论的各向同性ConvNeXts
ImageNet 微调

作者在表6中详细列举了在ImageNet-1K上进行微调的具体设置。基于预训练模型的最终权重进行微调时,默认情况下未采用EMA权重(即使在预训练过程中采用了EMA并且报告了EMA精度)。这是因为如果采用EMA权重进行微调,则无法观察到预期的改进(与文献[73]中的观察结果一致)。唯一例外的情况是针对ImageNet-1K上的ConvNeXt-L模型,在该案例中由于过度拟合而导致其准确率明显低于EMA精度的情况下,默认选择其最佳EMA版本作为微调起点。
在微调过程中,作者采用了分阶段递减的学习率参数设置,并将连续的三个区块划分为一组进行处理。当模型被训练至384^2分辨率时,默认沿用该设置的方法,在测试阶段采用完整的裁剪策略(即不裁剪),以与基于224^2分辨率的训练方案形成对比
ImageNet-1K实验

表1(上)显示 了与两个最近的Transformer变体,DeiT [73]和Swin Transformer [45],以及来自结构搜索的两个网络——RegNets [54],EfficientNets [71]和EfficientNetsV2 [72]。在精度-计算权衡以及推理吞吐量方面,ConvNeXt与两个强ConvNet基线(RegNet [54]和EfficientNet [71])不相上下。ConvNeXt 还全面优于复杂度相似的 Swin Transformer,有时差距很大(例如 ConvNeXt-T 为 0.8%)。由于没有移位窗口或相对位置偏差等专门的模块,ConvNeXts 的吞吐量也比 Swin Transformers 有所提高。
一项显著成果是384^2分辨率设置下的ConvNeXt-B模型:在性能指标上优于Swin-B达0.6%,具体数值为85.1%与84.5%的对比;然而,在推理效率方面却表现得更为出色。该模型分别达到95.7和85.1个图像/秒的吞吐量。
我们发现,在从一个较低分辨率升级至较高分辨率的过程中(即从224^2增长至384^2),相对于Swin-B模型而言ConvNeXt-B在计算效率上的优势变得更加明显(即FLOP/Bandwidth ratio)。此外,在进一步扩展至ConvNeXt-L模型时(即引入更大的网络规模),实验结果显示计算效率提升了85.5%左右

ImageNet-22K实验
我们呈现了使用ImageNet-22K预训练并微调后的模型结果。
这些实验具有重要意义,并且由于视觉Transformers被认为具有较低程度的归纳偏差,在更大规模的数据集上进行微调时其性能通常优于ConvNets
实验结果表明,在采用大规模数据集进行预训练时
在 ImageNet-1K 数据集上,EfficientNetV2-L(被发现的一种架构结构,并配备了先进的模块组合(例如 Squeeze-and-Excitation [35])以及渐进式的训练方案)获得了最优性能。然而,在 ImageNet-22K 预训练任务中,ConvNeXt 的表现能够超越 EfficientNetV2 模型,并进一步证实了大规模预训练的重要性。
ConvNeXt 的鲁棒性和域外泛化结果

表8汇总了ConvNeXt模型在多个稳健性基准上的评估结果。我们直接使用ImageNet-A[33]、ImageNet-R[30]、ImageNet-Sketch[78]以及ImageNet-C/\bar{C}[31,48]等基准数据集对我们的ImageInt-1K训练与微调分类模型进行了测试。我们测量了Imaginett-C的平均破坏误差(mCE)、Imaginett-\bar{C}的破坏误差以及所有其他数据集上的最高准确率。
ConvNeXt系列模型(尤其是大规模版本)在抗风险能力方面表现突出,在一系列基准测试中显著超越当前最先进且经过优化的鲁棒模型[47]。基于额外收集的 ImageNet-22K 数据集,ConvNeXt-XL 显著提升了在不同领域上的泛化性能(例如,在 ImageNet-A/R/Sketch 基准测试中分别实现了 69.3%、68.2% 和 55.0% 的分类准确率)。值得注意的是,在这项研究中我们特意避免使用任何专门设计用于增强鲁棒性的模块或额外的数据微调过程。
各向同性ConvNeXt vs. ViT
在本次消融研究中, 我们探讨了我们的 ConvNeXt 架构能否扩展至 ViT 风格的可各向同性架构. 这些无下采样结构的设计在所有深度均维持一致的空间分辨率(例如 14×14). 我们采用基于ViT-S/B/L的特征维度设定(分别为384、768和1024)来构建相应的可各向同性ConvNeXt模型. 最后, 我们将模型的深度配置为 18/18/36, 这样的设置确保了所构建模型的参数规模和计算复杂度与原ViT架构相当.

块组织架构遵循图4所示的配置模式。我们分别基于ViT-S/B的DeiT[73]模型进行了监督学习,并对ViT-L的MAE[26]模型也进行了相应的监督学习工作。值得注意的是,在这一过程中我们采用了改进于原始ViTs[20]的训练方案。此外,在实验设置上我们采用了一致的方法来进行ConvNeXt模型的训练工作,在这一过程中我们特别增加了较长的预热阶段以进一步优化性能表现。表2列出了基于224^2分辨率下的ImageNet-1K测试数据集上的实验结果,在这一基础上我们观察到ConvNeXt在非分层架构中展现出与传统ViT相当甚至略优的表现效果

在COCO数据集上的目标检测和分割实验
基于ConvNeXt主干,在COCO数据集上进行了Mask R-CNN[27]和Cascade Mask R-CNN[9]的优化。参考Swin Transformer[45]的方法论框架中采用了多尺度训练策略,并结合AdamW优化器以及每隔一定间隔(3倍)的学习率调整策略。

表 3 对比分析了不同架构在目标检测和实例分割任务中的性能表现。通过对现有方法的系统性研究发现,在保持相同复杂度的前提下,ConvNeXt 不逊色于Swin Transformer这一先进架构。进一步扩展到基于ImageNet-22K进行过更大规模预训练的大型预训练模型(包括B、L、XL系列),在框AP和掩模AP方面均展现了显著优势(例如实验结果表明,在某些场景下可获得+1.0 AP的提升效果)。
在 ADE20K 数据集上的语义分割实验
我们采用了 UperNet [85] 对 ADE20K 语义分割任务 进行评估,并对 ConvNeXt 主干进行了具体测试。在经过 16 万次迭代后完成训练过程,并采用每批处理 16 个样本的方式进行数据输入。此外,在实验细节设置上主要参考了文献 [6] 的相关方法和技术方案。

在表4中展示了基于多尺度测试的验证mIoU结果。该模型在不同容量设置下均展现出卓越的效果。这一结果进一步证明了我们的架构设计的有效性。
我们在 ADE20K 和 COCO 实验中采用了 BEiT [6] 和 Swin [45] 中所建议的训练方法。此外,在实践过程中我们整合了 MMDetection [10] 以及 MMSegmentation [13] 这两个工具箱。其中,在网络初始化阶段我们采用了 ImageNet 预训练模型的最终权重而非EMA加权(以确保模型具有良好的泛化能力)。
我们对COCO实验进行了参数配置的优化探索,并设置了多个超参数组合进行测试。具体而言,在学习率设置上采用了{1e-4,2e-4}两个值,并结合逐层衰减策略[6](衰减因子取值为{0.7,0.8,0.9,0.95}),同时对随机深度率设置了{0.3,0.4,0.5,0.6,0.7,0.8}的不同取值范围以探索模型性能的多样性)。随后,在保持相同参数设置的基础上,在COCO数据集上对经过ImageNet-22K预训练的Swin-B/L模型进行了微调训练。整个过程均基于官方提供的代码框架以及预训练模型权重[3]进行操作。
我们为 ADE20K 实验覆盖了超参数设置的研究工作。具体包括设置在学习率方面的参数:8e-5 和 1e-4;在逐层衰减学习率方面采用了系数为 0.8 和 0.9 的策略;以及在随机深度比例方面设置了三个不同的取值范围:0.3、0.4 和 0.5。通过多尺度测试报告验证了该方法对 mIoU 指标的适用性;剩余部分的单尺度测试结果详见Table 7 。

关于模型效率的评论
在相同计算资源(FLOP)下,在使用深度卷积的模型相较于仅依靠密集卷积的传统ConvNets时,在速度上表现更为迟缓的同时也会伴随更高的内存占用。这自然会引发一个问题:即ConvNeXt的设计是否会导致其在实际应用中效率低下?正如论文所述内容所证实的事实是,在推理吞吐量方面ConvNeXts的表现与Swin Transformers不相上下甚至略胜一筹。这一现象同样适用于分类任务及其他对输入分辨率要求较高的场景(有关吞吐量/FPS 的详细对比,请参见表 1、3 )。此外我们还注意到,在训练过程中所需的内存资源相比Swin Transformers来说要低一些例如采用ConvNeXt-B主干训练Cascade Mask-RCNN模型在单GPU批量大小为2的情况下峰值内存需求为17.4GB这相比起Swin-B的参考值18.5GB来说更为高效。值得注意的是相比于普通ViT由于采用了局部计算机制ConvNeXt和Swin Transformer不仅提升了运算效率同时也带来了更好的分类性能-FLOPs权衡比
值得我们关注的是,在视觉领域中ConvNet 的归纳能力提升了这一现象,并不涉及视觉 Transformers 中的自注意力机制。
吞吐量基准测试
基于 Swin Transformer [45] 的研究,
表 1 中的 ImageNet 模型在 V100 GPU 上进行了基准测试,
相比之下,在拥有相近参数规模的 Swin Transformer 上运行时所展现出的速度稍慢。
现采用 A100 等更先进设备对上述模型进行性能评估,
这些硬件平台支持采用 TF32 格式处理张量运算。
基于 PyTorch 1.10 平台,并采用‘Channel Last’内存布局策略(如文献 [22] 所述),我们得以进一步提升计算效率。

本研究的结果如表12所示。Swin Transformers和ConvNeXts均显著超越了V100 GPU在推理吞吐量上的表现。相比之下ConvNeXts的表现更为突出,在某些情况下其速度领先程度高达49%。本研究提供了一个积极的迹象表明:仅使用标准ConvNet模块且设计简洁的ConvNeXt即可实现高效性与硬件资源的最佳平衡。
局限性
通过实证研究发现,在图像分类、目标检测、实例识别以及语义分割等多个领域中,纯ConvNet架构ConvNeXt的表现与分层视觉Transformer具有高度相似的效果。尽管我们的研究主要聚焦于广泛的应用场景分析,但随着计算机视觉领域的不断拓展与创新,我们逐渐认识到其潜在的多样性优势。对于不同类型的复杂场景处理能力上存在显著差异,在特定领域可能展现出更强的优势.
常见的案例之一是多模态学习,在这一过程中交叉注意力机制可能更适合对不同模态特征之间的相互作用进行建模。此外,在处理需离散化、稀疏或结构化输出的任务时,Transformers 的灵活性更高 。我们主张架构设计应充分考虑当前任务的需求,并尽量简洁明了
结论
在2020年代末期,在计算机视觉领域中视觉Transformers逐渐成为主流架构,并且尤其以分层结构为基础的Transformers(如Swin Transformer这样的层级架构)取代了传统的卷积神经网络(ConvNets),成为通用视觉主干的首选方案。
大多数人都认为,在准确度、效率以及可扩展性等方面相较于传统ConvNets而言具有显著优势。为此我们开发了一种新型的纯ConvNet模型ConvNeXts,在多个关键的计算机视觉基准测试中与现有的分层架构相媲美,并保持了传统ConvNets所拥有的简洁性和高效的特性。然而我们在某些关键领域取得了令人意外的研究成果而这一新型模型本身并非全新创新在过去十年里许多设计组件是通过独立研究完成的而非集体协作的结果基于此我们期待这份研究报告所带来的新发现将对原有观点提出挑战并最终促使人们深入探讨卷积操作在计算机视觉领域核心作用的可能性
相关研究
这篇论文从多个相关研究方向及其具体的研究内容来看
混合模型(Hybrid Models) : 在Vision Transformer(ViT)之前与之后的研究中,学者们一直致力于探索结合卷积神经网络(CNNs)与自注意力机制的混合架构。这些工作主要聚焦于通过引入自注意力机制或非局部模块来提升ConvNets的能力,从而更好地捕捉长程依赖关系。
视觉变换器(Vision Transformers, ViTs) : ViT通过将图像划分为多个小块,并运用自注意力机制实现了对网络架构的根本性革新。随后的研究则致力于探索如何在ViT中嵌入卷积先验,在显式和隐式两种模式下实现这一目标。
3. 当前基于卷积的一些最新研究 : 显示出在小尺寸场景中,“深度可分离卷积”的技术潜力,并被作为一种有效的融合方案的一种可能性。
研究表明,在这些小尺寸场景中,“ConvMixer”的设计通过采用深度可分离卷积架构,并实现了显著的效果。
4. 卷积神经网络(ConvNets)的现代化 : 论文中描述了对标准ResNet进行现代化改造的过程,这一过程涵盖了对其架构多个方面的优化,其中包括:通过调节阶段计算比例来优化网络效率,采用新的"patchify" stem结构以提升特征提取能力,引入分组卷积(如ResNeXt)以增强模型深度,设计倒置瓶颈结构以提高模型压缩率,使用较大尺寸的kernel以增强捕捉长距离特征的能力,以及调整激活函数和规范化层以进一步提升模型性能等。
具体而言,在COCO数据集上进行了对象检测与实例分割任务的研究,在ADE20K数据集上则聚焦于语义分割任务。这些任务通常要求模型具备处理高分辨率输入的能力,并且能够有效识别图像中的局部特征与整体结构。
模型的鲁棒性和泛化能力 : 论文进一步分析了该模型在抗干扰能力和适应性方面的性能表现。研究表明,在面对图像噪声干扰以及适应不同数据分布情况时, 该方法具有显著的效果, 这一发现直接影响其适应新场景的能力. 通过系统评估, 这些相关研究为本文提出的ConvNeXt架构奠定了理论基础, 同时也体现了计算机视觉领域对网络架构优化研究的持续深入.
