A ConvNet for the 2020s ——阅读笔记
A ConvNet for the 2020s —— ConvNeXt
本文借鉴Vision Transformer系列和Swin Transformer架构对ResNet进行了优化,并采用全卷积结构,在性能方面超越了传统的Transformer架构。

文章采用了ResNet-50这一基准模型,并采用Transformers的技术进行训练;以上述训练结果为基准开展研究。
训练技巧
训练技术 主要和 优化策略、相关超参数 有关;

性能提升:76.1% ------> 78.8%, (+2.7%)
宏设计
基于ConvNets的多级架构设计中设置了不同级别的分辨率等级;该网络主要涉及的因素包括stage compute ratio以及stem cell结构
stem cell 是指神经网络中接收并处理输入图像的数据的那一部分计算单元;它通常被称为茎元细胞或基础构建模块。


改变依据:
小型Swin-T的阶段计算比例为(1:1:3:1),而大型Swin-T的阶段计算比例则为(1:1:9:1)。
在stem cell领域中,在vision transformer架构中采用了分块策略(patchify),即运用较大尺寸的卷积内核进行操作,并采用非重叠的小内核实现图像分割;而swin transformer则采用相似的分块层结构(patchify),其中每个分块(patch)的具体尺寸设置为4×4
ResNeXt
ResNet 和 ResNeXt网络块结构

ResNeXt的核心组件时分组卷积,其中卷积滤波器被分成不同的组
深度卷积
普通卷积:

深度卷积:对输入中的每个channel分别作用于其对应的多个convolution kernels;

逐点卷积:

论文做的改变

倒置瓶颈

改变依据:
在Transformer架构中的一项关键创新点是在于其独特的倒置结构设计。其中,在MLP子层中采用隐藏层宽度为输入层的四倍的设计策略。

大内核

改变依据:
- Vision Transformer的核心特性在于其独特的空间注意力机制;这种机制确保了每一层都能形成完整的全局感知能力;
- 在Transformer架构中, 重要的组成部分包括多头自注意(Multi-head Self-attention)块和前馈网络(Feed-forward Network). 这些复杂的计算单元(包括MSA和大核卷积)则通过优化布局实现了高效资源分配;同时,在模型后端部分集中部署高分辨率的小核卷积单元以应对复杂的计算任务。
分层微设计

注释:
- ResNet 和 ResNeXt 残差块

在ResNet架构中,下采样操作采用每个阶段起始处的残差块设计。具体而言,在这些位置上应用了步长为2的一系列3×3卷积操作以完成下采样功能;而残差连接处则采用了步长为2的一系列1×1卷积操作来完成这一过程。
- 在空间分辨率发生变化的地方添加归一化层有助于稳定训练;
