文献阅读笔记整理--ConvNext:A ConvNet for the 2020s
文献阅读时间:2022年11月1日
论文名称:A ConvNet for the 2020s
论文下载链接:https://arxiv.org/abs/2201.03545
论文对应源码链接:https://github.com/facebookresearch/ConvNeXt
一、前言
以ResNet-50结构为基础,按照Swin-Transformer的设计思想来改进ResNet-50,实现新的准确率,并进一步探索它的可扩展性。
二、ResNet-50

效果 :在测试集上,由原本的80.5上升到80.6。此处使用随机种子,求平均得到。
至此,在ImageNet-1k****的准确率从78.8%提升到80.6%;
2、Micro Design
微观设计
(1**)Replacing ReLu with GELU and Substituting BN with LN**
激活函数替换: 由RELU替换为GELU,将BN(批归一化)替换成LN(层归一化)。
效果 :在测试集上,由原本的78.8上升到79.4。此处使用随机种子,求平均得到。
(2**)Fewer activation functions and Normalization layers**
激活函数即归一化层改变: 引入更少的激活函数和归一化层。
效果 :在测试集上,由原本的78.8上升到79.4。此处使用随机种子,求平均得到。
(3**)Separate downsampling layers.**
下采样层改变: 借鉴Swin Transformer的patch merging设计思想。采用2x2 stride=2的卷积进行下采样,并在底层、下采样之前和最后的平均池化之后加入LN层,使训练更加稳定。
效果 :在测试集上,由原本的78.8上升到79.4。此处使用随机种子,求平均得到。
**至此,在ImageNet-1k的准确率从80.6%提升到82.0%;相比同量级的swin Transformer的81.6%**有所提高。
下图为模型比较结果:

笔记部分内容整理自b站UP主: deep_thoughts
