MLP-Mixer: An all-MLP Architecture for Vision
一种仅基于多层感知机(MLP)的体系结构!可比肩并旨在超越成熟的CNN和大火的视觉Transformer的阵营工作,代码即将开源!
PS:这个能引爆一波视觉MLP工作么?也许之后是CNN、Transformer、MLP几大阵营了…谷歌继续挖坑,太强了!
注1:文末附【Transformer】交流群
注2:整理不易,欢迎点赞,支持分享!
想看更多CVPR 2021论文和开源项目可以点击:
CVPR2021-Papers-with-Code
MLP-Mixer: An all-MLP Architecture for Vision

- 作者单位:原ViT作者团队(Google Research)
- 代码:https://github.com/google-research/vision_transformer
- 论文:https://arxiv.org/abs/2105.01601
卷积神经网络(CNN)是计算机视觉的首选模型。 最近,基于注意力的网络(例如Vision Transformer)也变得很流行。 在本文中,我们表明,尽管卷积和注意力都足以获得良好的性能,但它们都不是必需的。
我们介绍了MLP-Mixer,这是一种仅基于多层感知机(MLP)的体系结构。 MLP-Mixer包含两种类型的层:一种具有独立应用于图像patches的MLP(即“混合”每个位置特征),另一种具有跨patches应用的MLP(即“混合”空间信息)。

代码:

实验结果
在大型数据集上进行训练或采用现代正则化方案进行训练时,MLP-Mixer在图像分类基准上获得竞争性得分,其预训练和推理成本可与最新模型相媲美。

我们希望这些结果能引发更多的研究,超越成熟的CNN和Transformer的领域。




CVer-Transformer交流群
建了CVer-Transformer交流群!想要进Transformer学习交流群的同学,可以直接加微信号:CVer9999。加的时候备注一下:Transformer+学校+昵称,即可。然后就可以拉你进群了。
强烈推荐大家关注CVer知乎账号和CVer微信公众号,可以快速了解到最新优质的CV论文。

