Advertisement

MLP-Mixer: An all-MLP Architecture for Vision

阅读量:

一种仅基于多层感知机(MLP)的体系结构!可比肩并旨在超越成熟的CNN和大火的视觉Transformer的阵营工作,代码即将开源!

PS:这个能引爆一波视觉MLP工作么?也许之后是CNN、Transformer、MLP几大阵营了…谷歌继续挖坑,太强了!

注1:文末附【Transformer】交流群

注2:整理不易,欢迎点赞,支持分享!

想看更多CVPR 2021论文和开源项目可以点击:

CVPR2021-Papers-with-Code

MLP-Mixer: An all-MLP Architecture for Vision
在这里插入图片描述

卷积神经网络(CNN)是计算机视觉的首选模型。 最近,基于注意力的网络(例如Vision Transformer)也变得很流行。 在本文中,我们表明,尽管卷积和注意力都足以获得良好的性能,但它们都不是必需的。

我们介绍了MLP-Mixer,这是一种仅基于多层感知机(MLP)的体系结构。 MLP-Mixer包含两种类型的层:一种具有独立应用于图像patches的MLP(即“混合”每个位置特征),另一种具有跨patches应用的MLP(即“混合”空间信息)。
在这里插入图片描述

代码:
在这里插入图片描述

实验结果

在大型数据集上进行训练或采用现代正则化方案进行训练时,MLP-Mixer在图像分类基准上获得竞争性得分,其预训练和推理成本可与最新模型相媲美。
在这里插入图片描述

我们希望这些结果能引发更多的研究,超越成熟的CNN和Transformer的领域。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

CVer-Transformer交流群

建了CVer-Transformer交流群!想要进Transformer学习交流群的同学,可以直接加微信号:CVer9999。加的时候备注一下:Transformer+学校+昵称,即可。然后就可以拉你进群了。

强烈推荐大家关注CVer知乎账号和CVer微信公众号,可以快速了解到最新优质的CV论文。
在这里插入图片描述

全部评论 (0)

还没有任何评论哟~