Advertisement

一文速览CVPR 2023掩码图像建模领域最新研究进展

阅读量:
e9ba18efbcdfbacf6cca59bc8a169c6d.gif

©PaperWeekly 原创 · 作者 | GlobalTrack
18d643c21cb75c584d799df1bda301f7.png

CV领域一般改进
3c8c75c8877fdaea3df1f0157420bad1.png

论文标题:

Masked Image Modeling with Local Multi-Scale Reconstruction

论文链接:

https://arxiv.org/abs/2303.05251

代码链接:

https://github.com/Haoqing-Wang/LocalMIM

本文指出深度模型上层和下层架构重要性是不同的。微调阶段上层可以快速适应下游任务而下层变化较为缓慢。考虑将重建任务同时应用于上层和下层架构,以明确指导。具体地,在预训练阶段,上层和下层分别学习细尺度和粗尺度监督信号。
77196c87f077db91b683af7c76ffb28b.png
c568a935ce3fa068914ecbb228924ff2.png

论文标题:

Integrally Pre-Trained Transformer Pyramid Networks

论文链接:

https://arxiv.org/abs/2211.12735

代码链接:

https://github.com/sunsmarterjie/iTPN

本文指出 MIM 任务预训练的一个关键问题是上有预训练任务和下游微调任务间的迁移差异。下游任务需要分层视觉特征,而基于 MIM 自监督学习的模型一般缺少此类特征。本文给出一种同时训练 backbone 和颈部模块的算法。本文也需要给各阶段颈部模块添加重建损失。这里指导特征图选择为教师模型对应阶段的特征图输出。
c8ce75621251f2e4fb06d8d7df57d701.png
2391ea8698c720460eaab182afe8bc61.png

论文标题:

MAGE: MAsked Generative Encoder to Unify Representation Learning and Image Synthesis

论文链接:

https://arxiv.org/abs/2211.09117

代码链接:

https://github.com/LTH14/mage

本文考虑在同一个自监督框架中学习生成模型和表示学习两个不同的任务。核心思想是使用可变掩码率在统一训练框架下进行生成学习和表示学习。本文 MAGE 方法在输入和输出中使用由向量量化 GAN 学习的语义标记。
da33734675ec80c31c1e57dbd7a18bc4.png
10d1a9da56a39b82ff4c6205a5844086.png

MIM与知识蒸馏
55988599323d42f97ab5ba5fce7d5131.png

论文标题:

TinyMIM: An Empirical Study of Distilling MIM Pre-trained Models

论文链接:

https://arxiv.org/abs/2301.01296

代码链接:

https://github.com/OliverRensu/TinyMIM

本文通过大量实验寻找最适合 MIM 任务的知识蒸馏目标。指出 1)使用令牌关系作为蒸馏目标优于 CLS 令牌和特征图;2)使用中间层作为目标优于使用最后一层。另外本文提出顺序蒸馏思想,即模型规模逐渐缩小的策略。
8fd2d9f1d8ec3a9f82616add2ba75237.png

论文标题:

Generic-to-Specific Distillation of Masked Autoencoders

论文链接:

https://arxiv.org/abs/2302.14771

代码链接:

https://github.com/pengzhiliang/G2SD

本文关注一般的任务导向蒸馏的性能难以令人满意,指出原因是该方法只关注特定任务特征,而忽略了一些有助于提升泛化能力知识。本文方法考虑两个蒸馏过程:任务无关蒸馏和特定任务蒸馏。任务无关蒸馏使用解码器中间层隐藏特征图作为学生模型训练目标。在后续特定任务中直接使用前阶段权重初始化。特定任务蒸馏学生模型将教师模型作为蒸馏目标。
5e9d6299b59de2551be1677295002b89.png
95cbbb34fd4dc9d3faceac78b02d7bba.png

视频领域改进
dc782cfc10174485c772e215f542ffe8.png

**论文标题:
**

VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking

论文链接:

https://arxiv.org/abs/2303.16727

代码链接:

https://github.com/OpenGVLab/VideoMAEv2

本文考虑在模型和数据尺寸层面对 VideoMAE 进行扩展。本文考虑双掩码策略,即在编码器和解码器都使用遮挡部分可见令牌。解码器掩码目标是尽可能多样化立方体以覆盖整个视频信息。模型尺寸上考虑了未探索过的 ViT-g,数据规模上增加到到百万级别大小。
99dc6835087bd27343da24f7a3200b13.png
845e72be51846126794809b1266795ec.png

论文标题:

DropMAE: Masked Autoencoders with Spatial-AttentionDropout for Tracking Tasks

论文链接:

https://arxiv.org/abs/2304.00571

代码链接:

https://github.com/jimmy-dq/dropmae

本文是一篇研究用于跟踪任务的视频 MIM 预训练算法。这里考虑使用经典的基于相似度的视频目标跟踪算法。为了在预训练阶段尽可能与追踪网络训练阶段保持一致,本文提出在随机采样两帧的令牌进行掩码的策略。另外考虑到不同帧之间存在的帧间线索可以弥补帧内线索缺失,帧内线索也能弥补帧间线索缺失的问题。
b205d55ad0a88224be3cabf610e1e221.png
a743cd331b9184265b7cd2f2fff72f78.png

点云领域改进
a8c683a22bc5f928062bb0d727df4976.png

论文标题:

PiMAE: Point Cloud and Image Interactive Masked Autoencoders for 3D Object Detection

论文链接:

https://arxiv.org/abs/2303.08129

代码链接:

https://github.com/BLVLab/PiMAE

本文研究 3D 与 2D 多模态 MIM 自监督算法。核心步骤是将点云和图像对作为输入,使用两个分支的 MAE 框架学习模态嵌入,之后对齐表示训练 MAE 网络。MAE 框架中编码器包含特定模态编码器和跨模态编码器。前者更好提取特定模态特征,后者执行跨模态特征交互。训练时考虑三种损失函数:点云重建损失,图像重建损失和跨模态重建损失。
803e77ccbf5f2f36eab1ec8332a6d465.png

更多阅读

c34fdd96e3567fea4bbac03bd92ef05f.png
2ada06390d80f8b0d86dc15fbdc8d2a2.png

af852a6eecbe8af806b32ff6d9701bc4.png
d0963967d9d2a8000b42cf835ec103b3.gif

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读 ,也可以是学术热点剖析科研心得竞赛经验讲解 等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品 ,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬 ,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02 )快速投稿,备注:姓名-投稿
96a9e782e9be74679f01fdd5a3479ff1.png

△长按添加PaperWeekly小编

🔍

现在,在**「知乎」** 也能找到我们了

进入知乎首页搜索**「PaperWeekly」**

点击**「关注」** 订阅我们的专栏吧

·

·
9dbe3e0be9c945c44f5a2fc74486298a.jpeg

全部评论 (0)

还没有任何评论哟~