一文速览CVPR 2023掩码图像建模领域最新研究进展

阅读量：

©PaperWeekly 原创 · 作者 | GlobalTrack

CV领域一般改进

论文标题：

Masked Image Modeling with Local Multi-Scale Reconstruction

论文链接：

https://arxiv.org/abs/2303.05251

代码链接：

https://github.com/Haoqing-Wang/LocalMIM

本文指出深度模型上层和下层架构重要性是不同的。微调阶段上层可以快速适应下游任务而下层变化较为缓慢。考虑将重建任务同时应用于上层和下层架构，以明确指导。具体地，在预训练阶段，上层和下层分别学习细尺度和粗尺度监督信号。

论文标题：

Integrally Pre-Trained Transformer Pyramid Networks

论文链接：

https://arxiv.org/abs/2211.12735

代码链接：

https://github.com/sunsmarterjie/iTPN

本文指出 MIM 任务预训练的一个关键问题是上有预训练任务和下游微调任务间的迁移差异。下游任务需要分层视觉特征，而基于 MIM 自监督学习的模型一般缺少此类特征。本文给出一种同时训练 backbone 和颈部模块的算法。本文也需要给各阶段颈部模块添加重建损失。这里指导特征图选择为教师模型对应阶段的特征图输出。

论文标题：

MAGE: MAsked Generative Encoder to Unify Representation Learning and Image Synthesis

论文链接：

https://arxiv.org/abs/2211.09117

代码链接：

https://github.com/LTH14/mage

本文考虑在同一个自监督框架中学习生成模型和表示学习两个不同的任务。核心思想是使用可变掩码率在统一训练框架下进行生成学习和表示学习。本文 MAGE 方法在输入和输出中使用由向量量化 GAN 学习的语义标记。

MIM与知识蒸馏

论文标题：

TinyMIM: An Empirical Study of Distilling MIM Pre-trained Models

论文链接：

https://arxiv.org/abs/2301.01296

代码链接：

https://github.com/OliverRensu/TinyMIM

本文通过大量实验寻找最适合 MIM 任务的知识蒸馏目标。指出 1）使用令牌关系作为蒸馏目标优于 CLS 令牌和特征图；2）使用中间层作为目标优于使用最后一层。另外本文提出顺序蒸馏思想，即模型规模逐渐缩小的策略。

论文标题：

Generic-to-Specific Distillation of Masked Autoencoders

论文链接：

https://arxiv.org/abs/2302.14771

代码链接：

https://github.com/pengzhiliang/G2SD

本文关注一般的任务导向蒸馏的性能难以令人满意，指出原因是该方法只关注特定任务特征，而忽略了一些有助于提升泛化能力知识。本文方法考虑两个蒸馏过程：任务无关蒸馏和特定任务蒸馏。任务无关蒸馏使用解码器中间层隐藏特征图作为学生模型训练目标。在后续特定任务中直接使用前阶段权重初始化。特定任务蒸馏学生模型将教师模型作为蒸馏目标。

视频领域改进

**论文标题：
**

VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking

论文链接：

https://arxiv.org/abs/2303.16727

代码链接：

https://github.com/OpenGVLab/VideoMAEv2

本文考虑在模型和数据尺寸层面对 VideoMAE 进行扩展。本文考虑双掩码策略，即在编码器和解码器都使用遮挡部分可见令牌。解码器掩码目标是尽可能多样化立方体以覆盖整个视频信息。模型尺寸上考虑了未探索过的 ViT-g，数据规模上增加到到百万级别大小。

论文标题：

DropMAE: Masked Autoencoders with Spatial-AttentionDropout for Tracking Tasks

论文链接：

https://arxiv.org/abs/2304.00571

代码链接：

https://github.com/jimmy-dq/dropmae

本文是一篇研究用于跟踪任务的视频 MIM 预训练算法。这里考虑使用经典的基于相似度的视频目标跟踪算法。为了在预训练阶段尽可能与追踪网络训练阶段保持一致，本文提出在随机采样两帧的令牌进行掩码的策略。另外考虑到不同帧之间存在的帧间线索可以弥补帧内线索缺失，帧内线索也能弥补帧间线索缺失的问题。

点云领域改进

论文标题：

PiMAE: Point Cloud and Image Interactive Masked Autoencoders for 3D Object Detection

论文链接：

https://arxiv.org/abs/2303.08129

代码链接：

https://github.com/BLVLab/PiMAE

本文研究 3D 与 2D 多模态 MIM 自监督算法。核心步骤是将点云和图像对作为输入，使用两个分支的 MAE 框架学习模态嵌入，之后对齐表示训练 MAE 网络。MAE 框架中编码器包含特定模态编码器和跨模态编码器。前者更好提取特定模态特征，后者执行跨模态特征交互。训练时考虑三种损失函数：点云重建损失，图像重建损失和跨模态重建损失。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读 ，也可以是学术热点剖析 、科研心得 或竞赛经验讲解 等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品 ，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬 ，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02 ）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在**「知乎」** 也能找到我们了

进入知乎首页搜索**「PaperWeekly」**

点击**「关注」** 订阅我们的专栏吧

全部评论 (0)

还没有任何评论哟~

一文速览CVPR 2023掩码图像建模领域最新研究进展

CVPR 2024论文与代码汇总:计算机视觉领域最新研究进展

CVPR 2024的论文涵盖了计算机视觉领域的多个研究方向,包括但不限于3D场景表示、多模态大语言模型、目标检测、扩散模型等。这些研究工作不仅推动了学术前沿的发展,也为实际应用提供了新的技术支持。多模...

从CVPR 2024看域适应、域泛化最新研究进展

域适应和域泛化一直以来都是各大顶会的热门研究方向。域适应指：当我们在源域上训练的模型需要在目标域应用时，如果两域数据分布差异太大，模型性能就有可能降低。这时可以利用目标域的无标签数据，通过设计特定方...

论文周报 | 推荐系统领域最新研究进展

嘿，记得给“机器学习与推荐算法”添加星标本周精选了10篇最新推荐系统相关的论文，方向主要包括基于表示学习、联邦学习以及自动机器学习等的推荐算法，应用涵盖会话推荐、序列推荐以及组推荐等。为节省大家时间...

万字长文总结大模型知识编辑领域最新研究进展

随着深度学习与预训练技术的快速发展，大模型如ChatGPT、Mistral、LLaMA、ChatGLM、文心一言、通义等在自然语言处理领域已经取得了显著的突破。

CVPR 2021 双目图像压缩最新进展

CVPR2021图像压缩最新进展有预训练：首先分享的主题为：图像处理（实际内容为图像压缩）两位讲者分别是来自北航的邓欣和鹏城实验室的柏园超。论文一论文名称：DeepHomographyfor...

从近年顶会论文看领域自适应（Domain Adaptation）最新研究进展

Transformer+医学图像最新进展【2023】

Transformer主要用于自然语言处理领域。近年来，它在计算机视觉CV领域得到了广泛的应用。医学图像分析MIA，Medicalimageanalysis作为机器视觉（CV，ComputerVisi...

中文分词的一些最新研究进展

最近，读了几篇这两年发表的关于分词的会议论文，发现现在主要的研究方向是解决分词的领域适用问题，采用的主要模型是已有的分词算法+训练集+部分标记语料的半监督学习方式，分词算法包括感知器、条件随机场，部分...

国内CVPR和图像处理领域的公司和研究机构

近年来，国内做计算机视觉、模式识别、图像处理、智能视频分析、智能交通的公司和机构是越来越多，应用面也越来越广。以下是我个人整理的一些国内CVPR和图像处理领域中还不错的大公司和研究机构。对于想从事C...

是否确定退出登录?

一文速览CVPR 2023掩码图像建模领域最新研究进展

全部评论 (0)

相关文章推荐

一文速览CVPR 2023掩码图像建模领域最新研究进展

CVPR 2024论文与代码汇总:计算机视觉领域最新研究进展

从CVPR 2024看域适应、域泛化最新研究进展

论文周报 | 推荐系统领域最新研究进展

万字长文总结大模型知识编辑领域最新研究进展

CVPR 2021 双目图像压缩最新进展

从近年顶会论文看领域自适应（Domain Adaptation）最新研究进展

Transformer+医学图像最新进展【2023】

中文分词的一些最新研究进展

国内CVPR和图像处理领域的公司和研究机构