【自监督论文阅读笔记】Green Hierarchical Vision Transformer for Masked Image Modeling

阅读量：

该文提出了一种基于分层Vision Transformers (ViTs) 的方法，并参考了Swin Transformer [43]作为示例；用于实现mask图像建模(MIM)的有效策略；该方法使分层ViT能够跳过mask patches，并专注于处理可见的patches。

本文的方法包括两个关键部分 ：

首先，在介绍 window attention 方面遵循分而治之策略的基础上提出了一种 novel 的 Group Window Attention 方案。为了解决自注意力计算在图像块数量上的 quadratic complexity 问题研究中采用了 group attention 技术这种方法通过 uniform partition 均匀分割的方式确保了每个子窗口内部的小块都能够得到统一地处理在每组内部则执行掩码约束下的自注意力计算

其次，在利用动态规划算法的基础上进一步优化分组策略的同时

（绿色：GPU内存使用量减少）

Introduction：

受掩码语言建模 (MLM) [50, 51, 13, 5] 在自然语言处理 (NLP) 领域取得的显著成就和 Vision Transformer (ViT) [15, 43, 60, 69] 的发展推动下,**基于掩膜图像建模（MIM）**作为一种突破性的计算机视觉（CV）自监督预训练方法应运而生。 MIM通过对未标记数据进行掩膜预测来学习隐式表示：例如，预测离散 tokens[2]、隐特征 [73、62、1] 或随机掩膜输入图像块中的原始像素[22、66]. 其中，《Masked Autoencoder》(MAE)[22]展现出卓越的表现能力和令人印象深刻的效率。

从基础原理上来看，在MIM中开发出一种不对称编码器-解码器架构。这种架构由基于标准ViT模型[15]的可观察区域运行的核心编码模块与轻量级解码模块组成。核心编码模块仅作用于可观察区域而未涉及不可见部分。随后通过轻量级解码模块重建所有区域用于生成遮罩。

一方面，在减少预训练计算负担方面，《非对称的编码器-解码器架构》表现尤为突出。另一方面，《多层感知机》（MLP）模型通常依赖于《均匀方向性变换》（UDT）机制来处理图像信息，并且这种机制能够有效减少计算复杂度。此外，在大规模图像分类任务中，《自适应分辨率金字塔网络》（ASPP）等技术被广泛应用于《多尺度特征提取》，这是因为《多尺度特征提取》能够帮助模型更好地捕捉图像中的细节信息。

事实上，在涉及不同尺度和层级表示以进行预测的各种计算机视觉任务中层次结构与局部归纳偏差起着关键作用[25,19]。然而，在将分层视觉转换器（如Swin Transformer[43]）整合进MAE架构时仍存在一定的挑战性

此外

为此, 我们以绿色 AI [55, 67] 的理念为基础, 努力开发一种基于层次模型的新方法。我们的中心任务是将 MAE 的非对称编码器-解码器架构被扩展至分层视觉转换器, 目的是仅针对可见块进行高效预训练。研究的主要瓶颈在于局部窗口注意力机制。尽管在分层视觉转换器中广泛采用, 然而在这种机制下难以实现随机掩码的有效结合, 因此导致各种不同规模的局部区域无法实现并行处理

本文首次探索克服这一缺陷。本文的方法从理论结构来看较为基础，并且由两个部分组成

基于分治策略的指导原则下，在本文中我们引入了一个名为Group Window Attention的新方案。具体而言，在每个包含奇数可见位置的局部窗口中被划分为若干个等比例大小的子群体后，在每个子群体上应用掩码注意力机制。
在此基础上我们进一步将上述的子群体划分转化为一个约束优化问题其目标是最小化对分群tokens所施加注意力计算的成本同时借鉴动态规划思想[4]以及贪心算法原理本文设计并实现了一种最优子群体划分算法这种算法能够自适应地选择合适的子群体尺寸从而实现最少数量的子群体划分以达到降低整体注意力计算开销的目的。

本文提出了一种具有广泛适用性的通用方法 ，其不涉及主干架构的任何修改，因此我们得以与其在可见和掩码patches上运行的基础模型进行直接对比。在经过详细的实验评估后发现，本文方法较基线模型表现出显著优势：其需要的训练时间明显降低，同时使用的 GPU 内存也大幅减少，而性能水平仍能与之相媲美。具体而言，采用 Swin-B 网络结构（参考文献43）时，本文方法仅需传统 SimMIM 方法的一半训练时间和约40% 的 GPU 内存消耗即可实现 ImageNet-1K 数据集上 83.7% 的 top-1 微调准确率[54] 。这一结果与其相比接近。

（apple-to-apple comparisons ：对两个东西的各个方面作一一对应的比较）

Contributions：

本文开发了一个绿色的层级 Vision Transformer用于掩码图像建模 ，并推荐一种更为实用的方法以显著提升效率。

如图2所示, 本文提出了一种组窗口注意力机制 , 将具有不同数量可见patches的局部窗口聚集成若干个大小相等的组, 并在每个组中施加掩码注意力机制 (如图3所示)。

基于动态规划理论基础与贪心算法原理的启发下,本文系统性地开发并实现了新型的最优分组方案(如图2所示),该方案通过动态调节机制实现最优分组尺寸的选择,并将当前分析窗口划分为最少数量的子区间

基于ImageNet-1K [54]和MS-COCO [41]两个数据集进行的系统性实验验证显示，在这些测试场景下，本文提出的方法能够达到与基准模型持平的性能水平。其中，在计算效率方面表现尤为突出，在多个关键指标上较之前版本提升了至少两倍以上（如图1所示）。

自监督学习：【citable】

表征学习作为计算机视觉领域的一个经典问题具有悠久的历史，在过去的几十年里，基于监督的学习方法主导了表征学习的发展。然而，在这一过程中非监督自监督学习（SSL）逐渐崭露头角，并展现了显著的优势，在学术界和工程界都受到了极大的关注。值得注意的是，在SSL方法被应用于解决相关预训练任务时，通常会发现这些方法并未真正具备对高质量表示的兴趣。

根据前置任务的不同，SSL方法可以分为 生成方法和判别方法 。

生成方法 基于部分观测到的输入来预测原始数据 $[59, 49, 38]$ ；对输入进行变换后的结果进行预测，并在输入空间中建立模型像素位置关系 $[36, 20, 33, 27]$ 。此外，在输入空间中建立模型像素位置关系同样属于这一类

在过去的几年里，判别方法尤其是对比学习方法获得了更多的关注；这一领域的发展得益于研究者们通过人工设计的方式生成多视角图像，并在此基础上旨在保持原始图像特征的一致性。大量对比学习方法[63、47、23、9、71、72]主要采用以下两种策略：其一是通过最大化正样本之间的相似性（即来自同一图像的视图）来增强模型性能；其二是同时最小化负样本之间的相似度以降低误分类风险；其中一些研究者仅针对单一特征进行处理[21、6、10、31、70、7]。此外，在全局特征研究的基础上，还提出了几种新的技术路径以维护表示的空间信息；这些新方法主要基于区域/掩码/像素级对比学习[61, 65, 64, 26, 29]展开探索

Masked Language/Image Modeling：

自监督预训练彻底改变了自然语言处理领域。在这一领域中提出的主要方法是Masked Language Modeling（MLM），该方法通过预测被随机遮蔽的tokens来学习语义表示。Image Masking（IM）具有类似的思路：即通过预测损坏图像中的缺失部分来学习图像建模的方法。值得注意的是，在BERT之前已有研究[59,49]提出了类似的思想。然而，在当时这些方法无法与其他预训练范例相提并论。

随着 Vision Transformers [15] 进一步的发展，在自监督学习领域取得了显著的进步

Isotropic and Hierarchical Vision Transformers：

该研究开创性地引入了 Vision Transformer (ViT) [15] 来彻底革新传统图像处理方式。
ViT及其变体[56]将图像划分为若干个块状区域，并基于Transformer架构对这些区域进行建模以实现图像分类。
尽管在分类任务中取得显著成果，
但ViT在密集预测任务上的表现仍有提升空间，
主要由于其继承自各向同性结构所带来的分辨率限制以及自注意力机制带来的二次计算负担[58]。
为此，
研究人员开发了多种改进方案，
包括针对ViT设计的层次化架构[60,43,16,69]
以及优化自注意力机制的方法[30,43,12,32]
从而充分发挥了ViT作为通用视觉骨干的作用。
本文聚焦于具有（移位）窗口局部注意力机制的经典实现Swin Transformer[43]
并对其性能与现有方法[12、69、32]进行了系统对比分析。

Green AI：

该大型AI模型的计算能力呈指数级增长[13,5,42]表明其处理能力不断提升。绿色AI的概念近年来受到了越来越多的关注[55,67]。
不仅追求准确性GreenAI还倡导采用效率作为评估AI模型性能的关键指标并主张在研究领域更具包容性的环保方法。
本文沿用GreenAI的理念并针对分层ViT架构的MIM提供了一种更加环保的技术方案。

Approach：

Preliminary：

Notations：令

表示输入特征，其中 C、H 和 W 是 X 的通道数、高度和宽度；

具体来说，在训练期间会随机创建（空间）掩码；其中数值为0的部分表示编码器不可见；同样地，则表示编码器可见。

掩码图像建模 ： MIM 通过从其部分观察

通过识别输入 X 的遮盖区域来进行表示提取。在现有研究中，Mask(·,·) 操作主要可分为两类：一类是基于注意力机制的方法；另一类是基于差分隐私保护的方案。

大多数方法 [2, 66, 62] 使用 Hadamard 积进行掩码 并保留被掩码的patches ，即

，M 沿信道维度广播 C 次。

与现有方法形成鲜明对比的是，在编码阶段丢弃mask patches的具体方式也已得到研究。具体而言，在编码阶段丢弃mask patches是一种有效的策略。

MAE设计了一种非对称与各向同性结合的编码器-解码器架构，并以有效利用部分输入的方式运作：该编码器仅在未包含掩码tokens的可观察块中进行操作。

解码器从可见块和掩码tokens的表示中恢复原始图像。该设计使得MAE实现了优异性能并展现了显著效率：例如，在所有patch运行时训练速度提升了两倍多。然而，当前仅适用于各向同性ViT的技术：尽管分层ViT在大多数视觉任务中的表现远超传统各向同性架构[60,43,16,12,69]。本文旨在探讨这一问题，并针对分层ViT提出了MIM的一种更为高效的方法。

用于掩码图像建模的Green Hierarchical Vision Transformer ：

Base architecture ：

本文采用了具有代表性的分层ViT-Swin Transformer架构[43] 作为基准模型。其主要包含逐点可微分的前馈神经网络模块（FFN）以及位移的窗状自适应核机制。然而，在逐点处理的同时仅能在可见区域工作这一局限性。

给定窗口大小 p（例如，Swin 为 7），窗口注意力 首先将特征图 X 划分为

个不重叠的局部窗口

其中每个 Xi 由 p×p 个patches构成。随后，在多头自注意力机制（MSA）[58]的作用下，在各个窗口内同时分别进行计算操作。这是因为各个窗口均拥有相同数量的patches。

然而，在此情况下（即当局部window中的paches数量出现分布不均的情况），目前尚无法有效确定如何实现并行计算注意力机制。针对这一问题提出了解决方案：本文提出了一种高效且精确的Group Window Attention机制设计，并直接替换Swin中的所有（移位的）窗口注意力层。通过这种设计，在不影响整体性能的前提下实现了仅对可见paches执行绿色操作的效果。

Group Window Attention：

针对上述问题, 本文提出了一种基于组窗口注意力机制的设计方案 $...$ 该方案显著提升了 window attention mechanism 对遮蔽特征的运算效率。给定等式 (1) 后的遮蔽特征

，本文收集一组 不均匀的局部窗口

，其中每个元素仅包含可见tokens，相应的大小为

如图 2 所示，在本文中提出的Group Window Attention机制首先通过Optimal Grouping算法将不均匀分布的窗口划分为若干个大小相等的部分，并且在每个划分好的组内实施Masked Attention机制来防止信息泄露。随后将在后面的两个小节中详细阐述该方法的具体实现过程以及其实现细节

动态规划的最优分组：

通用公式 ：

最优分组的第一步 是找到一个关于组大小 gs 的索引分区 Π：

其中 ng 表示分组的数量。
等式中的条件确保了所有无重复局部窗口都被包含，并且每个分组的实际大小被限制在 gs以下。
基于划分Π的方法生成一组 token

，为

在输入序列的上方施加Masked Attention操作。随后利用分区 Π 的逆运算来恢复输出 tokens的位置。（在这里为了简便起见本文假设 tokens的数量

可以被 gs 整除。在实践中，在 |πj| 小于gs时填充组 πj。）

有了上面的公式，还有两个问题没有解决：1）如何选择最优的组大小

，以及 2）如何在给定

的情况下获得最优分区 Π*。为此，将本文的目标制定为以下 min-min优化问题 ，

其中 C(·) 是一个成本函数，用于衡量使用分组tokens的注意力的 计算成本 。直观地说，等式（5）旨在找到最优组大小 g∗s ，即关于

计算最优分区的成本最低。
等式 (6) 在约束条件下被用于寻找最优分区。
通过确定最小组的大小即可获得该优化结果。

。接下来，本文将详细介绍如何解决上述优化问题。

使用动态规划进行分组划分：

研究者们在上述等式中识别了一个优化问题：它是一个多子集和问题（MSSP-I）的一个特例 ，该问题被确认为经典中的变形形式（MKP-I）[34,第十章]。在这类实例中，在线组大小与在线背包容量之间存在直接类比。

类似于商品的价值，商品的重量与其价值相同，背包的数量是无界的。

尽管一般的多背包问题属于 NP-complete 类型的问题。然而，在各个子问题中的背包容量相同的情况下

它从全集 Φ中选择一个子集 π ，使得

（该算法的伪代码在附录中给出）。

我们轮流作用于剩余总体集合Φ，并从中剔除选定子集π直至Φ为空。经实验表明本文算法运行极迅速，并其所需时间成本远低于可感知水平。由于局部窗口数量通常极为有限，在上述预训练阶段数量少于100个单位如前所述

成本函数：

因为本文着重关注计算效率的原因在于：本文通过FLOPs来评估多头注意力机制对分组tokens所涉及的计算资源消耗程度

其中 C 代表通道数量。虽然复杂度与组大小 gs 的平方呈正比关系，在实际应用中选择较小的 gs 可能会导致生成更多小组（以及相应的填充项），从而影响整体效率。由此可见，在训练过程中应动态调整最优的组大小。

Putting everything together：

本文扫描组大小的可能值，从

到

为了确定合适的分段规模，请考虑各个候选分段数量。针对每一个选定的分段规模，请先运用第7节所述动态规划算法将窗口划分为若干区域，并随后计算每一区域所对应的注意力计算开销。在这些候选方案中，请挑选开销最低的那个方案来确定最终的最佳分段规模。如前所述，在算法1中我们总结出了实现这一最优分割问题的具体伪代码描述

Masked Attention：

为了解决不相邻局部窗口在同一组的问题，在应用掩码机制时需确保这些区域无法互相影响。如图所示，在构建完注意力图后，我们仅关注每个局部区域内（即块对角元素）的权重，并舍弃其他区域的相关信息。类似地，在处理相对位置偏差时我们也采用了遮蔽策略（参考文献43），通过记录每个token的真实绝对位置并实时计算其相对偏移来实现这一目标。

批量级随机掩码：

本文发现 每一样本的随机遮蔽策略会削弱本文方法的效果：1）这可能导致每个样本生成不同数量的局部窗口组；2）当选取的mask尺寸小于模型分层编码器的最大尺寸时，在这种情况下我们不能丢弃这些patch，并且同样无法充分利用稀疏化特性。因此我们建议将所选mask patch尺寸设为与编码器最大尺寸一致（例如，默认设置通常取32），并在同一GPU设备上对所有样本应用相同随机遮蔽方案（这被称为微批次处理）。

Experiments：

Implementation Details and Experimental Setups：

本文在 ImageNet-1K [54]（BSD 3-Clause License）图像分类数据集以及 MS-COCO [41]（CC BY 4.0 License）目标检测与实例分割数据集上展开了实验性评估。Swin-Base 和 Swin-Large 模型由四个阶段构成，在本研究中被用于编码器设计。该模型首先在无标签的 ImageNet-1K 数据集上进行了无监督预训练，并在此基础上展开了下游任务的学习。本文提出的方法全部在配备有 8 块 32G Tesla V100 GPU、基于 CUDA 10.1 并采用 PyTorch [48] 的版本以及自动混合精度训练技术的一台单机环境下完成。

预训练设置 ：

本文采用了 4×4 大小的 patch 分块对尺寸为 224×224 的图像进行划分处理，并依照第 3.5 节所述方案以比率 r（默认值 r = 0.75）为基础进行随机遮蔽 patch 处理。输入图像通过一组基本的数据增强技术进行了转换操作，具体包括随机裁剪、水平翻转以及归一化处理。在遵循 MAE [22] 方法的基础上，在编码器末尾附加了一个轻量级解码器结构（nd 个嵌入维度均为 512 的 transformer 块组成）。该解码器接收可见 patches 的表征表示以及遮蔽 tokens 作为输入信号，并将其附加在编码器最后一层之后用于学习遮蔽 patches 的表征特征。随后引入一个线性层来预测遮蔽 patches 的归一化像素值坐标信息。实验采用不同训练步数：100、200、400 和 800 次迭代过程，并设置固定批量大小为 2,048 样本数据进行训练运算。本研究中所使用的优化算法包括 AdamW [35] 和余弦退火计划 [44] 组合应用策略，在优化过程中将基础学习率设定为起始值为1.5e-7（后续逐步调整至1.5e-4），其中权重衰减系数取值为0.05，默认情况下模型参数数量与批次大小呈线性关系进行比例调节（batch_size/256）。通过动态预热机制实现基础学习率的有效提升策略

ImageNet-1K 数据集上的微调 ：

本文设计了一种方法用于进行模型微调。具体而言，在编码器结构中去除了解码器模块，并将其1000路的全连接层直接附加到编码器的平均池输出层上作为分类器。这些网络架构通过AdamW优化器[35]进行了训练配置：经过总计100个训练周期（epoch），其中前20个周期进行了预热阶段学习；基础学习率设置为1.25e-4，在预热阶段采用较低的学习率值2.5e-7；同时引入余弦退火策略[44]以改进收敛效果，并对模型权重施加L2正则化衰减系数为0.05；此外还实现了分层学习率衰减机制[2]（缩放因子为0.9），以及随机深度比率为28设定为恒定值（比例系数为0.1）。整个数据增强过程与文献[2,66]中的方法保持一致。

MS-COCO 数据集上的微调 ：

该研究基于Mask R-CNN [24]架构采用带有FPN [40] 的设计，在所有模型均在MS COCO 2017数据集（约包含1.18万幅图像）上进行了微调训练的基础上，并在验证集（约5,000幅图像）上完成了评估。本研究采用批量大小为16的设置，并利用AdamW优化器[35]进行参数更新。学习率设定如下：初始学习率为 $1\times$ 并分别在第3-4个以及第11-12个epoch时衰减 $\frac{ }{ }$ ；同时通过mmdetection框架中的倍率调度策略完成整体训练过程。为了确保模型泛化能力，在测试阶段采用了统一缩放策略并设置了严格的验证机制以防止过拟合现象的发生。标准COCO指标用于评估物体检测与实例分割性能，并通过多个指标量化模型性能表现

Ablations studies：

与 SimMIM 的效率比较 ：

在图 1 中展示的部分实验结果表明，在相同的计算资源下（即单台 V100 GPU 运行时采用了 8 倍加速策略），本文提出的方法显著优于对比的基础模型 SimMIM。值得注意的是，在单机环境下直接运行 SimMIM 模型时（即每张单机运行 2,048 张图像），由于其架构设计限制无法直接支持 [66]中建议的默认批量大小（即每张单机运行 2,048 张图像）。通过使用小尺寸图像降低了计算开销和内存占用后，虽然显著减少了训练时间和内存消耗（具体而言，在相同数量的训练周期内），但仍然无法赶上采用本研究方法所使用的较大尺寸图像（即基于 Swin-B 模型设计的方法达到了与基线相当的效果）。然而有趣的是，在采用更大的 Swin-L 模型时效率提升更加明显：例如，在与 SimMIM192 的对比中实现了加速比提升至原来的 2.7 倍。这一发现进一步凸显了本文方法在处理更大模型规模时的优势。

每个阶段stage的最佳组大小 gs ：

由于分层结构包含几个具有不同尺度的特征区域，并且每个区域的最佳样本容量可能因阶段而异。为了系统性地评估各阶段的最佳组大小，在本研究中我们采用了模拟实验的方法。具体而言，在模拟过程中我们基于第3.5节的方法生成了100个遮罩，并计算了不同组大小的成本表现（如图4所示）。需要注意的是，在第4阶段仅有一个局部窗口的情况下，我们省略了相应的分析部分。

通常情况下

另一个值得注意的是，在计算开销方面，在gs = 49时达到最小值这一现象表明：窗口注意力机制的最佳参数设置应选择其窗口大小作为参数。这进一步表明，在实际应用中无需遍历所有可能的组大小（group size），而只需将参数设定为两个质数相乘的形式（即gs = p × p）。

掩码率、解码器块数和预训练epoches的影响 ：

从图5(a)可以看出，在掩码率r介于0.5至0.85时本文的方法表现非常稳定，并与文献[22]中的观察结果一致。图5(b)中还研究了解码器深度对性能的影响。值得注意的是，在其他条件相同的情况下实验发现使用较少的解码器块可以获得更好的性能效果。这项研究更倾向于采用SimMIM[66]中基于层次模型的简单预测头设计，并与采用各向同性模型的MAE[22]进行比较。为了实现简洁性和高效性，在整篇论文中我们设置了r=0.75并将解码器块的数量固定为1个阶段，并对预训练预算对本方法的影响进行了深入研究。如图5(c)所示，在微调过程中准确度随训练epoch数量稳步提升且并未出现停滞现象这表明该方法具有进一步优化性能的空间

具有更大窗口大小的预训练 ：

[42] 的工作提出 使用更大的窗口大小有利于微调 。然而，在实践中，它可能不太实用 ，因为 self-attention 的二次复杂性与窗口大小有关。幸运的是，仅在可见块上进行操作允许以更大的窗口大小进行训练，而额外的成本很少 。如表 1 所示，窗口大小加倍的预训练仅将训练时间/GPU 内存略微增加不到 10%/20%，但在微调中 p = 7 时带来了适度的性能提升。

ImageNet-1K 分类：

该研究基于 ImageNet 验证集对预训练模型进行了微调，并将实验结果记录在表 2 中。
在此处进行比较分析时发现：1）从头开始训练虽然能够获得较长的训练时间；2）对比学习训练虽然能够提升模型表现；3）采用 MIM 方向进行优化则能提供另一种思路。
该研究的方法采用 Swin-Base 主干架构，在微调过程中达到了 83.7% 的 top-1 精确度。
其性能不仅优于监督学习和对比学习方法，并与采用同样强大主干架构的其他 MIM 方法相当。
实验结果不仅验证了该研究方法的有效性（准确率达到 83.7%），还显著超越了 MAE 和 SimMIM 方法（效率提升约 15%）。
附录部分详细列出了 Swin-L 主干架构的实验结果。

MS-COCO 目标检测和实例分割：

在研究结束时，我们对本文提出的预训练模型进行了评估，并将其迁移学习性能分别测试于MS-COCO目标检测和实例分割数据集上。在此研究中，我们主要依赖于有监督学习中的Swin Transformer代码库，并未对微调策略进行任何优化或修改。为了便于对比分析，在实验设置上我们基于公开可用的 checkpoint 进行了重新实验验证，并将具体结果展示在表3中。通过这一系列测试，在各项评估指标上均表现出色，并且与现有的有监督预训练Swin-B模型相比，在关键指标如APb方面实现了显著提升（Abs improvement of 1.5%）。值得注意的是，在密集预测任务上我们的方法仍能与SimMIM方案相媲美，并且采用了较长时间段（3-10倍）的微调训练和高级数据增强技术（参考文献[17]），这显著优于文献[39]中的多数基准方案。综合表2的数据支持，在这种情况下充分证明了该方法不仅具有卓越的效果，在预训练效率方面也达到了显著水平

Conclusion：

在本文中

Limitation ：

本文算法的主要局限在于其依赖于 batch-wise掩码方案（如第 3.5 节所述）以实现最佳效率。尽管这一局限性对 MIM 预训练过程影响较小，
但它带来的主要问题是使得该方法难以扩展到其他场景，
例如，在采用基于实例级别的稀疏化策略进行 ViT 模型的训练过程中，
需要用到 instance-wise实例级稀疏化的 token 稀疏化技术 [53,68]。
这些超越当前研究范畴的应用我们暂不探讨，
本研究的重点仍在于现有框架下相关技术的发展与优化。

更广泛的影响 ：

本研究针对具有层次ViT的MIM（Minimum Information Partitioning）设计了一种绿色解决方案 ，大幅减轻了MIM计算负担的复杂性。一方面，在提高MIM效率的同时也实现了其应用价值的提升这一目标下所取得的研究成果可能促使相关领域的新型算法涌现；另一方面，在现有技术条件下如何避免系统性偏差的影响这一问题上所提出的方法与现有的无监督或自监督学习方案相似；然而，在实际应用中由于预训练数据集可能存在偏差这一潜在风险可能导致这些偏差被复制并放大；而通过整合FairML方法[3]则可缓解这一问题。

全部评论 (0)

还没有任何评论哟~

【自监督论文阅读笔记】Green Hierarchical Vision Transformer for Masked Image Modeling

本文提出了一种使用分层VisionTransformerViTs，例如SwinTransformer[43]，进行掩码图像建模MIM的有效方法，允许分层ViT丢弃掩码patches，只对可见patch...

自监督论文阅读笔记 RingMo: A Remote Sensing Foundation Model with Masked Image Modeling

深度学习方法促进了遥感RS图像解释的快速发展。最广泛使用的训练范式是利用ImageNet预训练模型来处理指定任务的RS数据。然而，存在自然场景与RS场景之间的领域差距，以及RS模型泛化能力差等问题。开...

【自监督论文阅读笔记】Contrastive Learning Rivals Masked Image Modeling in Fine-tuning via Feature Distillation

掩码图像建模MIM学习表示具有非常好的微调性能，盖过了以前流行的预训练方法，如图像分类、实例对比学习和图像文本对齐。在本文中，证明了这些预训练方法的较差微调性能可以通过以特征蒸馏FD形式的简单后处理来...

【自监督论文阅读笔记】Simmim: A simple framework formasked image modeling

本文介绍了SimMIM，这是一个用于掩码图像建模的简单框架。本文简化了最近提出的相关方法，无需特殊设计，例如通过离散VAE或聚类进行blockwise分块级的掩码和tokenization。

自监督论文阅读笔记Efficient Self-supervised Vision Pretraining with Local Masked Reconstruction

计算机视觉的自监督学习取得了巨大的进步，并改进了许多下游视觉任务，例如图像分类、语义分割和目标检测。其中，生成式自监督视觉学习方法如MAE和BEiT表现出良好的性能。然而，他们的全局掩码重建机制在计算...

论文阅读笔记：Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

论文阅读笔记：SwinTransformer 摘要 1简介 2相关工作 3方法论 3.1总览 SwinTransformerblock 3.2shiftedwindowbasedSelfattenti...

《Masked Image Training for Generalizable Deep Image Denoising》——CVPR23论文阅读笔记

Projectpage:https://github.com/haoyuc/MaskedDenoising 前提：在捕获和存储图像时，设备不可避免地会引入噪声。减少这种噪声是一项关键任务，称为图像去噪...

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows论文阅读

SwinTransformer:HierarchicalVisionTransformerusingShiftedWindows论文阅读摘要介绍相关工作方法整个架构基于selfattent...

论文阅读：Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

论文阅读：SwinTransformer:HierarchicalVisionTransformerusingShiftedWindows 这篇论文介绍了一种名为SwinTransformer的新型视...

自监督论文阅读笔记 Self-Supervised Feature Augmentation for Large Image Object Detection

在内存限制下，面对极大的图像通常无法达到最优。在这项研究中，我们探索了目标检测流程内部的尺度影响，并发现引入高分辨率信息的特征上采样有利于检测。与直接输入放大相比，特征上采样以较小的性能损失换取了大量...

是否确定退出登录?

【自监督论文阅读笔记】Green Hierarchical Vision Transformer for Masked Image Modeling

Introduction：

Contributions：

Related Works：

自监督学习：【citable】

Masked Language/Image Modeling：

Isotropic and Hierarchical Vision Transformers：

Green AI：

Approach：

Preliminary：

用于掩码图像建模的Green Hierarchical Vision Transformer ：

Group Window Attention：

动态规划的最优分组：

使用动态规划进行分组划分：

成本函数：

Putting everything together：

Masked Attention：

批量级随机掩码：

Experiments：

Implementation Details and Experimental Setups：

Ablations studies：

ImageNet-1K 分类：

MS-COCO 目标检测和实例分割：

Conclusion：

全部评论 (0)

相关文章推荐

【自监督论文阅读笔记】Green Hierarchical Vision Transformer for Masked Image Modeling

自监督论文阅读笔记 RingMo: A Remote Sensing Foundation Model with Masked Image Modeling

【自监督论文阅读笔记】Contrastive Learning Rivals Masked Image Modeling in Fine-tuning via Feature Distillation

【自监督论文阅读笔记】Simmim: A simple framework formasked image modeling

自监督论文阅读笔记Efficient Self-supervised Vision Pretraining with Local Masked Reconstruction

论文阅读笔记：Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

《Masked Image Training for Generalizable Deep Image Denoising》——CVPR23论文阅读笔记

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows论文阅读

论文阅读：Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

自监督论文阅读笔记 Self-Supervised Feature Augmentation for Large Image Object Detection