深度学习论文: Emerging Properties in Self-Supervised Vision Transformers
深度学习论文: Novel properties in self-supervised vision transformers
PDF版本:《深度学习论文》
PyTorch代码资源:《深度学习论文》
PyTorch代码资源:《深度学习论文》
1 概述
本文研究自监督学习是否为Vision Transformer(ViT)带来了相较于卷积网络的新特性?研究表明发现自监督ViT特征包含明确的图像语义分割信息,并展现出色的k-NN分类性能;特别指出动量编码器、多裁剪训练及小补丁在ViT中的重要性;在此基础上提出了一种无标签蒸馏方法;与ViT结合在ImageNet上实现了最高的80.1% top-1分类准确率。

2 DINO
DINO框架融合了自监督学习与知识蒸馏的特性。在知识蒸馏过程中,学生网络gθs的目标是复制教师网络gθt的输出。两个网络对输入图像x进行K维概率分布的生成,并通过softmax函数进行归一化处理以获得最终的输出结果。

2-1 SSL with Knowledge Distillation
从给定的图像出发生成一组多样化的视角集合V,在此过程中其中包含两个全局视角xg1和xg2以及多个低分辨率的局部切片(即局部切图)。在这一过程中所有局部视角均经由学生网络进行处理而在这种特定配置下仅全球视角采用教师网络进行处理从而强化了"局部分析到整体特征对应"的关键关系特性。以最小化损失为目标优化问题

在DINO架构中设置了两个全局视图,并将分辨率设定为224\times 224以覆盖主要区域(如面积超过50%)。此外,在DINO架构中还设置了若干分辨率更低、仅覆盖小区域的局部视图以进一步细化分析较小的部分(如面积不足50%)。
教师网络 并非预先确定,在学生网络历史迭代的基础上逐步构建起来。以指数移动平均(EMA)为基础设定教师网络参数的更新机制,在DINN框架下表现出良好的效果。
该网络架构由主干网络(如Vision Transformer或ResNet)与投影头(多层感知机)构成;共享相同结构的学生与教师网络仅在参数设置上存在差异。DINO未采用批量归一化方法,并特别地,在以Vision Transformer作为主干时更是如此。

为了防止模型出现坍塌现象,DINO融合了动量 teacher 的居中与 sharpening 操作以优化其输出特性.经过这样的设计与优化安排,经过这样的设计与优化安排,经过这样的设计与优化安排,经过这样的设计与优化安排,经过这样的设计与优化安排,经过这样的设计与优化安排,经过这样的设计与优化安排,经过这样的设计与优化安排,经过这样的设计与优化安排.
2-2 Implementation and evaluation protocols
Vision Transformer (ViT):
该文阐述了Vision Transformer的工作原理,并借鉴了现有文献中关于Transformer架构及其在图像适应方面的研究进展。
文中总结了所采用的ViT配置方案,并指出其输入采用了N×N分辨率的图像块网格形式,在实际应用中通常取值为16或8。
经线性层处理后将图像块映射到嵌入空间,并引入了一个可学习的类别标记[CLS]项后使用Transformer网络进行后续处理。
实现细节:
- 基于无标注的数据集对模型进行预训练,并通过AdamW优化器配合1024的批量处理。
- 学习率按照线性缩放策略进行调整的同时采用了余弦退火策略以及权重衰减技术。
- 采用基于BYOL的数据增强方法并提供了双三次插值算法支持,并提供了模型代码及可复现结果。
评估协议:
- 自监督学习的评估涵盖了两个主要方面:一是通过在固定特征层上训练线性分类器实现下游任务的学习;二是采用微调下游任务特征的方法提升模型性能。
- 线性评估阶段采用了随机裁剪与水平翻转的数据增强操作;而微调评估则基于预训练权重进行网络参数优化。
- 为简化特征质量评价的过程,在模型架构中引入k-NN分类器作为替代方案;这种设计避免了超参数搜索及复杂的数据增强需求。

3 Results
3-1 Comparing with SSL frameworks on ImageNet

3-2 Properties of ViT trained with SSL



