DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language Alignment
领域:开放世界
团队:Meta FAIR等
时间:2024.12.20
Abstract
Self-supervised visual foundation models(自监督视觉基础模型)
视觉特征未能充分融合到语言模型中,因此在开放世界环境下难以实现有效的应用。
开发了一种名为dino.txt的新文件,并构建了一个文本编码器,在将其固定后与其相结合进行训练时效果并不理想;为此我们尝试采用了一种新的方法将[CLS] token与不定均值相结合以整合文本与图像特征
实验结果表明,在采用了与CLIP类似的架构设计的同时(即通过构建一个具有相似特性的模型),计算开销相比CLIP而言显著降低,并且在零样本分类以及长尾类别分割等关键指标上均实现了超越现有基准的表现
1.Introduction
主要介绍了self-supervised model,对图像理解更深刻,利于分类和分割。
缺点:基于自监督学习的视觉模型缺乏与语言交互的功能模块,并因此使得不同模态的数据难以实现有效融合。
idea生成:DINOv2整合到该语言交互接口中,在图像与语言特征对准的基础上,从而解决OD问题.
创新点:我不如CLIP的原因是什么?因为我整合了LiT充当DINOv2新增的vision encoder。
我也遇到了一个新的挑战。于是我决定,在原有的vision encoder基础上增加了两个可学习的vision blocks,并使视觉特征更加贴近新的训练数据。通过优化视觉与文本数据的分配策略,并调整了视觉和文本数据的比例关系来提高训练效率与计算资源消耗之间的平衡点。同时进行了多种text encoder的研究,并对于LiT框架中的错误分析也提出了个人见解。
创新点:
1.一项创新的技术方案dino.txt成功实现了跨模态信息在图像与像素级别上的精准对齐。
2.整合了现有研究的核心技术基础后,本研究大幅降低了训练所需的计算资源投入。
3.通过系统性的误差评估分析发现,在现有的分割基准下存在显著的技术瓶颈,并识别出不同模型在执行多模态对齐时所特有的偏差特征。
2.Related work
(1)Self-supervised feature learning
(2)Contrastive text-image pre-training
(3)Automatic data curation at scale
(4)Open-vocabulary segmentation.
3.Proposed approach: dino.txt

3.1 Locked-image text alignment
本段着重阐述了基于预训练的Vision Transformer模型(ViT)在图像处理方面的应用及其相关的技术细节。具体而言,在输入端部设计中将一张图像数据块划分为N个patch tokens序列,并附加相应的标签信息——其中c标识这些小块所属的类别类别而f则代表输出对应的图像嵌入特征向量。在语言编码器部分(text encoder),我们内部采用了多个并行的Transformer编码器模块,并与视觉嵌入维度相匹配的一组线性变换层进行交互连接以完成特征提取任务。值得注意的是,在整个参数组从头开始进行微调训练的基础上核心目标在于实现文本编码器输出与视觉嵌入之间的精确对齐。
我:看不懂这段话,可能后续需要代码辅助理解
在每一个图像与文本表示中,在分类与检索的整体性对齐以及分割任务中的分 patch 级别对齐方面进行优化提升。其中 c 是实现文本与图像对齐的核心要素,在以往的任务设定中被广泛采用作为关键参数。本文提出了一种创新方法:同时考虑整体性和局部性文本对齐策略,并将 [CLS] 位置编码与平均池化类型的 patch embedding 进行有效融合以提升模型性能。
在本文中引入了两个可训练的transformer模块,并将其命名为vision blocks。经过这一调整后,在后续实验中发现性能有所提升。整个系统仅包含这两部分可训练组件:一是之前设计好的vision bollocks部分;二是新增加入的text encoder模块。
3.2 Text- and image-based data curation
当前的数据集存在一些亟待解决的问题。尽管文本序列问题源自于WordNet和Wikipedia,并且图像描述与每个查询之间都建立了对应关系,然而却忽视了视觉概念在整个数据池中的分布情况。导致结果中存在一些图像与对应的文本无法匹配的情况。
于是,在本文作者看来,在处理text curation方面是直接采用了《解密CLIP数据》这一方法。在ICLR 2024年发表的文章中所提出的方法中,则对于image curation采用了k-means方法。
3.3 Inference
每个经过训练的text encoder处理后的query都生成独特的编码信息。随后通过结合改进型vision blocks提取图像descriptor并与之形成对比的基础之上实施余弦相似度计算。在密集型任务场景中并不需要为每个特定任务单独设计匹配机制就可以实现统一的目标导向功能从而显著提升了整体性能表现并降低了计算复杂度的同时也减少了对显式特征工程的需求量保证了算法的有效性和可扩展性同时降低了对显式特征工程的需求量保证了算法的有效性和可扩展性同时降低了对显式特征工程的需求量保证了算法的有效性和可扩展性
4. Experiments
尚未复现,潦草点评几个数据表,知道作者在做哪些实验,为了证明什么。

表1比较CLIP与LiT在预训练视觉模型上的性能,在文章设定下分类任务中LiT展现出更好的效果

表格2展示了不同的采样策略,在选择训练阶段时采用了平均池化操作与[CLS]的融合。

第三表是对模型性能进行基准测试的结果展示。该研究通过增大批次大小、增加两个视觉块的数量以及提升文本嵌入维度的技术手段,在多个基准测试中验证了所提出方法的有效性。

表4是在对比image和text curation的效果,也是消融实验。

表格5是在进行比较分析:提出的新模型dino.txt与其他现有的其他算法在多个数据集上的零样本泛化能力。

表6是在测试开放世界的分割任务。
4.1 Task and metrics
4.2 Implementation details
4.3 Ablation study of our method dino.txt
4.4 Comparisons to state of the art
4.5 Further Analysis
如果后面有机会复现实验,这里会详细补充。
5. Conclusion
开发了一种名为dino.txt的训练方案,在从零开始的学习过程中实现了文本编码器与冻结自监督视觉模型之间的精准对齐。特别强调了DINOv2版本并实现了开放词汇能力的解锁。该方案采用了无须人工标注的数据管理机制,并且能够快速生成高质量的数据样本。这使得模型能够迅速完成训练过程并实现高效的zero-shot分类性能。此外生成的文本编码器还与patch级别的功能进行了精确对接以确保视觉质量的同时提供精确分割能力
最近感想:原本计划持续更新的内容因期末考试与TOEFL的压力而难以坚持下来。尽管如此,我还是努力做到每次有空就分享一些有趣的知识吧。这段时间里,我主要阅读了许多论文、复现了一些项目,并追踪了机器学习与计算机网络的进步情况。粉丝数量骤增让我感到意外,但也有些担忧是否是所谓的"僵尸粉"所致呢?最近陷入了如何深入理解YOLO内部机制的问题。这种简单易用的方式反而让人感觉难以真正掌握其中的道理了呀!
