VLM(Vision-Language Models)技术简介
该VLM技术专为视觉相关任务设计,并提供全面的技术概述。
该VLM技术主要针对视觉领域中的各种应用需求,并详细介绍了其核心原理与实现细节。
该VLM技术专门服务于基于视觉的任务分析与解决方案设计,并对其在实际应用中的表现进行了深入探讨。
该VLM技术主要用于解决基于视觉的任务研究与开发问题,并对其性能优化策略进行了系统性分析。
该VLM技术主要针对需要结合视觉信息进行分析的任务场景进行研究与应用,并对其在多模态数据处理中的优势进行了详细说明。
该VLM技术专门设计用于辅助基于视觉的任务分析与决策支持,并对其在边缘计算环境下的适用性进行了实验验证。
该VLM技术主要服务于基于视觉的任务建模与算法优化问题,并对其在复杂场景下的鲁棒性进行了全面评估。
该VLM技术专门针对需要对图像或视频进行智能解读的任务需求进行研究与开发,并对其在实时性方面的性能表现进行了优化分析。
该VLM技术主要应用于基于视觉的任务识别与理解领域,并对其在跨平台环境下的兼容性进行了测试验证。
该VLM技术专门设计用于辅助基于视觉的任务特征提取与分类功能,并对其在大数据环境下处理能力的提升效果进行了实验验证。
说明此份文档是对《Vision-Language Models for Vision Tasks: A Survey》一文的系统性复习与深入分析。该研究综述详细探讨了视觉语言模型在视觉任务中的应用现状及其发展趋势,并对相关研究进行了分类与总结。为了便于读者更好地理解相关内容,在此我对文章中的核心观点进行了提炼并补充了必要的理论框架和实际案例支持。
大量视觉识别研究在深度神经网络(DNNs)训练过程中严重依赖人工标注数据,并且通常需要单独针对每个具体的视觉识别任务构建独立的DNN模型。这种做法既费时又效率低下。Vision-Language Models(VLM)正是针对这一困境提出的创新性解决方案。通过系统地从海量互联网上的图像-文本配对中学习积累丰富的视觉与语言关联性信息,在实际应用中仅需部署一个统一的VLM模型即可实现对各类视觉任务的无示例预测目标,并取得了显著的实际效果。
为什么要用VLMs?
视觉识别范式的发展可以广泛地分为五个阶段,包括:
- 传统机器学习与预测 :基于人工设计特征的传统机器学习算法需经过刻意的数据准备与专业指导进行建模与应用。
- 从零开始学习与预测 :基于深度神经网络(DNN)构建端到端系统,在第一阶段的基础上采用数据驱动方法取代人工特征提取,实现了计算机视觉领域的质的飞跃。该方法虽降低了专业干预需求但需要大量标注数据且易受过拟合影响。
- 监督预训练、微调与预测 :通过大规模标注数据实现监督预训练然后在特定任务上进行微调与预测,在第二阶段的基础上该方法可利用有限标注数据实现精准预测。
- 无监督预训练、微调与预测 :基于无标注数据实施无监督预训练随后在特定任务上进行微调与预测相较于第三阶段依赖标注数据的方法该方案能更充分利用未标注数据资源。
- 基于视觉-语言相关性的大规模无监督预训练及零样本预测 :通过视觉-语言关联性进行大规模无监督式预训练并在各种视觉识别任务中可直接实施零样本预测法相比第四阶段需要针对特定任务进行微调即可展现出卓越性能表现。
| 人工设计特征 | 人工打标数据 | 用于特定任务时进行训练/微调 | |
|---|---|---|---|
| Traditional Machine Learning and Prediction | ✅ | ✅ | ✅ |
| Deep Learning from Scratch and Prediction | ❎ | ✅ | ✅ |
| Supervised Pre-training, Fine-tuning and Prediction | ❎ | ✅ | ✅ |
| Unsupervised Pre-training, Fine-tuning and Prediction | ❎ | ❎ | ✅ |
| VLM Pre-training and Zero-shot Prediction | ❎ | ❎ | ❎ |
各个阶段的演进轨迹体现在逐步消除中间环节依赖的过程中,并伴随着模型泛化能力的不断提升。这一创新性范式使得模型在训练阶段能够完全摆脱人工特征设计的束缚,并且无需大量标注数据的支持;同时,在应用于下游任务时也不再受限于针对特定领域进行微调的传统模式;相反地,则能够实现零样本预测的能力。其关键在于具备强大预训练能力的VLMs。
怎么预训练VLMs?
当前主流的基于CLIP的Vision-Language Model(VLM)预训练方法主要包含三个核心模块:
基于文本特征提取的模块,在设计时主要依赖于Transformer架构及其相关变体作为基础结构。
在视觉语言模型(VLM)的预训练过程中,核心挑战在于实现文本与图像两种模态信息的有效关联.为了深入探讨这一核心模块的功能与实现细节,我们接下来将着重分析其中的关键组件:特征融合模块.
特征对齐模块中,以目标函数进行分类的话,大致可以分为三类目标函数:
- 对比式(Contrastive Objectives),
- 生成式(Generative Objectives),
- 对齐式(Alignment Objectives),
如图所示,在该图表中可以看出
纯对比型的目标函数(18篇文献),其中代表性的是CLIP、ALIGN以及SLI等。
结合了生成式的元素(6篇文献),其中包括DeCLIP与FLAVA等。
融合了对齐式的理念(3篇文献),具体包括FILIP、nCLIP以及RegionClip。
纯粹的对齐型(2篇文献),这类研究主要参考GLIP与DetCLIP。
单纯的生成型(1篇文献),该领域的主要研究方向是PaLI。
综合运用了三种不同的策略(1篇文献),这一趋势主要体现在FIBER这种综合方案中。

三种目标函数简介
对比式
对比式的目标函数旨在通过将数据映射到特征空间中,实现正样本对之间距离的尽量缩短以及与之形成鲜明对比的正负样本对之间距离的尽量拉大差距。
VLM预训练中主要有以下三种模式的对比式目标函数:
- Image Contrastive Learning
通常用InfoNCE及其变体作为图像对比学习的目标函数

- Image-Text Contrastive Learning
该模型的主要损失函数主要包含两个部分:第一部分是基于图像和文本之间关系的信息负熵估计(InfoNCE),第二部分则基于同一对体素的信息负熵估计(InfoNCE),将两者整合形成总的损失函数。

- Image-Text-Label Contrastive Learning
在Image-Text Contrastive的基础上还需要加上label的信息,这里


生成式
主要通过生成误差来建立损失函数,包括几种形式:
- 图像建模中的像素遮蔽(Image Modeling with Pixel-Level Masking)
- 语言建模中的词元省略(Language Modeling with Word-Omission Techniques)
- 基于跨模态遮蔽的技术(Cross Modal Masking Techniques for Data Augmentation)
- 基于视觉信息到文本的转换方法(Visual Information to Text Conversion Methods)
对齐式
在嵌入空间中实施整体Image-Text对应关系或Region-Word对应关系以实现图像文本对齐
- Image-Text Matching

- Region-Word Matching

典型算法简介
未完待续。。
对比式
CLIP
一句话介绍:提出用对比学习的方式训练VLM。
关键点:高质量数据集(0.4B图文对);对比学习

采用这种对比式学习来进行VLM建模的开山鼻祖,数据集规模为0.4B。
采用对比学习的方式,其中:
- Text Encoder基于GPT-2架构设计。
- Image Encoder经过优化采用了两种处理方案:
- 对ResNet进行了针对性优化
- 对ViT进行了微调处理
- 特征融合过程实现了多模态信息的有效整合

ALIGN
一句话介绍:利用大规模噪声数据去扩展VLM。
关键点:大规模数据集(1.8B)
数据集规模为1.8B,并且包含大量噪声。
采用对比学习的方式,其中:
文本编码器采用BERT架构。
视觉编码器基于EfficientNet设计。
特征融合采用对比学习策略,并借鉴CLIP框架的损失函数设计,在此基础上引入温度变量(如前述Image-Text Contrastive Learning的典型形式)。
OTTER
一句话介绍:采用optimal transport的方式进行数据高效的VLM预训练。
关键点:数据高效训练
对比式结合生成式
DeCLIP
基于多样化的监督信号实现高效的数据利用以进行VLM的预训练研究其中研究对象为Data Efficient CLIP模型
本研究显示CLIP需庞大数量(约0.4百万图像文本对)进行训练,这使得其广泛应用受限.随后提出了Data efficient CLIP(DeCLIP),作为一种新颖的训练框架,旨在解决这一问题.
本文旨在充分应用图像文本对间的多维度监督机制,进而实现更加高效的通用视觉特征学习。相较于CLIP方法仅依赖单一图像文本对比的监督方式,在本研究中我们采用了更为多元化的监督策略以充分挖掘数据的价值,在训练数据规模受限的情况下实现了更为显著地提升训练效能。
这些额外的自监督信息包括:
- 单个模态内部的数据通过自监督学习机制进行深度挖掘
- 在基于语言模型预训练的任务中完成文本领域的MLM(Masked Language Model)自监督学习
- 通过数据增强技术提升图像质量的同时,在同一场景下生成多组具有高相似度的图像对进行自监督学习(确保每一对之间的相似性尽可能接近理论上限)
- 在跨模态多视角监督机制中:
- 首先通过对文本数据进行增强使其更具多样性并生成两个相似度较高的版本;
- 同时通过对图像数据进行增强得到两个具有高度一致性的样本;
- 随后将这两者结合形成四个正样本对供模型学习使用
- 采用最近邻对比机制:
- 通过计算文本嵌入空间中各节点与其最近邻节点之间的关系来构建有效的对比学习框架
,与2张图片,又可以构造额外的两对正样本对。

总结来看,最后的损失函数分为4大部分:
在TSS(文本自监督)部分中采用生成式损失函数;而其他部分则包括对比式损失函数

效果对比
研究重点是评估和分析不同VLM预训练模型在各类型任务中的性能表现,在图像分类、分割以及目标检测等多个领域都进行了基于zero-shot学习框架下的系统性对比研究。
预训练的VLM在下游任务中表现优异,在zero-shot场景下表现出良好的效果,并且展现出卓越的泛化能力。这些优势主要源于以下几个方面:
- 大数据——通过结合图像与文本信息...等技术手段进行训练(如LiT中的4B数据集与COCA中的4.8B数据集),从而显著提升了VLM的泛化能力;
- 大模型——相对于传统的视觉识别模型而言,在VLM中通常采用了拥有更大参数规模(例如COCA中的ViT-G架构包含2B个可训练参数)的模型;这些架构具备强大的计算能力以实现从大数据中有效的学习;
- 任务无关学习——在预训练过程中所采用的监督学习方式具有通用性和任务无关性特点;相比于传统视觉识别中依赖特定标签的任务导向方法,在图像-文本对中获取到的任务无监督学习信号更加多样化与丰富性;这有助于训练出能够广泛适应多种下游应用场景的通用化可扩展模型。
分类任务
由下图和表得出几个结论:
- 预训练的量级越大,则效果越佳。
- 模型大小越大时,效果越佳。
- 在大规模图像-文本训练数据中,在多种下游任务上具备多样化的下游任务卓越零样本性能。


分割任务和目标检测任务
一些视觉语言模型(VLM)采用基于本地预训练设置的方法(如基于区域-词匹配策略),用于对视觉语言模型进行目标检测与语义分割相关的预训练工作。通过查看以下表格可以看出,在这两个任务上视觉语言模型能够达到预期的零样本预测效果。值得注意的是,并非所有模型都能完全符合分类任务中提出的‘数据量越多效果越佳、参数规模越大效果越佳’这一普遍规律。我们有理由期待,在这一领域持续深入的研究探索下,“数据越多效果越好、模型越大效果越好”的趋势将会逐步显现出来。
分割

目标检测

VLM Zero-shot vs SOTA
可以看出,在分类任务中使用VLM进行无样本学习已经达到了与当前最佳水平相当的效果,在目标检测和分割模型领域上仍存在明显差距。
| 视觉任务 | 数据集 | SOTA | VLM zero-shot SOTA |
|---|---|---|---|
| 分类 数据来源 | ImageNet-1k | 88.3% Top1 (PeCo) | 86.3% |
| 分割 数据来源 | PASCAL C | 70.3 mIoU (InternImage-H) | 24.7 |
| 目标检测 数据来源 | LVIS | 63.2 boxAP (InternImage-H) | 49.3 |
如何在视觉任务上用好VLMs?
Vision-Language Model Transfer Learning
尽管预训练的Vision-Language Model具有良好的泛化能力,并且能够实现对下游任务的zero-shot应用,但与理想状态相比仍存在一定的差距,具体体现在两个关键方面。
- 各类目标领域的视觉信息与语义描述存在显著差异性。
- 训练目标间的差异化要求,传统的预训练模型主要专注于基础特征的提取;然而,在特定任务中,则需要结合特定任务相关的优化目标。
总体而言,在知识广度和综合能力方面而言,VLM预训练得到的模型确实表现出了令人瞩目的潜力,尤其在特定领域任务中展现出不错的效果,但就目前情况来看,它仍不具备该领域专家级的专业能力。若能基于此基础,通过引入更为系统的迁移学习机制,针对不同类型的下游任务进行针对性微调优化,则有望进一步提升其在各个子领域中的应用效能与预测精度。以下是一些常见的迁移学习策略和方法,值得进一步探讨与实践探索
基于Prompt Tuning进行迁移
基于自然语言处理领域的'提示学习'机制启发下, 研究人员已开发出多种策略来适配下游任务. 这些方法通过优化提示信息实现参数高效训练, 其中关于自然语言处理领域的一些高效训练方案可参考让天下没有难Tuning的大模型-PEFT技术简介.
按照基于Prompt调参视角的主要方法类型的不同,目前的方法主要可分为文本调参、视觉调参以及文本与视觉调参三种形式;从监督学习的角度来看,则主要可分为监督转移学习、基于少样本的监督转移学习以及无监督迁移学习三种类型。
Text Prompt Tuning
该方法旨在着重作用于文本处理上,在人工设计或基于集成的promptensembles方法中相较而言具有显著优势。具体而言,在text prompt模块中采用可学习化设计,并通过针对特定任务的目标函数优化其性能。

从监督角度来看,在该类方法中主要采用少样本学习策略为主流方案。其余采用监督或无监督学习策略的方案相对较少。

主要涵盖了几大研究方向:第一类是通过一定手段缓解基于特定方式(即 Few-shot 方式)导致的过拟合现象,在该领域具有代表性的研究包括 CoCoOp、SubPT、LASP 和 VPT 等方法。另一大研究方向是采用无监督的方法来提升效率并增强可扩展性,在该领域具有显著效果的研究包括 UPL 和 TPT 等方法。
Visual Prompt Tuning
和Text Prompt Tuning方法类似,在图像领域也有类似的创新举措。例如,在VP论文中提出了一种可学习的图像块模块,在原始图片上进行逐像素级融合,并将其与Image Encoder输入端进行连接。这种创新性设计通过特定任务目标函数的优化实现对图像细节的精细调整。在密集类别任务中展现出显著优势,尤其适用于目标检测、分割等场景。

Text-Visual Prompt Tuning
不仅可以在文本处理时实施Prompt Tuning,在图像处理时也可以实施同样的技术手段。因此同时在图像与文本两端应用Prompt Tuning技术是一种合乎逻辑的做法。这类研究的主要方法包括

基于Feature Adaption进行迁移
通过微调输入的prompt(涵盖文本与图像)来优化性能的同时,在Feature Adaption方法中引入了一个便捷插件式组件以优化特征提取效率。如图所示的架构是一个典型的实例,在该方案中采用多层感知机等网络结构来适配下游任务需求,并在基础架构上附加残差连接设计以确保在零样本任务中仍能保持良好性能。这类方法的主要代表包括Clip-Adapter、Tip-Adapter以及SVL-Adapter等系列模型。

其他迁移方法
除了上述两类具有较高参数效率的迁移学习方法之外,在深度学习领域中还存在其他一些迁移学习方案可用于将视觉语言模型应用于下游任务。例如通过全参数微调(Full-Finetune)、调整网络架构以及交叉注意力机制(cross attention)等方式从多个角度实现迁移。其中一些具有代表性的例子包括:

迁移效果
下面是一些典型迁移方法在多个分类数据集上表现突出的效果,在这些情况下我们可以主要能得出几个关键结论:
- 在特定任务场景下,迁移学习方法展现出显著的优势
- 相对于基于全监督的学习框架,在少样本监督模式下的表现明显逊色,这一差距可能源于模型对有限训练数据的过度拟合
- 从现有研究来看,在无监督迁移框架与少样本监督学习模式之间并不存在本质性的区别

Vision-Language Model Knowledge Distillation
基于VLMs具备捕捉广泛视觉与文本概念间普遍关联的能力,一些研究致力于从这些模型中提取这种普遍且可靠的知识,以便解决诸如目标检测与语义分割等复杂的密集预测任务。值得注意的是,通过蒸馏技术,VLM的知识得以被提取到专为特定任务设计的模型中,不受特定于VLM架构的影响,从而在多种密集预测场景下,有助于提升特定任务的表现水平。以下是一些应用基于蒸馏技术从通用知识库抽取特征用于语义分割及目标检测的具体案例。
例如,在语义分割领域中,研究人员开发了一种基于蒸馏技术的新方法.这种方法不仅提升了模型对复杂物体边界识别的能力,还显著减少了计算资源的需求.此外,在目标检测中的应用也取得了不错的效果.这种方法在某些基准测试中表现出了比传统单模态学习方法更好的性能.

并且这些方法也取得了不错的效果:

未来研究方向
在这一研究领域中,在VLM技术的应用下,在无需专门针对特定任务进行微调的情况下(即不需要针对具体任务进行额外的优化),能够有效利用大量易于获取的互联网数据完成训练过程。这种技术不仅展现出显著的效果,并且该系统能够对任意类别图像实现开放词汇视觉识别的能力。这一研究方向展现出显著的效果,并且目前也面临着诸多挑战与未来可能的研究方向。
VLM预训练
- 细粒度的视觉-语言相关性建模。基于本地建立的视觉-语言对应关系知识体系,在目标检测和语义分割等密集预测任务中展现出显著的优势与潜力。未来值得进一步深入研究这一领域,并重点关注零样本密集预测任务中的细粒度VLM预训练技术。
- 统一视觉和语言学习。Transformer架构的发展为实现图像与文本信息的有效融合提供了理论基础与技术手段,在单一模型框架内实现图像与文本信息的统一处理成为可能。相比于现有采用两个独立网络架构的传统方法,在整合视觉与语言学习方面可望获得更好的训练效果与性能表现。未来研究应着重探索如何构建更加高效的跨模态通信机制。
- 多语言预训练VLMs。目前多数现有的VLM模型仅针对单一语种进行了训练优化,在跨文化语境下的通用性仍需进一步提升和完善。通过引入多语言文本资源进行系统性预训练,在保持模型泛化能力的同时也能够有效捕获不同语种下相同的词汇符号所蕴含的文化差异特征信息。这将显著提升模型在实际应用中的适应性和实用性。
- 数据效率高的VLMs:当前大多数部署在实际应用中的VLM系统仍面临数据获取成本高、计算资源需求大等挑战性问题,在实际应用中往往难以满足大规模数据获取条件下的需求与期望。因此开发高效的数据利用型VLM系统具有重要的理论价值与实践意义。
VLM迁移学习
- 无监督VLM迁移。大多数现有的VLM迁移研究均基于有标签或少量标签的情境展开,并依赖于大量标注数据获取这一过程可能会导致模型过拟合现象的发生。相比之下,在探索大规模未标注数据集时采用无监督学习方法可有效降低这种过拟合风险,并为未来的研究提供新的方向。
- 使用visual prompt/adapter的VLM迁移到视觉领域。当前大多数基于文本提示的方法在视觉领域的扩展仍处于初步阶段,在视觉任务中引入视觉提示或视觉适配器可能有助于提升模型在像素级上的适应能力,并为后续研究提供新的思路。
- Test-time VLM迁移技术的应用与改进。现有基于微调的方法虽然能够在特定下游任务上实现有效的迁移学习效果但这种做法往往会导致多次重复训练工作量大且效率低下而Test-time VLM转移技术则允许模型在推理阶段动态调整输入提示从而避免了上述问题并为提升模型的泛化能力提供了新的可能性。
VLM知识蒸馏
通过多组VLM进行知识蒸馏,并结合特定的融合策略实现各组模型之间的协作关系,以进一步优化任务性能。
发展蒸馏技术至更多应用场景。
参考
- A Dive into Vision-Language Models
- [Zhang, Jingyi, et al. "Vision-Language Models for Vision Tasks: A Survey." arXiv preprint arXiv:2304.00685 (2023).](https://link.zhihu.com/?target=https%3A//arxiv.org/pdf/2304.00%253Ci%253E685.pdf "Zhang, Jingyi, et al. "Vision-Language Models for Vision Tasks: A Survey." arXiv preprint arXiv:2304.00685 2023.")
- [Cao, Yihan, et al. "A comprehensive survey of ai-generated content (aigc): A history of generative ai from gan to chatgpt." arXiv preprint arXiv:2303.04226 (2023).](https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2303.04226 "Cao, Yihan, et al. "A comprehensive survey of ai-generated content aigc: A history of generative ai from gan to chatgpt." arXiv preprint arXiv:2303.04226 2023.")
- [Radford, Alec, et al. "Learning transferable visual models from natural language supervision." International conference on machine learning. PMLR, 2021.](https://link.zhihu.com/?target=https%3A//arxiv.org/pdf/2103.00020.pdf "Radford, Alec, et al. "Learning transferable visual models from natural language supervision." International conference on machine learning. PMLR, 2021.") (CLIP)
- [Jia, Chao, et al. "Scaling up visual and vision-language representation learning with noisy text supervision." International Conference on Machine Learning. PMLR, 2021.](https://link.zhihu.com/?target=https%3A//arxiv.org/pdf/2102.05918.pdf "Jia, Chao, et al. "Scaling up visual and vision-language representation learning with noisy text supervision." International Conference on Machine Learning. PMLR, 2021.") (ALIGN)
- [Wu, Bichen, et al. "Data efficient language-supervised zero-shot recognition with optimal transport distillation." arXiv preprint arXiv:2112.09445 (2021).](https://link.zhihu.com/?target=https%3A//arxiv.org/pdf/2112.09445.pdf "Wu, Bichen, et al. "Data efficient language-supervised zero-shot recognition with optimal transport distillation." arXiv preprint arXiv:2112.09445 2021.") (OTTER)
- [Li, Yangguang, et al. "Supervision exists everywhere: A data efficient contrastive language-image pre-training paradigm." arXiv preprint arXiv:2110.05208 (2021).](https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2110.05208 "Li, Yangguang, et al. "Supervision exists everywhere: A data efficient contrastive language-image pre-training paradigm." arXiv preprint arXiv:2110.05208 2021.") (DeCLIP)
- [Singh, Amanpreet, et al. "Flava: A foundational language and vision alignment model." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.](https://link.zhihu.com/?target=https%3A//openaccess.thecvf.com/content/CVPR2022/papers/Singh_FLAVA_A_Foundational_Langua%253Ci%253Ege_and_Vision_Alignment_Model_CVPR_2022_paper.pdf "Singh, Amanpreet, et al. "Flava: A foundational language and vision alignment model." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.") (FLAVA)
用于视觉任务的VLM技术简介 - 知乎
