视觉大模型综述
视觉大模型近期涌现了许多优秀的工作!这些研究主要集中在多模态学习上,通过结合图像和文本模态来提升模型性能。基础架构方面,许多模型采用了双编码器或融合架构来处理视觉与语言之间的关联。目标函数上,则主要采用对比学习和生成式学习方法来优化多模态对齐效果。预训练过程中利用了大规模图像-文本数据集、伪标签数据以及组合数据集来增强模型的通用性。微调阶段则通过提升特定任务性能(如视觉定位)或指导下游任务(如视觉问答)来进一步优化模型。提示工程也被用来辅助处理大规模多模态对齐问题。总体而言,这些工作为多模态视觉语言模型的发展提供了丰富的思路和技术支持!
详尽解析:从专业视角为你系统阐述近期在视觉智能领域取得的重要进展与突破性成果

人类学习的基础是多模态的这一基本特征。
通过依赖多种感官的信息融合来促进对新知识的理解和解析。
这种特性启发了当前最前沿的人工智能技术研究者们。
他们正在开发一套能够综合运用图像数据、视频素材以及文本内容等先进算法体系的新系统。
该系统能够通过整合不同维度的数据源来提升信息处理效率,
从而实现更加智能化的数据分析与决策支持功能。

此前我认为多模态模型应当全面将图像转化为LLM中。然而,在实际生产场景中我的看法逐渐转变。具体来说,在具体的应用案例里我发现采用语音和图像将各模态转换为文本后送到LLM处理往往能取得更好的效果。值得注意的是这一过程不需要让LLM与其他模态之间建立直接联系。
基础视觉模型:


1.基础架构

双模态编码架构中主要包含多个独立模块分别负责识别或解析视觉信息与文本内容,并通过优化函数对输出结果进行进一步处理。
该系统采用了先进的融合架构设计。其中包含一个新增的融合编码器模块,在此架构中该编码器能够整合来自视觉和文本处理的不同表征信息,并学会将其有效整合以提升整体性能。
编码器-解码器架构:由基于编码器-解码器的语言模型与视觉编码器共同参与构建而成。
自适应 LLM 架构基于大型语言模型(LLM)构建核心组件 通过视觉编码器将图像信息转换为适用于LLM处理的形式 并通过模态对齐技术实现技术层面的兼容性
2.目标函数
2.1 对比学习
基于无监督的图像-文本数据提取特征,在CLIP模型中采用了 Image-Text Contrast (ITC) 损失函数以促进跨模态表示的学习过程。该方法不仅实现了 Image-Text Matching (ITM) 的目标,并且结合了一系列改进版本如 FILIP Loss、TPC Loss 等技术以进一步提升性能表现。同时结合了一系列改进版本如 FILIP Loss、TPC Loss 等技术以进一步提升性能表现。例如 UniCL、RWC 等模型通过引入新的参数配置和优化策略在不同领域取得了显著效果。
2.2 生成式学习
条件概率模型中,在已知前一token或图像信息的基础上推断后续token。MLM、LM与Cap主要关联于语言模型领域。
3.预训练
3.1 预训练数据集
视觉-语言模型的核心是大规模数据,可分为:
图像与文本相关的数据:其中以CLIP为代表的数据集为例,则是基于网络爬取的。这些数据通常通过网络爬取获取,并在后续处理中进行去噪、去冗余以及剔除有害信息等步骤。
部分伪标签数据:由于大量训练样本难以通过网络获取且成本高昂,在这种情况下可以通过专业的教师将图像与文本关联的数据集转化为掩码-描述形式的数据集。例如GLIP和SA-1B等模型正是基于此方法构建的。
在数据集整合方面,许多研究主要采用了基准视觉数据集的整合方法。这些研究通常结合了图像与文本配对的数据样本类型,并特别关注于利用这些配对样本进行相关性分析与关联性挖掘方面的探索。此外,在处理非图像-文本类型的数据时,则通过构建基于模板的提示系统实现了标签向描述形式的有效转换。
3.2 微调
微调主要用于三个方面:
提高模型在特定任务上的性能(例如开放世界物体检测,Grounding-DINO);
提高模型在某一特定能力上的性能(例如视觉定位);
指导调整模型以解决不同的下游视觉任务(例如InstructBLIP)。

上面是instructBLIP, 其实就是将image转成llm更好理解的query。
3.3 提示工程
主要的视觉数据集通常包含图片及其对应的文本标签。为了使视觉语言模型能够有效处理这些数据集,许多研究者已经开发出了基于模板的提示系统。
text_descriptions = [f"This is a photo of a {label}" for label in cifar100.classes]
text_tokens = clip.tokenize(text_descriptions).cuda()
4.基于文本提示的基础模型
4.1 基于对比学习的方法

通过N组图像-文本配对外 trained a multi-modal embedding space. By optimizing with symmetric cross-entropy loss, the model minimizes the cosine similarity between the N correct image-text pairs while simultaneously enhancing the cosine similarity for all other N^2 - N incorrect pairs.
4.1.1 基于通用模型的对比方法

ALIGN系统基于一个包含超过10亿图像-文本对的噪声数据集进行训练,并且无需过滤步骤即可有效工作。该系统采用了一个相对简单的双编码器架构,在对比性损失函数的指导下实现了图像与文本表示的有效对齐。实验结果表明,在大规模数据集上运行时表现优异,并且该方法能够显著提升对齐效果。

Florence基于clip样式进行预训练,并发展出包含三个不同适配头的架构,该架构能够支持多模态的数据在时间维度和空间维度上的多样化处理。

该系统通过开发一种多模态的交互式后处理方案,在实现细粒度语义对齐的过程中,在保证CLIP推理效率的前提下实现了两种模态间的单标记间相似性匹配功能
4.1.1.2 基于掩码对比学习

FLIP 是一种更为高效且简洁的训练 CLIP 方法。相比传统方法而言,其基本原理较为直观。该方法借鉴自MAE模型的思想,在CLIP框架中引入了Mask机制。具体而言,在重建过程中并未考虑被遮蔽的部分。值得注意的是,在CLIP模型中同样对文本信息也采取了类似的处理策略——即直接丢弃不可见的信息内容——这种处理方式与BERT模型存在显著差异。然而,在具体实现上有所不同:BERT则是通过替换mask token的方式来处理不可见的信息(即不执行任何重建工作),而这里则直接舍弃不可见部分以降低计算复杂度和资源消耗量)。这种方法能够有效降低文本编码所需资源。

MaskCLIP 方法突出了图像作为一个连续且细粒化的信号这一特点;然而由于语言描述的能力有限性,这种特性可能无法被完整捕捉到.在此背景下,MaskCLIP 通过在图像上施加随机遮挡并结合基于 Mean Teacher 模型的自蒸馏机制,有效地提取出局部语义特征.
4.1.2 基于视觉定位基础模型的方法

上图展示了原始clip在视觉定位方面的专长,在语义分割这类像素级定位任务中尤其出色。

RegionCLIP 显著增强了 CLIP 模型以实现区域级视觉表示的学习过程,在图像与文本之间实现了精细对齐,并进而拓展了基于区域的信息处理能力。这些改进使其能够有效支持零样本目标检测以及开放词汇目标检测等关键应用领域。

基于其引入视觉编码器与文本对比损失项的融合机制,CRIS使得CLIP能够学习到像素级别的细节特征。

Grounding DINO基于其强大的预训练能力,并通过对比学习进行优化,以提升语言与目标域知识的有效对齐。
就整体而言,在这一系列基础性的视觉研究工作中,这些方法旨在通过对比学习与遮蔽学习等技术手段来优化 clip 的性能。
4.2 基于生成式的方法
基于大语言模型支撑的多模态技术体系(基础研究与技术创新)
结合上下文的多模态输入学习:例如,在自然语言处理领域中,“rozen”方法通过整合图像编码器与大语言模型(LLM),避免了对LLM进行微调这一操作,在包含图像注释的数据集上进行视觉编码器的训练。同样地,“flamingo”模型采用了一种固定搭配的方式——即利用预训练好的视觉与语言模型,并借助Perceiver Resampler实现两者的融合
LLM被用作其他模态的通用接口方案:例如,在MetaLM中采用了基于半因果架构的设计,并通过中间连接层将双向编码器与解码器结合。这种设计支持多任务微调以及基于无示例学习的指令调整。此外,在LLM上整合了多模态学习能力。
开源版本的模型:例如OpenFlamingo系统架构是一个基于Flamingo框架构建的开放源代码模型。该系统架构基于最新开发的数据集进行了优化设计,并且能够实现高效的多模态交互体验。
通用目标下训练:
简化视觉与语言之间的关联:例如,SimVLM模型基于前缀语言建模(PrefixLM)的核心目标展开训练过程,并无需针对特定任务设计复杂的架构,在多个视觉与语言相关的任务中展现出优异的效果。
在mask reconstruction和alignment方面:如MaskVLM系统中通过综合运用多模态信息构建语言模型。其中一部分mask通过与非mask区域协同作用实现精准重建。该方法实现了跨模态的有效统一。
该视觉语言模型采用模块化架构设计;主要包含图像编码器、图像抽象器以及被固定使用的大型语言模型(LLM)。经过分阶段优化的训练策略得以实现多模态对话与信息理解。
改写说明
该方法被命名为生成式模型,其缘由在于其通过在视知环境中进行语言生成任务训练,并据此增强了大型语言模型(LLM)的视知能力。
4.3 基于对比学习和生成式的混合方法
4.3.1 通用视觉-语言学习的基础模型
UNITER旨在融合生成能力和对比机制,并通过以下方式实现:首先利用掩码语言建模捕捉语言信息;其次应用掩码区域建模提取视觉特征;最后通过图像文本匹配和单词区域对齐优化对齐精度。
Pixel2Seqv2:整合成一个基于像素到序列接口的核心视觉系统,并通过编码器-解码器架构设计实现。
Vision-Language:基于BART或T5等预训练编码器-解码器语言模型进行训练识别各种计算机视觉任务。
4.3.2 通用架构

Contrastive Captioner (CoCa) is a system that integrates contrastive loss with generative caption loss, capable of demonstrating strong performance across diverse visual datasets.
FLAVA:该模型既能处理单一模式任务又能适应多种模式结合的情况,在经过多组不同的损失函数优化后,在视觉识别、语言理解以及视觉与语言融合的任务中展现出优异的效果。
该系统通过整合不同层次的单模态解码器信息实现整体性能优化,并未削弱其在执行单一模式识别任务方面的效能
PaLI:一种跨语言可扩展的模块化视觉架构,在单一领域(如图像识别)及多种场景(如自然语言处理与计算机视觉)中均表现出色。
X-FM:由语言、视觉信息以及融合编码器构成的新基础模型,在创新性设计下通过融合目标数据与新型技术实现优化方法。
4.3.3 BLIP框架范式
BLIP model: Through the utilization of generative and comprehension capabilities, it effectively leverages image-text datasets. Based on the Multimodal mixture of Encoder-Decoder (MED) architecture.
BLIP-2:通过查询转换器来实现计算效率高的模态间对齐。
4.3.4 指令感知特征提取和多模态任务解决方案
InstructBLIP:基于视觉编码器模块、Q-Transformer组件以及语言模型,在预训练模型的基础上实现高效的再使用。该系统通过指令引导的视觉特征提取机制进行学习,并结合多模态信息处理能力提升整体性能。
VPGTrans:提供了一种高效的方法来跨 LLM 传输视觉编码器。
TaCA:提到了一种叫做 TaCA 的适配器,但没有进一步详细描述。
4.3.4 基于Visual Grounding的方法
ViLD:该系统采用双阶段的开词目标检测架构,在预训练的单词分类模型基础上实现知识提取功能。具体而言, 该系统由一个 RPN 组件和一个类 CLIP 的视觉语言模型组成, 通过 Mask-RCNN 生成候选目标框, 并随后将提取的知识传递至目标检测模块。
UniDetector: 该系统的目标是实现通用物体检测,在开放世界环境中识别 novel 类别实例。其采用了包含三个阶段的学习架构:首先是基于与 RegionCLIP 类似的预训练策略进行模型初始化;其次是利用异构数据集进行强化学习;最后通过概率校准技术提升 novel 类别的检测精度。该系统在支持大规模类群的同时实现了对封闭场景物体检测的高度准确率。
X-Decoder系统设计采用了多层次架构,在图像级、对象级以及像素级三个层级上运行,并结合先进的特征提取技术,在各层之间实现了信息的有效传递与协同作用。该系统基于Mask2Former架构,并通过多尺度的图像特征与两组特定查询实现分割掩码的解码过程。研究结果表明,在广泛的应用场景下,该方法能够充分展现了跨分割与视觉语言等多样化任务的可迁移性能

UniDetecor
4.4 基于对话式的视觉语言模型
GPT4
miniGPT4是由预训练的大语言模型 Vicuna 以及视觉组件 Vit-G 和 Qformer 组成的。该模型首先通过学习多模态示例数据进行基础训练,在此基础上进一步经过高质量图像与文本配对的数据微调阶段以提升性能。
XrayGPT:基于visualglm的
LLaVA
LLaMA-Adapter v2
5.基于视觉提示的基础模型
5.1 视觉基础模型

CLIPSeg通过支持视觉和文本查询的功能来提取相应的clip编码器生成的嵌入,并将其整合到clipseg解码器中。
SegGPT

SAM

SEEM
5.2 SAM的改进与应用

FastSAM、MobileSAM、RefSAM、HQSAM
5.3 通才模型
掌握使用上下文学习的方法能够帮助您高效地适应多种类型的任务。通过提供特定的prompt就可以完成相应的任务。

经过训练的Painter能够通过与输入条件相同的任务的输入-输出配对图像来识别在推理过程中应完成的任务。

VisionLLM能够通过配准视觉与语言模态来解决开放式任务;通过视觉模型提取图像的特征信息;将这些特征与相应的语言指令整合后发送至负责分割的自然语言处理模块;该模块处理后的输出结果及其相关的指导信息作为输入供开放式LLM驱动的任务解析器使用。
6.综合性基础模型
6.1 基于异构架构的基础视觉模型
对齐图像-文本,视频-音频,图像-深度等成对模态
6.1.1 CLIP与异构模态对齐

CLIP2Video:实现了图像-文本 clip 模型的空间语义信息映射到视频-文本检索问题中。

AudioCLIP:处理音频。
6.1.2 学习共享表示的多模态模型
ImageBind:
MACAW-LLM
6.1.3 视频和长篇幅文本的处理
COSA

Valley
6.2 基于代理的基础视觉模型
以代理为基础的视觉模型能够深入结合LLM与现实世界的感知机制,在理解文本信息的同时实现与实际环境的有效交互与控制能力,在机器人执行动作、导航以及相关任务中表现出了显著的能力。
