多模态预训练模型选用指南（Vision-Language Pre-traning）

阅读量：

本文归纳整理了最近几篇关于Vision-Language Pre-traning(VLP)的相关综述文献，并补充了一篇非常值得参考的文章用于组件选择指导。

VLP: A Survey on Vision-Language Pre-training

paper：https://arxiv.org/abs/2202.09061

VLP主要依靠大规模数据的预训练过程来掌握不同模态间的语义关联机制。它涵盖的内容主要包括以下几个方面：特征提取能力、模型架构设计要点、预训练时所采用的目标函数形式以及所使用的数据集类型，并最终导向特定的应用场景研究方向。

1）特征提取：包括 VLP 模型中图像、视频和文本的预处理和表示方法。

图像特徵：由目标检测所得的区域特徵、CNN架构下的网格特徵以及ViT架构下的patch特徵。
视频特徵：首先将视频进行帧分割，并采用与图像特徵预处理方式相同的方法进行处理。
文本特徵：主要采用BERT架构进行文本预处理。

2）模型结构：以两个主要维度展开阐述：一是基于多模态融合机制的分支设计，二是从整体架构设计的角度分别采用单一编码器模式和编码器-解码器模式。

在单流架构中，指的是通过将文本与视觉特征进行连接来进行操作。
- 双流架构则通过将文本与视觉特征分别输入两个独立的 Transformer 块来实现。

3）预训练目标：可细分为典型的与特殊的预训练目标；其中又可分为补全型、匹配型、时序型以及特殊类型四种类别

补全：通过基于未掩码区域的信息重建掩码元素以实现对模态的理解（包括Masked Language Modeling、Prefix Language Modeling、Masked Vision Modeling等）；
匹配：通过整合视觉与语言信息到一个统一的潜在空间中生成统一的视觉-语言表示模型（包括Vision-Language Matching、Vision-Language Contrastive Learning、Word-Region Alignment等）；
时序：通过重新排列中断输入序列来提取有效的特征表示（主要针对视频相关的预训练任务如Frame Order Modeling等）；
特殊：由其他预训练任务构成（例如视觉问答任务与视觉描述任务等）。

4）预训练数据集，如下图。

5）下游任务。分为五类：分类、回归、检索、生成和其他任务。

分类任务包括视觉问答技术、视觉问答方法等；
- 回归任务涉及多模态情感分析；
- 检索任务涵盖多种视觉-语言检索场景；
- 生成任务涵盖视觉对话系统与视觉描述生成；
- 其他任务涵盖多模态机器翻译与视觉语言导航。

Survey: Transformer based Video-Language Pre-training

paper：https://www.aminer.cn/pub/614a9eca5244ab9dcbc38b21

这篇综述与上篇极为相似，在内容深度上有显著重叠，并且在侧重点上有明显偏移。鉴于此，在视频领域编码方面提出了若干细化结论。即探讨如何同时编码时间与空间细节？例如ViViT 提出了四种将 ViT 扩展至视频处理的方法：

使用深度学习模型对三维视频数据进行处理；
首先对同一时间段内的图像特征进行相互作用建模，在此基础上生成潜在表征；
在单个自注意力机制内集成空间与时间转换器，并交替编码两个不同维度的信息；
将多头注意力划分为独立的空间与时间头部进行计算： $Attention(Q_k, K_j) = \text{softmax}\left(\frac{Q_k K_j^T}{\sqrt{d_k}}\right)$ 。尽管如此，在实际应用中为了减少计算开销而主要关注于将来自图像预训练的知识迁移到视频相关任务。

在目标任务上，这篇文章将其分为三类：填空任务、匹配任务和排序任务。

填充任务旨在重建被屏蔽的 token。具体包括 Masking Token Reconstructive Tasks (MLM)、Masking Frame Reconstructive Tasks (MFM)、Masked Token Reconstructive Tasks (MTM)、Masked Modal Reconstructive Tasks (MMM) 以及 Language Reconstruction (LR)。
匹配任务旨在学习不同模态之间的对齐方式。例如 Video-Textual Alignment 是一种典型方法。
排序任务旨在恢复输入序列的原始顺序。Frame Ordering Learning (FOL) 专为视频序列设计，《Sentence Ordering Learning》则用于文本领域。

模型架构上，也是分单流和双流，一些典型模型的框架如下：

单流 Transformer。通过整合不同模态的特征向量与嵌入表示并融入同一个自注意力机制中进行处理，在线提取各子空间中的关键信息特征，并能够同时提取模态内部的信息特征以及不同模态之间的关联信息。
多流 Transformer。采用分而治之的原则将各个模态分别通过独立的自注意力机制进行处理，并结合其他模块或架构设计（例如共享权重层或跨模态融合模块）来实现跨模态信息的整合。

然后看一篇选用指南的文章。

An Empirical Investigation into the Development of End-to-End Vision-Language Transformer Models

Visual Encoder：
主要包含三个关键分支：第一种是将目标检测结果整合到主模型Bert中；第二种是利用CNN提取图像特征作为输入；第三种则是基于ViT技术将图像划分为多维块进行处理。
Text Encoder：
涵盖多种先进的文本表示技术：BERT、RoBERTa、ELECTRA、ALBERT及DeBERTa等模型各具特色。
Multimodel Fusion：
融合图像与文本表示的方法主要包括两种不同的策略：第一种是co-attention机制，在每个Transformer编码器模块之间加入跨注意力机制以促进信息交互；第二种则是采用merged attention model方法，在输入层阶段将两者的特征信息进行融合后一起通过Transformer进行处理。值得注意的是，在后者中由于特征信息的提前融合导致所需的参数数量相对较少。

模型架构中也主要涉及Encoder-only以及Encoder-Decoder两种类型的模型。值得注意的是，这篇文章对模型进行了更加深入的描述。

这篇文章做了大量的实验，给出了一些在选用预训练模型的经验结论。

实验1：对比分析了不同类型的编码器性能表现

本研究探讨了不同模态的融合方法。
在性能上优于 merged attention，在性能上优于 merged attention 在性能上优于 merged attention 从而建议采用以避免信息干扰

本实验对比分析了两种主要架构模式：编码器单层（Encoder-only）与编码器解码器（Encoder-Decoder）。从实验结果来看，在性能方面 Encoder-only 模型表现更为卓越。相比之下，在灵活性和适应性方面 Encoder-Decoder 模型具有明显优势。其显著特点是可以有效处理与文本生成相关的任务。

实验4 采用了多种预训练策略。两种类型的任务均能显著提升模型性能，在前者的效果更为显著的情况下。相比之下，在mask部分图像再预测（即MIM任务）中，则由于引入额外的预测目标而导致其效果却出现了明显的下降趋势。

paper：https://arxiv.org/pdf/2111.02387.pdf

多模态预训练模型选择指南（Vision-Language Pre-training）——上杉翔二的博客

全部评论 (0)

还没有任何评论哟~

多模态预训练模型选用指南（Vision-Language Pre-traning）

本篇整理一下最近几篇关于VisionLanguagePretraningVLP的综述文章，以及一篇很不错的，关于各个组件的选用指南文章。 VLP:ASurveyonVisionLanguagePret...

多模态预训练模型选用指南（Vision-Language Pre-traning）

关于预训练的诸多模型，博主已经在以往的文章中整理过： CrossmodalPretraininginBERT（跨模态预训练） OpenAICLIP，DALLE CLIP在视频领域的应用（CLIPBER...

PLM预训练语言模型Pre-trained Language Model

预训练语言模型（PretrainedLanguageModel，PLM） gpt就是一个典型的例子一、PLM的定义与概念预训练语言模型是一种在大规模文本数据上进行无监督学习得到的语言模型。它通过学...

多模态预训练模型指北——LayoutLM

CLIP（Contrastive Language - Image Pre - training）训练模型

CLIP训练模型：原理、特点、应用、训练方法及优劣一、CLIP训练模型简介 CLIP全称ConstrastiveLanguageImagePretraining，是由OpenAI推出的采用对比学习的...

多模态大模型(MLLM)训练篇 - Pre-training

多模态大模型MLLM训练篇Pretraining VaquitaAIVaquitaAI2024年08月28日11:40北京【导读】MLLM的训练范式大致可以划分为预训练阶段、指令微调阶段和对齐微调阶...

多模态预训练模型

多模态预训练模型一般是图像和文本模态的交互，能充分利用已有的文本信息，对图像进行自监督或有监督的训练。多模态数据集和预训练任务总结如下：模型数据集预训练任务 ALBEF图文对：COCO，VG，CC，...

多模态预训练大模型

基于多模态的预训练大模型将实现图文音统一知识表示，成为人工智能基础设施。人工智能正在从文本、语音、视觉等单模态智能，向着多种模态融合的通用人工智能方向发展。多模态统一建模，目的是增强模型的跨...

用于视觉问答的统一视觉语言预训练模型《Unified Vision-Language Pre-Training for VQA》

目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论这是视觉问答论文阅读的系列笔记之一，本文有点长，请耐心阅读，定会有收货。如有不足，随时欢迎交流和探讨。

通用多模态预训练模型OFA

sequencetosequence

是否确定退出登录?

多模态预训练模型选用指南（Vision-Language Pre-traning）

全部评论 (0)

相关文章推荐

多模态预训练模型选用指南（Vision-Language Pre-traning）

多模态预训练模型选用指南（Vision-Language Pre-traning）

PLM预训练语言模型Pre-trained Language Model

多模态预训练模型指北——LayoutLM

CLIP（Contrastive Language - Image Pre - training）训练模型

多模态大模型(MLLM)训练篇 - Pre-training

多模态预训练模型

多模态预训练大模型

用于视觉问答的统一视觉语言预训练模型《Unified Vision-Language Pre-Training for VQA》

通用多模态预训练模型OFA