多模态预训练模型选用指南(Vision-Language Pre-traning)
本文归纳整理了最近几篇关于Vision-Language Pre-traning(VLP)的相关综述文献,并补充了一篇非常值得参考的文章用于组件选择指导。
VLP: A Survey on Vision-Language Pre-training
VLP主要依靠大规模数据的预训练过程来掌握不同模态间的语义关联机制。它涵盖的内容主要包括以下几个方面:特征提取能力、模型架构设计要点、预训练时所采用的目标函数形式以及所使用的数据集类型,并最终导向特定的应用场景研究方向。
1)特征提取:包括 VLP 模型中图像、视频和文本的预处理和表示方法。
- 图像特徵:由目标检测所得的区域特徵、CNN架构下的网格特徵以及ViT架构下的patch特徵。
- 视频特徵:首先将视频进行帧分割,并采用与图像特徵预处理方式相同的方法进行处理。
- 文本特徵:主要采用BERT架构进行文本预处理。

2)模型结构:以两个主要维度展开阐述:一是基于多模态融合机制的分支设计,二是从整体架构设计的角度分别采用单一编码器模式和编码器-解码器模式。
- 在单流架构中,指的是通过将文本与视觉特征进行连接来进行操作。
- 双流架构则通过将文本与视觉特征分别输入两个独立的 Transformer 块来实现。
3)预训练目标:可细分为典型的与特殊的预训练目标;其中又可分为补全型、匹配型、时序型以及特殊类型四种类别
- 补全:通过基于未掩码区域的信息重建掩码元素以实现对模态的理解(包括Masked Language Modeling、Prefix Language Modeling、Masked Vision Modeling等);
- 匹配:通过整合视觉与语言信息到一个统一的潜在空间中生成统一的视觉-语言表示模型(包括Vision-Language Matching、Vision-Language Contrastive Learning、Word-Region Alignment等);
- 时序:通过重新排列中断输入序列来提取有效的特征表示(主要针对视频相关的预训练任务如Frame Order Modeling等);
- 特殊:由其他预训练任务构成(例如视觉问答任务与视觉描述任务等)。
4)预训练数据集,如下图。

5)下游任务。分为五类:分类、回归、检索、生成和其他任务。
- 分类任务包括视觉问答技术、视觉问答方法等;
- 回归任务涉及多模态情感分析;
- 检索任务涵盖多种视觉-语言检索场景;
- 生成任务涵盖视觉对话系统与视觉描述生成;
- 其他任务涵盖多模态机器翻译与视觉语言导航。

Survey: Transformer based Video-Language Pre-training
这篇综述与上篇极为相似,在内容深度上有显著重叠,并且在侧重点上有明显偏移。鉴于此,在视频领域编码方面提出了若干细化结论。即探讨如何同时编码时间与空间细节?例如ViViT 提出了四种将 ViT 扩展至视频处理的方法:
- 使用深度学习模型对三维视频数据进行处理;
- 首先对同一时间段内的图像特征进行相互作用建模,在此基础上生成潜在表征;
- 在单个自注意力机制内集成空间与时间转换器,并交替编码两个不同维度的信息;
- 将多头注意力划分为独立的空间与时间头部进行计算:Attention(Q_k, K_j) = \text{softmax}\left(\frac{Q_k K_j^T}{\sqrt{d_k}}\right)。尽管如此,在实际应用中为了减少计算开销而主要关注于将来自图像预训练的知识迁移到视频相关任务。

在目标任务上,这篇文章将其分为三类:填空任务、匹配任务和排序任务。
- 填充任务旨在重建被屏蔽的 token。具体包括 Masking Token Reconstructive Tasks (MLM)、Masking Frame Reconstructive Tasks (MFM)、Masked Token Reconstructive Tasks (MTM)、Masked Modal Reconstructive Tasks (MMM) 以及 Language Reconstruction (LR)。
- 匹配任务旨在学习不同模态之间的对齐方式。例如 Video-Textual Alignment 是一种典型方法。
- 排序任务旨在恢复输入序列的原始顺序。Frame Ordering Learning (FOL) 专为视频序列设计,《Sentence Ordering Learning》则用于文本领域。
模型架构上,也是分单流和双流,一些典型模型的框架如下:

- 单流 Transformer。通过整合不同模态的特征向量与嵌入表示并融入同一个自注意力机制中进行处理,在线提取各子空间中的关键信息特征,并能够同时提取模态内部的信息特征以及不同模态之间的关联信息。
- 多流 Transformer。采用分而治之的原则将各个模态分别通过独立的自注意力机制进行处理,并结合其他模块或架构设计(例如共享权重层或跨模态融合模块)来实现跨模态信息的整合。
然后看一篇选用指南的文章。

An Empirical Investigation into the Development of End-to-End Vision-Language Transformer Models
- Visual Encoder:
主要包含三个关键分支:第一种是将目标检测结果整合到主模型Bert中;第二种是利用CNN提取图像特征作为输入;第三种则是基于ViT技术将图像划分为多维块进行处理。 - Text Encoder:
涵盖多种先进的文本表示技术:BERT、RoBERTa、ELECTRA、ALBERT及DeBERTa等模型各具特色。 - Multimodel Fusion:
融合图像与文本表示的方法主要包括两种不同的策略:第一种是co-attention机制,在每个Transformer编码器模块之间加入跨注意力机制以促进信息交互;第二种则是采用merged attention model方法,在输入层阶段将两者的特征信息进行融合后一起通过Transformer进行处理。值得注意的是,在后者中由于特征信息的提前融合导致所需的参数数量相对较少。

模型架构中也主要涉及Encoder-only以及Encoder-Decoder两种类型的模型。值得注意的是,这篇文章对模型进行了更加深入的描述。

这篇文章做了大量的实验,给出了一些在选用预训练模型的经验结论。
实验1:对比分析了不同类型的编码器性能表现
本研究探讨了不同模态的融合方法。
在性能上优于 merged attention,在性能上优于 merged attention 在性能上优于 merged attention 从而建议采用以避免信息干扰
本实验对比分析了两种主要架构模式:编码器单层(Encoder-only)与编码器解码器(Encoder-Decoder)。从实验结果来看,在性能方面 Encoder-only 模型表现更为卓越。相比之下,在灵活性和适应性方面 Encoder-Decoder 模型具有明显优势。其显著特点是可以有效处理与文本生成相关的任务。
实验4 采用了多种预训练策略。两种类型的任务均能显著提升模型性能,在前者的效果更为显著的情况下。相比之下,在mask部分图像再预测(即MIM任务)中,则由于引入额外的预测目标而导致其效果却出现了明显的下降趋势。
paper:https://arxiv.org/pdf/2111.02387.pdf
多模态预训练模型选择指南(Vision-Language Pre-training)——上杉翔二的博客
