多模态预训练模型
多模态预训练模型主要通过不同模态之间的交互关系实现。该模型能够充分挖掘现有的文本数据,并通过自监督或有监督的方式对图像进行优化。多模态数据集和预训练任务总结如下:
| 模型 | 数据集 | 预训练任务 |
|---|---|---|
| ALBEF | 图文对:COCO,VG,CC,SBU Caption | ITC, MLM,ITM |
| CLIP | 400million 网络公开数据集 | 对比学习 |
| UniT | 视觉/文本单模态和多模态的8个数据集 | 基于8个数据集的7个任务,包含目标检测,VQA,NLU |
| Vx2TEXT | 视频用Kinetics,音频使用AudioSet | TVQA, AVSD,TVC |
| UNIMO | 文本:BookWiki及OpenWebText;
图片集:OpenImages数据库及其无标签版本(unlabeled COCO);
图文描述数据集(COCO、VG、CC、SBU等图像描述数据集) | 对比学习技术;机器翻译模型预训练(MLMs);多轮对话系统预训练(MRMs) |
|---|---|---|
| UNITER | 图文描述数据集(COCO、VG、CC、SBU等图像描述数据集) | 基于条件式的MLMs与MRMs预训练模型;图像-文本双编码任务专用预训练模型(ITMs);基于检索机制的跨模态表示学习方法(WRA) |
对比学习方案下实现多任务学习框架... Oscar模型在该框架下展示了优异性能;采用图像-文本对齐数据集构建了大规模的数据集,并通过引入新的预训练语言模型实现了更好的效果。Unicoder-VL模型基于图像-文本对齐数据集进行训练,并成功构建了覆盖广泛领域的知识表示体系;该模型通过引入先进的多模态融合技术达到了显著的效果提升。VisualBERT模型基于COCO数据集构建了大规模的图像-文本配准数据集,并在此基础上提出了高效的特征提取方法;其性能表现优于现有方法的同时实现了更低的时间复杂度。ViLBERT模型则基于高质量的图像-文本配准数据集进行了深入研究,并在此基础上提出了创新性的预训练语言模型架构;该方法在保持较低计算开销的同时达到了较高的准确率。
VideoBERT模型基于YouCook II数据集进行训练,并涵盖2000个样本。该模型采用三种不同的masking策略:仅基于文本的masking、仅基于视频的masking以及结合文本和视频的masking。实验结果表明该方法在保持性能稳定的同时显著提升了效率
数据集描述 VG: 视觉 genome, CC: 概念描述. 预训练任务说明中, MLM 表示隐式语言模型, 而 MTL 则代表隐式标记损失; MRM 是隐式区域模型, ITM 实现了图像文本匹配功能, MOC 则用于隐式对象分类, WRA 体现了词域对齐技术的应用. 在视频处理方面, TVQA 是视频问答系统, 其与 TVC (视频描述) 的区别在于前者侧重于生成回答而非直接描述内容; AVSD 则涉及基于音频-视觉场景的对话生成技术
论文&代码地址
| 模型 | 论文&代码 |
|---|
| ALBEF这一项基于(arXiv上发表的文章) ... ,其GitHub存储地址位于这里 |
|---|
| CLIP这一项同样基于(arXiv上发表的文章) ... ,其GitHub存储地址位于这里 |
| UniT则基于(arXiv上发表的文章) ... |
| Unit AI Model | 其论文链接为:https://arxiv.org/pdf/2012.15409.pdf
GitHub仓库地址:https://github.com/PaddlePaddle/Research/tree/master/NLP/UNIMO |
| Unit Transformer | 其论文链接为:https://arxiv.org/pdf/1909.11740.pdf
GitHub仓库地址:https://github.com/ChenRocks/UNITER |
| Pixel-BERT模型 | 其论文链接为:https://arxiv.org/pdf/2004.00849.pdf |
| Oscar | https://arxiv.org/pdf/2004.06165.pdf
https://github.com/microsoft/oscar |
| Unicoder-VL | https://arxiv.org/pdf/1908.06066.pdf |
|---|---|
| ViLBERT | https://arxiv.org/abs/1908.02265 |
| VideoBERT | https://arxiv.org/abs/1904.01766 |
模型概况
ALBEF
双流模型;
在前向知识蒸馏任务以及后续应用领域中采用momentum distillation技术,能够有效减少图像与文本混合的数据集中数据质量下降现象。
从Mutual Information的视角看图文对信息对齐。
CLIP
在attention-based双层模型中,在每个stream中将文本与视觉信息分别输入到transformer encoder,并经由线性变换计算不同图像-文本对之间的相似程度。
使用对比学习,将图片分类转换成图文匹配任务。
该架构基于 UniT 模型框架,并通过独立的编码器分别对文本信息和视觉信息进行提取。随后将编码结果拼接后输入到解码器中进行解码,并依据不同的头(head)配置执行多样化的任务训练。
利用 backbone 网络提取模态特征,并通过分类器进行处理。随后,采用 Gumbel-Softmax 技术生成 k 个类别分布,并与原始文本对应地映射至统一的语言空间。
端对端的文本生成模型。
UNIMO
目的:融合单模态与多模态结果的预训练模型,在多模态任务中展现出良好的性能水平,在单模型任务中应用时的效果也不会明显降低。
数据增强:通过text rewriting,text/image retrieval 增强正负样本。
UNITER
目的:构建一个统一的图文学习框架,适用于各种图文任务;
分别对图文做embedding,经过Layer Normalization进入transformer;
提出conditional masking和OT-based WRA预训练任务。
Pixel-BERT
目的:主要采用Faster R-CNN进行目标检测以提取视觉特征 该方法虽然有效 但也面临信息冗余以及语义鸿沟等挑战 近期研究则倾向于采用基于像素级特征提取的方式 从而显著提升了视觉表达的鲁棒性
基于像素的方法:随机像素采样机制,在每个feature map中抽取像素作为视觉特征,类似于在每个feature map内部执行一种随机采样的操作。
Oscar
目的是通过图片中的object tag被用作锚点作为辅助手段来促进多模态对齐的信息。
输入为3元组Word-Tag-Image;
通过Faster R-CNN检测的k个高精度region作为object tags。
Unicoder-VL
目的:构建图片和长序列的联合表征的预训练模型;
提取了100个区域特征和文本进行连接操作后被输入到multi-layer transformers中进行处理
VisualBERT
共有三种不同的嵌入方式:一种是基于视觉边界区域的;另外两种分别是通过将视觉信息与文本信息结合实现的位置编码以及通过将视觉与文本的信息进行对齐处理来实现的位置嵌入
用了多种fusion方式,实验结果显示early-fusion最好。
ViLBERT:两路交互模型,在每一轮循环中先完成各自的信息提取(通过独立的TRM进行序列建模),随后进行跨模态注意力交互(Co-TRM实现多模态信息融合)。 VideoBERT
通过BERT学习text-to-video和video-to-text任务;
视觉文本对齐处理;
3种masked learning,text-only, video-only和text-video。
