Advertisement

【Vision-Language】VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts

阅读量:

Vision-Language(VL)研究旨在探索视觉与语言的联系,如图像描述生成和视觉推理等任务。近年来,基于双编码器或特征融合编码器的模型在VL领域取得了显著进展。然而,在处理复杂任务时仍存在局限性。为解决这些问题,提出了一种统一视觉语言预训练模型(VLMo)。该模型通过Mixture-of-Modality-Experts(MOME)Transformer实现了对不同模态数据的有效编码,并通过分阶段的前馈网络优化了跨模态表示的学习过程。实验表明,在检索和分类任务中,VLMo显著优于现有方法,并在大规模数据集上展示了良好的性能表现。

链接:https://arxiv.org/pdf/2111.02358.pdf

简介

首先我们做一些背景介绍,什么是vision-language
众所周知,目前人工智能涉及一个领域叫:多模态学习 。简单而言,这个领域研究的重点在于如何将两种不同的东西联系起来,一起学习知识。比如:

  • 不同媒介 :图像和文字,视频和语音
  • 不同语言 :汉语和英语

vision-language(VL)则专注于探索视觉与语言之间的内在联系。例如,在图像描述生成任务中(图像描述生成,Image Caption),系统需要根据输入图片内容自动生成相应的文字描述;在视觉推理任务中(视觉推理,Visual Reasoning),系统则需根据图片信息进行相应的逻辑分析并输出结果。
值得注意的是,在机器学习技术迅速发展的推动下,在人工智能领域已形成了一门融合性极强的基础学科——其融合领域也受到了广泛关注。

近年来,在计算机视觉(CV)与自然语言处理(NLP)领域,预训练-微调模型已展现出卓越的效果,并在视觉语言(VL)领域也取得了显著进展。VL预训练模型通过分析大量图像与文本配对数据,学习生成跨模态表示。主要方法包括图像与文本匹配技术、基于对比的学习策略、掩码区域分类与特征回归方法、词域与像素对齐机制以及掩码语言建模等。您了解这些具体方法吗?简要说明一下:

  • 图像-文本匹配:评估图像与文本之间的相似程度。
  • 图像-文本对比学习:通过对比正样本和负样本来区分不同语义的内容;借助模型结构和对比损失优化表示间的差异性。
  • 遮盖区域分类/回归:针对选定区域实施遮盖操作;通过预测遮盖区域的标签或特征来实现目标。
  • 文本-区域对齐:将文本中的单词或短语对应到图像中的感兴趣区域。
  • 遮盖语言建模:例如BERT等模型用于语言建模任务。

从模型结构上来说,有两种结构占据主流:

  • 双模编码器架构dual-encoder:两个encoder分别针对图像和文本进行独立编码,并计算它们各自的嵌入表示之间的余弦相似度。优势在于其非常适合用于检索场景,并能够高效地处理海量的文本与图像数据集。
    然而,在处理复杂的视觉语言(VL)任务时存在局限性: 余弦相似度仅能提供有限的信息量,在涉及视觉推理等复杂场景时表现不足。

  • 特征融合架构fusion encoder:通过整合所有图像-文本配对的信息来构建统一的表示模型,并通常采用多层Transformer结构来增强模型的能力和泛化性能。
    其优势在于能够有效地解决分类任务相关的问题,
    并且能够整合多种信息源以提升模型的表现力。
    然而,
    在实际应用中存在较大的计算开销问题:
    因为要对每一个图像-文本配对进行独立的编码处理过程耗时较长,
    并且难以直接应用于高效的检索场景。

那么一个直观的想法是:能不能将两个架构的优势结合起来呢?本文正是基于这一思考提出了统一视觉语言预训练模型(VLMo) 。该模型既能作为双编码器用于检索任务,也能作为融合编码器用于分类任务。VLMo的核心创新在于其Mixture-of-Modality-Experts(MOME) Transformer结构,在传统Transformer的基础上实现了模块化设计:通过引入不同任务特化的模态专家(Experts),模型能够灵活应对多种任务需求。在具体任务处理中,每个专家专注于特定领域所需的知识体系。此外,在统一处理视觉语言普遍知识方面也进行了深入设计与探索:为此作者引入了跨模态共享的self-attention机制

详细而言,MOME Transformer由三个模态专家构成:具体包括视觉信息处理专家、语言信息处理专家以及多模态信息融合专家。该系统通过采用切换机制与共享参数机制来实现不同功能目标:其中包含独立的文本编码器、独立的图像编码器以及集成的多模态融合编码器。

在预训练过程中,该模型旨在同时参与这三个预训练任务的统一训练:即图像-文本对比学习、图像-文本匹配以及掩码语言建模。流程如下:

首先,在BEIT框架中引入了遮盖图像建模技术 ,从而实现了MOME视觉专家与自注意力机制仅在图像数据上完成预训练;接着,在掩码语言建模方法的指导下,仅限于文本数据上的语言专家得以完成预训练;最后,在该模型的基础上完成了视觉语言预训练过程。

经过预训练后,在特定的任务中进行微调是可行的

  • 相较于融合编码器,在检索任务上的性能更为出色,并且推理速度显著更快。然而,在对比中,则不如双编码器表现优异。
  • 在视觉问答(VQA)以及视觉推理的自然语言(NLVR2)领域中,则该模型展现出了超越前者的卓越表现。

VLMo

在这里插入图片描述

VLMo体系的整体架构及其训练机制已在前面部分详述。左侧展示了VLMo的基本架构图谱,在右侧依次排列着三个重要的预训练子任务。
下面我们将详细讲解这一系统的具体构成要素及其协同工作流程。
在输入VLMo之前,在其处理前需要将图片与文本信息转换为统一的嵌入表示空间。
首要任务是探讨如何生成有效的嵌入表示。

Input Representations

大多数数据是基于图像与文本配对的形式进行存储与处理。该模型包含三个独立的专家模块:首先将其图像部分编码为图像embedding;其次提取其对应的文本信息并生成相应的text embedding;最后将两者结合生成 image-text embedding。

Image Representations

对于图像表示任务而言,在输入空间中对v∈R^{H×W×C}这一二维图像进行分割并将其重组为N = HW /P^2个大小相同的patch块。每个patch块v^p具有维度R^{P^2C}(其中P代表单个patch的空间分辨率)。随后将每个patch展平为向量,并通过线性变换获得其对应的嵌入表示。随后,在该序列头部引入一个可学习的特殊标记token [I_CLS]来标识整个图像序列。接下来,在计算最终图像是不是时会结合三个不同的嵌入部分:首先分别计算并汇总这些嵌入部分——即分别是各分块生成的patch嵌入层、可学习的一维位置编码嵌入层以及指定于不同类别类型的全局嵌入层——然后通过加法操作将其整合到最终表示中:具体来说就是

H^v_0 = [v_{[I\_CLS]}, V v^p_i, \ldots, V v^p_N] + V_{pos} + V_{type}

其中,

H^v_0 ∈ R^{(N+1) × D}

而线性变换矩阵V ∈ R^{(P^2C) × D}负责从局部特征空间映射到最终高维表征空间。

Text Representations

基于WordPiece技术(Wu等人于2016年提出),将文本分解为子单词单位(subword units)。在文本序列的开头添加了一个标识符[T_CLS]以及一个分隔符[T_SEP]。其输入向量形式为H^w_0 ∈ \mathbb{R}^{(M+2) \times D}。该向量通过将相应的词嵌入、位置嵌入和类型嵌入相加得到:
H^w_0 = [w_{[T\_CLS]} , w_i ,…, w_M , w_{[T\_SEP]} ] + T_{pos} + T_{type}
其中M代表标记后的子单词单元的数量。

Image-Text Representations

对于图像文本表示,把图像表示和文本表示连起来就行:
H^{vl}_0 = [H^w_0 ; H^v_0 ]

Mixture-of-Modality-Experts Transformer

如前所述,MOME Transformer通过引入三种模态专家取代传统结构中的前馈网络:视觉专家(V-FFN)、语言专家(L-FFN)以及融合视觉与语言信息的视觉语言专家(VL-FFN)。根据不同场景,系统会自动选择合适的模块进行任务处理。同时,该架构仍保留了Transformer的Multi-Head Self-Attention(MSA)机制,以确保视觉信息与语言文本的有效对齐或匹配

在这里插入图片描述

当输入仅为单一图像或单一文本向量时,请问您是否已经了解了?我们采用视觉处理模块提取图像特征,并利用语言模型提取文本特征。
例如,在VL检索任务中,请问您是否已经了解了?如图所示,在VL检索任务中分别得到图像和文本的embedding后计算两者相似度。
其核心架构基于双模态编码器设计

在这里插入图片描述

假设输入是由不同模态向量构成的集合(如图像-文本对的特征向量),那么可以通过分别在Transformer编码层中嵌入视觉与语言信息实现多模态融合。随后,在整合层中结合各模态特征以捕捉交互关系。这样就获得了单一模态表示(仅图像或仅文本)及其组合表示。

在这里插入图片描述

Stagewise Pre-Training

在这里插入图片描述

如前文所述,VLMo 的预 training 并不是一次性全面启动,而是采用了分阶段的方式进行.首先,仅基于图像数据分别对 MOME Transformer 中的视觉专家模块和注意力机制部分进行了单独优化.研究团队采用了 BEIT 模型在图像领域的已有的优化结果作为初始设置.然后,固定住这两个关键组件的学习参数,仅基于语言模型领域的知识对该系统的语言处理能力进行了专门优化.最后,解除固定状态后,将整个系统纳入到一个统一的学习框架中完成综合性能提升.

其主要优势在于:相较于单独存在的图像与文本数据而言,在获取这些数据方面更为便捷。值得注意的是,在构建图像-文本配对时所使用的短小精悍的文本片段往往无法帮助模型广泛掌握通用语言知识。在大量图像与对应文本的数据预训练过程中,在大量图像与对应文本的数据预训练过程中,在大量图像与对应文本的数据预训练过程中,在大量图像与对应文本的数据预训练过程中,在大量图像与对应文

实验

Evaluation on Vision-Language Classification Tasks

在这里插入图片描述

上表呈现了针对VL分类任务(包括VQA和NLVR2)的实验结果对比。结果显示,在相同的数据预训练量下,本文的方法表现出了色,并且显著超越了现有的SOTA预训练方法。

Evaluation on Vision-Language Retrieval Tasks

在这里插入图片描述

上表详细列出了在COCO和Flickr30K数据集上的图文检索实验结果对比分析。结果显示本研究提出的方法展现出比现有最优方法更好的性能。

Ablation Studies

Stagewise Pre-Training

在这里插入图片描述

上表详细呈现了VLMo在不同阶段预训练设置下的实验数据。从表中可以看出,在进行阶段预训练时,该方法充分利用了大量仅图像和仅文本语料库,并进而显著提升了视觉语言预训练的效果。

MOME Transformer & Pre-Training Tasks

在这里插入图片描述

上表展示了VLMo不同结构和预训练任务下的ablation studies结果。

全部评论 (0)

还没有任何评论哟~