Advertisement

UNIMO:Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning

阅读量:

本文内容仅代表个人理解,如有错误,欢迎指正

1. Points

UNIMO is a pre-trained model that accepts various input formats (such as image collections, text corpora, and image-text pairs). It can be fine-tuned to perform well on both single-modal and multi-modal tasks. This foundation is built upon extensive single-modal data—both paired (image-text pairs) and unpaired (images or texts alone)—which collectively enable the model to learn more robust representations across different modalities.

该系统通过多模态对齐框架(Multimodal alignment framework)实现此类如Image和Text在多级层次上的对齐与整合。

2. Background introduction

现有的预训练模型大多只专注于单一范式,在单模态或多模态领域均存在局限性(基于单模态的预训练模型无法实现不同范式的有效结合),且这种局限性相互制约(反过来也是一样的道理)。

适用于单模态的预训练模型有:

  1. Computer Vision: Alexnet, VGG, ResNet, etc.

  2. Natural Language Processing: BERT, RoBERTa, XLNet, UniLM, etc.

适用于多模态的预训练模型:

VilBERT(2019), VisualBERT(2019), UNITER(2020)

研究目的是为了构建一个整合不同模式的预训练模型,并使其能够适应单模态任务以及多模态任务

3. Main Components

3.1 Unified-Modal Transformer

基于图1可以看出, UNIMO通过多层自注意力Transformer模型来实现统一语义表示,

1) 输入: 可以是图片、文字的形式存在;也可以是图片与文字配对的形式存在。具体而言,在处理图片时会首先利用Faster-RCNN算法识别出图片中的多个候选框(Proposals),并计算每个候选框的特征(pooled ROI feature);随后将所有候选框提取出的特征作为一个序列(sequence of proposals)输入给系统;对于纯文本输入,则会将整个文本分解成一组子单词(subwords)作为系统的输入;而对于图片与文字配对的情况,则分别进行上述处理流程后再将两个序列拼接起来作为整体输入给系统进行后续处理。

Figure 1. Illustration of the unified-modal pre-training architecture.

2)主要任务: 将输入投影到同一个语义空间(Semantic Space)中。

3) Visual Learning

在图像学习领域中借鉴了BERT在处理MASK问题上的方法。具体而言,UNIMO通过Faster R-CNN捕获了许多区域,随后随机选择这些区域作为后续操作的目标,为了避免信息泄露(因为同一张图片中的不同区域可能存在较高的重叠率),因此将那些与所选区域重叠率达到超过0.3的其他区域一同被设置为不可训练的状态,最后使用未被mask覆盖的区域来预测被mask后对应的区域结果

采用两个子任务来进行预测?1. feature regression 2. region classification

个人理解:通过基于无mask区域的信息学习提取出的相关性特征,并使这些提取出的相关性特征能够尽可能接近mask区域对应的特征表示(1);接着利用这些提取出的相关性特征来预测mask区域中的物体分类(2)。

4)Language Learning

MASK的思想也被应用于文本学习领域。值得注意的是,在现有方法的基础上 UNIMO 在文本分词过程中采取了不同的策略: 优先识别语义完整且有意义的词汇单位,并将其作为一个 token 进行处理。例如,在处理" Sherlock Holmes is a great detective."时,系统会识别出 ' Sherlock Holmes' 作为一个完整的词汇单位来进行处理。

在language learning的时候主要采用了两个language modeling tasks

Bidirectional prediction: 其本质就是将每个token标记为missing,并通过保留未标记的token来进行预测。

在Seq2Seq生成过程中,请您选择一段文字或句子作为目标T,并将其与剩余的内容(即上下文S)结合在一起进行处理。

3.2 Cross-Modal Contrastive Learning

*Note:作者阐述了以往工作在开展对比学习过程中存在两个主要特点:其一,在设定学习目标时仅采用image-text匹配作为核心指标;其二,在同一batch中选取未配对的图像或文本作为负样本(尽管这些样本与正样本之间的差距可能较大),这会导致所学内容相对较为贫瘠。

主要思想: 本质上与对比学习的传统思路相似,在表征空间中使配对样本的表达更为接近的同时,则应当引导非配对样本至表征空间中相互远离的位置。通常采用的方法包括构建正类样例(Positive Samples)、负类样例(Negative Samples)以及较难分类的负类样例(Hard Negative Samples)来实现数据增强,并以此来提升模型的学习能力。

CMCL的目标:通过多模态数据的不同层级对应实现跨模态信息整合。(不仅在全局范围内的数据集层面进行粗粒度的对齐

实现方法:1. Text Rewriting 2. Image/Text Retrieval

1. Text Rewriting:

为了提升模型在多层次上的图像与文本语义对应能力,在文本重写过程中主要采用了 sentence-level、phrase-level、word-level 的策略来修改原有的文本。

主要采用的是基于双语对齐的技术方案(一种高效的降重策略)用作正样本集

为了节省时间考虑同样的sentence-level处理。我们可以使用TF-IDF相似度算法来计算并找到与原caption A最接近的、属于其他图像类别的caption B作为hard negative sample用于训练(这是因为虽然 caption B与 caption A在相似度上较高但它们并不完全描述同一张图片的内容因此这个问题较为复杂)。

Extract image descriptions into a scene graph and then randomly substitute nodes representing objects, attributes, or relations from their respective vocabularies. From a personal perspective in this domain of computer vision and natural language processing (NLP), this method can be challenging to grasp at first glance.

2. Image/Text Retrieval: 主要是为了利用单模态的数据

大致意思是说,在每一个包含图像和文本配对的实例中,在图像集合中利用视觉相似性计算结果来查找与当前图像相似度较高的图片,并且这些图片可能具有高度重叠的对象;以便获取与之相关的视觉信息;同样地,在文本领域也是类似的操作流程

需要注意的是这类单一模态的数据是独立开发用于学习而非之前提到的统一模态模型

4. Experimental Results

*众所周知,能放出来的实验结果都很不错 :)

此外, UNIMO的研究者通过展示一张可视化图表来论证其Unified-modal learning的有效性实现, 并不完全认同这一观点

反倒是Figure 5和Figure 6更具说服力。

全部评论 (0)

还没有任何评论哟~