Advertisement

2021: Seeing out of the box: End-to-end pre-training for vision-language representation learning

阅读量:

摘要

我们探究了卷积神经网络(CNN)与视觉语言预训练transformer(VLPT)的协同学习机制。我们的目标是从数十亿图像-文本配对中建立多模态对齐关系。当前最先进的区域基特征提取算法通过分阶段地将图像区域与单个词语进行配准。然而由于基于区域的空间语义特征往往仅反映局部图像信息因此现有视觉语言模型要实现自然语言语义双侧解码仍面临诸多技术瓶颈在此背景下本研究提出了一种创新的方法SOHO该方法以整个图像作为输入并采用端到端的学习架构来构建视觉语言表示系统SOHO系统无需人工标注边界框定位即可实现高效的跨模态语义理解其核心创新点在于设计了一种动态更新的视觉字典(VD)该字典能够捕获并表示具有相似语义的一致性视觉摘要实验结果表明SOHO比传统基于区域的方法推理速度提升了约10倍以上并且其在跨模态理解任务中的性能表现远超现有主流方案

一、介绍

基于先进的transformer架构和有效的自监督学习策略(Self-supervised learning strategies),视觉语言预训练(VLPT)模型通过大规模可获取的图像-文本配对实现了更优的多模态表示(Multimodal representations)。VLPT模型中视觉表示(Visual representations)扮演着关键角色(key role)。然而,在VLPT模型的发展历程中伴随着三个主要挑战:首先,在对象检测过程中提取包围盒内的内容时未能考虑包围盒外的重要背景信息(background information),这对关系理解及推理过程至关重要(crucial)。其次,在处理图像时受限于预先定义的小类别的视觉空间(visual space),这可能限制了跨模态任务的表现力(expressiveness)。第三,在实际应用中采用的对象检测器提取出低分辨率、噪声污染且过密的信息(information),并严重依赖大规模精确标注的数据(data annotation),这种做法存在明显局限性(limitation)。尽管如此,在弱监督条件下提升检测器性能的研究仍处于探索阶段。最近的研究则表明,在特定任务导向下利用网格化的卷积特征同样能取得良好效果(good performance)。这些方法通常是任务特定设计而成。本文重点围绕VLPT框架展开研究,并提出了一种无需依赖区域特征的新端到端视觉语言预训练方法。

为了突破基于区域的图像特征限制,在深入分析图景与文本配对的基础上实现跨模态的理解需求, 我们提出了一种名为SOHO的新方法, 其本质上是一种端到端的设计用于视觉语言预训练. 该方法能够从图景与文本配对中自动学习图景嵌入. 语言嵌入以及语义对应关系. 相比而言, 当前流行的VLPT方案被现有的研究者所采用, 而其方案采用了更为复杂的视觉主干架构来进行预训练, 同时也释放了图景与文本配对任务所需的具体设计工作. 无需繁复注释类别或其他标记符的帮助, SOHO方案可以直接从广泛的数据集上优化视觉表示能力从而进一步丰富视觉语义空间.

基于端到端的学习框架,在不同模式下对比实验展示了这一挑战。在感知层面(pixel-wise),视觉信息的表现形式远超语言嵌入;然而由于缺少针对像素级语言的有效监督机制,在对齐过程中面临诸多困难。针对上述挑战提出解决方案:一种名为可视化字典(VD)的数据结构模型;构建了一个自适应移动平均编码器框架;该模型能够实时更新其权重参数以适应变化的需求,并通过可训练的人工神经网络架构实现了动态更新能力;最终该方法在预训练任务中展现出显著的优势:除了传统的掩码语言建模(MLM)与图像-文本对齐(ITM)任务之外;我们还提出了新的基于学到的知识库的方法:一种称为"基于学到的知识库"的新掩膜建模方法(MLM)。

我们的主要贡献包括以下三点:首先,我们开发了SOHO方法——首个基于图像-文本对学习跨模态表示的端到端VLPT模型之一。与现有方法相比,在无需提取边界框的情况下,该模型实现了至少十倍的推理加速效果。其次,在更好地对齐视觉特征与语言标记方面取得突破性进展——我们提出了一个新的动态更新机制的视觉编码词典,并通过这种机制能够更加精准地对齐具有相同语义意义的视觉摘要片段之间的对应关系。最后,在针对四个关键任务进行系统性实验分析的基础上——我们验证了SOHO方法在各基准性能水平上的显著提升。

二、相关工作

2.1 视觉-语言的视觉表示

VD与相关研究的核心差异体现在以下方面:我们采用了可学习视觉编码器输出来进行VD嵌入实时更新,并避免了传统的固定预处理输入特征的方法。此外,在这一过程中形成的动态更新机制能够从视觉语言数据集中提取受文本引导的关键语义信息。因此,在这种情况下使得该模型能够直接利用高级语义进行优化以实现VL的理解与对齐

2.2 视觉-语言的预训练

视觉-语言预训练系统被划分为双路和单路架构,在前馈网络中采用分而治之的策略实现多模态信息的有序传递:其中,在双路架构下各子网络分别接收并处理视觉信号与语言信息随后通过一个额外的Transformer层将两者的表示进行整合;而针对单一路径的学习方案则基于BERT框架设计用于系统性地分析并建模这两者协同关系下的语义空间构建机制

我们的SOHO与现有的VLPT工作之间存在核心差异(1)SOHO基于一个简洁的VLPT管道设计。(2)我们的视觉主干主要依赖ImageNet预训练参数,并在五个下游任务中超越现有VG特征方法。(3)SOHO仅需最小注释量即可达到SOTA水平。(4)通过专注于优化目标语言任务的视觉输入来丰富视觉语义。

三、方法

本研究中所提出的用于实现视觉语言预训练的框架如图2所示。

3.1 可训练的视觉编码器

现代视觉语言研究主要关注于自底向上的以及自顶向下的注意机制。通过使用预先在VG数据集上训练好的Faster R-CNN检测器模型,在该系统中实现了对物体及其属性级别的细节特征进行精确提取。值得注意的是,在这种基于区域划分的信息提取方法中,默认会忽略那些位于边缘或未被关注到的位置的相关上下文信息。

旨在完整保留所有视觉信息的基础上

基于ImageNet预训练的ResNet模型作为基础网络,在其中编码器E由1×1卷乘积核和经过进一步优化设计的2×2最大池化模块构成。

3.2 视觉字典

视觉编码器生成的多模态表征在多样性与密度上显著超越了传统的符号表示方式;尽管如此,在跨模态学习任务中这一差异仍然造成了挑战性的问题。为此,在研究中我们构建了一种基于视觉字典(VD)的方法;通过将具有相似语义意义的视知体元素归并至同一图像表征以减少这种表示间的差异

视觉编码器生成 对于每个位于集合D中的视觉特征v_i,我们在集合D中定位其最近的邻居以确定每个v_i的映射索引位置。

我们将视觉字典嵌入定义为一个映射函数f,它将vi映射到D:

它采用了最新的嵌入向量技术来表征视觉特性。为了定义清晰的关系结构,我们可以将f−1(j)定义为一种逆映射函数,这种函数能够将索引j对应到一组具体的视觉特征集合中。则该逆映射集合的大小可通过|f−1(j)|来衡量,并以f(V)的形式体现这些编码特征。

基于动量优化的过程视觉字典D进行随机初始化,并通过少量批次的移动平均操作进一步更新

梯度后向传播 因为argmin操作不可导, 梯度反向传播将受限于视觉字典. 以便使视觉特征编码器得以训练, 我们参考文献[41]对f(vi)进行更新:

该视觉字典通过基于特征相似度的在线聚类方法对视觉特征映射进行建模,并将各子空间的聚类中心作为表征。在具有相似语义的对象嵌入空间中进行分组整合后发现,在此过程中生成的集群索引本质上可被视为一种虚拟化的视觉语义标签。受所处的多模态学习任务影响时,在这种情况下各嵌入空间中的对象表征会呈现出更强的相关性。

视觉字典面临一个初始化问题,在直接复制嵌入到特征图时可能会导致模式崩溃的现象出现。为此,在前10个训练周期中对视觉特征编码器中的ResNet参数进行了固定。

3.3 预训练管道

为了实现对视觉与语言关联任务的一般化表示, 我们采用了自监督学习框架, 在一个大规模集成数据集上进行了预训练工作. 本文提出了一种创新性方案, 该方案基于生成式字典构建了一种虚拟视觉语义标签, 并将其应用于掩膜式建模过程.

我们通过在transformer输入前对图像特征进行随机遮蔽来实现MVM的学习任务。

MVM旨在利用周围图像的特征信息及其语言标记符号来优化掩码图像特征。当某个图像特征vi被屏蔽时,在视觉图谱(VD)中其对应的映射索引hi被视为其标签符号。然而,在视觉图谱中相邻的特征可能具有相似值而导致它们共享相同的映射索引。这种现象将导致模型以一种非主动的方式直接复制周围特征的标签作为预测结果。为了避免这种情况的发生,在掩蔽阶段我们首先随机选择一个现有标签索引j,并将其特殊标记嵌入向量替换到f−1(j)中的所有可视化嵌入向量。

3.4 预训练数据集

在我们的研究中,我们采用了'领域内'作为预训练数据源,并因大多数基于视觉的任务都以这些文献为基础而得以实施。为此我们特意选择了MSCOCO[25]和VG[20]作为构建该研究预训练数据集的关键来源

四、实验

4.2.2 视觉问答

相较于我们的SOHO而言,最直接的可比基准是LXMERT[39]这一模型。它采用了与我们SOHO相同的主体结构和预训练数据集。值得注意的是,在对LXMERT进行测试开发和基于标准数据集的分割测试中分别实现了0.83%和0.93%的绝对提升效果。值得注意的是,在实验条件较为不利的情况下(如仅使用部分领域外的数据),我们方法依然表现出色:其中UNITER[7]在预训练阶段额外引入了域外数据集作为补充学习素材。通过在VQA任务中的表现值得期待的结果表明,我们的端到端预训练方法能够更加高效地理解和处理视觉信息,并在此基础上提出智能的回答策略。

4.3 消融研究

五、总结

我们开发了SOHO系统——首个端到端视觉语言预训练模型——致力于学习全面且高效的视觉表示以实现跨模态理解能力的提升。为了生成可与语言标记融合的具象语义特征我们创新性地构建了一种基于图像到具体语义映射的新视觉字典这一过程旨在为后续任务奠定基础。通过设计三个预训练任务体系我们的目标是强化图像与语言之间的内在联系这一目标在实验结果中得到了充分验证。在四个典型下游应用场景中SOHO系统展现出显著的优势特别是在需要实时处理能力的任务中其推理速度较现有基于区域特征模型快10倍的结果令人瞩目这使得更多在线视觉语言应用的部署成为现实未来我们将持续探索更复杂的视觉语言生成场景并寻求突破认知水平下的大规模非配对多模态数据处理技术

全部评论 (0)

还没有任何评论哟~