Advertisement

Flamingo Model - 一种通过few-shots方法的VLM(Vision-Language Model)

阅读量:

摘要

开发一种只需极简标注示例即可快速适应新任务的模型是多模态机器学习研究中的一个难点问题。我们开发了一种名为Flamingo的视觉语言模型(VLM),它具备此类特性

我们提出了关键的架构创新:

  1. 建立连接于经过广泛训练的预处理视觉信息与语言模型。
  2. 管理任意交错排列的多模态数据序列。
  3. 直接接受图像或视频作为输入源。

基于模型的灵活特性,在包含多种交错文本与图像的大规模多模态数据集上实现训练,并为其提供了一种上下文感知的少样本学习机制。我们对我们的模型进行了系统性地评估,探索并测量了其快速适应各种图像与视频任务的能力;这些任务包括开放式任务,如视觉问答,在该任务中,单个Flamingo模型仅需借助特定于各自任务的提示范例即可达到最先进的少样本学习水平;描述性任务评估其描述场景或事件的能力;以及闭合任务例如多项选择视觉问答.对于该范围内的所有任务而言,经过数千倍专门针对各任务数据微调后的结果相比之下,则不及Flamingo模型所展现出的卓越性能

Figure 1 : Selected examples of inputs and outputs acquired from Flamingo-80B. Flamingo is capable
quickly adapting to different types of image and video understanding tasks through few-shot prompting
(top). Without much effort, it can also perform multi-image visual dialogue effectively
(bottom).

Figure 2 : Flamingo results overview. Left: Our largest model, named Flamingo, exceeds
state-of-the-art fine-tuned models across 6 of the 16 tasks evaluated without any fine-tuning. For the remaining
9 tasks with published few-shot benchmarks, Flamingo establishes a new few-shot benchmark record. Note that we exclude
RareAct, our final benchmark, since it represents a zero-shot scenario without available comparisons for fine-tuning comparison. Right: The performance of our model improves as both its size and number of shots increase.

Why we need Flamingo?

人工智能的一个重要领域仅凭简短指令就能迅速掌握新技能的能力。尽管在计算机视觉领域已有一定进展,但传统模式仍主要依赖于经过大量标注数据预训练,并随后在其感兴趣的领域中对模型进行微调;然而这种微调过程仍需数千个标注样本的支持;同时通常需对各领域的超参数进行精细调节,这也是一种资源密集型的任务。

基于对比学习目标构建多模态视觉语言模型,在few-shot学习中具备广泛迁移的能力,并且无需微调就能直接应用于新任务。然而这类模型仅能通过计算文本与图像之间的相似度来评估关联性,并因此仅适用于特定类型的任务。一个预先定义的结果空间被设定好,并且这些模型无法进行生成式任务处理,在低数据领域中尚未展现出良好的性能表现

Flamingo 做到了哪些?

仅仅利用一些输入/输出样例作为提示,在这些任务中实现了这一领域内的最新突破。

该研究工作旨在达成这一目标,并基于最近广泛流行的大型语言模型(LLMs)的研究成果开展相关探索。大型语言模型(LLMs)尤其适合于few-shot学习场景,在此框架下能够高效完成多项任务。具体而言,在单个大LM系统的支持下,在多个领域中都能展现出强大的性能表现:通过提供示例作为提示信息来引导模型,并结合问题输入后系统性地生成相应的预测输出结果。值得注意的是,在图像与视频处理领域中(包括分类、描述生成以及问答等),同样适用于将视觉信息转化为文本预测的任务场景。

与LM相比显著区别在于该模型需具备接收图像或视频与文本交替交互处理的能力

大型LMS的核心特征在于其强大的性能,在接受大量经过深度学习处理的文本数据作为训练素材后能够实现生成能力的发展,在基于示例任务的引导下实现LMs的有效运作。研究表明,在适当的数据融合策略下提升模型性能至关重要;无需人工标注即可完成大规模的数据融合过程。经过系统的微调后可以直接部署Flamingo模型于新的视觉任务场景中并无需特定的任务调整

方法

Figure 3: Overview of Flamingo architecture. Flamingo constitutes a collection of VL systems designed to process visual data mixed with textual content, producing free-form text as their output.

本文介绍了Flamingo模型:一个视觉语言模型,它接受融合了文本和图像/视频数据的输入,并输出自由形式的纯文本。其核心架构由图3展示:这些组件旨在充分利用预训练语言模型并有效地将它们连接起来。首先,Perceiver Resample接收Vision Encoder传递的时空特征(来自图像或视频),并输出固定数量的vision tokens。随后这些tokens被用于通过新初始化的交叉注意力层对预训练语言模型层进行微调。这些层为语言模型提供了在下一个标记预测任务中融入视觉信息的能力,并以一种新的表达方式进行建模。Flamingo模型通过交错地结合图像与视频信息完成这一过程

x

来建模文本

y

的可能性如下所示:

p=rod_{l=1}^{L}p

其中

y_l

是输入文本

y

的第

l

个文本token,

y<l

是历史文本token的集合,

xeq l

是处于

y_l

​前的图像或视频token集合,并且

p

基于Flamingo-based model进行参数化。

Visual processing and the Perceiver Resampler

视觉编码机制:从像素到高阶特征提取

重采样机制:将输入转换为从大尺寸的特征图中提取少数量的区域描述符 将其与冻结语言模型关联起来(如图3所示)。该模块负责接收来自Visual Encoder提供的可变数量图像与视频特征,并生成固定数量的关键点表示信息以减少Cross-Attention计算时所涉及的数据量。此外,在Visual Space中预定义一部分潜在查询点集,并将其输入到Transformers中以实现对Visual Features的有效检索与融合

Conditioning frozen language models on visual representations

文本生成基于Transformer架构中的解码器模块完成。该方法的效果受到感受器重采样所产生视觉表征的影响。采用预训练阶段已锁定的文字语言模型模块与其自定义初始化构建的不同分支进行交互结合。其中各组件分别与同一位置经过重采样的视觉特征进行交互关联。

向被冻结的语言模型中添加新的GATED XATTN-DENSE层。将预训练的部分语言模型进行解冻,并在原有结构基础上添加dated cross-attention dense模块。为了确保初始状态下的输出与基于条件模型生成的结果一致,在构建过程中采用了

anh

门控机制用于,在将新添加的层的输出连接到来自残差链接的输入表示前一步骤中进行处理,并对其进行缩放操作。

anh lpha

,其中

lpha

是一个特定于该层的学习型标量量度参数,其初始值被设定为零数值。因而,在初始化阶段,该模型架构与经过全面预训练的架构呈现一致输出特征,从而提高了模型运行时的一致性和最终效果。

可调参数系统。 该系统引入了 frozen language model 和 trainable vision-text GATED XATTN-DENSE modules,并维持了固定的 frozen vision encoder 和 trainable Perceiver Resampler,在不同规模的训练实例(如3B、9B及80B)下

Multi-visual input support: per-image/video attention masking

通过构建完整的文本到图像交叉注意力矩阵进行屏蔽处理,并限定每个文本标记仅可观察其对应区域内的局部特征信息;基于给定特定文本标记时,在呈现交错序列时观察到的是其之前出现的所有相关视觉特征;然而,在语言模型中使用的自注意力机制通常会同时考虑所有历史信息;这种设计使得该模型能够自然地扩展至处理任意数量甚至多模态的信息输入

Training on a mixture of vision and language datasets

我们在以下三种不同来源的数据集合中进行Flamingo模型的训练工作:这些数据均源自网络爬取的内容,并包含以下几种形式:一种交错呈现的图像-文本配对、图像与文本配对、视频与文本配对等信息。

M3W框架结合了多模态数据集

基于图像/视频及文本的数据配对基础是利用ALIGN数据集。该数据集由18亿张图片组成。为了扩展该数据集合我们补充了自己收集的图像与文本配对数据以提升质量并提供更详细的描述。LTIP(Long Text&Image Pairs)包含了3.12亿个图像与文本配对实例。通过使用替代静态图片的新数据集来扩展我们的库VTP(Video&Text Pairs)则包含了超过2700万个短视频(平均时长为22秒)与其对应的句子级描述。通过对比校准已配对的数据集的语法特征与M3W的标准来优化匹配

多目标训练和优化策略**。** 通过最小化每个数据集的期望负对数似然加权和来训练我们的模型。
um_{m=1}^{M}ambda _mdot Eim D_m

D_m

ambda _m

是m-th的数据集和其权重。权重

ambda _m

每个数据集的调优都以其为核心要素,在所有数据集上进行梯度汇总处理,则较采用轮询法(Round-Robin)具有更好的效果

Task adaptation with few-shot in-context learning

完成之后,我们将Flamingo模型用于基于多模态交错提示的条件化处理方法来实现视觉任务的求解

全部评论 (0)

还没有任何评论哟~