Florence: A New Foundation Model for Computer Vision
Florence:计算机视觉的一个新的基础模型
基础模型 :
基线模型的概念首次被引入即指任何在大规模数据上经过训练的模型。这些概念能够适应(例如通过微调)到各种 downstream tasks。因为其卓越的性能和强大的泛化能力,基线模型被认为具有巨大的发展潜力。
考虑到视觉感知的多样性, 我们将计算机视觉的基础模型重新定义为一个预训练模型及其适配器, 以应对该时空模态空间内的各种视觉任务, 具备良好的迁移能力, 包括零样本和完全微调等方法。
一、创新点
现有的视觉基础模型, 如CLIP、ALIGN等, 主要关注于将图像与文本映射到一种跨模态的共享表征.
Florence深化了表征能力,并非仅停留在基本层面。她不仅具备了从粗略层次到精细层次的表征能力,并且在视觉感知方面实现了从静态图像到动态视频的跨越。此外,在数据处理范围上也进一步涵盖了RGB图像以及文字和深度信息等多种模态。
通过融合图像与文本数据的多模态视觉表示模型,Florence展现出卓越的迁移性能,并广泛适应于多种计算机视觉任务,包括分类任务,目标检测与跟踪技术以及语音问答系统等。
二、方法

1. 数据集的选取
基于互联网上公开获取的大量图像-文本数据资料,微软开发了FLD-900M(FLorenceDataset)数据集。
该系统包含着高达9亿的图像-文本配对数据集(Field 900M),并拥有超过970万条独特的查询记录。这些标记数据总计提供了75亿个标记信息,并通过一套程序化处理流程实现了并行处理能力,并将来自互联网的大量图像及其原始描述信息进行了系统性收集和整合。经过严格的筛选评估过程以保证所收集到的数据具有高度的相关性和高质量。
2. 基于Transformer的预训练模型
Florence预训练模型采用了双塔架构,在编码器中分为两个部分:一个是十二层的Transformer语言编码器,并参考了当前流行的CLIP架构;另一个是多层次的视觉Transformer图像编码器。
分层视觉Transformer采用了经过优化设计的Swin Transformer,并命名为CoSwin Transformer。
Florence采用了具有全局平均池功能的CoSwin Transformer架构来进行图像特征提取。为了确保图像与语言特征之间的兼容性,在经过处理后将两个线性变换层成功地附加到了该架构的空间位置上。
Florence预训练模型则包含拥有893 million parameters的具体架构设计。其中,则由包括256 million parameter的语言Transformer以及637 million parameter的CoSwin-H Transformer构成。该模型架构需借助512台NVIDIA A100 GPU进行训练任务持续运行约十天时间。
3. 统一的图像-文本对比学习
CLIP基于假设模型框架的基本原理,在处理每一个具体的图像-文本配对时都会为其建立独特的标注信息系统。在这一过程中,其他未被关注到的相关图片会被系统性地标记为非目标类别,即被视为负样本类别进行处理。然而,在真实场景中的网页数据环境中,这种一一对应的完美匹配关系往往并不存在,多幅图片可能与同一个抽象概念相关联
其中
基于此而言,在本文研究中决定采用统一的图像与文本对比学习框架(UniCL)。特别地,在这一过程中,Florence模型在图像-标签-描述的空间中被进行了预训练。
通过图像-标签空间的统一学习方案整合了两种主流的学习方法。具体而言,该方法通过建立图像与标签之间的映射关系来提取具有鉴别能力的特征表示(如监督学习),同时为每个描述赋予独立的标签,在语言与图像预训练任务中发挥辅助作用(如对比学习)。
研究表明,在图像-文本表征学习中较长且丰富的语言描述比简短的表达更具优势。微软采用提示模板的方式拓展内容,并将这些信息整合为研究数据。
4. V+L(Vision+Language tasks)表征学习

在视觉问题回答(VQA)以及图像标注领域中,在细致级别的特征表示(即物体层次)同样不可或缺。
在此基于该模型中,研究人员采用了Roberta和CoSwin作为语言编码器,并且采用了METER作为adapter。
研究团队整合了上述两种模式,并通过利用coattention机制的Transformer模型提取并建模深层语义信息。
该模型通过将文本信息与视觉特征分别输入到两个独立的Transformer架构中进行处理,在每个Transformer模块的顶层编码层中包含自注意机制、交叉注意模块以及前馈神经网络结构。
首先,在训练阶段中,我们首先采用基于图像-文本匹配构建的损失模型,并结合掩码语言建模损失来进行模型训练。接着,在目标领域的VQA任务中对模型进行针对性优化。
三、实验结果

