Advertisement

通用视觉大模型综述

阅读量:

1 背景

近几年视觉大模型发展很快,各家公司已经训练出自己的视觉大模型,包括微软的 swin-transformer 系列、Google 的 vit 系列以及 150 亿参数量的 V-MOE 模型。

从paperwithcode榜单上可以看到,目前公有数据集任务榜单,如在 ImageNet 数据集上的分类任务、COCO 数据集上的目标检测与实例分割任务,上述榜单表现 SOTA 的都是大模型,实验结果证明大模型有更优的表现,我们之前的文章提到过超大视觉大模型,感兴趣的同学可以去看一下。训练视觉大模型会逐渐收敛,各家会逐渐探索视觉大模型的下一步,通用视觉模型的应用。

Google 的 Jeff Dean在2021年10月份发表了一篇 blog 《Introducing Pathways: A next-generation AI architecture》,提到了下一代 AI 架构。

Pathways 在 AI 和模型上的定义是一个新的AI架构:1)能同时执行众多(AI)任务;2)快速学习新任务;3)拥有对(真实)世界的更好理解。业界对这种大一统的模型探索从来都没有停止,一个更加泛化,多模态输入,多任务的模型是追求的目标。目前业界推出了一些通用视觉模型,并且有了一些探索结果,本文将主要介绍百度文心 UFO 2.0 视觉大模型、华为盘古 CV 以及商汤的 INTERN 大模型。

2 百度文心 UFO 2.0

2.1 概述

预训练大模型一次次刷新记录,展现出惊人的效果,但对于产业界而言,势必要面对如何应用落地的问题。当前预训练模型的落地流程可被归纳为:针对只有少量标注数据的特定任务,使用任务数据 fine-tune 预训练模型并部署上线。然而,当预训练模型参数量不断增大后,该流程面临两个严峻的挑战。首先,随着模型参数量的急剧增加,大模型 fine-tuning 所需要的计算资源将变得非常巨大,普通开发者通常无法负担。其次,随着 AIoT 的发展,越来越多 AI 应用从云端往边缘设备、端设备迁移,而大模型却无法直接部署在这些存储和算力都极其有限的硬件上。

针对预训练大模型落地所面临的问题,百度提出统一特征表示优化技术(UFO:Unified Feature Optimization),在充分利用大数据和大模型的同时,兼顾大模型落地成本及部署效率。VIMER-UFO 2.0 技术方案的主要内容包括:

All in One:行业最大 170 亿参数视觉多任务模型,覆盖人脸、人体、车辆、商品、食物细粒度分类等 20+ CV 基础任务,单模型 28 个公开测试集效果 SOTA。One for All:首创针对视觉多任务的超网络与训练方案,支持各类任务、各类硬件的灵活部署,解决大模型参数量大,推理性能差的问题。

2.2 AllInOne 功能更强大更通用的视觉模型

之前主流的视觉模型生产流程,通常采用单任务 “train from scratch” 方案。每个任务都从零开始训练,各个任务之间也无法相互借鉴。由于单任务数据不足带来偏置问题,实际效果过分依赖任务数据分布,场景泛化效果往往不佳。近两年蓬勃发展的大数据预训练技术,通过使用大量数据学到更多的通用知识,然后迁移到下游任务当中,本质上是不同任务之间相互借鉴了各自学到的知识。基于海量数据获得的预训练模型具有较好的知识完备性,在下游任务中基于少量数据 fine-tuning 依然可以获得较好的效果。不过基于预训练+下游任务 fine-tuning 的模型生产流程,需要针对各个任务分别训练模型,存在较大的研发资源消耗。

百度提出的 VIMER-UFO All in One 多任务训练方案,通过使用多个任务的数据训练一个功能强大的通用模型,可被直接应用于处理多个任务。不仅通过跨任务的信息提升了单个任务的效果,并且免去了下游任务 fine-tuning 过程。VIMER-UFO All in One 研发模式可被广泛应用于各类多任务 AI 系统,以智慧城市场景为例,VIMER-UFO 可以用单模型实现人脸识别、人体和车辆ReID等多个任务的 SOTA 效果,同时多任务模型可获得显著优于单任务模型的效果,证明了多任务之间信息借鉴机制的有效性。

针对大模型的开发和部署问题,UFO 给出了One for All 的解决方案,通过引入超网络的概念,超网络由众多稀疏的子网络构成,每个子网络是超网络中的一条路径,将不同参数量、不同任务功能和不同精度的模型训练过程变为训练一个超网络模型。训练完成的One for All UFO超网络大模型即可针对不同的任务和设备低成本生成相应的可即插即用的小模型,实现 One for All Tasks 和 One for All Chips 的能力。

2.3 OneForAll 灵活可伸缩的弹性部署方案

受算力和存储的限制,大模型无法直接部署在边缘设备上。一个针对云端设备开发的模型要部署到边缘设备或端设备时往往要进行模型压缩,或完全重新设计,而预训练大模型的压缩本身需要耗费大量的资源。

另外,不同任务对模型的功能和性能要求也不同,例如人脸识别门禁系统只需具备人脸识别功能即可,智慧社区的管控系统则需要同时具备人脸识别和人体分析的能力,部分场景还需要同时具备车型识别及车牌识别能力。即便是同样的人脸识别任务,门禁系统和金融支付系统对模型的精度和性能要求也不同。目前针对这些任务往往需要定制化开发多个单任务模型,加之需要适配不同的硬件平台,AI模型开发的工作量显著增长。

针对大模型的开发和部署问题,VIMER-UFO 给出了 One for All 的解决方案,通过引入超网络的概念,超网络由众多稀疏的子网络构成,每个子网络是超网络中的一条路径,将不同参数量、不同任务功能和不同精度的模型训练过程变为训练一个超网络模型。训练完成的 VIMER-UFO One for All 超网络大模型即可针对不同的任务和设备低成本生成相应的可即插即用的小模型,实现 One for All Tasks 和 One for All Chips 的能力。

2.4 模型效果

VIMER-UFO 2.0 单个模型一套参数,在不进行下游finetuning的情况下,在 28 个主流的 CV 公开数据集上取得了 SOTA 的结果。同时,尽管 VIMER-UFO 2.0 大模型参数量达到了170 亿,得益于 Task-MoE 稀疏结构,每个任务推理时只需激活部分参数,计算量相当于 6 亿参数模型规模,加速比接近 30 倍。

3 华为盘古 CV 大模型

3.1 概述

21 年 4 月份华为发布了盘古系列大模型,是当时最大的视觉预训练模型,包含超过 30 亿参数。盘古CV大模型,在 ImageNet 1%、10%数据集上的小样本分类精度上,达到了业界最高水平。目的是解决之前“作坊式”的 AI 开发模式,减少模型训练成本。

3.2 模型预训练

大规模数据的收集和索引:模型预训练主要分为两个阶段,一个阶段是通用数据集的预训练,另外一个阶段是特定数据集的预训练。

第一阶段:使用超过 100TB 的通用图像数据,大部分来自网络,包含少量有标签数据(ImageNet)。这些数据以分布式的形式存储在华为云的服务器端,支持高效的访问与存储。使用亿级通用图像数据,结合团队研发的预训练技术,训练得到盘古通用预训练大模型;第二阶段:在盘古通用预训练模型基础上,结合下游任务大量无标注数据,进行自监督预训练,开发出特定行业适配的盘古预训练大模型。比如在无人机巡检案例中,使用数十万输电领域数据,电科院提供输电领域的大量有标注与无标注数据。

3.3 模型部署与模型迭代

由于大模型部署成本较高,无法在端侧或者边缘侧直接部署,盘古模型则是通过模型抽取与知识蒸馏的技术部署小模型。使用下游任务小数据集对大模型进行微调,使用重采样等小样本技术提升大模型在小数据集上的表现。

同时为了提升大模型的表现,模型是需要不断迭代的,盘古大模型具备数据挖掘、增量训练和模型进化功能,为开发者提供长期、稳定的后续服务,使得模型能够在更长的时间内发挥更大的价值。对于特定的下游任务数据集,需要不断提升下游任务数据集质量,比如电力巡检案例,盘古预训练大模型通过从海量电力无标注样本数据中挖掘数量少、性能差的故障样本,返回人工修正后加入模型训练以提升识别性能,提升模型的持续优化。

4 商汤 INTERN 大模型

4.1 概述

上海人工智能实验室联合商汤科技、香港中文大学、上海交通大学,共同发布新一代通用视觉技术体系“书生”(INTERN),该体系旨在系统化解决当下人工智能视觉领域中存在的任务通用、场景泛化和数据效率等一系列瓶颈问题。全新的通用视觉技术体系命名为“书生”,意在体现其如同书生一般的特质,可通过持续学习,举一反三,逐步实现通用视觉领域的融会贯通,最终实现灵活高效的模型部署。“书生”通用视觉技术将实现以一个模型完成成百上千种任务,体系化解决人工智能发展中数据、泛化、认知和安全等诸多瓶颈问题。

4.2 一个基模型覆盖4大视觉任务,26个场景

人工智能系统正在从完成单一任务向复杂的多任务协同演进,其覆盖的场景也越来越多样化。借助“书生”(INTERN)通用视觉技术体系,业界可凭借极低的下游数据采集成本,快速验证多个新场景,对于解锁实现人工智能长尾应用具有重要意义。一个“书生”基模型即可全面覆盖分类、目标检测、语义分割、深度估计四大视觉核心任务。在 ImageNet 等26个最具代表性的下游场景中,书生模型广泛展现了极强的通用性,显著提升了这些视觉场景中长尾小样本设定下的性能。相较于当前最强开源模型(OpenAI 于2021年发布的 CLIP),“书生”在准确率和数据使用效率上均取得大幅提升。

具体而言,基于同样的下游场景数据,“书生”在分类、目标检测、语义分割及深度估计四大任务26个数据集上,平均错误率分别降低了40.2%、47.3%、34.8%和9.4%。“书生”在数据效率方面的提升尤为令人瞩目:只需要1/10的下游数据,就能超过CLIP基于完整下游数据的准确度。例如,在花卉种类识别 FLOWER 任务上,每一类只需两个训练样本,就能实现99.7%的准确率。

4.3 七大模块:打造全新技术路径

通用视觉技术体系“书生”(INTERN)由七大模块组成,包括通用视觉数据系统、通用视觉网络结构、通用视觉评测基准三个基础设施模块,以及区分上下游的四个训练阶段模块。“书生”的推出能够让业界以更低的成本,获得拥有处理多种下游任务能力的AI模型,并以其强大的泛化能力支撑智慧城市、智慧医疗、自动驾驶等场景中大量小数据、零数据等样本缺失的细分和长尾场景需求。

在“书生”的四个训练阶段中,前三个阶段位于该技术链条的上游,在模型的表征通用性上发力;第四个阶段位于下游,可用于解决各种不同的下游任务。

第一阶段,着力于培养“基础能力”,即让其学到广泛的基础常识,为后续学习阶段打好基础。

第二阶段,培养“专家能力”,即多个专家模型各自学习某一领域的专业知识,让每一个专家模型高度掌握该领域技能,成为专家。

第三阶段,培养“通用能力”,随着多种能力的融会贯通,“书生”在各个技能领域都展现优异水平,并具备快速学会新技能的能力。

在循序渐进的前三个训练阶段模块,“书生”在阶梯式的学习过程中具备了高度的通用性。

当进化到第四阶段时,系统将具备“迁移能力”,此时“书生”学到的通用知识可以应用在某一个特定领域的不同任务中,如智慧城市、智慧医疗、自动驾驶等,实现广泛赋能。

4.4 产学研协同:开源共创通用AI生态

作为AI技术的下一个重大里程碑,通用人工智能技术将带来颠覆性创新,实现这一目标需要学术界和产业界的紧密协作。上海人工智能实验室、商汤科技、香港中文大学以及上海交通大学,未来将依托通用视觉技术体系“书生”(INTERN),发挥产学研一体化优势,为学术研究提供平台支持,并全面赋能技术创新与产业应用。

5 总结

目前通用视觉大模型还处在探索阶段,有一系列问题需要解决:怎样高效的解决多种类型的下游任务,怎样最小成本的完成下游模型部署,怎样训练出一个对图像语义理解更好的 backbone 等等。不过可以肯定的是视觉领域会出现一个基础模型,该模型通过某种方式可以满足各种任务的需求,目前团队也正在探索通用视觉方案,结合 Adlik 项目进行模型训练优化与部署。Adlik 在模型优化与模型部署方面有自己的优势,对于常用的 PyTorch、TensorFlow 模型支持模型优化,有全套的剪枝量化蒸馏模型优化工具链,同时 Adlik 支持各种运行时的灵活部署,支持各种模型部署。有任何想法的同学欢迎评论区留言讨论。

全部评论 (0)

还没有任何评论哟~