Advertisement

多模态大语言模型最新进展

阅读量:

1 介绍

本文系统地梳理了多模态大型语言模型(MM-LLMs)的相关研究进展,并深入探讨了其模型架构和训练流程以及122种多模态大模型研究的概览。

本文深入剖析了输出投影器在机器翻译领域的核心地位,并对模式生成器、训练管道以及当前最先进的MM-LLM(SOTAMM-LLM)等技术发展进行了详尽探讨。 MM-LLMs的发展方向包括扩展模型架构以提升性能并拓展其应用范围。 包括丰富现有技术体系的同时优化多模态处理能力。 建构更具挑战性的基准测试任务以推动技术进步。 进一步提出了针对微调过程及幻觉缓解等技术难题的有效解决方案。 MM-LLMs的时间表如图1所示。

图1 MM-LLMs的时间轴

2 模型体系结构

本节介绍了通用模型架构的五个关键组成部分及其具体实现方案(如图2所示)。该方法理解中的MM-LLM结构仅包含前三个模块,在训练过程中通常会固定模式编码器、LLM主干网络以及模式生成器。重点优化集中在输入与输出投影器设计上。值得注意的是,投影器模块具有轻量化特性,在整体架构中所占可训练参数比例约为2%。基于核心语言模型规模的不同设定,在此基础上MM-LLM在多模态任务中表现出较高的训练效率。

图2 MM-LLMs的一般模型架构以及每个组件的实现选择。

2.1 模态编码器

该系统负责对来自不同模态的输入进行特征提取与表示学习,并根据不同的模态需求提供相应的预训练模型选择。用于图像处理的主要编码器包括NFNet-F6和ViT等模型;而视频处理中常用的主流模型则包括CFormer、HuBERT等;在三维点云处理方面,则主要采用ULIP-2以及PointBERT等模型;此外,在多模态大语言模型(MM-LLMs)领域中,则通过ImageBind实现了多种模态信息的有效融合与统一处理。

2.2 输入投影器

投影器ΘX→T被用来将不同模态的特征与文本特征空间对应起来;其产生的特征则作为PX型提示输入至LLM主体部分;它们能够通过线性投影器或者多层感知机来实现;同样还可以采用交叉注意力等更为复杂的手段;而Q-Formers借助可学习查询提取相关特性;P-Formers则生成参考级提示并使其与Q-Formers所提取特性相匹配;MQ-Formers进一步整合多尺度视觉信号与文本信息;然而这些方案都需要预先引入额外PT机制来进行初始化步骤

2.3 LLM主干

MM-LLM作为核心代理角色,在多个领域展现出卓越的能力与优势。\该系统具备零样本泛化的特性,并支持少量样本的ICL技术。\基于思维链(CoT)的方法能够有效处理复杂推理任务。\其主干模块负责多种模态信息的表示转换,并参与整体语义理解与推理过程。\通过引入参数高效的微调策略如前缀微调、LoRA以及层规范微调等技术提升模型性能。\在实际应用中常用到的模型包括Flan-T5与ChatGLM等。\这些先进模型在多模态场景中展现出广阔的前景与巨大潜力

2.4 输出投影仪

输出投影器ΘT→x在LLM中将令牌表示SX映射至MGx的理解层hx;基于给定的x文本数据集,在LLm中输入t生成对应的sx;以使hx与mgx的文本表示对齐为目标;需要最小化两者之间的距离;优化过程仅基于字幕数据而不借助其他外部资源;通过函数映射关系θt→x(sx),可以得到hx;τx是mgx的文本编码器;该投影层可采用可学习的解码机制或多层前馈神经网络(mlp)来实现其功能

2.5 模式生成器

MGX负责生成多样化的输出模式。
使用现有的隐扩散模型(如LDMs)进行图像、视频和音频合成。
HX被用作条件输入至去噪过程中的MM内容生成。
在训练过程中,
通过预训练VAE将真实数据转换为潜在特征z₀。
随后,在z₀中加入噪声得到带噪声的潜在特征zₜ。
使用预训练的Unet计算条件LDM损失L_X^gen。
优化参数以最小化总损失。

3 训练管道

MM-LLMs训练流程可以被划分为两个主要阶段:MM PT和MM IT。

3.1 MM PT

在PT阶段中, 通常采用XText数据集进行训练, 并使输入与输出的投影器经过优化以实现各模式间的对齐. 针对MM解析模型, 其优化重点仅在于公式(2); 而针对MM生成模型, 则涉及公式(2)、(4)及(5)三个部分. X-Text数据集涵盖了图像文本、视频文本以及音频文本, 其中分为两类: 一种是图像配对语料库(Image Pair), 另一种是交错式图像语料库(Alternating Image Text), 具体细节可在附录G中的表3中找到说明

3.2 MM IT

MM IT是一种基于指令格式化数据进行微调的预训练MM-LLMs方法(魏等, 2021)。该方法通过使模型能够推广到未曾见过的任务来提升其零样本性能。这种方法在NLP领域已衍生出一系列成功应用实例,例如InstructGPT、OPT-IML与InstructBLIP系列模型。MM IT包含两种主要的微调机制:监督微调机制(SFT)与基于人类反馈的强化学习(RLHF)。这些技术旨在使模型与人类意图高度一致,并增强其交互能力。监督微调机制将PT阶段的数据转换为指令感知格式,并采用相同的优化目标对预训练模型进行微调训练。而RLHF则利用关于模型响应的质量反馈信息进一步优化模型参数,并结合不可微分的自然语言反馈(NLF)来提升生成质量。目前所使用的数据集主要来自附录G中的表3与表4中的样本集合,并非这些表格数据的具体全部内容

4 SOTA MM-LLM

如图3所示,我们对122篇SOTA MM-LLM模型进行了系统性分类研究。在设计层面划分了工具使用型和端到端型两种主要模式。通过设计公式模型的对比分析框架,在表1中展示了43种架构及其对应的训练数据集规模对比结果。从技术发展的视角总结MM-LLM的发展脉络:首先是从专注于MM理解能力提升转向特定模式生成能力的发展阶段;随后又经历了更高级别的任意到任意模式转换能力演进;在训练管道优化方面,则经历了从MM预训练到SFT和RLHF等多阶段演变过程;同时注重模型与人类交互能力的提升,并逐步接纳更加多样化与高质量的扩展模式;最后强调了模型架构优化的重要性,在复杂Q-和P-前馈输入投影模块的基础上探索出了一种更为简洁有效的线性投影器VILA方案。

图3 MM-LLM的分类.I (Image): 图像.V (Video): 视频.A/S (Audio/Speech): 音频/语音.T (Text): 文本.ID (Document Understanding): 文档理解.IB (Output Boundary Box): 输出框边界.IM (Output Segmentation Mask): 输出分割掩模.IR (Output Retrieval Image): 输出检索图像

表1概述了43个主流MM-LLM的特点.I→O模式中,I代表输入模态类型为图像,V代表视频,A代表音频,T代表文本.其Modality Encoder结构中,‘-L’标识大型模型,‘-G’标识巨型模型,patch大小为1/14对应图像分辨率是224×224像素.其中#.PT和#.IT分别对应MM PT和MM IT阶段的数据集规模.注:†号标注的数据包含不可公开获取的内部数据.

5 基准和性能

在对比研究不同视觉语言基准上的主要MMLLMs时

表2展示了主流MM-LLMs在18个VL基准上的对比分析结果。通过对比实验数据可以看出,在不同颜色标记下分别对应最高与次高性能指标。其中符号‡代表ShareGPT4V(Chen等人, 2023f)基于现有模型进行优化实现的结果;这些测试指标的具体数值并未在原始研究论文中提供。此外,在模型训练过程中动态调整生成图像的质量

6 未来方向

MM-LLMs在以下多个领域中所展现出的充满潜力的未来发展方向:

该系统采用了更先进的模型架构,并在多个关键领域进行了强化优化。具体来说, 除了提升核心性能外, 通过优化算法效率, 我们还引入了多模态学习机制, 并构建高质量的数据集, 同时强化生成能力, 使得整体性能得到显著提升。具体来说, 将MM-LLMs扩展到其他模式使其能够适应更多应用场景; 支持选择最适合当前任务的语言模型架构; 增强执行用户命令的有效性; 通过结合检索技术优化生成内容的质量和一致性

该评测体系旨在构建一个更具挑战性的更大的规模评测标准。(...)由于现有数据集往往来源于PT或IT领域的已有研究。(...)为此需要建立一个能够有效检验其能力的新标准。(...)此外又提出了若干新的评测指标:如GOAT-Bench、MathVista、MMU、CMMMU等。(...)这些新指标旨在检验其在识别和社会虐待响应方面的微妙能力。(...)同时它们也旨在考察其在视觉上下文中进行数学推理的表现。(...)并对其进行了多项多模态视觉问答(VQA)方面的系统性研究。(...

基于资源受限平台的优化目标, 需要在实现MM-LLM的过程中采用轻量化实施方案.

实体智能主要通过理解环境、识别物体、评估空间关系并制定详细计划来模仿人类对环境的感知与交互行为。该领域的主要研究方向包括发展具备多身体代理能力以及提升实体代理与现实世界的互动能力等技术问题。尽管基于MM-LLM的形式化体系已经在机器人集成方面取得了一定进展[1],但如何进一步提升机器人的自主决策能力仍是一个值得深入探索的问题。

坚持长期发展的理念。

减轻幻觉的产生。幻觉的本质是通过描述生成的对象来实现的。这些对象的呈现往往缺乏直接的视觉信息支持,在这种情况下容易导致感知偏差的发生。其根源主要体现在训练数据中存在偏见以及注释过程中可能出现的错误。目前缓解策略主要包括通过自我反馈机制来辅助识别潜在的视觉线索,并对输出结果进行多维度验证以提高准确性。此外,在处理段落分隔符时也需注意潜在的语义漂移偏差问题。

MM-LLMs的最新进展跟踪:https://mm-llms.github.io

掌握大模型 AI 学习的关键路径是什么?

因为新岗位在生产效率上要高于替代岗位,在这种情况下使得整个社会总体上的生产效率有所提高。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

凭借在一线互联网企业的十余年的从业经验

我认为我们拥有丰富的经验和知识资源值得与大家分享。此外我们凭借自身的经验和能力能够帮助大家解答人工智能学习过程中的诸多疑惑。即使在工作繁忙的时候也始终坚持进行各种整理与分享工作。然而由于目前知识传播的途径相对有限许多互联网行业的从业者难以获取准确的学习资源从而难以提升自身能力。因此我们将这些重要的AI大模型资料包括但不限于AI大模型入门学习思维导图精品AI大模型学习书籍手册视频教程以及实战学习等录播视频全部免费提供给广大观众以促进他们的知识增长和能力提升

在这里插入图片描述
第一阶段(10天):初阶应用

该阶段通过多种渠道帮助大家对大模型AI有了最前沿的认知,并促使具备这一理解能力的人能在相关讨论中发表既高瞻远瞩又接地气的观点。其他人只会谈论AI的聊天功能而不了解其技术深度;而你不仅能够驾驭(调教)AI技术,并且能够利用代码实现大模型与业务系统的无缝连接。

  • 大模型 AI 的应用场景有哪些?
  • 大模型是如何实现智能化的?
  • 掌握AI的核心要诀是什么?
  • 大模型在业务架构中的应用框架是什么?
  • 大模型的技术架构设计与实现路径如何?
  • 代码实践:如何向GPT-3.5输入新知识?
  • 提示工程的核心思路是什么?
  • 探讨Prompt的经典构成方式有哪些?
  • 如何优化指令的方法论?
  • 分析思维链与思维树的作用关系。
  • 防止Prompt攻击及防范措施有哪些?
第二阶段(30天):高阶应用

本阶段全面开启大模型 AI 进阶实战学习之旅,在此过程中建立并深化私有知识库体系的同时不断提升 AI 技术能力。迅速构建并完成一个功能完善的基于交流机器人实现的智能系统框架。深入掌握大模型开发的核心技术原理,并及时跟进行业最新动态与技术发展成果;面向具备 Python 和 JavaScript 技能的专业人士。

  • 什么是RAG?
  • 如何快速构建一个基础的对话式 PDF 应用?
  • 搜索的基本理论与原理介绍?
  • 向量表示法及其在信息检索中的应用解析?
  • 向量数据库的设计与检索机制探讨?
  • 基于向量检索机制的 RAG 系统架构分析?
  • 构建具备扩展知识库功能的 RAG 系统设计?
  • 混合检索策略及 RAG-Fusion 技术概述?
  • 高效实现向量模型本地部署的技术方案探讨?

第三阶段(共计30天):模型的训练工作

Big congratulations! If you have reached this stage, you are basically able to find a job related to large model AI and even train a GPT yourself! By fine-tuning, you can train your own specialized large model and master more technical solutions.

至此之前大约两个月时间。你现在已经成为了"AI助手"。那么你是否还想继续深入探索?

  • 为什么要使用 RAG技术?
  • 模型的定义是什么?
  • 模型训练的目标是什么?
  • 求解器的作用是什么?损失函数的作用又如何?
  • 如何动手搭建一个基础的神经网络并完成其训练过程?
  • 什么是训练?预训练又指的是什么?微调与轻量化微调有何不同?
  • Transformer架构的基本原理是什么?它的优势体现在哪些方面?
  • 在进行微调时如何实现资源效率的优化?
  • 构建实验数据集的具体步骤有哪些?

第四个阶段(共计二十天):完整的商业循环

对全球大模型在性能、吞吐量以及成本等多方面有一定了解,在云端环境以及本地环境等多种场景中部署大模型,并识别出最适合自身发展的项目或创业方向。通过这一系列操作后,则可成为一名受AI武装支持的专业产品经理。

  • 硬件配置选择
  • 引导学习全球大模型技术
  • 采用国产大模型服务
  • 基于 OpenAI 平台构建代理服务
  • 热身环节:以阿里云 PAI 技术为基础实现 Stable Diffusion 应用部署
  • 在本地计算机上部署大模型系统
  • 实现大模型私有化部署方案
  • 通过 vLLM 平台快速构建大规模语言模型架构
  • 案例分享:优雅实现开源大模型在阿里云私有部署方案
  • 完整部署流程:从构建到运行的开源 LLM 项目实施指南
  • 网络安全合规管理

学习是一种循序渐进的过程,在这个过程中必然伴随着挑战。天道酬勤是一个成语表达因果关系,“你越努力就会变得越优秀”。

如果你能在15天内达成所有任务,则可被称作奇才。然而,在达到60%-70%的内容后,则已开始展现出成为大模型 AI 的正确特质。

保证100%免费

保证100%免费

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~