A Survey on Evaluation of Multimodal Large Language Models——阅读笔记
多模态大语言模型评估综述
原文链接:https://arxiv.org/abs/2408.15769
该篇文章比较泛泛,适合于想大致了解一下的研究者
主要部分
- 背景分析
- 评估的核心内容是什么?(多模态大模型需要具备的能力)
- 采用哪些方法来进行评估?(MLLM评估基准(bench))
- 采用哪些具体的技术或指标来衡量?(MLLM评估指标)
背景
MLLM框架
MLLMs一般由三个主要组件构成:首先是一个大语言模型用于处理输入文本;其次是一个模态编码器专门负责对图像、视频等其他各种模态的数据进行编码;最后还有一个模态投影器用于将来自不同模态的输入对齐到同一个特征空间中
MLLM训练策略
-
对齐预训练:在MLLM的预训练过程中, 该过程主要致力于整合不同类型的模态信息, 并逐步构建多模态知识图谱.
- 多模态指令微调: 以语言指令的形式进行模型微调, 这一技术可被划分为两个主要的学习阶段: 第一阶段是利用语言指令进行基础的学习; 第二阶段则是在已有能力基础上进一步优化.
-
视觉指令遵循数据构建模式:{操作项、输入源、结果集};其中,“操作项”指的是执行的任务指示,“输入源”代表各个模态的数据来源,“结果集”则是针对这些任务指示的具体回应。
-
视觉指令微调:MLLMs通过全监督学习的方法进行微调训练, 基于给定的任务指示与图像序列推断出相应的输出标记。
-
人类偏好归一化:对齐调优特别旨在通过优化模型行为来满足特定的人类期望。主要依赖于基于人类反馈的强化学习(RLHF)以及直接偏好优化(DPO)这两种技术。
评估什么
我认为MLLM的主要能力包括识别、理解、推理以及数学与科学知识。其中我倾向于认为数学与科学知识属于高级的理解和推理能力
文中对每个能力都进行了详尽的说明,并阐述了当前一些MLLLM在这些方面的性能表现
感兴趣的读者可以自己看看原文
多模态理解
多模态识别
其主要目标是在多个模态中实现对特定对象、动作以及属性的区分与分类,并具体来说,则涉及概念辨识、属性分析以及动作感知等。
- 概念识別:主要涉及到模型針對不only一种模態中的各类实体、實例、對象與場景進行分類與標籤的能力。
- 屬性識別:涵蓋從不only一种模態中提取視覺主體的各种屬性。
- 動作識別:具體指模型針對不only一种模態下的主體所執行的動作或活動的感知與分類。
- 文本識別:主要是指基於視覺輸入(如文件圖像)進行文本文檔提取與轉換的技术過程。
多模态感知
多模态感知主要体现在模型对不同模态信息的理解能力上,在具体应用中则涵盖了对象定位、对象关系以及对象交互这三个方面
- 目标定位: 目标定位指的是在特定场域内准确判定场景中各物体的位置信息的同时识别出物体数量及方向信息。
- 目标关联: 该技术系统具备模型理解能力的同时能够分析视觉场景内各物体间的空间关联关系。
-
- 目标互动: 该系统不仅能够感知图像中的各类目标特征属性信息,并且具备对视觉场景内各物体相互作用关系的理解与判断能力。
多模态推理
- 常识推理: 常识推理考察MLLMs在图像中对象互动能力的识别与分析过程;这不仅涉及对互动本质及上下文的理解能力;还要求模型能够准确把握对象间的关联性;并通过结合一般世界知识对这些互动进行有效的逻辑推导。
- 关系推理: 关系推理能力是指模型在复杂背景下准确识别不同对象、概念或实体之间社会关系、物理规律或自然规律的能力。
- 逻辑推理: 该能力体现在模型掌握并运用逻辑原则来分析和解释多模态数据的过程中。
多模态可信度
- 抗干扰能力: 稳健性是指MLLM在复杂环境和多种干扰下仍能有效处理多模态输入的能力
- 生成错误信息: 幻觉指的是模型因多模态输入异常而产生不正确描述或对象输出的现象
- 社会责任评估: 伦理关注评估多模态大语言模型输出行为的社会责任
- 潜在偏见反映: 偏见指的是模型输出中可能反映的社会偏见或刻板印象
- 安全防护能力: 安全评估衡量MLLMs防止生成有害或冒犯性内容的能力
社会经济学
我对这块内容的看法是,我认为关键在于MLLL的理解识别推理能力是否足够强.如果有的话就能胜任这项任务;主要看数据集中是否包含相关内容.
- 文化: 文化评估主要关注模型对不同文化背景内容的理解能力
- 社会: 社会通常关注模型对社会问题的解读能力和对社会规范的适应性
自然科学与工程
- 数学: 数学体系用于评估模型针对涵盖文本与视觉数据的数学问题的理解与解决能力。
- 自然科学: 自然科学衡量模型在各种自然科学领域相关响应的理解、推理及生成能力。
- 工程: 工程体系用于评估模型在理解和处理工程概念、需求和技术文档方面的应用能力。
AI代理
从基础层面上讲,在智能家居场景下以及机器人技术应用中都需要解决人机交互问题的能力
AI代理涉及模型评估其作为视觉基础代理能力的能力。这类任务要求模型理解和交互,并在复杂且融合的视觉环境及用户界面中导航。这些任务基于视觉信息与文本指令作出高级别决策并完成相应的操作。
其他应用
三维点云:该任务要求模型能够解析、操作以及评估基于点云形式呈现的空间数据
视频: 视频任务涉及理解、分析和推理视频内容
遥感: 遥感任务涉及对卫星或航空遥感设备收集的数据进行解析和解读,以获取地球表面及其环境的相关信息
音频:音频是指旨在评估模型理解与解释能力以及根据音频信号生成相应响应任务的设计。
在哪里评估
已经开发了各种基准测试(benchmark):通用基准和特定基准
通用基准
通用基准被设计为全面且系统性地评估MLLLMs的能力,并涉及多种关键能力维度
以下是经过同义改写的文本
此外还提出了几个专门评估可信度的:POPE 、CHEF、Multi-Trust
特定基准
该特定基准旨在评估基于大语言模型的任务或领域的性能,并且一般专注于需要特别关注的领域。例如,在社会经济、科学、医学任务及其他应用中进行评估
举例:
- CVQA [引用号: 111]主要关注跨文化背景下的视觉问答系统。
- 基于TransportationGames [引用号: 114]这一基准测试模型的研究表明,在交通相关知识领域上具有显著的效果。
- MathVerse [引用号: 115]开发出了一个涵盖广泛视觉数学问题的新基准体系,并特别强调了其在严谨评估大型语言模型数学推理能力方面的独特性。
- 针对科学问答任务的专业性进行深入研究后发现,
- 经过详细分析与优化后形成的GMAIMMBench [引用号: 133]提出了一项专门设计用于评估MLLM在医疗领域性能的基准。
如何评估
也就是指标了
主要包括三类:人类评估、GPT-4评估和指标评估
人类评估
类评估能够从多个维度对MLLLs进行全方位考察,在具体实施中包含以下几个关键指标:(1)一致性检验:通过分析系统对指令的理解与执行结果的一致程度来判断模型表现;(2)逻辑连贯评价:基于生成文本内部结构的完整性与合理性进行判断;(3)自然度考量:从语言通顺性和表达规范性两个方面对模型输出进行综合评价
GPT-4评估
虽然人类评估提供了宝贵的见解 但 它通常消耗大量资源 为了缓解这一问题 某些研究工作 [25] 提出了利用GPT-4 [181] 的高级指令跟随能力作为一种替代方法来评估生成输出的质量
指标评估
为了系统性地评估模型的识别性能,在研究中采用了包括准确率指标(Accuracy Index)、平均精度值(Average Precision Value)[1], [182], [183] 等在内的多个评估标准。
而为了评估模型的感知能力,则采用了如mIoU、mAP和Dice [184] 等几种指标。
另外,在评估模型生成文本或图像的能力方面,主要采用的是包括BLEU、ROUGE以及METEOR [185], [186] 等指标。
