视觉理解和推理领域新突破-俄罗斯套娃(Matryoshka Multimodal Models)多模态模型
大型语言模型如GPT-4 和LLaMA 已经在文本方面展示了令人印象深刻的推理和泛化能力。在开源LLMs的基础上,众多多模态模型取得了显著进步,以LLaVA 和MiniGPT-4为首,它们结合了LLaMA的语言能力和基于CLIP的图像编码器。最近,更多任务和模态上的LMMs出现了,如区域级LMMs 、3D LMMs 和视频LMMs。然而,** 现有的LMMs通常用大量且固定的标记来表示视觉内容,这使得它们难以扩展到长视觉序列,如高分辨率图像或长视频** 。在这项工作中,我们建议通过学习多个嵌套的视觉标记集来适应性且高效地表示视觉内容,为任何图像在推理期间使用的视觉标记数量提供灵活性。
嵌套的Matryoshka表示学习(Matryoshka Representation Learning, MRL)解决了适应多个下游任务的灵活表示的需求,这些任务具有不同的计算资源。这种方法受到Matryoshka套娃的嵌套特性的启发,** 在由神经网络产生的同一高维特征向量内以不同粒度编码信息** 。MRL的适应性跨越了不同的模态,包括视觉(ResNet, ViT )、视觉+语言(ALIGN )和语言(BERT ),展示了其多功能性和效率。
近期LMMs效率低下的主要原因之一是它们向LLM输入的大量前缀视觉标记。Transformer中的二次复杂性是扩展输入序列长度的关键问题。** 标记减少是降低Transformer计算成本的有效技术** 。但现有方法(如标记剪枝和合并)无法灵活控制视觉粒度,限制了性能和效率的权衡。
- 稀疏注意力方法,如Linformer 和ReFormer ,在局部窗口内而不是完整上下文中执行注意力操作,从而降低了标准注意力操作的二次复杂性
- Token Merging (ToMe) ,它使用完整的注意力,但通过为视觉Transformer (ViT) 通过二分图匹配选择最具代表性的标记,逐渐减少每个Transformer块中的标记数量。
_M3方法学习了在同一模型架构和权重下,学习多粒度、从粗糙到精细的标记表示,使其能够轻松调整以适应各种计算或内存限制。_
1、Matryoshka 多模态模型概述
受到俄罗斯套娃的启发,M3 将视觉内容表示为嵌套的视觉标记序列,每个序列包含不同粒度的视觉信息。
1.1 学习嵌套的视觉表示步骤
- 编码图像: 使用预训练的视觉编码器(如 CLIP)将图像编码成初始的视觉标记序列。
- 生成嵌套序列: 通过池化操作逐步减少视觉标记的数量,生成不同粒度的嵌套视觉标记序列。例如,从 24x24 的初始标记序列生成 12x12、6x6、3x3 等序列,最终生成单个标记。
- 训练模型: 使用自回归方式训练模型,使每个粒度的视觉标记序列能够预测下一个标记,并与真实答案匹配。训练目标是最大化预测标记与真实答案的匹配概率。
- 学习嵌套行为: 通过这种方式,模型学习到不同粒度的视觉标记序列之间的层次关系,并能够根据需要选择合适的粒度进行推理。
1.2 关键特点
- 嵌套结构: 视觉标记序列具有嵌套结构,能够捕捉不同粒度的视觉信息。
- 灵活性: 允许在推理时灵活控制视觉标记数量,根据图像内容和资源限制进行权衡。
- 高效性: 通过减少视觉标记数量,降低了计算成本和内存需求。
****1.3、****优势
- 提高性能: 在使用少量视觉标记的情况下,M3 仍然能够保持良好的性能。
- 降低成本: 通过减少视觉标记数量,M3 可以降低计算成本和内存需求。
- 提升效率: M3 能够更快地处理图像和视频数据,提高效率。
2、实验
2.1 实验设置
2.1.1********模型
-
基线模型: 使用 LLaVA-1.5 和 LLaVA-NeXT 作为基线大型多模态模型 (LMM)。
-
语言模型: 两个基线模型都使用 Vicuna 7B 作为语言模型主干。
-
训练数据: 使用与 LLaVA-1.5 和 LLaVA-NeXT 相同的视觉指令数据进行微调。
-
训练参数:
- 语言模型学习率: LLaVA-1.5 为 2e-5, LLaVA-NeXT 为 1e-5。
- 视觉编码器学习率: 2e-5。
- 训练时间: 1 个 epoch。
- 使用 8 个 NVIDIA H100 GPU 进行训练。
- 语言模型权重从预训练的 LLaVA-1.5 和 LLaVA-NeXT 初始化,这被证明更有效。
- 模型命名: 将 M3 应用于 LLaVA-1.5 和 LLaVA-NeXT 分别命名为 LLaVA-1.5-M3 和 LLaVA-NeXT-M3。
2.1.2********视觉标记尺度
- 5 个尺度: 使用 CLIP-ViT-L-336 作为视觉编码器,将图像嵌入到 24x24 的视觉令牌中。
- 尺度创建: 通过对原始 24x24 令牌进行 2x2 池化,逐步生成 12x12, 6x6, 3x3 的视觉令牌,并最终通过 3x3 池化得到单个视觉令牌。
- 尺度大小: M3 视觉令牌集的大小为 {1, 9, 36, 144, 576},形成嵌套方式。
2.2********评估
图像理解
- 多模态基准: POPE, GQA, MMBench, VizWiz, SEEDBench, ScienceQA, MMMU。
- 文档理解/OCR 基准: DocVQA, ChartQA, AI2D, TextVQA。
视频理解
- 开放式视频问答基准: MSVD-QA, MSRVTT-QA, ActivityNet-QA。
- 多选视频问答基准: NExT-QA, IntentQA, EgoSchema。
2.3 结论
2.3.1 图像理解
在常见的多模态理解和推理基准测试上评估LLaVA-1.5-M3,结果如下图:

使用全部标记的LLaVA-1.5-M3在多个基准测试中保持了与LLaVA-1.5相当的性能。** 更重要的是,即使只使用1个或9个标记,**** M3**** 方法也显示出强大的性能。** 具体来说,在MMBench,一个全面的多模态理解基准测试中,使用9个标记的LLaVA-1.5-M3超过了使用256个标记的Qwen-VL-Chat,并即使只使用1个标记也达到了与Qwen-VL-Chat相似的性能。与InstructBLIP 相比,使用9个标记的LLaVA-1.5M3在所有基准测试中都超过了InstructBLIP-7B和InstructBLIP-13B。这表明M3模型在不同数量的视觉标记下都具有灵活性和强大的经验性能。
2.3.2 视频理解
直接在多样化的视频基准测试上使用LLaVA-NeXT-M3进行零样本推理。具体来说,我们在视频中均匀采样6帧,然后将它们排列成一个拼贴图,与问题一起输入LLaVA-NeXT以获得响应,结果如下图:

使用全部视觉标记的LLaVA-NeXT-M3再次显示出与LLaVA-NeXT相当的性能。更有趣的是,结果表明在视频理解任务中,全部视觉标记通常并不会导致最佳性能。具体来说,在6个基准测试中的4个中,与720或180视觉标记相比,全部视觉标记显示出较少理想的性能。我们怀疑非常长的视觉上下文可能会带来干扰(例如,过分关注可能不相关的背景),其中更紧凑的视频表示,关注更多相关信息可能更有优势。
最后,对于大多数视频理解任务,如ActivityNet、IntentQA和EgoSchema,每张图像网格使用9个标记(总共45个标记),与全部标记(总共2880个标记)相比,准确率差异小于1%。** 这表明这些基准测试中的视频问题通常只需要非常稀疏的视觉信息,因为这些视频理解基准测试的来源大多来自自然场景,这与我们在图像理解基准测试中的观察相匹配** 。
3、未来展望
3.1********视觉标记预测器
问题: 目前 M3 模型需要人工选择合适的视觉标记粒度,缺乏自动化的预测方法。
研究方向: 开发一种视觉标记预测器,可以根据图像内容和问题自动选择最佳的视觉标记粒度,从而进一步提高模型的效率和性能。
3.2********嵌套序列学习
问题: 目前 M3 模型的嵌套序列学习方式较为简单,可以考虑更复杂的学习方式。
研究方向: 研究更复杂的嵌套序列学习方式,例如,考虑不同粒度的视觉标记之间的关系,以及如何更好地捕捉图像中的层次结构。
3.3********多模态交互
问题: 目前 M3 模型主要关注视觉信息,可以考虑如何更好地结合语言信息。
研究方向: 研究如何更好地结合语言信息,例如,考虑如何利用语言信息来指导视觉标记的生成,以及如何更好地融合视觉和语言信息进行推理。
3.4********应用拓展
问题: 目前 M3 模型的应用主要集中在视觉问答和图像描述等领域,可以考虑拓展到其他领域。
研究方向: 将 M3 模型应用于其他领域,例如,视频理解、图像编辑、机器人视觉等。
3.5********理论研究
问题: 目前 M3 模型的理论研究相对较少。
研究方向: 研究 M3 模型的理论基础,例如,分析嵌套序列的性质,以及如何更好地理解 M3 模型的学习过程。
