视觉理解和推理领域新突破-俄罗斯套娃（Matryoshka Multimodal Models）多模态模型

阅读量：

大型语言模型如GPT-4 和LLaMA 已经在文本方面展示了令人印象深刻的推理和泛化能力。在开源LLMs的基础上，众多多模态模型取得了显著进步，以LLaVA 和MiniGPT-4为首，它们结合了LLaMA的语言能力和基于CLIP的图像编码器。最近，更多任务和模态上的LMMs出现了，如区域级LMMs 、3D LMMs 和视频LMMs。然而，** 现有的LMMs通常用大量且固定的标记来表示视觉内容，这使得它们难以扩展到长视觉序列，如高分辨率图像或长视频** 。在这项工作中，我们建议通过学习多个嵌套的视觉标记集来适应性且高效地表示视觉内容，为任何图像在推理期间使用的视觉标记数量提供灵活性。

嵌套的Matryoshka表示学习（Matryoshka Representation Learning, MRL）解决了适应多个下游任务的灵活表示的需求，这些任务具有不同的计算资源。这种方法受到Matryoshka套娃的嵌套特性的启发，** 在由神经网络产生的同一高维特征向量内以不同粒度编码信息** 。MRL的适应性跨越了不同的模态，包括视觉（ResNet, ViT ）、视觉+语言（ALIGN ）和语言（BERT ），展示了其多功能性和效率。

近期LMMs效率低下的主要原因之一是它们向LLM输入的大量前缀视觉标记。Transformer中的二次复杂性是扩展输入序列长度的关键问题。** 标记减少是降低Transformer计算成本的有效技术** 。但现有方法（如标记剪枝和合并）无法灵活控制视觉粒度，限制了性能和效率的权衡。

稀疏注意力方法，如Linformer 和ReFormer ，在局部窗口内而不是完整上下文中执行注意力操作，从而降低了标准注意力操作的二次复杂性
Token Merging (ToMe) ，它使用完整的注意力，但通过为视觉Transformer (ViT) 通过二分图匹配选择最具代表性的标记，逐渐减少每个Transformer块中的标记数量。

_M3方法学习了在同一模型架构和权重下，学习多粒度、从粗糙到精细的标记表示，使其能够轻松调整以适应各种计算或内存限制。_

1、Matryoshka 多模态模型概述

受到俄罗斯套娃的启发，M3 将视觉内容表示为嵌套的视觉标记序列，每个序列包含不同粒度的视觉信息。

1.1 学习嵌套的视觉表示步骤

编码图像: 使用预训练的视觉编码器（如 CLIP）将图像编码成初始的视觉标记序列。
生成嵌套序列: 通过池化操作逐步减少视觉标记的数量，生成不同粒度的嵌套视觉标记序列。例如，从 24x24 的初始标记序列生成 12x12、6x6、3x3 等序列，最终生成单个标记。
训练模型: 使用自回归方式训练模型，使每个粒度的视觉标记序列能够预测下一个标记，并与真实答案匹配。训练目标是最大化预测标记与真实答案的匹配概率。
学习嵌套行为: 通过这种方式，模型学习到不同粒度的视觉标记序列之间的层次关系，并能够根据需要选择合适的粒度进行推理。

1.2 关键特点

嵌套结构: 视觉标记序列具有嵌套结构，能够捕捉不同粒度的视觉信息。
灵活性: 允许在推理时灵活控制视觉标记数量，根据图像内容和资源限制进行权衡。
高效性: 通过减少视觉标记数量，降低了计算成本和内存需求。

1.3、优势

提高性能: 在使用少量视觉标记的情况下，M3 仍然能够保持良好的性能。
降低成本: 通过减少视觉标记数量，M3 可以降低计算成本和内存需求。
提升效率: M3 能够更快地处理图像和视频数据，提高效率。

2、实验

2.1 实验设置

2.1.1****模型

基线模型: 使用 LLaVA-1.5 和 LLaVA-NeXT 作为基线大型多模态模型 (LMM)。
语言模型: 两个基线模型都使用 Vicuna 7B 作为语言模型主干。
训练数据: 使用与 LLaVA-1.5 和 LLaVA-NeXT 相同的视觉指令数据进行微调。
训练参数:

语言模型学习率： LLaVA-1.5 为 2e-5, LLaVA-NeXT 为 1e-5。
视觉编码器学习率： 2e-5。
训练时间： 1 个 epoch。
使用 8 个 NVIDIA H100 GPU 进行训练。
语言模型权重从预训练的 LLaVA-1.5 和 LLaVA-NeXT 初始化，这被证明更有效。

模型命名: 将 M3 应用于 LLaVA-1.5 和 LLaVA-NeXT 分别命名为 LLaVA-1.5-M3 和 LLaVA-NeXT-M3。

2.1.2****视觉标记尺度

5 个尺度: 使用 CLIP-ViT-L-336 作为视觉编码器，将图像嵌入到 24x24 的视觉令牌中。
尺度创建: 通过对原始 24x24 令牌进行 2x2 池化，逐步生成 12x12, 6x6, 3x3 的视觉令牌，并最终通过 3x3 池化得到单个视觉令牌。
尺度大小: M3 视觉令牌集的大小为 {1, 9, 36, 144, 576}，形成嵌套方式。

2.2****评估

图像理解

多模态基准: POPE, GQA, MMBench, VizWiz, SEEDBench, ScienceQA, MMMU。
文档理解/OCR 基准: DocVQA, ChartQA, AI2D, TextVQA。

视频理解

开放式视频问答基准: MSVD-QA, MSRVTT-QA, ActivityNet-QA。
多选视频问答基准: NExT-QA, IntentQA, EgoSchema。

2.3 结论

2.3.1 图像理解

在常见的多模态理解和推理基准测试上评估LLaVA-1.5-M3，结果如下图：

使用全部标记的LLaVA-1.5-M3在多个基准测试中保持了与LLaVA-1.5相当的性能。** 更重要的是，即使只使用1个或9个标记，**** M3**** 方法也显示出强大的性能。** 具体来说，在MMBench，一个全面的多模态理解基准测试中，使用9个标记的LLaVA-1.5-M3超过了使用256个标记的Qwen-VL-Chat，并即使只使用1个标记也达到了与Qwen-VL-Chat相似的性能。与InstructBLIP 相比，使用9个标记的LLaVA-1.5M3在所有基准测试中都超过了InstructBLIP-7B和InstructBLIP-13B。这表明M3模型在不同数量的视觉标记下都具有灵活性和强大的经验性能。

2.3.2 视频理解

直接在多样化的视频基准测试上使用LLaVA-NeXT-M3进行零样本推理。具体来说，我们在视频中均匀采样6帧，然后将它们排列成一个拼贴图，与问题一起输入LLaVA-NeXT以获得响应，结果如下图：

使用全部视觉标记的LLaVA-NeXT-M3再次显示出与LLaVA-NeXT相当的性能。更有趣的是，结果表明在视频理解任务中，全部视觉标记通常并不会导致最佳性能。具体来说，在6个基准测试中的4个中，与720或180视觉标记相比，全部视觉标记显示出较少理想的性能。我们怀疑非常长的视觉上下文可能会带来干扰（例如，过分关注可能不相关的背景），其中更紧凑的视频表示，关注更多相关信息可能更有优势。

最后，对于大多数视频理解任务，如ActivityNet、IntentQA和EgoSchema，每张图像网格使用9个标记（总共45个标记），与全部标记（总共2880个标记）相比，准确率差异小于1%。** 这表明这些基准测试中的视频问题通常只需要非常稀疏的视觉信息，因为这些视频理解基准测试的来源大多来自自然场景，这与我们在图像理解基准测试中的观察相匹配** 。

3、未来展望

3.1****视觉标记预测器

问题: 目前 M3 模型需要人工选择合适的视觉标记粒度，缺乏自动化的预测方法。

研究方向: 开发一种视觉标记预测器，可以根据图像内容和问题自动选择最佳的视觉标记粒度，从而进一步提高模型的效率和性能。

3.2****嵌套序列学习

问题: 目前 M3 模型的嵌套序列学习方式较为简单，可以考虑更复杂的学习方式。

研究方向: 研究更复杂的嵌套序列学习方式，例如，考虑不同粒度的视觉标记之间的关系，以及如何更好地捕捉图像中的层次结构。

3.3****多模态交互

问题: 目前 M3 模型主要关注视觉信息，可以考虑如何更好地结合语言信息。

研究方向: 研究如何更好地结合语言信息，例如，考虑如何利用语言信息来指导视觉标记的生成，以及如何更好地融合视觉和语言信息进行推理。

3.4****应用拓展

问题: 目前 M3 模型的应用主要集中在视觉问答和图像描述等领域，可以考虑拓展到其他领域。

研究方向: 将 M3 模型应用于其他领域，例如，视频理解、图像编辑、机器人视觉等。

3.5****理论研究

问题: 目前 M3 模型的理论研究相对较少。

研究方向: 研究 M3 模型的理论基础，例如，分析嵌套序列的性质，以及如何更好地理解 M3 模型的学习过程。

全部评论 (0)

还没有任何评论哟~

视觉理解和推理领域新突破-俄罗斯套娃（Matryoshka Multimodal Models）多模态模型

大型语言模型如GPT4和LLaMA已经在文本方面展示了令人印象深刻的推理和泛化能力。在开源LLMs的基础上，众多多模态模型取得了显著进步，以LLaVA和MiniGPT4为首，它们结合了LLaMA的语言...

【NOIP2015模拟11.5】俄罗斯套娃题解

Description Input Output SampleInput 101000 SampleOutput 3628800 DataConstraint Solution 一道比较简单的dp。 ...

【DP】俄罗斯套娃

Link SSL\1475 Description Input Output SampleInput 101000 SampleOutput 3628800 Hint TrainofThought 整...

俄罗斯套娃问题

俄罗斯套娃问题；描述中文English 给一定数量的信封，带有整数对w,h分别代表信封宽度和高度。一个信封的宽高均大于另一个信封时可以放下另一个信封。求最大的信封嵌套层数。解法一：二分查找\...

俄罗斯AI突破：Kandinsky-3模型的创新与性能解析

引言俄罗斯AI研究团队AIForever在开源领域再次取得显著成就，推出了Kandinsky3模型。这一模型以其11.9B的庞大参数量，不仅刷新了开源文生图模型的规模纪录，也代表了俄罗斯在AI技术方...

俄罗斯套娃信封问题

俄罗斯套娃问题原题链接感谢labuladong的算法小抄，让算法学起来不是难题目给你一个二维整数数组envelopes，其中envelopes[i]=[wi,hi]，表示第i个信封的宽度和高度...

python leetcode 俄罗斯套娃信封动态规划

题目链接 https://leetcodecn.com/problems/russiandollenvelopes/ 题目介绍俄罗斯套娃信封问题给定一些标记了宽度和高度的信封，宽度和高度以整数对形...

动态规划：俄罗斯套娃信封问题

目录前言问题定义思路解题过程复杂度基于动态规划基于二分查找的动态规划 code 前言俄罗斯套娃信封问题是一个经典的计算机科学问题，它与动态规划和排序算法紧密相关。

LeetCode 俄罗斯套娃信封问题

给定一些标记了宽度和高度的信封，宽度和高度以整数对形式w,h出现。当另一个信封的宽度和高度都比这个信封大的时候，这个信封就可以放进另一个信封里，如同俄罗斯套娃一样。请计算最多能有多少个信封能组成一组...

leetcode354. 俄罗斯套娃信封问题

题目链接：力扣https://leetcodecn.com/problems/russiandollenvelopes/ 题意：给你一个二维整数数组envelopes，其中envelopes[i]=...

是否确定退出登录?

视觉理解和推理领域新突破-俄罗斯套娃（Matryoshka Multimodal Models）多模态模型

1、Matryoshka 多模态模型概述

1.1 学习嵌套的视觉表示步骤

1.2 关键特点

****1.3、****优势

2、实验

2.1 实验设置

2.1.1********模型

2.1.2********视觉标记尺度

2.2********评估

2.3 结论

2.3.1 图像理解

2.3.2 视频理解

3、未来展望

3.1********视觉标记预测器

3.2********嵌套序列学习

3.3********多模态交互

3.4********应用拓展

3.5********理论研究

全部评论 (0)

相关文章推荐

视觉理解和推理领域新突破-俄罗斯套娃（Matryoshka Multimodal Models）多模态模型

【NOIP2015模拟11.5】俄罗斯套娃题解

【DP】俄罗斯套娃

俄罗斯套娃问题

俄罗斯AI突破：Kandinsky-3模型的创新与性能解析

俄罗斯套娃信封问题

python leetcode 俄罗斯套娃信封 动态规划

动态规划：俄罗斯套娃信封问题

LeetCode 俄罗斯套娃信封问题

leetcode354. 俄罗斯套娃信封问题

1.3、优势

2.1.1****模型

2.1.2****视觉标记尺度

2.2****评估

3.1****视觉标记预测器

3.2****嵌套序列学习

3.3****多模态交互

3.4****应用拓展

3.5****理论研究

python leetcode 俄罗斯套娃信封动态规划