论文阅读：TinyLLaVA: A Framework of Small-scale Large Multimodal Models

阅读量：

代码：https://github.com/TinyLLaVA/TinyLLaVA_Factory

轻量级多模态模型的设计思路：包括更换backbone、更换训练策略和使用更多训练数据。

多模态小模型：LLaVa-Phi、TinyLLaVa、MobileVLM系列三者中， TinyLLaVa 效果最佳。

TinyLLaVA是一个框架，包括视觉编码器、小规模LLM解码器和中间连接器，以及训练管道。

作者研究了不同视觉编码器、连接模块、语言模型、训练数据和训练方法的影响。实验表明，通过更好的训练方法和数据质量，较小的LMMs可以与较大的LMMs达到同等的表现，为研究领域设定了新的基准。

作者提出了一系列小规模LMMs，涵盖了三种语言模型：Phi-2 、StableLM-2 和TinyLlama ，以及两种视觉编码器：CLIP 和SigLIP 。最好的模型TinyLLaVA-3.1B在整体性能上优于现有的7B模型，如LLaVA-1.5 和Qwen-VL [4]。

Model Architecture

标准的LLAVA架构

Pre-training for Feature Alignment.

在这个阶段，我目标是更好地对齐嵌入空间中的视觉和文本信息。TinyLLAVA框架允许在预训练阶段调整LLM和视觉编码器的部分可学习参数，考虑到仅训练连接器可能无法在使用小规模LLM时很好地对齐视觉和文本信息。****(注意这个地方与普通多模态模型的区别)

Supervised Fine-tuning

同样：在有监督微调阶段调整LLM和视觉编码器的部分可学习参数。

图3. 两种方法的主要区别。

base方法： 保持视觉编码器和小规模LLM的参数冻结，仅更新连接器。
share方法 ：我们冻结视觉编码器的前12层，并更新其余模型。此外，使用基础方法中预训练的对应部分初始化连接器。

文本编码器：选择了三个具有代表性的小规模LLMs：

TinyLlama (1.1B)
StableLM-2-1.6B (1.6B)
Phi-2 (2.7B)

视觉编码器：

选择CLIP-Large 作为我们的视觉编码器。
通过初步实验，我们发现SigLIP 与小规模LLMs结合时表现优于CLIP。

连接器： 遵循LLaVA-1.5 ，应用了一个带有GELU激活的两层多层感知器（MLP）作为连接器。

Training Data

选择LLaVA-1.5 和ShareGPT4V 提出的不同的训练数据集，以研究数据如何影响LMM的性能。

Training Recipes

第一种方法是从LLaVA-1.5 中采用的，命名为base，作为基线方法。

预训练阶段： 只更新连接器，并保持其余模型冻结，以1e-3的学习率和256的批量大小对模型进行一个epoch的微调。
监督微调阶段： 保持视觉编码器冻结，并更新连接器和小规模LLM，以2e-5的学习率和128的批量大小对模型进行一个epoch的微调。

第二种训练方法share，遵循ShareGPT4V。

预训练阶段： 使用base方法的预训练对应部分初始化连接器。此外，保持视觉编码器的前12层冻结，并更新其余模型一个epoch，学习率为2e-5，批量大小为256。
监督微调阶段： 设置与base方法相同。

Experimental Results

小规模LLMs的消融实验。

Phi-2 的模型变体在各种配置和基准评估中表现出色，这可能归因于Phi-2的更大参数。

视觉编码器的消融实验。

使用SigLIP 的模型变体在模型性能上相比使用CLIP 的变体有显著提升。需要注意的是，SigLIP变体具有更高的输入分辨率（384 vs. 336）和更多的视觉标记（729 vs. 576），相比CLIP。这些因素可能有助于SigLIP包含更多有益的视觉信息，以进行细粒度的图像理解。

连接器的初步探索。

在相似的参数设置下，使用重采样器作为连接器会导致性能下降，这与LLAVA的研究结果一致。

数据混合的消融实验。

相比LLaVA-1.5数据集，在使用基础方法在更广泛和更多样化的ShareGPT4V [7]数据集上预训练时，以TinyLlama 作为小规模LLM的模型变体在评估性能上总体有所提升。

训练方法的消融实验。

模型在更大和更多样化的ShareGPT4V数据集上预训练时，共享方法可以显著提高所有变体的性能。注意，我们在共享方法中部分微调了视觉编码器。这一观察表明，在使用小规模LLMs时，微调视觉编码器可以提高性能 ，这与论文《Prismatic vlms: Investigating the design space of visually-conditioned languagemodels》中的结果相反，即在使用标准LLMs时，微调视觉编码器会显著降低性能。 我们推测，是否微调视觉编码器可以提高性能取决于伴随的LLMs的大小和训练数据的大小，这是一个有趣的研究方向。

讨论一个有趣的观察是，当使用共享方法时，使用StableLM-2和Phi-2的模型变体在POPE上的性能显著下降（表明更多幻觉），而在其他基准上有所提升。与基础方法相比，我们注意到共享方法在预训练阶段显著增加了可训练参数的数量，这可能是导致这些观察到的现象的关键因素。从上述现象中，我们推测，使用较小LLMs的模型变体在预训练阶段可能需要更多的可训练参数来更好地适应更大的数据集。因此，拥有更多可训练参数使使用TinyLlama的模型变体在ShareGPT4V上取得更好的结果。然而，在预训练期间使用更多可训练参数对较大的模型可能并不完全有利。例如，尽管使用StableLM-2和Phi-2的模型变体总体上表现出性能提升，但也引入了处理幻觉的性能下降。

参考：

1：https://zhuanlan.zhihu.com/p/689321748

全部评论 (0)

还没有任何评论哟~

论文阅读：TinyLLaVA: A Framework of Small-scale Large Multimodal Models

论文：<https://arxiv.org/abs/2402.14289 代码：<https://github.com/TinyLLaVA/TinyLLaVAFactory 轻量级多模态模型的设计思路...

MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models论文阅读

MMSafetyBench:ABenchmarkforSafetyEvaluationofMultimodalLargeLanguageModels 更多大模型安全相关以及机器学习相关的文章见主页 <...

A Survey on Evaluation of Multimodal Large Language Models——阅读笔记

多模态大语言模型评估综述原文链接：<https://arxiv.org/abs/2408.15769 该篇文章比较泛泛，适合于想大致了解一下的研究者主要部分背景评估什么？（多模态大模型需要具备...

【综述论文阅读】A Survey on Multimodal Large Language Models下

介绍来自 1中科大科技学院、认知智能国家重点实验室 2腾讯优图实验室的综述，建立了github项目，持续更新该综述首先对MLLM的核心方面进行全面回顾，包括1主流架构（第2节）；2训练策略和数据...

论文阅读：A Survey on Evaluation of Large Language Models

ASurveyonEvaluationofLargeLanguageModels 这篇论文是由YupengChang等人撰写的关于大型语言模型（LLMs）评估的综述，题为《ASurveyonEvalu...

Computational Bottlenecks of Training Small-scale Large Language Models 翻译

选择Doc2X，让PDF转换更轻松支持PDF转Word、Latex、Markdown，多栏与公式精准解析，还提供深度翻译功能，适合科研及日常办公！ ChooseDoc2X,SimplifyPDFCo...

【论文阅读笔记】HunyuanVideo: A Systematic Framework For Large Video Generative Models

HunyuanVideo:ASystematicFrameworkForLargeVideoGenerativeModels 前言引言 Overview 数据预处理数据过滤数据注释模型架构设计...

【论文阅读笔记】Large Multimodal Agents: A Survey

[写在开头]深度学习小白，如果有不对的地方请大家多指正，对说的就是你大佬！论文名称:LargeMultimodalAgents:ASurvey 论文链接:https://arxiv.org/pdf/...

A Survey on Benchmarks of Multimodal Large Language Models

本文是LLM系列文章，针对《ASurveyonBenchmarksofMultimodalLargeLanguageModels 》的翻译。多模态大型语言模型基准研究综述摘要 1引言 2前言 3感...

A Comprehensive Survey of Large Language Models and Multimodal Large Language Models in Medicine

本文是LLM系列文章，针对《AComprehensiveSurveyofLargeLanguageModelsandMultimodalLargeLanguageModelsinMedicine》的翻...

是否确定退出登录?

论文阅读：TinyLLaVA: A Framework of Small-scale Large Multimodal Models

Model Architecture

Pre-training for Feature Alignment.

Supervised Fine-tuning

Training Data

Training Recipes

Experimental Results

全部评论 (0)

相关文章推荐

论文阅读：TinyLLaVA: A Framework of Small-scale Large Multimodal Models

MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models论文阅读

A Survey on Evaluation of Multimodal Large Language Models——阅读笔记

【综述论文阅读】A Survey on Multimodal Large Language Models下

论文阅读：A Survey on Evaluation of Large Language Models

Computational Bottlenecks of Training Small-scale Large Language Models 翻译

【论文阅读笔记】HunyuanVideo: A Systematic Framework For Large Video Generative Models

【论文阅读笔记】Large Multimodal Agents: A Survey

A Survey on Benchmarks of Multimodal Large Language Models

A Comprehensive Survey of Large Language Models and Multimodal Large Language Models in Medicine