论文阅读:TinyLLaVA: A Framework of Small-scale Large Multimodal Models
论文:https://arxiv.org/abs/2402.14289
代码:https://github.com/TinyLLaVA/TinyLLaVA_Factory

轻量级多模态模型的设计思路:包括更换backbone、更换训练策略和使用更多训练数据。
多模态小模型:LLaVa-Phi、TinyLLaVa、MobileVLM系列 三者中, TinyLLaVa 效果最佳。

TinyLLaVA是一个框架,包括视觉编码器、小规模LLM解码器和中间连接器,以及训练管道。
作者研究了不同视觉编码器、连接模块、语言模型、训练数据和训练方法的影响。实验表明,通过更好的训练方法和数据质量,较小的LMMs可以与较大的LMMs达到同等的表现,为研究领域设定了新的基准。
作者提出了一系列小规模LMMs,涵盖了三种语言模型:Phi-2 、StableLM-2 和TinyLlama ,以及两种视觉编码器:CLIP 和SigLIP 。最好的模型TinyLLaVA-3.1B在整体性能上优于现有的7B模型,如LLaVA-1.5 和Qwen-VL [4]。
Model Architecture
标准的LLAVA架构
Pre-training for Feature Alignment.
在这个阶段,我目标是更好地对齐嵌入空间中的视觉和文本信息。TinyLLAVA框架允许在预训练阶段调整LLM和视觉编码器的部分可学习参数,考虑到仅训练连接器可能无法在使用小规模LLM时很好地对齐视觉和文本信息。****(注意这个地方与普通多模态模型的区别)
Supervised Fine-tuning
同样:在有监督微调阶段调整LLM和视觉编码器的部分可学习参数。

图3. 两种方法的主要区别。
- base方法: 保持视觉编码器和小规模LLM的参数冻结,仅更新连接器。
- share方法 :我们冻结视觉编码器的前12层,并更新其余模型。此外,使用基础方法中预训练的对应部分初始化连接器。
文本编码器: 选择了三个具有代表性的小规模LLMs:
- TinyLlama (1.1B)
- StableLM-2-1.6B (1.6B)
- Phi-2 (2.7B)
视觉编码器:
- 选择CLIP-Large 作为我们的视觉编码器。
- 通过初步实验,我们发现SigLIP 与小规模LLMs结合时表现优于CLIP。

连接器: 遵循LLaVA-1.5 ,应用了一个带有GELU激活的两层多层感知器(MLP)作为连接器。
Training Data
选择LLaVA-1.5 和ShareGPT4V 提出的不同的训练数据集,以研究数据如何影响LMM的性能。

Training Recipes
第一种方法是从LLaVA-1.5 中采用的,命名为base,作为基线方法。
- 预训练阶段: 只更新连接器 ,并保持其余模型冻结,以1e-3的学习率和256的批量大小对模型进行一个epoch的微调。
- 监督微调阶段: 保持视觉编码器冻结,并更新连接器和小规模LLM,以2e-5的学习率和128的批量大小对模型进行一个epoch的微调。
第二种训练方法share,遵循ShareGPT4V。
- 预训练阶段: 使用base方法的预训练对应部分初始化连接器。此外,保持视觉编码器的前12层冻结,并更新其余模型一个epoch,学习率为2e-5,批量大小为256。
- 监督微调阶段: 设置与base方法相同。
Experimental Results
小规模LLMs的消融实验。
Phi-2 的模型变体在各种配置和基准评估中表现出色,这可能归因于Phi-2的更大参数。

视觉编码器的消融实验。
使用SigLIP 的模型变体在模型性能上相比使用CLIP 的变体有显著提升。需要注意的是,SigLIP变体具有更高的输入分辨率(384 vs. 336)和更多的视觉标记(729 vs. 576),相比CLIP。这些因素可能有助于SigLIP包含更多有益的视觉信息,以进行细粒度的图像理解。

连接器的初步探索。
在相似的参数设置下,使用重采样器作为连接器会导致性能下降,这与LLAVA的研究结果一致。

数据混合的消融实验。
相比LLaVA-1.5数据集,在使用基础方法在更广泛和更多样化的ShareGPT4V [7]数据集上预训练时,以TinyLlama 作为小规模LLM的模型变体在评估性能上总体有所提升。

训练方法的消融实验。
模型在更大和更多样化的ShareGPT4V数据集上预训练时,共享方法可以显著提高所有变体的性能。注意,我们在共享方法中部分微调了视觉编码器。这一观察表明,在使用小规模LLMs时,微调视觉编码器可以提高性能 ,这与论文《Prismatic vlms: Investigating the design space of visually-conditioned languagemodels》中的结果相反,即在使用标准LLMs时,微调视觉编码器会显著降低性能。 我们推测,是否微调视觉编码器可以提高性能取决于伴随的LLMs的大小和训练数据的大小,这是一个有趣的研究方向。

讨论一个有趣的观察是,当使用共享方法时,使用StableLM-2和Phi-2的模型变体在POPE上的性能显著下降(表明更多幻觉),而在其他基准上有所提升。与基础方法相比,我们注意到共享方法在预训练阶段显著增加了可训练参数的数量,这可能是导致这些观察到的现象的关键因素。从上述现象中,我们推测,使用较小LLMs的模型变体在预训练阶段可能需要更多的可训练参数来更好地适应更大的数据集。因此,拥有更多可训练参数使使用TinyLlama的模型变体在ShareGPT4V上取得更好的结果。然而,在预训练期间使用更多可训练参数对较大的模型可能并不完全有利。例如,尽管使用StableLM-2和Phi-2的模型变体总体上表现出性能提升,但也引入了处理幻觉的性能下降。

参考:
