【大语言视觉助手+LLaVA1.5】23.10.LLaVA-1.5改善后视觉语言大模型: Improved Baselines with Visual Instruction Tuning
LLaVa 家族 (Large Language and Vision Assistant )
官方资源集合

一、前置解析博客、论文
LLaVA所用的预训练大语言模型LLMs
LLaVA系统采用的是经过大规模预训练的大规模语言模型LLMs
参考的论文 (可跳过)
BLIP v 2.0.0: 图像简明描述生成: 利用语言与图像预训练方法构建统一的视觉语言理解与生成框架
BLIP v 2.1.0: 固定图像编码器与大型语言模型联合预训练的视觉语义表示方法
Instruct-BLIP: 通过指令调优实现通用视觉语言模型
Qwen-VL: 阿里的视觉语言模型: 前沿级大规模视觉语义检索系统具备多样能力https://readpaper.com/paper/479...
二、LLaVA1.5的简介
2.1 结构与改进
下图左边部分为LLaVA1.0的模型结构与训练数据量,右侧为改进LLaVA1.5
在结构上进行优化时发现:视觉特征提取器采用了CLIP-vit-L/336架构,并对真实图像进行了调整尺寸为 336x336的操作后再输入编码器。
在结构上的改进主要体现在:视觉特征的处理方式发生了转变,在线性变换层(仅一个神经元)的基础上发展成了多层感知机(MLP)架构。
数据方面取得了显著提升效果:特别值得注意的是,在视觉微调方面实现了从158,000至560,000的数据规模的提升。
在训练过程中发现:LLaVA1.5支持通过Lora微调技术实现模型适应特定领域需求,请参考Finetune_Custom_Data.md获取详细说明。

2.2 论文展示效果
2.2.1 原文表3 回答棘手问题
在提示验证问题时可以检测和回答棘手的问题。

2.2.2 原图4 LLAAVA-1.5 可以根据所需的格式从图像中提取信息和答案,
但与 GPT-4V 相比有一些差距

2.3 性能测试(在12个专门测试数据集)
2.3.0 测评数据集全称
VQAv2:第2版视觉问答
GQA:通用问答
VizWiz:视觉问答障碍者专用版
TextVQA:基于文本的视觉问答
SQA-IMG:图像顺序问答
2.3.1 与当时的 InstructBLIP ,Qwen-VL 对比

2.3.2 具体指标 (基础大语言模型、图像分辨率、微调数据量)
PT: 所需数据量(建立文本与图像的关联关系,并映射图像特征至语言表达)
IT: 深入的视觉图片精细调整,并通过GPT-4生成相应的描述内容

2.4 原文摘要
大型多模态模型 (LMM或MLLM) 最近在视觉指令微调(visual instruction tuning)方面显示出令人鼓舞的进展。我们注意到,我们表明 LLAVA 中的全连接视觉语言跨模态连接器 (fully-connected vision-language cross-modal connector*)非常强大和数据效率。
通过对LLAVA1.0 进行简单的修改,即使用带有MLP projection 的CLIP-ViT-L-336px,
并添加具有简单响应格式提示的面向学术任务 的VQA数据 ,我们建立了更强的模型——可以在11个基准测试中实现最先进的性 能。
最终的 13B 模型仅使用约 1.2M (120W数据 )公开可用数据,并在单8卡-A100 训练约 1 天的完整训练
三、本地部署
主要参考上一篇博文:第三小节的内容作为参考内容。

四、训练用到的数据集 (了解后,才知道如何制作自己的数据集)
用于进行指令微调的对话数据集:主要来源于llava_v1_5_mix665k.json
- COCO训练数据集:train2017
- GQA图像:images
- OCR-VQA资源包;包括官方文档中的**.jpg**文件;以及huggingface平台供访问;还有详细的技术报告:.pdf
- TextVQA训练集:train_val_images
- VisualGenome数据库:第一卷:第一部分;第二卷:第二部分

整理后的结构
├── coco
│ └── train2017
├── gqa
│ └── images
├── ocr_vqa
│ └── images
├── textvqa
│ └── train_images
└── vg
├── VG_100K
└── VG_100K_2
文章目录
-
LLaVa 家族 (Large Language and Vision Assistant$)
- 前向解析博客与论文资源
-
- 可跳过的参考文献(如相关领域的研究综述)
-
二、LLaVA1.5的简介
-
- 2.1 结构与改进
-
- 2.2 展示效果的研究
- 2.2.1 对原始表格3的回答
- 2.2.2 图表4中的LLAVALI-15系统能够从图像中提取所需的信息及其答案,
- 2.2.1 对原始表格3的回答
- 2.2 展示效果的研究
-
2.3 性能评估工作涉及12个特定的数据集
-
-
2.3.0 对所采用的测评数据集进行了详细说明
-
2.3.1 研究人员与现有的InstructBLIP框架和Qwen-VL模型进行了对比分析
-
2.3.2 具体指标包括:基于大规模预训练的语言模型架构、不同分辨率的图像处理能力以及微调所需的数据规模。
- 2.4 原文摘要
-
三、本地部署
-
四、训练用到的数据集 (了解后,才知道如何制作自己的数据集)
-
