Advertisement

【大语言视觉助手+LLaVA1.5】23.10.LLaVA-1.5改善后视觉语言大模型: Improved Baselines with Visual Instruction Tuning

阅读量:

LLaVa 家族 (Large Language and Vision Assistant )

官方资源集合

在这里插入图片描述

图from 多模态综述

一、前置解析博客、论文

LLaVA所用的预训练大语言模型LLMs

LLaVA系统采用的是经过大规模预训练的大规模语言模型LLMs

参考的论文 (可跳过)

BLIP v 2.0.0: 图像简明描述生成: 利用语言与图像预训练方法构建统一的视觉语言理解与生成框架
BLIP v 2.1.0: 固定图像编码器与大型语言模型联合预训练的视觉语义表示方法
Instruct-BLIP: 通过指令调优实现通用视觉语言模型
Qwen-VL: 阿里的视觉语言模型: 前沿级大规模视觉语义检索系统具备多样能力https://readpaper.com/paper/479...

二、LLaVA1.5的简介

2.1 结构与改进

下图左边部分为LLaVA1.0的模型结构与训练数据量,右侧为改进LLaVA1.5

在结构上进行优化时发现:视觉特征提取器采用了CLIP-vit-L/336架构,并对真实图像进行了调整尺寸为 336x336的操作后再输入编码器。
在结构上的改进主要体现在:视觉特征的处理方式发生了转变,在线性变换层(仅一个神经元)的基础上发展成了多层感知机(MLP)架构。
数据方面取得了显著提升效果:特别值得注意的是,在视觉微调方面实现了从158,000至560,000的数据规模的提升。
在训练过程中发现:LLaVA1.5支持通过Lora微调技术实现模型适应特定领域需求,请参考Finetune_Custom_Data.md获取详细说明。

在这里插入图片描述

2.2 论文展示效果

2.2.1 原文表3 回答棘手问题

在提示验证问题时可以检测和回答棘手的问题。

在这里插入图片描述

2.2.2 原图4 LLAAVA-1.5 可以根据所需的格式从图像中提取信息和答案,

但与 GPT-4V 相比有一些差距

在这里插入图片描述

2.3 性能测试(在12个专门测试数据集)

2.3.0 测评数据集全称

VQAv2:第2版视觉问答
GQA:通用问答
VizWiz:视觉问答障碍者专用版
TextVQA:基于文本的视觉问答
SQA-IMG:图像顺序问答

2.3.1 与当时的 InstructBLIP ,Qwen-VL 对比

在这里插入图片描述

2.3.2 具体指标 (基础大语言模型、图像分辨率、微调数据量)

PT: 所需数据量(建立文本与图像的关联关系,并映射图像特征至语言表达)
IT: 深入的视觉图片精细调整,并通过GPT-4生成相应的描述内容

在这里插入图片描述

2.4 原文摘要

大型多模态模型 (LMM或MLLM) 最近在视觉指令微调(visual instruction tuning)方面显示出令人鼓舞的进展。我们注意到,我们表明 LLAVA 中的全连接视觉语言跨模态连接器 (fully-connected vision-language cross-modal connector*)非常强大和数据效率。
通过对LLAVA1.0 进行简单的修改,即使用带有MLP projectionCLIP-ViT-L-336px
并添加具有简单响应格式提示的面向学术任务VQA数据 ,我们建立了更强的模型——可以在11个基准测试中实现最先进的性 能。
最终的 13B 模型仅使用约 1.2M (120W数据 )公开可用数据,并在单8卡-A100 训练约 1 天的完整训练

三、本地部署

主要参考上一篇博文:第三小节的内容作为参考内容。

在这里插入图片描述

四、训练用到的数据集 (了解后,才知道如何制作自己的数据集)

用于进行指令微调的对话数据集:主要来源于llava_v1_5_mix665k.json

在这里插入图片描述

整理后的结构

复制代码
    ├── coco
    │   └── train2017
    ├── gqa
    │   └── images
    ├── ocr_vqa
    │   └── images
    ├── textvqa
    │   └── train_images
    └── vg
    ├── VG_100K
    └── VG_100K_2

文章目录

  • LLaVa 家族 (Large Language and Vision Assistant$)

    • 前向解析博客与论文资源
      • 可跳过的参考文献(如相关领域的研究综述)
  • 二、LLaVA1.5的简介

    • 2.1 结构与改进
    • 2.2 展示效果的研究
      • 2.2.1 对原始表格3的回答
        • 2.2.2 图表4中的LLAVALI-15系统能够从图像中提取所需的信息及其答案,
  • 2.3 性能评估工作涉及12个特定的数据集

    • 2.3.0 对所采用的测评数据集进行了详细说明

    • 2.3.1 研究人员与现有的InstructBLIP框架和Qwen-VL模型进行了对比分析

    • 2.3.2 具体指标包括:基于大规模预训练的语言模型架构、不同分辨率的图像处理能力以及微调所需的数据规模。

      • 2.4 原文摘要
    • 三、本地部署

    • 四、训练用到的数据集 (了解后,才知道如何制作自己的数据集)

全部评论 (0)

还没有任何评论哟~