Advertisement

InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning

阅读量:

该研究论文

该研究论文

引言:


基于来自多个领域的新增视觉信息推动下,在本质层面这一类任务从本质上变得更加多样化。与此同时,在技术层面开发能够适用于多种多样化的视觉-语言系统的技术难度显著提升

本文提出了一个名为InstructBLIP的视觉指令调整方案,在这一创新方法中采用了一种多模态自监督学习策略,在保持模型简洁性的同时实现了高效的跨模态交互能力,并在多项基准测试中取得了显著性能提升的效果

文章贡献:

展开了系统而全面的研究,在视觉符号指令优化领域对26个公开数据集进行了分类整理,并将其转化为标准化的指令优化格式,并划分为 eleven 个具体任务类别

提出了一种指令感知的视觉特征提取机制,可以根据给定的指令灵活且有效地提取视觉信息特征

模型结构:


数据构造:

黄色表示训练数据,白色表示测试数据

data balance,根据数据集量级进行采样

构建了10-15个不同的template,每个任务进行采样抽取

针对简短输出结果的数据集prompt中添加short关键词以避免模型过度拟合

从视频序列中进行等距取样以获取四帧图像,并提取其特征信息。随后将这些特征整合为一个查询嵌入并传递至LLM模型进行处理。

数据集prompt构造:

BLIP-2模型框架:

InstructBLIP模型整体框架:

可参数化的Q-former模块通过freeze image encoder与freeze LLM进行连接,并采用分轮次策略进行训练:第一轮为representation learning轮次训练;第二轮为generative pre-training轮次训练

原始Q-Formers模型:Image Encoder提取图像特征,并将Query Embedding融合到其中以提炼图像信息。随后通过soft prompt与query text传递给LLM模型以完成预测任务。

提升Q-Forme模型性能:通过自注意力机制对instruction text和Query Embedding进行融合,并继而提取图像特征;从而获取该特定任务相关的图像信息;将其作为soft prompt与instruction text结合后输入到LLM中用于预测

模型实验


模型实验

消融实验,Instruction和data balance的重要性

消融实验,验证多任务学习 or instruction学习哪个更重要

全部评论 (0)

还没有任何评论哟~