Advertisement

An Introduction to Vision-Language Modeling

阅读量:

本文属于LLM系列文章序列的一部分,并专门针对《An Introduction to Vision-Language Modeling》一书提供官方英文版翻译服务。

视觉语言建模导论

  • 1 引言

  • 2 VLM家族

    • 2.1 基于Transformer的VLM早期工作

    • 2.2 基于对比的VLMs

      • 2.2.1 CLIP
    • 2.3 带掩蔽目标的VLM

      • 2.3.1 FLAVA
      • 2.3.2 MaskVLM
      • 2.3.3 VLM目标的信息论观点
  • 2.4 基于生成式的VLM

    • 2.4.1 训练文本生成器的具体实例:CoCa
    • 2.4.2 多模态生成模型的具体实例:Chameleon与CM3leon
    • 2.4.3 将生成的文本输入至图像模型以执行后续视觉语言任务
  • 2.5 针对预训练神经网络的视觉语言模型

    • 2.5.1 固定参数架构
      • 2.5.2 基于MiniGPT的具体实现
      • 2.5.3 基于这些预训练模型构建的一系列流行方法
  • VLM引导措施概述

    • 数据准备阶段的关键步骤
      • 借助合成样本优化训练集质量
        • 应用增强学习技术提升样本多样性
        • 建立交叉样本管理策略
        • 实施多模态特征全面评估计划
        • 结合领域知识优化标注方案
  • 3.2 软件平台

      • 3.2.1 可依赖的公共软件存储库
      • 3.2.2 关于所需的GPU数量
      • 3.2.3 提升训练效率
      • 3.2.4 其他超参数的影响程度
  • 3.3 选择何种模型?

    • 在何种情况下适合采用基于对比学习的CLIP架构?
      • 应用遮蔽机制的具体情形是什么?

      • 如何在什么场景下采用生成式模型?

      • 如何在预训练主干网络的基础上引入LLM进行微调?

      • 3.4 改善基准

        • 3.4.1 使用边界框注释
        • 3.4.2 负面字幕
      • 3.5 改善对齐

        • 3.5.1 LLaVA故事
        • 3.5.2 多模态上下文学习
      • 3.6 提高对文本丰富图像的理解

      • 3.7 参数高效微调

  • 4 负责任视觉语言模型性能评估标准

    • 4.1 视觉语言基准体系
      • 4.1.1 图中的字幕
      • 4.1.2 文本描述与图像描述的一致性验证
      • 4.1.3 文本描述与图像特征的一致性分析
      • 4.1.4 基于文本的可视化检索系统构建与应用
      • 4.1.5 零样本图像分类性能评估指标
      • 4.1.6 Visio语言合成推理机制的设计与优化
      • 4.1.7 精确识别密集字幕及裁剪字幕匹配策略研究
      • 4.1.8 基于合成数据集的视觉语言行为评价指标开发
  • 第四节 向量表示模型(VLM)中的偏差与差异性研究

  • 第 subsection: 基于分类的标准来确定基准偏差

    • 第 subsubsection: 基于嵌入向量的评估方法

    • 第 subsubsection: 分析语言偏见可能导致的评估结果偏差

    • 第 subsubsection: 探讨训练数据中不同概念对模型性能的影响

    • 4.3 基准幻觉

    • 4.4 基准记忆

    • 4.5 红队判研

  • 拓展视觉语言模型至视频领域

    • 基于BERT进行的早期视频相关研究

    • 通过早期融合的视觉语言模型实现文本生成

    • 采用经过预训练的大语言模型

    • 在评估过程中的机遇

    • 在利用视频数据方面面临的挑战

    • 6 结论

1 引言

2 VLM家族

2.1 基于Transformer的VLM早期工作

2.2 基于对比的VLMs

2.2.1 CLIP

2.3 带掩蔽目标的VLM

2.3.1 FLAVA

2.3.2 MaskVLM

2.3.3 VLM目标的信息论观点

2.4 基于生成的VLM

2.4.1 学习文本生成器的示例:CoCa

2.4.2 多模态生成模型的一个例子:Chameleon和CM3leon

2.4.3 使用生成的文本到图像模型进行下游视觉语言任务

2.5 预训练骨干的VLM

2.5.1 Frozen

2.5.2 MiniGPT的例子

2.5.3 使用预训练骨干的其他流行模型

3 VLM训练的引导

3.1 训练数据

3.1.1 用合成数据改进训练数据

3.1.2 使用数据增强

3.1.3 交错数据管理

3.1.4 评估多模态数据质量

3.1.5 利用人类专业知识:数据注释的力量

3.2 软件

3.2.1 使用现有的公共软件存储库

3.2.2 我需要多少个GPU?

3.2.3 加速训练速度

3.2.4 其他超参数的重要性

3.3 使用哪个模型?

3.3.1 什么时候使用CLIP这样的对比模型?

3.3.2 何时使用masking?

3.3.3 何时使用生成模型?

3.3.4 何时在预训练的主干上使用LLM?

3.4 改善基准

3.4.1 使用边界框注释

3.4.2 负面字幕

3.5 改善对齐

3.5.1 LLaVA故事

3.5.2 多模态上下文学习

3.6 提高对文本丰富图像的理解

3.7 参数高效微调

4 负责任VLM评估方法

4.1 视觉语言能力基准

4.1.1 图片字幕

4.1.2 文本到图片的一致性

4.1.3 视觉问答

4.1.4 以文本为中心的可视化问答

4.1.5 零样本图片分类

4.1.6 Visio语言合成推理

4.1.7 密集字幕和裁剪字幕匹配

4.1.8 基于合成数据的视觉语言评价

4.2 VLM中的基准偏差和差异

4.2.1 通过分类确定基准偏差

4.2.2 通过嵌入的基准偏差

4.2.3 语言偏见可能会影响您的基准

4.2.4 评估训练数据中的特定概念如何影响下游性能

4.3 基准幻觉

4.4 基准记忆

4.5 红队判研

5 扩展VLM到视频

5.1 基于BERT的视频早期工作

5.2 使用早期融合VLM实现文本生成

5.3 使用预训练LLM

5.4 评价中的机会

5.5 利用视频数据方面的挑战

6 结论

研究如何将视觉信息转化为语言表示的方法仍是一个活跃的研究领域。涵盖自监督学习和判别式学习等技术的对比方法与生成方法形成了丰富的训练范式。然而,在应用中往往面临较高的计算资源和数据需求限制了研究人员的发展。基于已有预训练的语言模型或图像编码器来进一步学习模态间的映射关系仍然是一项关键任务。无论采用何种技术架构来构建VLM系统,在关注点上都需要考虑一些共性问题因素必须加以重视。高质量的图像数据和详实的文字描述是提升模型性能的关键要素;同时优化模型架构以增强其处理能力并使其能够理解和模仿人类在视觉-语言交互中的偏好行为也是至关重要的前提条件之一为了全面评估系统的性能提出了多项指标体系用于评估视觉语言表示的能力及其推理性能;然而这些指标却存在明显局限性:例如,在仅依赖语言先验知识的情况下难以有效捕捉视觉信息的独特性。此外视频信号同样具有重要价值,并为研究者提供了额外的数据来源以提升模型性能;然而在深入探索视频表征的有效性之前仍面临诸多技术难题

全部评论 (0)

还没有任何评论哟~