VQA研究方法综述
发布时间
阅读量:
阅读量
VQA的问题具有广泛性。它包含一系列CV相关的子任务:如对象识别(即物体识别)、目标检测(即目标定位)、属性分类(即属性识别)、场景分类(即场景分析)及计数(即数量估计)。此外还包括空间关系分析以及常识推理等内容。VQA的整体目的是从图像中解析与问题相关的语义信息,并从对小尺寸物体(如A级)的精确检测到对复杂A级场景的大致推理。
【主流模型与方法】
基本流程:
- 利用图像特征提取模型:VGGNet、ResNet、GoogleNet
- 通过序列学习模型提取问题特征:LSTM、GRU
- 对图像与序列特征进行整合后输出结果:基于分类和生成两种方法
基于分类的基本框架:
不同做法的主要区别在于它们如何整合图像与文本的特征。具体来说,则是探讨如何通过多种途径来整合图像与文本之间的关联性。
- 基本操作包括:将多个元素连接(concat)、逐个相加以及逐个相乘等方式
- 双线性聚合
- 注意力机制
- 问题拆分
基于生成的基本框架:
- 在问题的关键点之后附加提取出的问题关键点与图像特征进行融合处理,并一起作为LSTM模型接收处理的对象;在完成问题处理后的时间阶段被用来生成答案
- 基于seq2seq模型采用encoder-decoder架构设计,在编码阶段不仅提取信息将问题内容与图像结合在一起供LSTM模型接收处理,并且在必要时可以根据需要选择将图像特征仅用于LSTM最后一个时间阶段或初始阶段;解码阶段则通过相应的机制使用 LSTM 等方法来生成最终的答案
【基于attention的模型】
使用全局特征可能会导致输入空间中某些与任务相关区域的信息被模糊处理。在VQA任务中,通过空间注意力机制提取特定区域的CNN特征这一做法相较于基于单词级别的表示方法(通常情况下,在VQA任务中仅关注问题文本本身)更为精确。值得注意的是,在注意力机制的设计过程中,
\text{相似度计算} = \max(0, \text{query} \cdot \text{key} + \text{偏置项})
这一过程能够有效捕捉图像与问题之间的关联性。
一般有两种方法对局部区域进行建模:
- 一种是类似语义分割的方式,生成边缘框,对每个框生成特征

也可以采用每个词对每个box的关注度

一种方法是通过均匀网络将图像划分为多个区域,在此基础上应用卷积神经网络(CNN)提取各个网格单元内的图像特征,并进一步计算各区域与问题文本中各词汇间的关联程度以获得注意力权重矩阵

还可以采用堆叠attention

层次协同attention模型
层次协同注意力模型
【对偶attention】:

VL-BERT解决VQA、组合模型、知识增强等方法也得到了广泛应用
视觉问答(VQA)综述
视觉问答(VQA)综述
全部评论 (0)
还没有任何评论哟~
