VQA研究方法综述

阅读量：

VQA的问题具有广泛性。它包含一系列CV相关的子任务：如对象识别（即物体识别）、目标检测（即目标定位）、属性分类（即属性识别）、场景分类（即场景分析）及计数（即数量估计）。此外还包括空间关系分析以及常识推理等内容。VQA的整体目的是从图像中解析与问题相关的语义信息，并从对小尺寸物体（如A级）的精确检测到对复杂A级场景的大致推理。

【主流模型与方法】

基本流程：

利用图像特征提取模型：VGGNet、ResNet、GoogleNet
- 通过序列学习模型提取问题特征：LSTM、GRU
- 对图像与序列特征进行整合后输出结果：基于分类和生成两种方法

基于分类的基本框架：

不同做法的主要区别在于它们如何整合图像与文本的特征。具体来说，则是探讨如何通过多种途径来整合图像与文本之间的关联性。

基本操作包括：将多个元素连接（concat）、逐个相加以及逐个相乘等方式
- 双线性聚合
- 注意力机制
- 问题拆分

基于生成的基本框架：

在问题的关键点之后附加提取出的问题关键点与图像特征进行融合处理，并一起作为LSTM模型接收处理的对象；在完成问题处理后的时间阶段被用来生成答案
基于seq2seq模型采用encoder-decoder架构设计，在编码阶段不仅提取信息将问题内容与图像结合在一起供LSTM模型接收处理，并且在必要时可以根据需要选择将图像特征仅用于LSTM最后一个时间阶段或初始阶段；解码阶段则通过相应的机制使用 LSTM 等方法来生成最终的答案

【基于attention的模型】

使用全局特征可能会导致输入空间中某些与任务相关区域的信息被模糊处理。在VQA任务中，通过空间注意力机制提取特定区域的CNN特征这一做法相较于基于单词级别的表示方法（通常情况下，在VQA任务中仅关注问题文本本身）更为精确。值得注意的是，在注意力机制的设计过程中，

\text{相似度计算} = \max(0, \text{query} \cdot \text{key} + \text{偏置项})

这一过程能够有效捕捉图像与问题之间的关联性。

一般有两种方法对局部区域进行建模：

一种是类似语义分割的方式，生成边缘框，对每个框生成特征

也可以采用每个词对每个box的关注度

一种方法是通过均匀网络将图像划分为多个区域，在此基础上应用卷积神经网络（CNN）提取各个网格单元内的图像特征，并进一步计算各区域与问题文本中各词汇间的关联程度以获得注意力权重矩阵

还可以采用堆叠attention

层次协同attention模型

层次协同注意力模型

【对偶attention】：

VL-BERT解决VQA、组合模型、知识增强等方法也得到了广泛应用

视觉问答(VQA)综述

全部评论 (0)

还没有任何评论哟~

VQA研究方法综述

VQA的问题可以是任意的，它包含一系列CV的子问题：对象识别、目标检测、属性分类、场景分类、计数等。除此之外，还有空间关系、常识推理等。VQA的总体是从图像中提取与问题相关的语义信息，从细微物体的检测...

3D目标检测方法研究综述

【摘要】3D目标检测是自动驾驶、虚拟现实、机器人等应用领域的重要基础问题，其目的是从无序点云中框取出描述目标最准确的3D框，例如紧密包围行人或车辆点云的3D框，并给出目标3D框的位置、尺寸和朝向。

Hadoop研究综述

大数据时代对于数据分析?管理都提出了不同程度的新要求，许多传统的数据分析技术和数据库技术已经不足以满足现代数据应用的需求。为了给大数据处理分析提供一个性能更高?可靠性更好的平台，DougCutting...

题目难度评估方法研究综述

摘要题目难度是保证试卷合理性及考试公平性的关键信息,也是智能教学系统（ITS）中的关键参数,有效支撑着包括智能组卷、题目自动生成和个性化习题推荐在内的多项智能教学功能。因此,题目难度评估已成为教育数...

水下图像增强方法研究综述

在陆地空间和资源压力日益增大的条件下，对于水下空间的开发变得迫切起来，海底蕴藏着丰富的矿产资源与化石能源，能掌握高效的水下资源开发技术的国家必将在未来发展中占尽先机。高质量且清晰的水下图像是海洋资源勘...

教育技术研究方法—文献综述

文献综述：近十年教育信息化的研究现状评述【摘要】目前教育信息化已经成为教育教学的重要趋势。教育信息化包括计算机技术、网络技术、多媒体技术、虚拟现实技术等一系列新兴的技术手段。

移动目标轨迹预测方法研究综述

【摘要】随着智能交通系统领域大量移动终端设备的涌现，理解并准确预测移动目标轨迹有助于降低交通事故发生的概率，提高基于位置服务的智能交通应用的质量和水平。主要从数据驱动和行为驱动的角度对移动目标轨迹预测...

粒度模糊规则建模方法研究综述

摘要:本文旨在梳理粒度模糊规则模型中的主要研究及构建方法，并且进行系统分析与总结。粒计算是一种能模拟人类思维方式和求解复杂问题的新兴理论体系，以此为基础的粒度模型为复杂非线性系统的描述和问题求解探索了...

聚类分析方法的研究与应用综述

聚类分析方法的研究与应用综述 417109070529李蓉珊河北地质大学信息工程学院软件工程2017级503班石家庄050031 摘要：聚类分析是一种研究如何将相似的事物归为一类,使得组内对象相似，...

中文文本自动校对方法研究综述

摘要文本自动校对作为自然语言处理领域的热点方向，受到人们的广泛研究。针对不同错误类型的中文文本，可将其分为拼写纠错、语法纠错和语义纠错3类。首先简要介绍了中文文本校对的相关信息，然后分别对基于传统与...

是否确定退出登录?

VQA研究方法综述

全部评论 (0)

相关文章推荐

VQA研究方法综述

3D目标检测方法研究综述

Hadoop研究综述

题目难度评估方法研究综述

水下图像增强方法研究综述

教育技术研究方法—文献综述

移动目标轨迹预测方法研究综述

粒度模糊规则建模方法研究综述

聚类分析方法的研究与应用综述

中文文本自动校对方法研究综述