VQA文献阅读 Relation-Aware Graph Attention Network for Visual Question Answering ICCV2019
ReGAT
- 基于图形注意力机制的关系感知网络在视觉问答任务中展现出显著性能。
摘要部分概述了该研究的核心内容与贡献。
引言部分阐述了研究背景及意义。
相关工作的研究综述中对比分析了现有技术特点。
该网络通过整合全局语义信息与局部特征关联机制,在视觉问答任务中取得优异结果。
在图像表示方法上进行了系统性设计:
首先构建全局语义关联的全连接关系图;
其次结合领域知识进行优化的稀疏化设计;
接着采用空间域特征建模的空间图;
最后提出一种基于语义信息提取的空间表达模型。
关系感知图形注意网络用于视觉问答
摘要
这篇论文认为,回答涉及到复杂语义的问题时,VQA模型要能够充分理解图片中的视觉场景,特别是不同物体之间的动态交互。
因此,提出了一个关系感知图注意网络(ReGAT).它将每幅图片编码成一个图,并通过图注意机制建立多类型的对象间关系模型,以学习问题自适应关系表示,同时探讨了两种视觉对象关系:(1)表示对象之间几何位置和语义交互的显示关系。(2)捕捉图像区域之间隐藏动态的隐式关系。
论文分别在VQA 2.0和VQA-CP v2数据集上进行实验。
引言
VQA的核心目标在于构建一个能够实现对多模态输入进行全面语义理解的有效模型。具体而言,在给定一张图片及其对应自然语言的问题(已标注正确答案)的情况下,VQA旨在通过连接图像中的视觉特征与问题中的语义意义,准确回答问题。
目前大部分VQA模型都致力于学习一个多模态表示模型,其具体机制包括:利用CNN或R-CNN等网络架构提取图像特征;采用RNN等方法进行问题编码;随后通过多模态融合学习每个区域与问题之间的联合表示;最后将这些联合表示输入到答案预测器中以生成最终答案。
但是,在本文中研究者指出:图像与自然语言之间存在明显的语义障碍----------它们无法直接沟通彼此的意义。
例如,在图1所示的例子中:尽管系统能够解析出两匹斑马的身体结构特征(黑白像素),但它却无法确定哪一匹斑马对应的白色像素属于前缘还是后沿;同样地,在面对类似的问题时也无法给出明确的答案:最右边的斑马是否是"斑马宝宝"?或者整群斑马是否都在享用青草?
基于视觉问答(VQA)模型的独特性可知:仅凭对图像内容的理解是不够的;它还需要深入理解图像与其相关问题之间的深层语义关联。
针对上述问题研究者提出了以下解决方案:
第一种方法旨在通过分析邻近物体间的相对几何关系(如"自行车-紧挨着汽车"),使得提取的信息与问题描述保持高度一致;
第二种方法则聚焦于揭示不同物体间的语义关联性(如"女孩-吃-蛋糕")。
基于此方法的基础上,在本研究中我们开发了一个ReGAT(基于关系感知图注意力机制的网络架构),并详细阐述了新型的关系编码模块。该编码模块具备捕捉非局部空间中物体间相互作用的能力。其核心结构包含两个关键组件:一是特征提取子网络;二是关联性表示学习子模块。
Implicit relations
明确的关系涉及空间位置关联与语义动作联系
在该关系编码模块中
图像通过图结构进行表示
物体间的互动通过图注意力机制得以实现
本文所采用的图注意力机制能够将问题中的语义信息整合至相关编码模块中
以实现自适应化的编码方案
本文提出了一种模型思想:
通过图形注意网络学习视觉对象之间的显式和隐式关系,并以此来提升图像表示能力。
该文章的主要贡献包括:
- 提出了一个基于图形关系的新型编码器。
- 动态地捕捉与每个问题相关的视觉对象关系。
- 展示了ReGAT模型在改进VQA方面具有广泛适用性,并且在VQA-CPv2数据集上实现了最新的性能水平。

图一中的模型步骤描述如下:
图像特征提取:采用R-CNN模型生成一组候选区域proposals。
关系编码器:通过自适应机制将每个区域的卷积和边界框特征注入到编码器中,并用于从图像中学习关系感知,并提供区域级别的表示
多模态融合:通过将提取的关系感知特征与问题编码输入至多模态融合模型中进行计算得到最终的联合表示
答案预测:将联合表示丢到答案预测器中,生成答案。
2.相关工作
此处省略(相关工作中提到的本文贡献已在引言中书写。)
关系感知图注意力网络
给定图像I及其相关问题q,在视觉问答系统(VQA)中旨在通过该技术来实现的答案预测任务。
这个问题可以由下述公式表示:

ReGAT模型的详细介绍见下图2

在图2中展示了三个核心组件:主注意力机制中的图像分割模块、跨模态注意力机制中的跨模态融合模块以及目标检测模块。具体而言,在主注意力机制中包含了两个分支模块:一个是基于区域的位置信息感知模块(R-Aggregation Module),另一个是基于通道的深度信息感知模块(C-Aggregation Module)。

问题编码器的介绍如下

3.1 图构建
3.1.1全连接关系图
将图像中的每一个对象vi被视作单独的一个顶点,在此基础上构建了一个包含V为顶点集和E为边集的完全无向图Gimp。其中边集E由K(K-1)条边组成,在这一过程中每一条边都反映了两个对象之间的隐性关联性。其权重分布情况则可借助图注意力机制来进行建模与分析。在论文研究中被命名为隐式关系编码器模型。
3.1.2 基于先验知识的修剪图
通过此方法操作后即可将隐式关系图转变为显式关系图。
对于每一个对象i,j而言,在满足条件< i − p − j > 为有效关系的情况下,则需从i到j添加一条对应于p的有向边,并给其标记为p标签。同时,在节点i处添加一条自环有向边,并将其标记为identical。
采用此方法处理后可使图变得更加稀疏,并使得每条边上所携带的信息都反映了图像中两个对象之间的关联知识。
论文中称此修剪图为显式关系编码器
这些显式特征需要经过预训练的分类器以离散类标签的行式提取关系
3.1.3 空间图


3.1.3 语义图


区域之间的语义关系< i-p-j >
主语j和宾语i之间的关系是无法互换的,即意味着这种语义关系所形成的边缘是非对称性质的表现。[值得注意的是,在这里与空间图存在区别,在空间图中这类关系是可以互换的;具体来说,在空间图中若有i- >j,则必然伴随j->i]
在i-p-j模式下,并非所有合理的关系都能建立其逆向关系j-p-i。例如,在man-holding-bat这一模式中是一种合理的关联性存在(即man与bat之间存在某种联系),然而 bat与man之间则没有语义联系。
