《R-VQA: Learning Visual Relation Facts with Semantic Attention for Visual Question Answering》
目录
一、文献摘要介绍
二、网络框架介绍
三、实验分析
四、结论
这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。
一、文献摘要介绍
_Recently, Visual Question Answering (VQA) has emerged as one of the most significant tasks in multimodal learning as it requires understanding both visual and textual modalities. Existing methods mainly rely on extracting image and question features to learn their joint feature embedding via multimodal fusion or attention mechanism. Some recent studies utilize external VQA-independent models to detect candidate entities or attributes in images, which serve as semantic knowledge complementary to the VQA task. However, these candidate entities or attributes might be unrelated to the VQA task and have limited semantic capacities. To better utilize semantic knowledge in images, we propose a novel framework to learn visual relation facts for VQA. Specifically, we build up a Relation-VQA (R-VQA) dataset based on the Visual Genome dataset via a semantic similarity module, in which each data consists of an image, a corresponding question, a correct answer and a supporting relation fact. A well-defined relation detector is then adopted to predict visual question-related relation facts. We further propose a multi-step attention model composed of visual attention and semantic attention sequentially to extract related visual knowledge and semantic knowledge. We conduct comprehensive experiments on the two benchmark datasets, demonstrating that our model achieves state-of-the-art performance and verifying the benefit of considering visual relation facts. _
作者认为,最近,视觉问题解答(VQA)已成为多模式学习中最重要的任务之一,因为它需要了解视觉和文本形式。现有方法主要依靠提取图像和问题特征来通过多峰融合或注意机制学习其联合特征嵌入。最近的一些研究利用独立于VQA的外部模型来检测图像中的候选实体或属性,以作为VQA任务的语义知识的补充。但是,这些候选实体或属性可能与VQA任务无关,并且语义能力有限。为了更好地利用图像中的语义知识,作者提出了一个新颖的框架来学习VQA的视觉关系事实。具体来说,作者通过语义相似性模块基于Visual Genome数据集构建了一个Relation-VQA(R-VQA)数据集,其中每个数据均包含图像,相应的问题,正确的答案和支持的关系事实。然后采用定义明确的关系检测器来预测与视觉问题相关的关系事实。作者进一步提出了一个由视觉注意力和语义注意力依次组成的多步骤注意力模型,以提取相关的视觉知识和语义知识。作者对两个基准数据集进行了全面的实验,证明模型达到了最新的性能,并验证了考虑视觉关系事实的好处。
二、网络框架介绍
为了充分利用图像中的语义知识,作者为VQA提出了一种新颖的语义注意模型。 建立了一个大规模的Relation-VQA(R-VQA)数据集,其中包括基于Visual Genome数据集的超过335k数据样本。 每个数据实例由一个图像,一个相关问题以及一个与图像问题对在语义上相似的关系事实组成。 然后,采用关系检测器来预测给定图像和问题的最相关的视觉关系事实。 我们进一步提出了一种新颖的多步骤注意力模型,将视觉注意力和语义注意力整合到了顺序注意力框架中,接下来进行详细介绍,下面是提出模型的大致框架图。

下图是在R-VQA数据集上的示例。

典型的深层残差网络ResNet-152可以从池化层之前的最后一个卷积层提取图像特征图
,由下式给出:

诸如长短期记忆(LSTM)和门控循环单元(GRU)之类的循环神经网络用于获取问题的语义表示,其表示方式为:

然后,通过多模态池将问题和图像表示形式共同嵌入到同一空间中,包括按元素乘积或总和以及这些表示形式的串联

其中Φ是多模池模块。然后将联合表示
馈送到一个分类器,该分类器预测最终答案。
大量最新工作采用了视觉注意机制来更有效地嵌入视觉特征。通常,引入语义相似度层来计算问题和图像区域之间的相关性,定义为:

其中
是语义相似性的模块,sigmoid是一种sigmoid类型的函数,例如softmax,将语义结果映射到值区间[0,1],
是一个图像区域的语义权重。最后,图像的视觉表示被所有图像区域的加权和更新为:

它能够突出与输入问题最相关的图像区域的表示。
2.1Relation Fact Detector
对于图像嵌入层,我们将调整大小的图像输入到预先训练的ResNet-152中,并将最后一个卷积层的输出作为输入图像内容的空间表示。然后我们添加一个空间平均池化层以提取密集图像表示
为

采用门控循环单元(GRU)网络将输入问题的语义特征编码为

为了在共享的语义空间中对图像和问题进行编码,将特征表示
和
分别馈入线性转换层,然后输入非线性激活函数,如下式所示:

其中
是线性变换的可学习参数,而
是双曲正切函数。
通过在公共空间中组合图像和问题嵌入来学习联合语义特征嵌入,

其中逐元素加法用于两种形式的融合策略。 在将图像和问题表示融合后,学习了一组线性分类器,用于预测关系事实中的主题,关系和客体,

其中
分别表示主题,关系和宾语相对于特定候选的分类概率。 我们的损失函数将组分类器组合为

其中
是目标主体,关系和对象,而
是预测结果。
是通过在开发集上进行网格搜索而获得的超参数。L表示用于多类别分类的交叉熵标准函数。 为了防止过度拟合,添加了L2正则项,并且在我们的实验中将正则权重
设置为
,关系检测如下图所示。

2.2Context-aware Visual Attention****
首先,我们应用多模态低秩双线性池(MLB)方法将问题和图像的两种模式合并为

其中上下文向量c包含问题和图像语义内容。我们通过一个线性变换层将上下文向量映射到注意权重,然后是一个Softmax层,

其中权重m的大小为14×14,每个维的值表示对应图像区域和输入问题之间的语义相关性。上下文感知视觉特征被计算为所有图像区域上表示的加权和,其由以下给出:

我们进一步将上下文感知的视觉特征与问题特征结合起来,以获得最终的视觉表示

其中o表示元素级乘法。
2.3 Fact-aware Semantic Attention
给定输入图像和问题,使用事实检测器作为候选集
生成最可能的K关系事实。对于事实
我们将事实的每个元素嵌入到一个公共语义空间
中,并将这三个嵌入连接起来,作为事实嵌入如下:

然后我们可以获得K个事实候选的表示,表示为
。
与上下文感知视觉注意相似,在给定上下文感知视觉嵌入
和事实嵌入
的情况下,我们首先得到联合上下文表示
,然后计算注意权重向量
如下:

候选事实的最终注意事实陈述计算如下

它用作回答视觉问题的语义知识信息,下图展示了上述提出的VQA多步注意网络。

2.4Joint Knowledge Embedding Learning
我们提出的多步骤注意力模型包括两个注意力成分。 一种是视觉注意力,其目的是选择相关的图像区域并输出上下文软件视觉知识表示
。 另一个是语义注意,它关注于选择相关的关系事实并输出事实软件的语义知识表示
。 我们通过基于元素的加法,线性变换和非线性激活函数来合并这两种表示,以共同学习视觉和语义知识,

当我们将VQA描述为一个多类分类任务时,训练一个线性分类器来推断最终答案,

三、实验分析
对于编码问题,每个单词的嵌入大小设置为620。对于VQA模型中的编码事实,将生成前十个事实,并将元素嵌入大小m的大小设置为900。所有其他视觉和文本表示形式都是向量大小为2400。使用RMSProp方法对训练过程进行了研究,最小批量为200次,初始学习率为
动量为0.99,权值衰减为
。每10000次迭代执行一次验证,如果在最后五次验证时验证精度没有提高,则应用提前停止。
表6:我们提出的模型的评估结果和VQA数据集上的比较方法。

表7:我们提出的模型的评估结果,并在COCOQA数据集上比较了方法。

表8:对VQA数据集的消融研究。

图5:在VQA测试集上测试样本。

四、结论
_In this paper, we aim to learn visual relation facts from images and questions for semantic reasoning of visual question answering.__We propose a novel framework by first learning a relation factor detector based on the built Relation-VQA (R-VQA) dataset. Then a multi-step attention model is developed to incorporate the detected relation facts with sequential visual and semantic attentions,_enabling the effective fusion of visual and semantic knowledge for answering. Our comprehensive experiments show our method outperforms state-of-the-art approaches and demonstrate the effectiveness of considering visual semantic knowledge.
在本文中,旨在从图像和问题中学习视觉关系事实,以进行视觉问答的语义推理。 通过首先学习基于已建立的Relation-VQA(R-VQA)数据集的关系因子检测器,提出了一个新颖的框架。 然后,开发了一个多步骤注意力模型,以将检测到的关系事实与顺序的视觉和语义注意结合起来,从而实现视觉和语义知识的有效融合以进行回答。 全面的实验表明,方法优于最新方法,并证明了考虑视觉语义知识的有效性。
此篇论文结合了语义的关系对视觉语义信息进行了丰富,得到好点的效果,CNN提取图像特征换成FasterR-CNN效果应该会好点,这个增强方法还是值得借鉴的。
