Advertisement

用于视觉问答的相互注意融合模型《Reciprocal Attention Fusion for Visual Question Answering》

阅读量:

目录

一、文献摘要介绍

二、网络框架介绍

三、实验分析

四、结论


这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。

一、文献摘要介绍

_Existing attention mechanisms either attend to local image-grid or object level features for Visual Question Answering (VQA). Motivated by the observation that questions can relate to both object instances and their parts, we propose a novel attention mechanism that jointly considers reciprocal relationships between the two levels of visual details. The bottom-up attention thus generated is further coalesced with the top-down information to only focus on the scene elements that are most relevant to a given question. Our design hierarchically fuses multi-modal information i.e., language, object- and grid-level features, through an efficient tensor decomposition scheme. The proposed model improves the state-of-the-art single model performances from 67.9% to 68.2% on VQAv1 and from 65.7% to 67.4% on VQAv2, demonstrating a significant boost. _

作者认为现有的视觉问答系统(VQA)的注意力机制要么涉及局部图像网格,要么涉及对象级特征。通过观察发现,问题可以与对象实例及其部分相关,作者提出了一种新颖的注意力机制,该机制共同考虑了两个视觉细节级别之间的相互关系。这样产生的自下而上的注意力将与自上而下的信息进一步结合,以仅关注与给定问题最相关的场景元素。 我们的设计通过有效的张量分解方案在层次上融合了多模态信息,即语言,对象和网格级别的特征。 提出的模型将最新的单模型性能从VQAv1的67.9%提高到68.2%,将VQAv2的性能从65.7%提高到67.4%,显示出明显的提升,图1展示将注意力应用于相互的视觉特征,允许VQA模型获得回答给定视觉问题所需的最相关信息。

二、网络框架介绍

VQA任务要求AI代理在给出视觉(即图像,视频)和自然语言输入(即问题,解析)的情况下生成自然语言响应。我们将VQA任务表述为分类任务,其中模型从给定图像arge 和问题arge 对的所有可能答案中预测正确答案

其中 arge heta 表示用于从所有可能答案 arge A 的集合中预测最佳答案的参数集。

我们提出的执行VQA任务的体系结构如图2所示。

我们提出的体系结构的主要亮点包括一个层次注意机制,该机制侧重于场景细节的互补层次,即图像区域的网格和对象推荐。然后将相关的共有特征融合在一起进行最终预测。我们将我们的模型命名为“交互注意融合”,因为它同时关注两个互补的场景表示,即图像网格和对象建议推荐。下面进行详细介绍。

2.1. Joint Feature Embedding

arge V 为从图像中提取的所有视觉特征的集合,令 arge Q 为从问题中提取的语言特征。联合嵌入的目的是学习语言特征表示和多层次视觉特征。这些特征表示用于编码问题和图像之间的多级关系,进而用于训练分类器选择正确的答案。

多级视觉特征 : 多级视觉嵌入arge v_k 由图像级特征arge v_I 和对象级特征\large v_O组成,模型采用ResNeXt 通过在最终池化层之前获取卷积层的输出来获得图像级特征,其中\large G表示所提取视觉特征的空间网格位置的数量,其维数为\large n_v。该卷积层保留了原始图像的空间信息,并使模型能够将注意力应用于图像网格上。另一方面,我们的模型采用对象检测器来定位对象实例,并将其通过另一个深层CNN生成N个对象推荐的对象级别特征。我们使用带有ResNet-101主干的Faster R-CNN 并在ImageNet上预训练目标检测器,然后在具有类标签和属性功能的Visual Genome Dataset 上再次对其进行训练。

自下而上注意力(Bottom-up) : 在多层次特征提取过程中,采用了两种自下向上的注意机制,以实现对最相关特征的关注。使用在ImageNet 上进行预训练的ResNeXt 生成图像网格注意力,以获得代表视觉输入上图像网格的2048维特征向量的。可以通过使用不同的CNN体系结构或采用不同卷积层的输出来生成不同大小的BU注意,来更改图像网格的大小和比例。同时,以自下而上的方式生成对象推荐,以编码对象级视觉特征\large v_O。我们从区域推荐网络的ROI池层中选取了arge n_v=2048 维的前N=36个目标推荐。

语言特征 : 问题中的单词使用one-hot 向量表示进行编码,并使用单词嵌入矩阵嵌入到向量空间中。嵌入的词向量通过预先训练的“Skip-thought 向量”模型初始化的arge n_q 个单元被输入到GRU。对GRU的输出进行微调,得到语言特征嵌入,其中arge n_q=2400。语言特征嵌入用于通过合并自上而下的注意力来进一步细化空间视觉特征(即图像网格和对象级别)。

**2.2.**Hierarchical Attention Fusion

分层注意力机制将空间视觉特征arge v_I\large v_O和语言特征\large q 作为输入,并学习多模式表示 \large W 以预测答案嵌入ρ。此步骤可以表示为多模态表示、视觉和语言嵌入的外积,如下所示:

其中,表示 n-mode 张量矩阵乘积。但是,这种方法在的可学习参数方面有一些严重的实际限制,因为视觉和语言特征的维数很高,这导致了巨大的计算和内存需求。为了解决这个问题,我们的模型采用多模式融合运算来编码这两种模态之间的关系,下面将对此进行讨论。

多模态融合 对于完全参数化的VQA双线性模型,多模式融合旨在减少张量中的自由参数数量。我们的模型通过使用Tucker分解来实现此目的,Tucker分解是高阶主成分分析的特例,将\large W作为核心张量arge T_c 乘以沿着输入模式的矩阵表示。张量\large W可以近似为:

其中是类似于每个输入和输出嵌入的主成分的因子矩阵,是封装因子矩阵之间相互作用的核心张量 。表示Tucker分解的简写。

通过 Tucker 分解降低 \large W的参数复杂度之后,方程2中完全参数化的外部乘积表示可以重写为:

其中,。我们定义一个预测空间,其中多模态融合为:

通过Tucker 分解,我们的模型可以将\large W分解为核心张量arge T_c和三个矩阵。 前两个矩阵\large T_qarge T_v将问题和视觉嵌入投影到较低的\large t_q\large t_v维空间,以学习建模多模态交互并将结果输出投影到arge t_ho维向量。 我们将输入投影维度设置为\large t_q = t_v = 310,将输出投影维度设置为\large t_\rho = 510

自上而下注意力(Top-down Attention): 图像级别和对象级别特征与图像问题和对象问题嵌入一起使用,以分别在空间网格和对象推荐上生成注意力分布。我们使用注意力权重(即)对空间视觉特征(即arge v_I\large v_O)向量进行加权和(\large WS),以生成,它们是自上而下的视觉特征,

**2.3.**Co-attention Fusion

关注图像-问题和对象-问题的视觉特征表示视觉和语言特征的组合,这些特征对于生成给定问题的答案最为重要。我们将这两个双模态表示连接起来,以创建最终的视觉问题嵌入。视觉问题嵌入,和原始问题嵌入\large q 再次与等式5 经历相同的多模态融合。现在唯一的区别是,因为我们的模型使用了两瞥注意力。然后将最终融合的输出传递给分类器,该分类器从给定的问题\large q 和视觉输入arge v 中预测最佳答案

三、实验分析

我们将VQA任务表述为分类任务。 我们根据训练数据创建答案字典集,然后选择前2000个答案作为不同的类别。 我们通过输出2000d向量的卷积层传递最终融合层的输出,该向量通过分类器以预测

表1:最先进的方法与我们在VQAv1.0测试dev和测试标准服务器上的单一模型性能的比较。

表2:最先进的方法与我们在VQAv2.0测试dev和测试标准服务器上的单一模型性能的比较。

表3:VQAv2 的消融研究。

图3:准确性与复杂性(没有参数)比较。

图4:提出的视觉问题回答的相互注意融合机制的定性结果。

四、结论

_We build our proposed model based on the hypotheses that multi-level visual features and associated attention can provide an AI agent additional information pertinent for deep visual understanding. As VQA is a standard measure of image understanding and visual reasoning, we propose a VQA model that learns to capture the bimodal feature representation from visual and language domain. To this end, we employ state of the art CNN architectures to obtain visual features for local regions on the image-grid and object proposals. Based on these feature encodings, we develop a hierarchical co-attention scheme that learns the mutual relationships between objects, object-parts and given questions to predict the best response. We validate our hypotheses by evaluating the proposed model on two large scale VQA dataset servers followed by an extensive ablation study reporting state-of-the art performance. _

作者提出了一个VQA模型,该模型学习从视觉和语言领域获取双态模特征表示。为此,作者采用最先进的CNN架构来获取图像网格上局部区域的视觉特征和对象推荐。在这些特征编码的基础上,提出了一种分层共注意方案,该方案学习对象、对象部分和给定问题之间的相互关系,以预测最佳响应。

本文结合了图像级别特征和对象级别特征进行了融合,达到了好的效果,如果用Faster R-CNN提取对象特征,Mask R-CNN提取实例特征进行融合交互是否能达到好的效果,值得思考实践,此外这篇文章还是不错的,值得阅读。

全部评论 (0)

还没有任何评论哟~