Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering简介
本篇文章介绍的VQAv2是一个人工标注的开放式问答数据集。通过收集互补性图像来平衡当前的VQA数据集,并针对视觉问题回答(VQA)任务中的语言偏见进行优化处理。该方法旨在使视觉(即VQA中的"V")的重要性提升的同时尽量减少语言偏见的影响(即通过给定图片及其相关问题进行标注)。相较于其前版VQAv1,在该版本中作者尽量减少了这种语言偏见的影响方式(即通过补充图片信息以帮助解决相关问题)。
此外,在论文中我们提出了一种新的数据收集模型。该模型不仅能够识别出与原始图片相似的照片,并且能够基于反例提供解释能力(即当同一类型的问题出现在不同背景中时)。这种方法有助于在用户之间建立对机器的信任。
一、文章引入
在先前的研究中发现,在许多情况下人们会受到视觉引导效应的影响(即当他们在查看图片时会自动关注其中最显眼的部分)。例如:当实验人员观察到图片中存在一座钟楼时,则会问:"图片中有钟楼吗?"在这里作者提出了一个特殊案例——对于以"Do you see a..."开头的问题出现在VQA数据集中时的回答准确性仅为87%(即使这些问题本身并不涉及其他内容)。
为了应对这些语言偏差并提高视觉理解能力在该框架中的表现效果我们提出了一系列解决方案。

作者认为这个平衡的数据集将促使VQA模型专注于视觉信息。 为了克服纯语言模型面临的语言偏见问题的核心观点是:对于每个包含(图像I、问题Q、答案A)的三元组,在寻找与I相似但答案不同的图像I’时能有效区分。 为了实现这一目标,在完成第一阶段的数据收集后(即生成互补图像阶段),又向10名新参与AMT工作的研究者展示了这些补充图像,并要求他们标注这些问题下的最邻近图片集合中的差异性特征。
完成这一阶段的数据收集后,在第二阶段中又进行了数据标注工作以获取新的回答信息。具体来说,在呈现带有问题Q的选择图片集合的同时还附带了上下文说明,并要求参与者对这些图片给出对应的正确回答。
随后又向10名新参与AMT工作的研究者展示了这些补充图片,并要求他们标注这些问题下的最邻近图片集合中的差异性特征。
由于这两个图像在语义上高度相似却对同一问题Q分别具有不同的回答能力要求,VQA模型必须能够识别出它们之间的细微差别才能给出正确的回答。

在不平衡/平衡的VQA数据集上进行训练/测试时VQA模型的性能。UB代表在不平衡数据集上训练在平衡数据集上测试。UU、BhalfB和BB的定义类似。
三、Counter-example Explanations
作者提出了一种新的解释方式:反例。 提出一个模型,该模型在被问到有关图像的问题时,不仅提供答案,而且还提供与输入图像相似的示例图像,但模型认为输入问题的答案不同,这将使用户相信模型确实可以“理解”所询问的概念。 例如,有一个问题“消火栓是什么颜色?” 如果VQA模型除了说“红色”之外还添加“不像这样”,并且显示一个示例图像,其中包含非红色的消火栓,则VQA模型可能被认为更值得信赖。
3.1 model
具体而言,在测试时,我们的“否定解释”或“反例解释”模型分两个步骤运行。 第一步,类似于常规的VQA模型,它以(图像,问题)对(Q,I)作为输入并预测答案Apred。 在第二步中,它将预测的答案Apred与问题Q一起使用,以检索与I类似但与问题Q的Apred具有不同答案的图像。为了确保相似性,模型选择了K个最邻近图像中的一个 I(INN = {I1,I2,…,IK})作为反例。
如何找到这些“负面解释”? 从INN中选择反例的一种方法是遵循计算机视觉中流行的经典“硬否定挖掘”策略。具体来说,只需选择具有最低P(A~~pred | Q,Ii)的图像,其中i∈1,2,…,K,将其与强基线进行比较。尽管这确保了P(Apred | Q,Ii)对于Ii而言很低,但并不能确保Q对于Ii是“有意义的”。 因此,当试图对“ Q:女人在做什么? 答:打网球”,如果目标是让用户相信模型已经理解了问题,那么这种“强否定挖掘”策略可能会在没有女性的情况下选择图像,这会向用户显示一个令人困惑且无意义的解释。
取而代之的是,我们利用平衡的数据收集机制直接进行培训,以识别出良好的反例。 注意,根据定义,人类选择的I’是一个很好的反例。 Q与I’相关(因为要求工人确认是否为真),I’的答案A’与A(原始答案)不同,并且I’与I相似。因此,我们监督了训练数据,其中I’是反指标, 问题IN和答案A的示例来自INN(K = 24)。我们训练了一个模型,该模型将从该监督数据中学习提供否定或反示例说明。
总而言之,在测试期间,模型做了两件事:首先,它回答了问题(类似于常规的VQA模型),其次,它通过一个反例解释了它的答案。 第一步,输入图像I和问题Q,并输出预测的答案Apred。 对于第二步(解释性步骤),输入问题Q、待解释的答案A和模型必须从中识别反例的一组INN。 在训练时,模型会得到图像I、问题Q和相应的ground truth A以学习回答问题。 同时给出了Q,A,I’(人工挑选),INN(I’∈INN)学习解释。
本文模型架构在一个共享的基础“主干”上包含两个头——一个用于回答问题,另一个用于提供解释。具体来说,模型由三个主要部分组成:
1)Shared base: 模型的第一部分是学习图像和问题的表示。 它是一个2通道网络,将一个图像CNN嵌入作为一个分支中的输入,问题LSTM嵌入作为另一个分支中的输入,并通过逐点乘法来组合这两个嵌入以获得联合的QI嵌入。 第二和第三部分(应答模型和解释模型)以联合QI嵌入作为输入,因此可以被视为第一共享部分的两个头。 总共25张图像——原始图像I和24个候选图像{I1,I2,…,I24}通过网络的这个共享组件传递。
2)Answering head: 第二部分是学会回答问题。它由一个完全连通的层组成,该层被送入一个softmax中,softmax可以预测给定QI嵌入的答案的概率分布。仅对应于原始图像I的QI嵌入被传递到这个该分量,并且导致交叉熵损失。
3)Explaining head:
第三个组成部分是学习通过反示例图片解释答案A。这是一个2通道网络,它将联合QI嵌入(从第一个组件输出)和待解释的A(作为输入提供)线性转换为公共嵌入空间。它计算这2个嵌入的内积,得出INN中每个图像的标量数(也作为输入提供,将从中选择反例)。然后,将K个候选图像的这K个内积值通过一个全连接层以生成K个分数S(Ii),其中i∈{1,2,…,K}。然后根据这些得分S(Ii)将K个候选图像{I1,I2,…,IK}分类为最有可能或最不可能成为好的反例或否定解释。
四、Result

该模型生成三个反例或负面说明(右侧一栏),并包含左侧区域的输入图像、所提出的问题Q以及预测的答案A。

五、主要成果
(1)采用互补图像的平衡策略以补充现有VQA数据集。这些平衡后的数据集中几乎所有的问题都不仅与单个图像相关,并且还与一对相似度较高的图像相关联,在这些问题中存在两种不同的答案。通过这种处理方式构建了一个更加均衡的VQA数据集,并其规模大约是原有规模的两倍左右。
(2)针对平衡后的数据集进行了最新的VQA模型评估,并发现基于非均衡的数据训练而来的模型在新的均衡数据集上表现欠佳这一现象证实了作者提出的假设:这些模型确实在利用现有的语言先验以获得更高的准确性。
(3)开发了一种新型的可解释性模型,这种新方法不仅能够回答关于图片的问题还能提供基于反例的独特解释——即该系统能够检索出那些被认为与原始图片高度相似但在该问题上却给出不同回答的数据样本。这种基于反例的信息辅助方法有助于提升用户对机器决策的信任度。
