Advertisement

《Self-Critical Reasoning for Robust Visual Question Answering》 鲁棒视觉问题解答的自我批判推理论文解读

阅读量:

下面是我对最近阅读的论文《Self-Critical Reasoning for Robust Visual Question Answering》的一些简要理解

一、摘要

由于语言的先验性强,视觉问答(VQA)深度学习系统倾向于捕捉训练数据中的表面统计相关性,而不能推广到具有显著不同的问题回答(QA)分布的测试数据,为了解决这个问题,我们引入了一个自我批判的训练目标,确保正确答案的视觉解释匹配最有影响力的图像区域比其他竞争的答案候选人更多。有影响的区域要么由人类视觉/文本解释决定,要么从问题和答案中的重要词汇中自动确定。我们评估VQA概括任务使用VQA CP数据集的方法,实现了一个新的最先进的,即49.5%使用文本解释和48.5%使用自动注释的区域。

二、介绍

强大的语言先验鼓励系统盲目地捕捉表面的统计相关性在训练QA对,并简单地输出最常见的答案, 而不是对人类关注的相关图像区域进行推理。 例如,由于大约40%的以“什么运动”开头的问题有“网球”的答案,系统倾向于学习为这些问题输出“网球”,而不管图像内容如何。

最近的一些VQA系统不仅学会预测正确的答案,而且学会“出于正确的理由”来预测正确的答案。 这些系统被训练以鼓励网络聚焦于人类已经以某种方式注释为重要的图像中的区域(我们将称之为“重要区域”)。 然而,许多时候,网络也关注这些即使它产生了错误答案的重要区域。以前的方法并没有积极阻止这种现象,而且这种现象非常频繁,如图一所示
图一
图一: 一个常见答案的例子误导了预测,即使VQA系统有正确的答案理由。图(a)显示了人类视觉注意力中提取的重要区域。 图(b),(e)显示了训练和测试数据集中“男人吃什么?”问题的答案分布。 图(c)、(d)显示了使用基线UpDnVQA系统预测“热狗”和“香蕉”的最有影响的区域, 图(f),(g)显示了用VQA系统训练后预测“热狗”和“香蕉”的影响区域。 包围框上的数字显示答案对对象的敏感性。

为了解决错误答案的出现度更高,且出现比较频繁的这个问题,我们提出了一个“自我批评”的方法,直接批评错误答案的敏感度的重要区域。首先,对于每个QA, 我们确定了最影响网络预测正确答案的重要区域。 然后,当网络对这个问题的预测答案是错误的时,我们惩罚了它专注于这个区域的网络。

我们的自我批评方法是端到端可训练的,只要求基本的VQA系统与视觉内容是可微的, 因此,可以应用于大多数目前最先进的系统… 我们调查了三种确定重要区域的方法。 首先,和以前的工作一样,我们使用了人类明确标记为重要的区域。 然而,这需要相当多的额外人力来提供这样详细的注释。 因此,我们还利用VQA-X[18]数据集的人类文本VQA解释来确定重要的对象,然后将其接地到图像中的重要区域。 最后,我们试图只使用问题或答案中提到的对象来确定重要区域,并将它们置于图像中,这不需要对VQA训练数据进行额外的人工注释。

我们使用VQA-CP数据集[1]上的UpDnVQA系统[2]来评估我们的方法,并实现了一种新的最先进的性能(目前为47.7%):即用VQA-X[18]文本解释的49.5%个总体得分,49.1%用VQA-HAT[7]视觉解释,48.5%在问答中使用刚才提到的对象。

三、相关工作

3.1 Human Explanations for VQA(人类对VQA的解释)

最流行的VQA数据集[4]有两种主要的人类解释,即视觉解释和文本解释 。 VQA-HAT数据集[7]是一个视觉解释数据集,通过给人类专家模糊的图像来收集人类注意力地图 ,让他们决定在哪里去模糊以回答给定的视觉问题。 或者,[18]提出了VQA-X数据集,该数据集将文本解释与每个QA对相关联,人类提供了这一解释来证明对给定问题的答案是合理的。 在这项工作中,我们利用这两种解释来提供重要的区域。

3.2Language Priors in VQA(VQA中的语言先验)

语言先验在VQA中是指问题类型及其答案高度相关的事实 。 例如,以“多少”开头的问题通常由两个或三个回答。 这些语言先验允许VQA系统在回答问题时采取捷径,只关注问题而不对视觉内容进行推理。 为了防止这种快捷方式,VQA V2平衡了答案分布,使每个问题至少存在两个具有不同答案的相似图像。 最近,[1]引入了一种名为VQA-CP 的VQAv2数据集的诊断重配置,其中训练集中QA对的分布与测试集中的QA对的分布显著不同。大多数最先进的VQA系统被发现高度依赖于语言先验,并在VQA-CP上经历灾难性的性能下降。 我们评估了我们的VQA-CP方法,以证明它推广得更好,对分布变化不那么敏感。

3.3Improving VQA using Human Explanations(利用人类解释改进VQA)

VQA系统的理想特性是不仅推断出视觉问题的正确答案 ,而且是基于人类认为重要的图像区域的答案,即基于正确的理由。 解决这一问题的VQA系统可分为两类。 第一个趋势是建立一个系统,其模型本质上是可解释的。 另一种趋势是将系统的解释与人类专家对正确答案的解释相一致。

四、Preliminaries(准备工作)

4.1Bottom-Up Top-Down VQA 自下而上、自上而下的VQA

大量以前的VQA系统[8,5,21]利用卷积特征上可训练的自顶向下注意机制来识别相关的图像区域。 [2]引入了自下而上的互补注意,首先检测共同的对象和属性,以便自上而下的注意可以直接模拟更高层次概念的贡献。 这种UpDn方法在最近的工作[25,31,14,32,26]中得到了广泛的应用,并显著提高了VQA的性能。

从技术上讲,在视觉方面, 对于每个图像,UpDn系统首先提取每个图像的视觉特征集V={vi,…,v|V},其元素vi是第 i 个检测对象的特征向量。在语言方面,UpDn系统顺序编码每个问题Q,使用以h表示的标准单层GRU[6]生成问题向量q,即。 q=h(Q)。 设 f 表示以视觉特征和问题特征为输入的答案预测算子,并预测答案候选集a中每个答案A的置信度,即
在这里插入图片描述
为了与评价指标一致,VQA任务被框架为一个多标签回归问题,以金标准软分数为目标。 特别是,标准二元交叉熵损失Lvqa被用来监督sigmoid-normalized输出。

4.2Proposed Inflfluential Object Set Construction提出的有影响力对象集构造

我们的方法理想地需要识别人类认为回答问题最关键的重要区域。 然而,直接从视觉或文本解释中获得如此清晰的一组有影响力的对象是很困难的,因为视觉解释也突出了最具影响力的周边对象,并且在文本中对文本进行解释仍然是一个活跃的研究领域。我们通过识别每个QA对的一组有影响力的对象来放松这一要求。这个集合可能是嘈杂的,包含一些不相关的对象,但我们假设它至少包含最相关的对象。 如前所述,我们探讨了三种不同的方法来构建这一建议集,如下所述:
(1) 从视觉解释构建。 在HINT[25]之后,我们使用VQA-HAT数据集[7]作为视觉解释源。 HAT地图共包含59,457个图像问题对,相当于大约9%的VQA-CP训练和测试集。 我们还继承了HINT的对象评分系统, 该系统基于提案框内相对于框外归一化能量的归一化人类注意力映射能量。 我们从自下而上的注意力中对每个检测到的对象进行评分,并通过选择最上面的|对象来构建潜在的对象集。
(2) 从文本解释构建。 最近,[18]引入了一个文本解释数据集,注释32,886个图像问题对,对应于整个VQA-CP数据集的5%。为了提取潜在的对象集合, 我们首先使用SpaCyPOS标记[11]在解释中给每个单词分配词性(POS)标签,并提取句子中的名词。 然后,我们选择检测到的对象,其类别名称的 Glove嵌入[19]与任何提取的名词之间的余弦相似度大于0.6。 最后,我们选择相似度最高的对象。
(3)由问答构成。 由于上述解释可能在其他数据集中不可用,我们还考虑了一种简单的方法,来仅从训练QA对中提取建议对象集。 该方法与我们从文本解释中构造势集的方法非常相似。 唯一的区别是,我们不解析解释,而是解析QA对,并从它们中提取名词。

五、方法

在本节中,我们提出了我们的自我批评方法,以防止最常见的答案主导正确的答案给定建议集的有影响力的对象。
图2显示了我们的方法概述。
在这里插入图片描述

除了UPDN VQA系统(左上部分),我们的方法包含两个其他组件, 我们首先认识和加强最有影响力的物体(左下部分), 然后,我们批评不正确的答案比正确的答案更高的排名,并试图使他们对这些关键对象不那么敏感(右侧部分)。我们使用一个改进的GradCAM[24]来计算答案a对第一个对象特征vi的敏感性,如公式1所示
在这里插入图片描述

对GrADCAM有两个修改:(1)删除Relu单元,(2)梯度不再被它们的特征向量加权。
这是因为对Relu的输入的负梯度是对抗当前预测的有价值的证据。
因此,没有必要用Relu将它们剔除。 此外,在它们被特征向量加权之前,梯度表明任何方向的微小变化如何影响最终预测。如果被特征向量加权,则输出倾向于反映仅由对象的现有属性引起的影响,从而忽略可能出现在测试数据中的其他潜在属性。

5.1认识和强化影响对象

给定提议对象集 I 和整个检测对象集V, 我们确定了正确答案最敏感的对象,并进一步加强了它的敏感性。 对于答案a和第 i 和第 j 对象特征vi和vj作为vj超过vi的灵敏度,引入灵敏度违反项在这里插入图片描述
基于假设集合包含至少一个人类将用来推断答案的有影响力的对象,我们强加了约束,即建议集中的最敏感对象要比建议集之外的任何对象都敏感一点, 因此,我们在方程中引入了影响强化损失在这里插入图片描述
其中agt表示基本真实答案。 我们的影响加强损失和基于排序的提示损失之间的关键区别在于(1)我们放松了不必要的约束,对象应该遵循精确的人类排名,(2) 更容易适应不同类型的解释(例如。 文本解释)

5.2 批评不正确的显性答案

其次,对于错误的答案的排名高于正确答案,我们试图降低灵敏度的影响对象。例如,在VQA CP 中,卧室是最常见的房间类型。因此,在测试期间,系统经常错误地将浴室(在训练数据中很少见)分类为卧室。由于人类在识别浴室时将水槽识别为有影响的物体,所以我们希望减少水槽对最终卧室的影响。
为了解决这个问题,我们设计了一个自我批评的目标来批评VQA系统基于最具影响力的目标v*的不正确但有竞争力的决定 ,根据公式4的定义,正确答案最为敏感。
在这里插入图片描述
具体来说,我们以高于正确答案B={a1,a2,…,a | B |}的置信度提取至多B个预测的桶,并利用所提出的自临界损失Lcrit直接最小化桶B中的答案对所选最有影响对象的加权灵敏度,如等式5所示。
在这里插入图片描述
其中agt表示基本真实答案。因为几个候选答案可能相似(例如cow和cattle),我们用答案的300-d Glove嵌入之间的余弦距离来加权公式5中的灵敏度缺口,即
在这里插入图片描述
在多词回答的情况下,这些答案的Glove嵌入计算为单个单词Glove嵌入的总和。

六、实验结果

6.1合成数据的结果

1、表明自我批评方法有帮助
在这里插入图片描述
从左到右,在0.05、0.1、0.2、0.5的不同类比p下,综合数据的决策边界和测试集精度是不同的。训练数据显示在顶行,测试显示在底行。红色和蓝色代表不同的类别。虚线和实线分别表示预训练和微调模型的边界。

2、在VQA-CP测试和VQAV2验证数据集上的结果与最先进的系统的比较。
在这里插入图片描述

6.2VQA数据的结果

1、 VQA-CP试验数据各种影响强化损失权重的消融研究
在这里插入图片描述

2、 各种自我临界损失权重对VQA-CP试验数据的消融研究。
在这里插入图片描述
3、实证结果表明,我们的自我批判推理方法可以防止UpDn基线系统中错误预测的答案对最有影响的对象敏感。
在这里插入图片描述对于每一个例子,前两个图显示了基本真实(左)和错误预测(右)的答案的对象是敏感的。下面两个图显示了我们自我批评训练后最有影响力的对象。注意,对错误答案的注意力转移到图像中与该答案更相关的部分。边界框周围的数字是答案对对象的敏感度。

七、结论与未来工作

在这项工作中,我们探讨了如何通过批评错误答案对正确答案最有影响的对象的敏感性来提高VQA的性能。我们的“自我批评”方法有助于VQA系统将问题-答案对的分布与训练数据明显不同的测试数据进行概括。有影响的对象是从人类视觉或文本解释中提取的建议集中选择的,或者只是从问答中提到的对象中选择的。我们的方法在VQA-CP数据集上的性能明显优于最先进的VQA系统,即使没有人为的解释作为额外的监督。 在未来,我们希望将视觉和文本解释结合在一起,以更好地训练VQA系统。 这很难,因为这两种解释的建议对象集 问题包含不同类型的噪声(即问题无关对象),因此存在不同的偏差。

全部评论 (0)

还没有任何评论哟~