Advertisement

用于鲁棒性视觉问答的循环一致性模型《Cycle-Consistency for Robust Visual Question Answering》

阅读量:

目录

一、文献摘要介绍

二、网络框架介绍

三、实验分析

四、结论


本文有点长,请耐心阅读,定会有收货。如有不足,欢迎交流 附: 论文下载

一、文献摘要介绍

Despite signifificant progress in Visual Question Answer ing over the years,_robustness of today’s VQA models leave much to be desired.___We introduce a new evaluation protocol and associated dataset (VQA-Rephrasings) and show that state-of-the-art VQA models are notoriously brittle to linguistic variations in questions.VQA-Rephrasings contains 3 human-provided rephrasings for 40k questions spanning 40k images from the VQA v2.0 validation dataset.__As a** step towards improving robustness of VQA models, we propose a model-agnostic framework that exploits cycle con** _sistency._Specififically, we train a model to not only answer a question, but also generate a question conditioned on the answer, such that the answer predicted for the generated question is the same as the ground truth answer to the orig inal question. Without the use of additional annotations, we show that our approach is signifificantly more robust to lin guistic variations than state-of-the-art VQA models, when _evaluated on the VQA-Rephrasings dataset. In addition,_our approach outperforms state-of-the-art approaches on the standard VQA and Visual Question Generation tasks on the challenging VQA v2.0 dataset.

作者认为,尽管多年来人们在视觉问答方面取得了长足的进步,但当今的VQA模型的鲁棒性仍有很多不足之处,比如下图。

上图可以看到,对于同一个问题,不同的表述,回答竟然不一致。为此作者介绍了一种新的评估方案和相关数据集(VQA-Rephrasings),并表明最先进的VQA模型对于问题中的语言变化非常的脆弱。为了提高VQA模型的鲁棒性,作者提出了一个与模型无关的框架,该框架利用了循环一致性策略。数据集VQA-Rephrasings来自于VQAv2,是对4万个问题改述生成的4万张图的描述。为了改善VQA的鲁棒性,作者提出了使用循环一致性的model-agnostic框架。模型不仅能够回答问题,还能够根据答案生成问题。在没有使用另外的标注信息,基于VQA-Rephrasings数据集的结果表明该模型比其他的VQA模型更具有鲁棒性。

二、网络框架介绍

循环一致性体现在问题一致性和答案一致性这两方面,基于循环一致性的训练策略,如下图为所示。

如果我们用 Q 表示问题, I 表示图像, A 表示答案,那么一个VQA问题(上图中的a)可以表示为:F:(Q, I) → A′,一个VQG问题(上图中的b)可以表示为:G:(A, I) → Q′。如果给定一个(I,Q,A)元组,我们首先可以根据原始问题Q在VQA模型中获得一个预测答案A',然后用预测答案A'和图像 I 可以在VQG模型中生成一个原问题的改述问题Q′,最后我们可以根据Q'再生成A'',作者认为一个具有鲁棒性的VQA模型,改述问题Q'在语法和语义上正确,且跟原问题** Q** 表述一致,对于问题** Q** 和改述问题Q',回答的答案应该相同,下面进行详细分析该框架。

2.1 Question Generation Module

在VQA问题中,QA是一种对图像的有损压缩表示形式,这是有很大的损失,学习多个模态之间的映射绝非易事。一般的循环一致模型能够处理单个模态,然而像VQG这种多模态变换则需要额外的监督信息。在VQG中,这种监督信息作者用attention补充,这里的attention是由原问题定位到图像中相应的区域生成的,这样就使得VQG最后生成的问题和原始问题类似。

在整篇论文中,Q-consistency 意味着在基本的VQA模型F的基础上增加一个VQG模块G,以便从图像 I 和预测的答案A'中生成改述问题Q’,并带有相关的 Q-consistency 损失。同样,A-consistency 意味着将VQG模型G产生的所有问题传递给VQA模型F和相关的A-consistency 损失。全部损失可以写成:

其中,是交叉熵损失,是序列生成损失,λG,λC是可调的超参数。

2.2 Gating Mechanism

作者提出的周期一致训练方案的一个假设是,生成的问题在语义和语法上都是正确的。然而,在实践中,这并不总是正确的。 之前试图以答案为条件产生问题,并使用它们而不过滤来增加训练集数据,但都没有成功。因此,问题生成器产生的所有问题,并非所有问题都能够与I-Q-A一致,为了克服这个问题,作者提出了一种门控机制,以过滤掉一些不适合的问题。对于生成的问题Q',只保留答案与原始答案的余弦相似度阈值大于Tsim的。

2.3 Late Activation

设计周期一致性模型的一个关键环节是防止模式(mode collapse)坍塌现象。因为循环一致模型有多个连接的子网络,因此确保各个子网络之间的正常工作是必要的。为了确保VQA和VQG都能有效的产生合理的输出,作者通过在训练的最后阶段激活循环一致(activating cycle-consistency at later stages of training)来解决这个问题。

以上的三个模块都是非常有必要的,作者后续又进行了ablation study进行了说明。VQA模型中对Q的回答和Q'的回答是权值共享的。另外,这里的循环一致处理也可以认为是一种在线的数据增广方式。

2.4VQA-Rephrasings Dataset

VQA-Rephrasings Dataset是首个能够进行一致性和鲁棒性(robustness and consistency)VQA模型评估的数据集。作者的base dataset来自于VQAv2验证集的一部分(validation split of VQAv2),它一共包含了214354个问题和40504张图片。作者随机在VQAv2验证集采样了40504个问题(一个问题一张图片)构成采样子集。作者用两阶段方式对每个问题用人工标注的方式生成3个改写问题,第一阶段,根据原始的Q-A改写问题,改写后的问题回答要与原始答案一致;第二阶段,对第一阶段的问题进行语法和语义检查,以下两种情况标记为无效答案:a.改写后的问题答案对于原始问题来说貌似合理,但两个问题的目的不同,b.改写后的语法错误。第一个阶段从40504个问题收集到了121512个改写问题,第二阶段标记出1320个无效问题,最后获得了162016个问题(包括改写的121512个和原始的40504个)和40504张图片,平均每张图片约3个改写问题,一些样本示例如下:

如果一个VQA模型要在同一问题的不同改述之间保持一致,那么对所有改述的答案都应该是相同的。我们以CS(K)的一致评分来衡量这一点,一个问题组Q有n个改写,我们选取出其中的k个,那么一致得分则可以用下式来计算:

其中,

很明显,在k值较高的情况下,平均一致性得分较高的模型在数量上对问题的语言变化比得分较低的模型具有更强的鲁棒性。

三、实验分析

3.1一致性表现

对于所有使用循环一致框架进行训练的模型,我们使用的值为:,λG=1.0,λC=0.5,Aiter=5500。作者基于VQA-Rephrasings数据集对一系列模型进行评价,模型包括:MUTANBottom-Up Top-Down AttentionPythiaBilinear Attention Networks,下图显示了几个VQA模型的不同K值的一致分数的比较结果。

之后作者在4个改述上进行了文本和视觉注意力的比较,结果也体现出了模型的鲁棒性:

3.2 VQA表现

作者在这部分,在各个实验模型上进行了消融性研究,对各个模块进行了分析,结果如下图所示。

3.3 VQG性能

作者进行了两个模型的比较——iVQA和iQAN,实验结果如下所示:

3.4失败预测的表现

前面介绍过提高模型鲁棒性的办法之一就是生成问题,产生更丰富的数据集(training models to generate and answer questions);另一个办法就是看模型能否预测他们的失败(to see if models can predict their own failures)。所以作者使用了两个预测失败机制,首先,用置信阈值来区分答案,其次,作者设计了一个失败预测二值分类模型FP(failure prediction binary classification module),通过给定(I,Q)来预测答案是否正确,实验结果如下:

四、结论

In this paper, we propose a novel model-agnostic training strategy to incorporate cycle consistency in VQA models to make them robust to linguistic variations and self-aware of their failures. We also collect a large-scale dataset, VQA-Rephrasings and propose a consensus metric to measure robustness of VQA models to linguistic variations of a question. We show that models trained with our training strategy are robust to linguistic variations, and achieve state-of-the-art performance in VQA and VQG on VQA v2.0 dataset.

本文没有提出新的模型,而是在原有数据集的基础上进行问题的改述,增强数据集,以至于给模型带来鲁棒性,提高性能,值得参考。

全部评论 (0)

还没有任何评论哟~