基于反事实样本合成的鲁棒视觉问答模型《Counterfactual Samples Synthesizing for Robust Visual Question Answering》
这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收获。如有不足,随时欢迎交流和探讨。
一、文献摘要介绍
Despite Visual Question Answering (VQA) has realized impressive progress over the last few years, today’s VQA models tend to capture superficial linguistic correlations in the train set and fail to generalize to the test set with differ ent QA distributions. To reduce the language biases, several recent works introduce an auxiliary question-only model to regularize the training of targeted VQA model, and achieve dominating performance on VQA-CP. However, since the complexity of design, current methods are unable to equip the ensemble-based models with two indispensable charac teristics of an ideal VQA model: 1) visual-explainable: the model should rely on the right visual regions when making decisions. 2) question-sensitive: the model should be sensi _tive to the linguistic variations in question.__To this end, we propose a model-agnostic Counterfactual Samples Synthesizing (CSS) training scheme.___The CSS generates numerous counterfactual training samples by masking critical objects in images or words in questions, and assigning different ground-truth answers . After training with the complemen tary samples ( i.e ., the original and generated samples), the VQA models are forced to focus on all critical objects and words, which significantly improves both visual-explainable and question-sensitive abilities. In return, the performance of these models is further boosted. Extensive ablations have shown the effectiveness of CSS. Particularly, by building on top of the model LMH , we achieve a record-breaking performance of 58.95% on VQA-CP v2, with 6.5% gains.
尽管视觉问答(VQA)在过去几年中已经取得了令人瞩目的进步,但是当今的VQA模型倾向于捕获训练集中的表层语言相关性,而不能推广到具有不同QA分布的测试集中。为了减少语言偏见,最近的一些工作引入了一个辅助的仅问题模型,以规范化针对性VQA模型的训练,并在VQA-CP上取得主要表现。但是,由于设计的复杂性,当前的方法无法为基于集成模型的模型配备理想VQA模型(如图1所示)的两个必不可少的特征:1)视觉可解释能力:在做出决策时,模型应依赖正确的视觉区域,如图1(a)。 2)问题敏感能力:模型应该对所讨论的语言变化敏感。为此,作者提出了一种与模型无关的反事实样本合成(CSS)训练方案。 CSS通过掩盖图像中的关键对象或问题中的单词并分配不同的真实答案来生成大量反事实训练样本。在使用互补样本(即原始样本和生成的样本)进行训练后,VQA模型被迫专注于所有关键对象和单词,从而显着提高了视觉可解释性和问题敏感性能力。
二、网络框架介绍
作者提出的CSS由两种不同类型的样本合成机制组成(如图2所示):V-CSS和Q-CSS。对于V-CSS,它通过掩盖原始图像中的关键对象来合成反事实图像。 “关键”是指这些对象在回答某个问题时很重要(例如,“男人的领带是什么颜色”问题的对象)。然后,反事实图像和原始问题组成了一个新的图像问题(VQ)对。对于Q-CSS,它通过使用特殊标记“ [MASK]”替换原始问题中的关键单词来合成反事实问题。同样,反事实问题和原始图像构成了一个新的VQ对。给定一个VQ对(来自V-CSS或Q-CSS),标准VQA训练样本三元组仍需要相应的真实答案。为避免昂贵的人工注释,我们设计了一种动态答案分配机制,以近似所有合成VQ对的真实答案(例如,图2中的“非绿色”)。然后,我们使用所有原始样本和合成样本训练VQA模型。经过大量互补样本训练后,VQA模型被迫专注于关键对象和单词。广泛的消融包括定性和定量结果都证明了CSS的有效性。 CSS可以无缝地集成到基于集成的方法中,这不仅提高了它们的视觉可解释性和对问题敏感的能力,而且还不断提高了VQA-CP的性能。
VQA任务的通用表述是一个多类分类问题, 在不失一般性的前提下,给定由图像,问题
和答案
三元组组成的数据集
,VQA任务将学习映射
,它会在给定图像问题对的情况下生成答案分布。 为简单起见,在以下各节中省略下标
。
2.1Preliminary
Bottom-Up Top-Down (UpDn) Model. 对于每个图像
,UpDn使用图像编码器\large e_v输出一组对象特征:
,其中
是第
个对象特征。对于每个问题
,UpDn使用问题编码器\large e_q输出一组单词特征:
,其中\large w_j是第
个单词特征,然后将V和Q馈入模型以预测答案分布:
模型通常包含注意机制,并且经过交叉熵损失训练。
Ensemble-Based Models. 基于集成的模型可以分为两个子类型:基于对手的模型和基于融合的模型。由于基于对手的模型遭受严重的不稳定训练并且性能相对较差,因此仅介绍基于融合的模型,如算法1所示,他们引入了一个辅助问题模型,该模型将
作为输入并预测答案的分布:
然后,他们合并两个答案分布,并通过函数获得新的答案分布
:
在训练阶段,根据融合的答案分布计算XE 损失,并通过
和
反向传播训练梯度。 在测试阶段,仅将模型fvqa用作普通VQA模型。
2.2Counterfactual Samples Synthesizing (CSS)
CSS训练方案的总体结构如算法2所示。具体来说,对于任何模型,给定训练样本
,CSS包括三个主要步骤:
- 用原始样本\large (I,Q,a)训练
模型; - 通过V-CSS合成反事实样本\large (I^-,Q,a^-)或通过Q-CSS合成反事实样本\large (I,Q^-,a^-);
- 用反事实样本训练
模型。
接下来,我们介绍V-CSS和Q-CSS的详细信息(即第二步)。 如算法2所示,对于每个训练样本,我们仅使用一种特定的合成机制,并且δ是权衡权重(有关不同δ的影响的更多详细信息,请参见图4(c))。
2.2.1****V-CSS
我们依次介绍V-CSS的执行路径(算法2中的第5至8行)的所有步骤,该步骤包括四个主要步骤:初始对象选择(IO_SEL),对象局部贡献计算,关键对象选择(CO_SEL) ,以及动态答案分配(DA_ASS)。
1. Initial Objects Selection (IO_SEL). 通常,对于任何特定的QA对\large (Q, a),图像\large I中只有几个对象是相关的。 为了缩小关键对象的选择范围,首先构造一个较小的对象集
,并假定
中的所有对象对于回答这个问题可能都是重要的,由于缺少每个样本的关键对象的注释,因此遵循[39]来提取与质量保证高度相关的对象。 具体来说,首先使用spaCy POS 标记器[19]将POS标签分配给QA中的每个单词,然后提取QA中的名词。 然后,计算对象类别的GloVe嵌入之间的余弦相似度,并将提取的名词,\large I和QA中所有对象之间的相似度分数记为
,我们选择
得分最高的
对象作为
。
2. Object Local Contributions Calculation. 在获得对象集
之后,我们开始计算每个对象对地面真实答案的预测概率的局部贡献,利用改进的Grad-CAM [35]得出每个参与者的局部贡献之后,我们计算第
个对象特征对地面真实答案\large a的贡献为:
其中是地面真实答案
的预测答案概率,
是第
个对象特征,而
是全1向量。 显然,如果分数
较高,则对象
对答案
的贡献较大。
3. Critical Objects Selection (CO SEL). 在获得
中所有对象的私有贡献分数
之后,选择得分最高的前\large K个对象作为关键对象集\large I ^+。 \large K是每个图像的动态数字,它是满足等式5的最小数字:
在η是常数的情况下,我们在所有实验中设置η=0.65(有关动态\large K设置的更多细节,请参见图4)。
然后,反事实视觉输入是集合
中集合
的绝对补码,即,
。 我们在图3中显示了
的示例。
4. Dynamic Answer Assigning (DA_Ass). 给定反事实的视觉输入\large I^-和原始问题
,我们组成了一个新的VQ对(\large I^-,
)。 要为VQ对(\large I^-,
)分配真实答案,我们设计了一种动态答案分配(DA_Ass)机制。算法3中显示了DA_ASS的详细信息。具体而言,我们首先将另一个VQ对(\large I^+,
)输入到
模型中,并获得预测的答案分布
。 基于
,我们选择预测概率最高的top-N答案为\large a^+。 然后我们定义
。在极端情况下, 如果模型可以预测所有地面真实情况正确回答VQ对(\large I^+,
),即\large a\subset a^+,然后\large a^-是
,即对于所有候选答案为零。基本动机是,如果当前模型可以预测(\large I^+,
)的地面真相答案(即\large I^+包含关键对象,而\large I^-不包含),则(\large I^-,Q)的地面真相不应包含原始地面真相答案 再例如,图2中的“不是绿色”。
2.2.2 Q-CSS
在Q-CSS中的所有步骤都类似于V-CSS。按照其执行路径(算法2中的第11至13行),它由单词局部贡献计算,关键单词选择(CW_SEL)和动态答案分配(DA_ASS)组成。
1. Word Local Contribution Calculation. 与V-CSS相似(参见等式4)我们计算第
个单词特征对地面真相答案\large a的贡献:
2. Critical Words Selection (CW_SEL.) 在这一步中,首先为每个问题Q2提取问题类型的单词(例如,图3中的“什么颜色”)。 然后,我们从剩下的句子(除题型词外)中选择得分最高的top-K单词作为关键词。**** 反事实问题\large Q^-是用一个特殊的标记“[MASK]”替换
中的所有关键字的句子。同时,\large Q ^+是通过将所有其他单词(问题类型和关键单词除外)替换为“ [MASK]”的句子。 我们在图3中显示了
,\large Q ^+和\large Q^-的示例。
3. Dynamic Answer Assigning (DA_ASS.) 此步骤与V-CSS中的DA_Ass(即算法3)相同。对于Q-CSS,DA_Ass的输入为VQ对\large (I,Q^+)。
三、实验分析
作者主要在VQA-CP测试集上评估了针对VQA提出的CSS。 为了完整起见,还在VQA v2验证集上提出了实验结果。 对于模型准确性,遵循标准的VQA评估指标,为了进行公平的比较,我们使用了公开可用的重新实现,对使用广泛的UpDn模型进行了所有相同的数据预处理步骤。
作者进行了多次消融来分析V-CSS和Q-CSS不同超参数的影响,如图4所示。
表1:不同VQA架构在VQA-CP v2测试集的准确度(%)。
表2:最新模型的VQA-CP v1测试集的准确度(%)。
表3:最新模型的VQA-CP v2测试集和VQA v2 val集的精度(%)。
表4:关于VQA模型视觉解释和问题敏感能力评价的定量结果。
图5展示了视觉可解释能力和问题敏感能力:
四、结论
In this paper, we proposed a model-agnostic Counterfactual Samples Synthesizing (CSS) training scheme to improve the model’s visual-explainable and question-sensitive abilities. The CSS generates counterfactual training samples by masking critical objects or words. Meanwhile, the CSS can consistently boost the performance of different VQA models. We validate the effectiveness of CSS through extensive comparative and ablative experiments. Moving forward, we are going to 1) extend CSS to other visual-language tasks that suffer severe language biases; 2) design a specifific VQA backbone to benefifits from CSS.
在本文中,作者提出了一种与模型无关的反事实样本合成(CSS)训练方案,以提高模型的视觉可解释性和对问题敏感的能力。 CSS通过掩盖关键对象或单词来生成反事实训练样本。 同时,CSS可以持续提高不同VQA模型的性能。 展望未来,我们将:1)将CSS扩展到遭受严重语言偏见的其他可视语言任务; 2)设计特定的VQA主干以从CSS中受益。
作者通过反事实样本训练VQA模型,减少语言偏见,这种方法值得借鉴和参考。
