Advertisement

Towards Robust Visual Question Answering: Making the Most of BiasedSamples via Contrastive Learning

阅读量:

走向鲁棒的视觉问题回答: 通过对比学习,最大限度地利用有偏样本

提出问题

视觉问答(VQA)模型往往受到虚假相关性的影响, 即基于语言的先验知识. 这种特性使其在分布外测试数据集上的表现不佳. 最近的研究尝试通过减少偏倚样本对训练过程的影响来缓解这一问题, 取得了部分进展. 然而, 在提升分布外测试数据上的性能方面所作的努力却严重削弱了其在由偏置样本主导的分布内数据上的表现.

解决方法和创新点

开发了一种创新的对比学习方案MMBS;该方案充分运用带偏差的数据样本来搭建鲁棒的VQA模型。

具体而言,则是通过从原始训练样本中剔除与语言先验相关的数据来生成用于对比学习的正类样例,并得出了几条利用这些生成样例进行优化的方法。值得注意的是,在这一过程中并未削弱有偏数据集在模型训练过程中的关键作用

针对OO(D)场景下的VQA-CPv2测试数据集表现出色;此外,在ID场景下的VQAv2测试数据集中也展现出稳定的性能。

方法

其中,在分类词汇识别过程中(或:在分类词汇识别阶段),使用颜色符号来区分原始样本与正样本的跨模态特征(或:用于区分原始样本与正样本的跨模态特征)。同一组中的其他样本被标记为负类,并以灰色圆形标记。

MMBS模型构造 :(1)一个骨干VQA模型;

(2)一个正样本构建模块;

(3)一个无偏样本选择模块;

(4)对比学习目标。

1.骨干VQA模型

骨干VQA模型在MMBS中能够灵活应用。现有大多数VQA模型主要包含以下四个组成部分:问题编码器eq(·)、图像编码器ev(·)、融合函数F(·)以及分类器clf(·)。

训练目标:最小化多标签软损失Lvqa,可以形式化如下:

2.正样本构造

为了充分运用有偏样本中蕴含着的无偏数据,在构建时需要先创建不含偏差的正样本数据集。

本文通过破坏每个输入问题(Qi)的问题类别信息来构建两种正问题(Q+i):

(1)洗牌:随机洗牌问题句中的单词,使问题类别单词与其他单词混合在一起。

这增加了建立问题类别和答案之间的相关性的难度。

(2)去除:在问题句中被移除问题类型词的行为。该行为彻底去除了答案与问题类型词之间的共同出现。

· 还提出了在训练中建构正问题的四种策略:

S:使用洗牌。

R:使用移除。

B:两个都用。

SR: 其中针对非Yes/No类型(例如'Num'或'Other')的问题采用洗牌策略,而对于Yes/No类型的问题则采用删除策略

采用上述任何一种策略,我们都可以得到输入样本

的正样本

。负样本

,其中

,是同批次的其他样本。B是训练的批量大小。

3.无偏样本选择

本文将无偏差样本(或OOD)被视为训练集中每个问题类别中较少出现的样本。

为了筛选出非偏见样本, 该文提出了一项创新算法, 其中包含三个主要步骤: (1)统计问题回答频率; (2)评估无偏性标准; (3)筛选具有代表性的样本。

答案频率

其中,

,为第i个样本的问题类别;

为 ground truth answer ;

为软目标分数;

为类别为

的所有样本的个数;引入一个超参数

来控制无偏样本的比例。 如果一个样本有一个多标签答案

,分别计算每个答案的得分。

基于熵的修正因子:

在不同问题类别中, 答案分布呈现出显著差异. 根据实践经验, 在熵较低的情况下, 更多的答案倾向于集中在较少数量的样本上, 因此无偏回答的比例应当较高; 相反地, 当熵较高时, 这种现象则不会发生. 如图所示:

因此,本文提出了一个基于熵的校正因子

来动态调整每个类别

的β:

其中E代表

,SUM表示

的和 。熵较低时,

更接近1,否则

更接近0。最后,我们得到无偏的答案比例

选取无偏样本:

对于每个问题类别

,我们得到一个在

中排名最末的

在构建分类模型时,请考虑以下步骤:首先生成一个包含若干候选答案的答案列表(这些候选答案均为可能正确的选项)。随后,在评估阶段通过计算每个候选答案与真实答案的相关性(通常以分数形式表示),并根据得分排序来确定最接近真实答案的那个候选作为最终结果。对于每一个待评估的回答项:

  • 如果它是有偏差的情况,则可依照上一节所述的方法来构造其正样本。
  • 如果它处于正确状态,则将直接采用原始数据作为其正类代表。

4.对比学习目标

本文使用余弦相似度cos(·)作为评分函数。对比损失表示为:

其中,输入样本

、正样本

和负样本

的跨模态融合分别表示为a,正 p 和负

通过最小化该变量来实现模型对来自积极问题(positive questions)的无偏信息的关注。MMBS的总损失则表示为:L =

,其中α为

的权重。

实验结果:

全部评论 (0)

还没有任何评论哟~