GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering
GQA:一个用于真实世界视觉推理和合成问题回答的新数据集
我们引入了GQA,一个新的用于真实世界视觉推理和合成问题回答的数据集,试图解决先前VQA数据集的主要缺点。我们开发了一个强大而健壮的问题引擎,它利用视觉基因组场景图结构来创建2200万个不同的推理问题 ,这些问题都带有表示其语义的功能程序 。我们使用这些程序来获得对答案分布的严格控制,并提出了一种新的可调平滑技术来减轻问题偏差。伴随数据集的是一套新的衡量标准,用于评估一致性、基础和合理性等基本品质。对基线和最先进的模型进行了仔细的分析,为不同的问题类型和拓扑提供了精细的结果。而盲人LSTM只获得42.1%,强壮的VQA模型获得54.1%,人类表现最高为89.3%,为新的研究探索提供了充足的机会。我们希望GQA将为下一代模型提供一个赋能资源,增强健壮性,提高一致性,并加深对视觉和语言的语义理解。
回答一个好问题不仅仅需要聪明的猜测 。吸收知识并利用它进行推理的能力是人工智能的神圣领域之一。这个目标的一个具体形式体现在虚拟问题回答(VQA)的任务中,在这个任务中,系统必须通过对所呈现的信息进行推理来回答自由形式的问题。这项任务需要丰富的能力,如对象识别、常识理解和关系提取,跨越视觉和语言领域 。近年来,它在整个研究界引起了极大的兴趣,变得非常受欢迎
任务的多模态性质和多样性 解决不同问题所需的技能使VQA特别具有挑战性。然而,设计一个好的测试来反映它的全部质量和复杂性可能不是那么微不足道。尽管该领域最近取得了长足的进步,但通过一系列研究已经确定,现有的基准存在严重的漏洞,使得它们在测量视觉理解能力的实际程度时非常不可靠[39,11,2,8,3,13,18]
当前基准的缺陷中最显著的是数据中显示的强大而普遍的现实世界先验[39,11,3]——大多数西红柿是红色的,大多数桌子是木制的。这些反过来又被VQA模型所利用,这些模型严重依赖于答案分布中的这种统计偏差和趋势 ,从而在很大程度上规避了对真实视觉场景理解的需求[2,11,15,8]。从语言学和语义学的角度来看,许多问题的简单性加剧了这种情况,实际上这些问题很少需要超出物体识别范围的东西[33]。因此,早期的基准导致对场景理解状态的夸大感,严重降低了它们的可信度[37]。除此之外,缺乏关于问题结构 和内容的注释 使得理解影响模型行为和性能的因素 以及识别其错误背后的根本原因变得困难。
为了解决这些缺点,同时保留真实世界图像的视觉和语义丰富性,我们引入了GQA,一个用于视觉推理和复合问题回答的新数据集。我们开发并精心完善了一个强大的问题引擎,利用内容 :通过视觉基因组场景图[20]提供的关于对象、属性和关系的信息 ,以及结构 :一种新创建的广泛的语言语法,它耦合了数百种结构模式 和详细的词汇语义资源 。在我们的引擎中,它们组合在一起生成了超过2200万个新颖而多样的问题,这些问题都以功能程序的形式提供结构化表示 ,这些功能程序指定了它们的内容和语义 ,并且在视觉上以图像场景图为基础。
GQA问题涉及各种推理技巧 ,尤其是多步推理 。我们进一步使用关联语义 表示来大大减少数据集内的偏差,并控制其问题类型组成,对其进行下采样以创建1.7M的平衡数据集。与VQA 2.0相反,这里我们不仅平衡二进制问题 ,还平衡开放问题,通过应用可调平滑技术 ,使每个问题组的答案分布更加均匀。就像一个精心设计的考试一样,我们的基准测试让“有根据的猜测”策略远没有那么有价值,而是要求对视觉和语言内容进行更精细的理解 。
除了数据集,我们还设计了一套新的指标,包括一致性、有效性、合理性、基础和分布分数 ,以补充通常用于评估方法性能的标准准确性度量 。事实上,研究表明,仅ac- curacy度量并不能解释模型所展示的一系列异常行为,如忽略关键问题词或关注不相关的图像区域[2,8]。其他的一些著作认为有必要设计新的评估方法和技术 来揭示系统的内部运作[18,34,35,17]。事实上,除了提供新的度量标准,甚至可以直接支持开发更具可解释性的模型,因为它提供了一个长达一句话的解释来证实每个答案 ,并进一步将问题和回答中的每个单词与图像中相关区域的可视指针相关联,这在本质上类似于朱等人[41]、帕克等人[29]和李等人[22]的数据集。这些反过来可以作为一个强有力的监督信号 ,以增强透明度和可访问性 来培训模型。GQA结合了两个世界的优点,一方面有清晰的语义表示 ,另一方面享受真实世界图像的语义和视觉丰富性 。我们的三个主要贡献是:(1)GQA数据集作为研究视觉再现的资源;(2)开发一种有效的方法来生成大量语义不同的问题,它将场景图表示与计算语言学方法 结合起来;(3)GQA的新指标,允许更好地评估系统的成功和失败模式,通过对现有模型的综合性能分析证明了这一点。我们希望GQA数据集将为开发新方法提供肥沃的土壤,这些新方法将拓展问题回答和视觉推理 的边界。

Conclusion
本文介绍了用于现实世界视觉推理和组合问题回答的GQA数据集。我们描述了数据集生成过程,提供了基线实验,并定义了新的度量来更深入地了解模型的行为和性能。我们相信,这个基准可以帮助推动VQA研究朝着正确的方向发展,即更深入的语义理解、合理的推理、增强的健壮性 和改进的一致性 。实现这些目标的一个潜在途径可能涉及视觉知识提取和问题回答 之间更多的内部集成,这两个蓬勃发展的领域经常被独立追求。我们强烈希望,GQA将激励和支持开发更多合成的、可解释的和令人信服的推理模型,以推进场景理解和视觉问题回答的研究。
