Advertisement

论文-《GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering》

阅读量:

论文下载

摘要(Abstract):

We introduce GQA, a new dataset for real-world visual reasoning and compositional question answering, seeking to address key shortcomings ofprevious VQA datasets. We have developed a strong and robust question engine that leverages Visual Genome scene graph structures to create 22M diverse reasoning questions, which all come with functional programs that represent their semantics. We use the programs to gain tight control over the answer distribution and present a new tunable smoothing technique to mitigate question biases. Accompanying the dataset is a suite ofnew metrics that evaluate essential qualities such as consistency, grounding and plausibility. A careful analysis is performed for baselines as well as state-of-the-art models, providing fine-grained results for different question types and topologies. Whereas a blind LSTM obtains a mere 42.1%, and strong VQA models achieve 54.1%, human performance tops at 89.3%, offering ample opportunity for new research to explore. We hope GQA will provide an enabling resource for the next generation ofmodels with enhanced robustness, improved consistency, and deeper semantic understanding ofvision and language.

这里介绍了一个新的数据集GQA,用于对真实图像进行推理和对合成问题进行回答,来解决之前VQA数据集存在的缺陷。作者开发了一个问题引擎,利用Visual Genome数据集的场景图来构建2200万个不同的推理问题,问题都带有一个功能程序,该功能程序表示问题的语义信息,可以用来对答案进行严格控制,并使用新的技术来减少问题偏差。和数据集相对应的还有一套新的度量标准。对baseline和state-of-the-art进行了充分分析。

介绍(Introduction):

人工智能的目标之一就是吸收知识并进行推断,这个能力在VQA中得到了很好的应用,虽然VQA任务取得了很大的进步,但是目前的VQA数据集存在着很大的缺陷,使得对模型的检测非常不可靠。当前数据集中存在一个较为普遍的现象,就是对现实世界具有先验性。比如默认大多数番茄是红色的,大多数桌子是木制的,这种缺陷被VQA模型所利用,削弱了模型的推理能力。另外,由于缺乏关于问题的注释,很难发现影响模型推理能力的因素。

为了解决上述问题,作者提出了GQA数据集,该数据集可以对真实图像进行视觉推理,对合成问题进行回答。并开发一个健壮的问题引擎,利用外部内容和结构生成超过2200万个新奇多样的问题。GQA减少了数据集的偏差,不仅对二值问题有效,还对开放式问题有效。除了数据集,作者还设计一套度量标准,包括一致性、有效性、可信性、接地性和分布性。GQA结合了当前方法中较好的内容,一方面有清晰的语义表示,另一方面有丰富的视觉信息。

主要贡献(main contributions):

(1) the GQA dataset as a resource for studying visual reasoning; 提出用于研究视觉推理的GQA数据集

(2) development of an effective method for generating a large number of semantically varied questions, which marries scene graph representations with computational linguistic methods;提出一种有效的生成大量语义变化问题的方法

(3) new metrics for GQA, that allow for better assessment of system success and failure modes, as demonstrated through a comprehensive performance analysis of existing models on this task. 针对GQA提出新的衡量机制,用于评估模型的好坏

相关工作(Related Work):

最近几年视觉理解方面取得了重大的进展,许多方法都尝试缓解VQA数据集的偏差,但是一直没找到完全能解决的方案。其中VQA2.0数据集缓解了VQA1.0中存在的一些问题,但是不能对开放式问题进行很好的处理。另外还有人将问题划分为训练集和验证集,但是这样可能对模型学习图像信息造成不利影响。

在创建数据集时,从CLEVR中获得了部分灵感,CLEVR由人工合成的图像和问题组成,多样性较低,类和属性较少,容易使模型记住所有组合。相反GQA是由真实图像组成,并在一个大的语义空间中运行,使GQA的任务更具挑战性。

早期VQA数据集中问题生成只是为了扩大数据量,这些数据集一般规模较小或者对象数目较少,即便是最近提出的神经选择视觉问题的生成效果也并不理想。

GQA数据集(The GQA Dataset):

GQA数据集围绕真实图像推理、场景理解和合成问题回答等一系列任务,由113000张图像和2200万个不同的问题组成。该数据集衡量了一些列推理技能,比如对象属性识别、传递关系跟踪、空间推理、逻辑推理比较等。

每个图象都用一个场景图进行注释,表示其包含的对象、属性及关系;每个问题与一个功能程序相关联,该程序列出了获得答案需要执行的一系列步骤;每个答案都带有文本和视觉对齐方式,指向图像中的相关区域。

数据集的四步构造过程:(1)彻底整理合并和每个图像相关联的Visual Genome场景图;(2)遍历图中的对象关系,与VQA2.0的语法模式和各种各样的概率语法规则相结合,生成语义丰富多样的问题;(3)使用基本的语义形式来减少答案分布的偏差,从而得到一个平衡的数据集;(4)最后讨论问题功能表示,并解释怎样推断问题之间的蕴涵关系。

场景图归一化(Scene Graph Normalization):

场景图作为图像的形式化表示:每个节点表示一个对象,比如人、苹果;每个节点有指定位置和大小,包含1-3个属性,比如形状、颜色;对象之间由边连接,表示动作、空间关系。

问题引擎(The Question Engine):

问题引擎是一个核心步骤,负责生成不同程度的、多样的、相关的问题。生成过程利用了两种资源:一种是场景图,为引擎提供了关于对象、属性、关系的丰富内容信息,另一种是结构模式,该模式可以将内容塑造为一个问题。

为了增加问题的多样性,除了使用对象、属性的同义词外,还使用概率的形式选择短语或者替换表达式。并且为每个对象引用一组直接或者间接的候选答案,其中直接的应用于对象可以被卫衣检测到时,间接应用于多部推理时。另外,还设置一组诱导答案,在设置诱导答案时,会根据概念手动定义,排除过于干扰的答案,比如粉色和橙色。

功能表示和蕴涵(Functional Representation and Entailment):

每个问题模式都和功能程序的结构表示相关联,一组程序由原子操作组成,比如对象选择、沿关系边遍历或属性验证等,然后将这些原子操作连接在一起创建具有挑战性的推理问题。

这种语义上的明确表示带来了许多优势。第一,哥哥好的评估模型的好坏;第二,帮助平衡数据集的分布,减少问题的先验性,防止有根据的猜测;第三,识别问题的蕴涵和等价关系。

取样和平衡(Sampling and Balancing One):

现有VQA数据集的主要问题之一就是普遍存在问题条件偏差,这种偏差允许模型在不真正理解图像内容的情况下进行有根据的猜测,但是在GQA数据集中,问题语义的精确表示可以极大的缓解这种缺陷。

对于一个问题的功能程序,会有两个标签,全局和局部。全局标签分配问题的答案类型,比如颜色,局部标签进一步区分,比如苹果的颜色。使用标签根据先全局后局部将问题划分为不同的组,使每个组的答案分布尽可能均衡。

这个方案的优点是保留了实际的趋势,将分布调整到一个合适的状态。

最后根据问题类型进行抽样,控制数据集的类型组合,并去掉语义上过于相似的冗余问题。 数据集最终被分类70%的训练集,10%的验证集,10%的测试集,10%的挑战集。

分析并进行baseline实验(Analysis and Baseline Experiments):

数据集分析和比较(Dataset Analysis and Comparison):

GQA数据集由22669678个问题和113018张图片构成,涵盖了各种推理技能,所需的推理步骤各不相同。数据集词汇表包含一个3097个单词的词汇表和1878个可能出现的答案,虽然该数据集比自然语言数据集要小,但是在VQA任务中覆盖面已经较为广泛。

问题主要有两种类型,一种是结构类型 ,另一种是语义类型 。结构类型由功能程序的最终操作派生而来:(1)对是/否问题的验证 ;(2)对开放式问题的询问 ;(3)对有两个可选答案的问题的选择 ;(4)对两个或多个对象的比较 。语义类型指的是问题的主题:(1)对象 :存在于问题中的;(2)属性 :考虑一个对象的性质或位置;(3)分类 :与某些类的关系:(4)全局 :表示整个场景的性质,比如天气或地点。

baseline实验(Baseline Experiments):

在GQA数据集上进行不同模型和人类的测试,baseline包含一个“盲的”LSTM,只评估问题,包含一个“聋的”CNN,只评估图像,一个LSTM+CNN,还有两个基于问题的先前模型(全局和局部)。可以看到都取得了较低的结果。另外还评估了由下而上的注意力模型和MAC模型,其中MAC模型是目前最先进的注意力模型,虽然超过了baseline,但是仍然与人类的得分相差甚远。

传输性能(Transfer Performance):

这里检测一下GQA数据集和VQA数据集的传输性能,即在一个上进行训练另一个上进行测试。一个在GQA上训练的MAC模型,再VQA上微调前为52%,微调后为60.5%,相比训练和测试都在VQA数据集上进行的LSTM+CNN为51.6%和MAC为68.3%,这已经是一个不错的结果,这些结果表明GQA问题有着良好的真实性和多样性。与此相反,如果MAC模型在VQA上进行训练然后在GQA上进行测试,微调前结果为39.8%,微调后为46.5%,这表明GQA还面临着进一步的挑战。

新评估机制(New Evaluation Metrics Apart):

除了精确度和基于类型的判断,还引入了五个新的度量指标。

一致性(Consistency)。 度量不同问题之间的一致性,比如模型在遇到一个新问题时,所推测的答案不应该与之前的答案相抵触。

有效性和合理性(Validity and Plausibility)。 有效性检测答案是否在问题范围内,比如询问颜色是否回答的是颜色,合理性则是进一步测量答案是否合理。

分布性(Distribution)。 度量真实答案分布和模型预测分布之间的总体匹配程度。

接地性(Grounding)。 定义以一个指针指向和问题或答案有关的可视化区域,测量模型对该区域的关注度(概率)。

全部评论 (0)

还没有任何评论哟~