Advertisement

CVPR 2021 AGQA: A Benchmark for Compositional Spatio-Temporal Reasoning

阅读量:
动机
在这里插入图片描述
  1. 视觉事件是由一个涉及演员和物体的空间交互的时间动作组成的。人们对利用问答来实现视频推理能力的兴趣与日俱增。
  2. 现有的视频问答基准是有用的,但它们往往将多个误差源混入一个准确性度量中,并且具有模型可以利用的强烈偏差,使得模型的弱点很难精确定位。
  3. 对于现有的视频问答基准,由于答案分布的偏差和视觉事件发生的非均匀分布,模型可能会发展出“cheating”的方法,这种方法可以表面上猜测答案,而不学习潜在的合成推理过程。
  4. 视觉领域只开发了使用静态图像或同步世界的组合问答基准,这些静态图像或同步世界要么不是时空的,要么不反映真实世界事件的多样性。
  5. 为了有效地衡量模型对目标的时空推理、它们的关系和时间行为的联合组合程度,是需要更新的基准,对问题的组合和在问题和答案中概念的分布进行更细粒度的控制。
  6. 作者提出的基准,它定义了多个度量来探索真实世界视频中的组合推理。
  7. 相比之下,作者的语料库纯粹是基于视觉的,比之前的语料库大三个数量级,而且评估复杂的多步推理。
简介

提出了一种新的组合时空推理的基准–行动基因组问答(AGQA)(Action Genome Question Answering, AGQA)。AGQA包含针对9.6K视频的192M不平衡问题-答案对。还提供了一个由390万个问题-答案对组成的平衡子集,比现有的基准测试大3个数量级,通过平衡答案分布和问题结构的类型来最大限度地减少偏差。作者对AGQA中的问题和答案进行了验证,每个类别至少有50个问题使用人工标注器进行验证,发现标注器与作者的答案的一致性为86.02%。(虽然人类评估者对作者的问题-答案对回答正确的评分为86.02%,但最好的模型只达到了47.74%的准确率。)每个问题都由一个手工编制的程序生成,该程序概述了回答问题所需的必要推理步骤。作者的程序在Action Genome的时空场景图上操作,以自动生成问题-答案-视频对。程序通过在Charades的动作标注和Action Genome的时空场景图上进行操作生成问题,这些场景图将视频中所有带有边界框的目标和带有时间戳的动作ground。这些程序还为作者提供了对回答每个问题需要哪些推理能力的粒度控制。例如,AGQA中的一些问题只要求理解动作的时间顺序(例如:“Did they take a picture before or after they did the longest action?”(“他们在做最长的动作之前还是之后拍了一张照片?”)),而其他一些问题则要求同关系协作来理解动作(例如:“What did the person hold after putting a phone somewhere?”(“在把电话放在某个地方之后,这个人拿着什么?”))。作者通过在偏斜的答案分布上和在不同组成结构的家族中使用拒绝抽样来控制偏差。

通过对问题生成过程的粒度控制,作者还引入了一组新的训练/测试splits,用于测试特定形式的组成时空需求:对新组成的泛化,对间接引用的泛化,以及对更多组成步骤的泛化。作者测试模型(PSAC、HME和HRCN)是否推广到在训练过程中看不到的新的组成–训练集可以分别包含关系twist(转动)和目标bottle(瓶子),而测试集需要对诸如“Did the person twist the bottle after taking a picture?”(“拍照后的人转动瓶子了吗?”)这样的问题进行推理,这两个概念在一个新的构成中配对在一起。类似地,作者测试模型是否泛化为目标的间接引用,方法是将“Do the person twist the bottle?”(“人转动瓶子了吗?”)中的bottle之类的目标替换为间接引用,从而生成问题“Did the person wist the object they were holding last?”(“这个人是否转动了他们最后拿着的东西?”)。最后,作者测试模型是否泛化为具有更多推理步骤的问题,方法是将测试集限制为比训练集中的问题具有更多推理步骤的问题(例如,“在拿着瓶子之前,但在拍完照片、拿手机或瓶子之后,他们最后碰了什么?”)。

作者利用AGQA对当前视觉推理系统(PSAC、HME和HRCN)进行了评估,发现它们的表现并不比纯粹利用语言偏差的模型好。性能最高的模型仅达到47.74%的准确率,HCRN的性能仅比仅使用语言版本好0.42%。虽然有一些证据表明模型可以推广到间接引用,但所有这些模型的精确度都随着组合步数的增加而降低,并且没有一个模型可以推广到新组合。

基准比较
在这里插入图片描述

如表1中的基准所示,人们对利用问答来实现视频推理能力的兴趣与日俱增[45,58,27,50,61,34,35,18,55,41,63,60]。

[27,61]:依赖于对话和情节摘要而不是视频的视觉内容,结果是模型对对话的依赖性比对视觉输入的依赖性更强,因此降低了基准在衡量视觉推理方面的有效性。

[58,45]:一些仅视频的问答基准是以合成方法生成的,这提供了衡量模型能力(如因果性[58]或计数[45])所必需的粒度控制。然而,这些基准使用短视频剪辑,仅利用少数几个目标,专注于需要常识或外部知识的问题(图2),并且缺乏真实世界视频的视觉多样性。

[60,50,18,34,35,55,63,41]:其他仅视频的基准受到与人工生成的问题[60,50,18,34,35]或描述[55,63,41]相关联的偏差和简单性的影响。

相比之下,作者的语料库纯粹是基于视觉的,比之前的语料库至少大三个数量级,而且评估复杂的多步推理。
在这里插入图片描述

AGQA

如图3所示:
在这里插入图片描述

左:需要一个带有时空场景图的视频数据集作为输入。(将Action Genome的时空场景图和Charades的动作定位合并和扩张为一个象征性的视频表示。)

中间:手工制作程序,在扩展的时空场景图上操作,并使用概率语法规则生成问题和答案。

右:按照问题类型使用拒绝抽样来平衡生成的问题和相应的答案,以避免模型可能利用的偏差,使对抗“cheating”更加稳健。作者可以通过开发更复杂的程序,或者通过使用间接引用(例如将一个特定的动作引用为最短的动作,或者将目标引用为它们所携带的目标)的视觉概念,来控制回答一个问题所需的推理步骤的数量。

最后,作者创建了新的评估指标,允许作者测试泛化到新的组合、间接引用和更多的组合步骤的模型优势。

具体包括:

时空场景图的扩张

AGQA是通过使用在Action Genome的时空场景图上操作的程序生成的。每个时空场景图都与一个视频相关联,并且包含基于视频帧的目标(例如food, bottle(食物、瓶子))、空间关系(例如above, behind(上面、后面))以及描述一个演员与目标的交互的接触关系(例如carry, wipe(携带、擦拭))。

1)用出自Charades数据集的动作(例如running(跑))来扩张Action Genome的时空场景图,并使用动作开始和结束的时间戳进行了局部化。

2)为了使用这些场景图来生成问题,作者通过指定动作和关系之间的蕴涵,并结合了关于动作排序的先验知识,合并同义标注,移除attention关系,来扩张场景图。有些动作和关系,比如carrying a blanket(拿一张毯子)和twisting the blanket(使毯子变形),蕴含其他关系,比如holding(抱)和touching(碰)。作者用这样的蕴涵关系来扩张场景图,以避免生成退化问题,如“Were they touching the blanket while carrying the blanket?”(“他们在拿毯子的时候碰到毯子了吗?”)。

3)作者创建了启发式,调整动作的开始和结束时间,以避免逻辑错误。例如,从taking a pillow from somewhere(某处拿枕头)的动作通常会在下一个动作(holding a pillow,抱着枕头)开始后结束。

4)为了能够生成问题,这些问题按照这些事件的时间顺序进行推理,作者修改了这些事件,以便第一个动作在下一个动作开始之前结束。

5)为了避免生成只有一个答案的简单问题,作者使用共现统计数据来剪枝只与一个目标类别(例如turning off a light(关灯))发生的关系。

6)作者还合并了对类似目标和动作的引用(例如eating a sandwich(吃一个沙拉)和eating some food(吃一些食物)),使得每个概念都由一个短语来表示。

7)最后,作者将所有的attention关系(如looking at(注视))从Action Genome中删除,因为作者的人类评估表明,评估者无法准确地识别演员的注视。

得到的时空场景图具有更清晰、统一、明确的语义。作者最终的本体使用了36个目标、44个关系和157个动作。有7,787个训练场景图和1,814个测试场景图。

问题模板

为了从时空场景图生成问题和答案对,作者手工制作了一套程序,每个程序都与一个模板相关联(参见图3)。

1)每个模板都有多种可以用场景图内容填充的自然语言问题帧。例如,一个模板“What did they 是什么?”可以生成诸如“What did they tidy after snuggling with a blanket?”和“What did they carry before putting something on a table?”这样的问题。

2)为了回答这个问题,相关联的程序找到put something on a table的动作,关注该动作before的事件,查找关系carry发生的位置,最后查询目标。这个生成过程将每个问题与用来回答它的推理技巧和推理步骤数相关联。

3)虽然回答作者的问题所需要的一些时空推理技巧是从现有的语料库中得到启发的,但是成功地回答AGQA的问题需要各种新的时空推理,而这些新的时空推理在现有的基准中是没有的(参见图2)。在增加推理技巧的同时,作者通过允许问题模板使用在视频中限定在一个时间以及间接引用目标、关系和动作的短语来增加回答问题所需的组成推理步骤的数量。例如,作者可以将food替换成与间接引用the object being carried(被搬运的物体)或者用the shortest action(最短的动作)替换walking through a doorway(走过门口)。

4)对于每个问题,作者还跟踪其答案类型、语义类别和结构。开放式答案问题有许多可能的答案,而二进制问题则有Yes/No,before/after或在问题中指定两个选项(例如carrying (携带)或throwing(抛出))进行二选一。按照问题中的一个(1)目标;(2)关系;或(3)动作这三种语义类别,描述一个问题的主语。AGQA将问题分为五类结构:(1)对所有开放问题进行查询;(2)对照比较(3)选择提供两个可选项的问题;(4)验证对问题内容回答yes或no的问题;(5)带有逻辑连词的逻辑问题。作者在图4中显示了问题在这些类别中的分布情况。
在这里插入图片描述
在向基准中添加问题之前,作者通过删除对于多个元素可以满足问题的约束的问题来确保答案中没有歧义。作者通过只询问在Action Genome中至少出现10次的目标-关系对来避免无意义的组合(例如,“Were they eating a mirror?”(“他们在吃镜子吗?”))。作者也删除用问题自身做回答的问题(例如“What did they hold while holding a blanket?”(“他们拿毯子的时候拿了什么?”)。最后,作者删除所有视频中总是有一个答案的问题(例如,“Are they wearing clothes?”(“他们穿衣服了吗?”))。

作者手工制作了269个自然语言问题帧,可以从一组28个程序中得到答案。使用这些程序,作者生成了192M问题-答案对,其中具有超过45M唯一问题和174个唯一答案。

平衡到最小化偏差

众所周知,机器学习模型擅长在问答数据集中解释不平衡现象。作者通过平衡每种推理方式的基准答案分布和问题结构的分布来缓解夸大的准确性分数。作者用GQA中描述的方法来平衡答案分布。

1)首先求出每个整体推理类型的所有答案分布,然后求出该推理类型中的每个概念的答案分布。例如,首先,平衡“exits”类别的答案分配,然后平衡“exists-taking-dish-and-picture”类别的答案分配。对于二进制问题,作者确保每个答案发生的可能性相等。对于开放答案问题,作者以递减的频率顺序迭代答案,并重新加权分布的头部直到当前的迭代使其更可与尾部相比较。

2)其次,作者使用拒绝抽样来规范问题结构的分布。作者的模板生成了更多的二进制问题,而不是更难的查询问题。作者平衡了基准,使得查询问题至少占基准的50%。作者还平衡了二进制答案问题,大约15%是比较问题,15%是选择问题,15%是验证问题,5%使用一个逻辑运算符。这种新的问题结构分布增加了基准测试的难度,使被测推理技能的分布更加多样化。

作者的平衡过程将AGQA从一个1.92亿个问题-答案对的不平衡集合减少到一个390万个问题-答案对的平衡基准。

新的组合时空splits

通过对生成的问题集的控制,作者衡量模型在不同推理技能、语义类和问题结构中的表现。作者还引入了一组新的训练/测试splits来测试组合时空推理的个别形式,这些形式需要泛化到新的和更复杂的概念。

1)新的的组合:为了测试模型是否能够区分不同的概念并以新的的方式组合它们,作者手工选择一组概念对,只出现在测试集中。例如,作者移除所有在before standing up包含短语的训练问题,但只保留测试集中带有指定短语的问题。

2)间接引用:问题中的语义范畴可以直接引用(如blanket,holding和eating something),也可以间接引用(如the object they threw,the thing they did to the laptop和he longest action)。间接引用是由作者增加组合步骤的核心方法构成。如果模型能够用直接引用来回答问题,那么这个度量会比较模型用间接引用来回答问题的效果如何。

3)更多的组合步骤:为了测试模型是否会推广到更多的组合步骤,作者过滤训练集,使其包含不超过M的组合步骤的更简单问题,比如“What did they touch?”然后缩小测试集,使其只包含大于M的组合步骤的问题,比如“What did they touch last before holding the bottle but after taking a picture, a phone or a bottle?”。

实验
实验分析

作者从AGQA基准测试上的一个人工验证任务的评分开始实验,该任务评估作者的基准测试生成过程的正确性。接下来,作者比较了AGQA上最先进的问答模型,揭示了模型性能与作者数据集的人工验证之间的巨大差距。作者报告了模型对于不同语义和每个结构类别在时空推理上的表现。最后,作者讨论了模型如何很好地推广到新的组合,间接引用,以及更多的组合步骤。所有实验都在AGQA的平衡版上运行。

模型:作者评估了最近的三个视频问题分析模型:PSAC、HME和HCRN。PSAC使用位置self-attention和co-attention块来整合视觉和语言特征。HME为视觉和问题特征构建memory模块,然后将它们融合在一起。HCRN是目前最好的模型,它将一个可重用的模块堆叠成一个多层的层次结构,在每一层集成运动、问题和视觉特征。作者对所有模型使用来自ResNet pool5层和ResNeXt-101相同的特征表示。

作者将性能与“最可能”基线进行比较,该基线报告了在平衡后总是猜测最常见答案的准确性。二进制问题最有可能有50%的准确率,因为他们问的是Yes/No或 before/after的问题,或者在问题中列出答案(例如,“What did they hold, a bag or a dish?”(“他们拿的是什么,一个袋子还是一个盘子?”))。

Human评估

为了量化作者的基准生成过程引起的误差,作者按照Amazon Mechanical Turk的公平工作标准,以每小时15美元的价格雇用受试者。作者从AGQA中给受试者提供每种问题类型至少50个随机抽样的问题。作者用三个受试者的多数票作为最终的人类给出答案。通过人工验证,作者的回答中有86.02%是正确的,这意味着作者的问题中有13.98%是错误的。这些错误源于场景图标注错误和模糊关系。把这个数放在上下文中,GQA和CLEVR这两个最近的自动化基准,分别报告了89.30%和92.60%的人为准确率。

Performance
在这里插入图片描述

每个问题都与回答问题所必需的一个或多个推理能力相关联。通过对每个推理类别的性能分析,作者对每个模型的推理技巧有了一个详细的了解。总的来说,作者发现在不同的推理类别中,HME和HCRN的表现要好于PSAC(表2)。HME在询问superlatives上表现最佳,而HCRN在涉及sequencing、object-action、exits、duration comparison和activity recognition的问题上表现最佳。

然而,对于大多数推理类别,HCRN的性能并不会超过其自身的一个仅语言版本(HCRN w/o vision)1.5%以上。事实上,HCRN在涉及sequencing动作和以及在动作发生的时间长度(duration comparison)上进行推理的问题上的表现要比它对应的纯语言方法性能差。仅有的两个推理类别中,HCRN模型比纯语言基线的性能高出1.5%以上,这两个推理类别是在集中于activity recognition的问题上和比较object-action交互的问题。尽管HCRN在需要activity recognition的问题上有所改进,但这些问题对于所有模型和人类来说都是非常具有挑战性的。

作者还比较了模型在不同问题语义类别中的表现(表2)。HCRN仅针对涉及到目标周围的问题改进了仅限语言的变体。然而,与目标相关的问题对所有三个模型来说都是最困难的。

不同的问题结构也比其他问题更具挑战性(表2)。开放式查询问题是一个非常具有挑战性的问题,它的准确率是所有模型中最低的。HCRN在这一类别中的表现仅比仅语言变体高0.68%。除了PSAC在开放式问题上表现最差,而HME在选择问题上表现最差之外,这两个模型对于每一个结构类别都具有相似的性能。

Generalization
在这里插入图片描述

所有模型在训练期间测试未见过的新的组合时都表现很差(表3)。HME在总体和二进制问题上的表现优于其他方法,而HCRN在开放式问题上的表现最好。然而,没有一个模型在开放性问题上的表现比最有可能的模型好得多。只有HME在二进制问题上的准确率达到了52.39%,超过了50%。

作者进一步按组合类型细分了新组合的性能(表4)。例如,在Sequencing类别中,作者从训练集中移除像before standing up那样的组合,并测试模型在测试集中使用这些组合的问题上表现如何。作者发现模型在涉及新目标-关系对(Obj-rel)的新组合上表现最差,在关于新动作长度的推理上表现最好。HME在新的sequencing和superlative组合表现最好,而HCRN在Duration(动作持续时间)和Obj-rel的新组合表现最好。
在这里插入图片描述

作者在表5中报告了模型对间接引用的准确性和召回率。HCRN对间接目标和时间引用的泛化效果最好,而HME对Relationship和Action间接引用的泛化效果最好。然而,即使模型正确地回答了直接的问题,至少有近五分之一的间接引用问题仍然失败。

当对简单问题进行训练并对包含更多组成步骤的问题进行测试时,模型会超过开放式问题的最可能基线。然而,它们在二进制问题上的准确率仍然不到50%。HCRN在开放式问题上表现最好,但HME比其他模型更好地泛化了具有更多组成步骤的问题。这很可能是因为HME的体系结构被明确地设计成处理语义上复杂的问题,因为它有一个用于推理问题特征的memory网络。
在这里插入图片描述

尽管这些模型在泛化更复杂的问题方面具有一定的能力,但随着组合步骤的增加,这些模型的精确度得分会降低(图5)。

小结

AGQA是第一个使用语言来评估视觉组成需求的基准,提供了一个评价视觉系统中各种维度的组合时空推理的基准。利用AGQA对当前视觉推理系统进行了评估,证明了最好的模型几乎不比利用语言偏见的非视觉基线表现得更好,并且现有的模型没有一个能泛化到训练过程中未见的新的组成。

全部评论 (0)

还没有任何评论哟~