Advertisement

ACL 2020 TVQA+: Spatio-Temporal Grounding for Video Question Answering

阅读量:
动机

基于图像的QA成功的一个关键是空间attention,而attention技术很难概括到视频的时间性。

基于图像的视觉问答(QA)任务近年来取得了长足的进展。这一成功的一个关键是空间attention,其中神经模型学会关注相关区域以预测正确答案。与基于图像的QA相比,基于视频的QA任务在性能上的进步较小。一个可能的原因是attention技术很难概括到视频的时间性。而且,由于标注的成本很高,大多数现有的视频QA数据集只包含QA对,而没有为回答问题提供所需的关键剪辑或区域标签。受先前关于基于图像和视频captioning的工作启发,作者提出了明确定位视频片段以及用于回答基于视频的问题的空间区域的方法。这些方法在许多场景中都是有用的,例如自然语言引导的时空定位,以及增加视频问答的可解释性,这对于决策和模型调试都有潜在的用途。为了能够进行这一系列的研究,作者还为一个现有的视频QA数据集收集了新的联合时空标注。

TVQA是研究机器学习模型对复杂视频理解的一个有用的测试床。

在过去几年中,提出了几个视频QA数据集,例如MovieFIB、MovieQA、TGIF-QA、PororoQA、MarioQA和TVQA。TVQA是最大的视频QA数据集之一,提供了一个建立在6部著名电视剧之上的大型视频QA数据集。由于TVQA是在电视节目中收集的,它建立在具有丰富动态和复杂社会互动的自然视频内容上,问答对是由人观看视频及其伴随的对话编写的,使得问题需要视觉和语言理解来做回答。电影和电视节目视频具有脚本和编辑的局限性,但它们仍然比卡通/动画和游戏视频更逼真,它们还具有更丰富的、以真实世界为灵感的人与人之间的交互,并跨越不同的领域(例如,医疗、犯罪、情景喜剧等),使它们成为研究机器学习模型对复杂视频理解的一个有用的测试床。

现有的视频QA数据集(包括TVQA)都没有为答案提供空间标注。

TVQA的一个关键特性是它提供了时间标注,它表示视频剪辑的哪些部分是回答提出的问题所必需的。然而,现有的视频QA数据集(包括TVQA)都没有为答案提供空间标注。实际上,正确地基于空间区域与基于时间时刻对于回答给定的问题同样重要。例如,在图1中,要回答“What is Sheldon holding when he is talking to Howard about the sword?”这个问题,作者需要将“he is talking to Howard about the sword?”这个时刻定位,以及看“What is Sheldon holding”这个区域。
在这里插入图片描述

问答。

不同于现有的视频问答任务中的一个系统只需要预测一个答案,作者提出了一个新的任务,在空间和时间两个域中都增加了答案的依据,使答案合理化。

基于语言引导的检索。

Grounding图像/视频中语言是一个有趣的问题,它需要同时理解文本和视觉形式。较早的著作侧重于在图像中识别涉及到的目标。近些年,时刻检索任务研究越来越多,其目标是通过自然语言查询定位长视频中的一个短片段。作者的工作整合了两个任务的目标,需要一个系统同时ground涉及到的时刻和目标。

时间和空间attention。

attention在许多视觉和语言任务上表现出巨大的成功,如图像captioning、视觉问题回答、语言grounding等,但有时模型本身学习到的attention可能与人类预期不符。最近关于基于的图像captioning和视频captioning的研究表明,明确监督attention可以获得更好的性能。在本工作中,作者使用带标注的逐帧边界框注解来监督时间和空间attention。实验结果证明了在视频问答中对两个域进行监督的有效性。

方法
简介

本文首先对TVQA数据集的一个子集进行了基于边界框的扩充,得到了一个基于时空的视频QA数据集TVQA+。它由29.4K个时间和空间领域的多选问题组成。为了收集空间groundings,作者首先要识别问题或正确答案中提到的一组视觉概念词,即物和人。接下来,作者联合在独立帧中带有目标区域的涉及到的概念,如果存在,那么每个涉及到的概念是通过标注边界框得到(参见图1中的示例)。TVQA+数据集共有310.8K个与涉及到的物和人链接的边界框,囊括2.5K个类别。

在此基础上,提出了时空视频问答的任务,该任务要求智能系统定位相关时刻,检测涉及到的物、人和回答问题。在此基础上,设计了QA精度、目标grounding精度、时间定位精度、时间定位与QA准确度的一个联合这几个衡量指标来评价该任务的性能。针对时空视频问答,提出了一种新的端到端可训练的基于证据的时空问答模型STAGE(Spatio-Temporal Answerer with Grounded Evidence),该模型将时刻定位、目标grounding和问题问答有机地结合在一个统一的框架中。作者发现QA的表现同时受益于时间时刻和空间区域的监督。此外,作者还提供了时间和空间定位的可视化,这有助于理解作者的模型所学到的东西。全面的消融研究展示了作者的每个标注和模型组件是如何帮助改进任务的性能的。

Dataset
在这里插入图片描述

TVQA+数据集是第一个同时具有空间和时间标注的视频问答数据集。TVQA+建立在Lei等人介绍的TVQA数据集上。TVQA是一个基于6个热门电视节目的大型视频QA数据集,包含21.8K多选问题、60-90秒长视频剪辑的152.5K个多选问题。TVQA数据集中的问题是组合的,其中每个问题由两部分组成,一个问题部分(“where was Sheldon sitting”)通过一个连接词(“before”、“when”、“after”)连接到一个定位部分,该定位部分在时间上定位问题发生的时间(“he spilled the milk”)。模型应该使用视频中的视觉信息以及出自自然关联的对话(字幕)中的语言信息来回答问题。由于收集到的问题的视频剪辑通常比回答问题所需的上下文长得多,TVQA数据集还提供了一个时间戳注释,指示回答每个问题所需的最小跨度(上下文)。虽然TVQA数据集提供了一种新颖的问题格式和时间注释,但它缺乏空间grounding信息,即QA对中提到的概念(物和人)的边界框。作者假设目标注释可以为模型提供一个额外的有用的训练信号来学习视觉信息更深的理解。因此,为了补充原始的TVQA数据集,作者为问题和正确答案中提到的视觉概念逐帧收集边界框。由于完整的TVQA数据集非常大,作者首先收集与The Big Bang Theory相关联的QA对的边界框注释。这个子集包含来自4,198个剪辑的29,383个QA对。

Data Collection

识别视觉概念。要在视频帧中标注视觉概念,第一步是在QA对中标识它们。作者使用Stanford CoreNLP词性标注器提取问题和相关答案中的所有名词。这让作者从一个9690个单词的词汇表中得到了152722个单词。作者对前600个名词中的非视觉名词(如“plan”、“time”等)进行人工标注,从词汇表中去掉了165个频繁出现的非视觉名词。

边界框标注。对于TVQA中选定的《生活大爆炸》(The Big Bang Theory)视频,作者首先要求Amazon Mechanical Turk的工作人员调整开始和结束时间戳,以改进时间标注,因为作者发现原始的时间标注并不理想。然后作者每隔两秒从每个跨度中采样一帧进行空间标注。对于每一帧,作者收集每个QA对中视觉概念的边界框。作者还用人脸检测和识别模型对人进行了半自动标注实验,但效果不佳,主要原因是帧中人脸(如侧脸)存在很多部分遮挡。在标注过程中,作者提供原始视频(带字幕),以帮助工作人员理解给定QA对的上下文。

Dataset Analysis
在这里插入图片描述

TVQA+包含来自4,198个视频的29,383个QA对,148,468个图像用310,826个边界框标注。TVQA+统计如表2所示。作者遵循与原始TVQA数据集相同的数据拆分,以支持未来对TVQA和TVQA+的研究。表1将TVQA+数据集与其他视频语言数据集进行了比较。TVQA+的独特之处在于它支持三种任务:问题回答、时间定位和空间定位。
在这里插入图片描述

与基于视频captioning数据集ANet-Entities相比,它的大小也是合理的。平均而言,作者获得每张图像2.09个框,每张问题10.58框。带标注的框涵盖2,527个类别。作者在图2中显示了前60个类别中的每一个类别的框数(以对数刻度)。分布有一个长尾,例如最常见的类别“Sheldon”的框数比第60个的类别多2个数量级左右。作者还在图3(左)中给出了边界框面积随图像面积比例的分布。与图像相比,大多数框都相当小,这使得目标基于具有挑战性。图3(右)为局部化跨度长度分布。而大多数跨度是不到10秒,最大跨度可达20秒。平均跨度长度为7.2秒,与完整视频剪辑的平均长度(61.49秒)相比较短。
在这里插入图片描述

Framework

本文提出的基于证据的时空应答器(STAGE)方法是一个统一的时刻定位、目标grounding和视频QA的框架。首先,STAGE分别通过基于帧的区域视觉表征和神经语言表征对视频和文本(字幕、QA)进行编码。然后使用卷积编码器对编码的视频和文本表示进行上下文化。第二,STAGE计算每个问答词对目标区域和字幕单词的attention度得分。利用attention得分,STAGE能够生成QA感知的表征,以及自动检测涉及到的物/人。然后将参与的QA感知的视频和字幕表示融合到一起,以获得联合的帧式表示。第三,STAGE以帧表征作为输入,学习预测QA相关的时间跨度,然后结合全局和局部(跨度局部化)视频信息来回答问题。

Formulation

在作者的任务中,输入是:(1)一个有5个候选答案的问题;(2)一段60秒的长视频;(3)一组单词幕句子。作者的目标是预测答案,并在空间上和时间上ground它。给定问题q和答案{ak}k=15,作者首先将它们表述为5个假设(QA-pair)Hk=[q,ak]并基于视频和单词幕上下文预测其正确性得分。作者将ground-truth(GT)答案指数表示为yans,从而GT假设被表示为hyans。然后作者以0.5的FPS提取视频帧{vt}t=1T(T是每个视频的帧数)。Hk=[q,ak]并基于视频和单词幕上下文预测其正确性得分。作者将ground-truth(GT)答案指数表示为yans,从而GT假设被表示为hyans。然后作者以0.5的FPS提取视频帧{vt}t=1T(T是每个视频的帧数)。

STAGE Architecture

输入嵌入层。对于每一帧vt,作者使用在Visual Genome上预训练的Faster R-CNN来检测物体并提取其区域表示作为作者的视觉特征。作者保留了前20名的目标候选,并使用主成分分析法将特征维数从2048降至300,以节省GPU内存和计算量。作者将ot,r∈R 300表示为嵌入在第t帧中的第r个目标。为了对文本输入进行编码,作者使用了BERT,这是一种基于transformer的语言模型,它在各种NLP任务上实现了最先进的性能。具体地说,在来自TVQA+训练集的字幕和QA对上,作者首先使用masked语言模型和下一个句子预测目标对BERT-base模型进行微调。然后,作者固定它的参数,并用它为字幕和每个假设从倒数第二层提取768D的单词级嵌入。利用一个带有RELU的线性层,两个嵌入都被投影到一个128D的空间中。

给出了含有Lh个单词的假设hk的编码假设Hk∈R Lh×d,以及编码的视觉特征Vt∈R No×d带有No目标的帧vt,作者计算它们的匹配分数Mk,t R Lh×No=HkVtT。然后在Mk,t的第二维上应用softmax得到归一化分数-mk,t。最后,作者计算了QA感知的视觉表征Vk,tatt∈R Lh×d=-mk,tVt。类似地,作者计算了QA感知的字幕表示Sk,tatt。

视频-文本融合。将上述两种QA感知的表示融合在一起,如:
在这里插入图片描述

其中,WF∈**R 3d×d和bF∈**Rd为可训练权值和偏差,Fk,t∈R Lh×d为视频-文本融合表示。在从所有时间步中收集Fk,tatt后,作者得到FVk,tatt∈R T×Lh×d。然后应用另一个具有最大池化层的卷积编码器,以获得输出Ak∈**RT×d。
在这里插入图片描述
跨度预测器。预测时间跨度,作者预测每个位置(跨度的开始或结束)的概率。给定融合输入Ak∈R T×d,作者使用两个带有softmax的线性层,得到了开始概率pK1∈R T和结束概率pK2∈R ,如图4右上角所示。与现有工作仅将跨度预测器用于文本不同,作者将其用于视频和文本的联合定位,这需要适当对齐的联合嵌入。

跨度候选和答案预测。给定最大池化视频-文本表示Ak,作者使用线性层来进一步编码它。作者在所有的时间步骤中采用最大池化来得到一个全局假设表示Gkg ∈R d。利用跨度预测器的开始和结束概率,作者使用动态规划生成跨度候选。在训练时,作者将与IoU≥0.5的一组候选与GT跨度结合起来,同时GT跨度形成最终候选{stp,edp}。在推理时,作者对每个假设取具有最高置信度得分的候选。对于每项候选,作者[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传采用最大池化Ak,stp:edp生成一个局部表示Gkl∈R T。将局部表示和全局表示拼接起来得{Gk}∈R 2d。然后通过softmax前向传播{Gk}k=15以获得答案分数pans∈R 5。与现有的使用软时间attention的工作进行比较,作者使用更可解释的硬attention,提取局部特征(连同全局特征)用于问题回答。

Training and Inference

由于作者的空间和时间注释是基于问题和GT答案收集的,因此作者只在与GT假设(问题+GT答案)相关的目标上应用目标损失和跨度损失,即Mk=yans,t,pk=yans1 和pk=yans2 。为简洁起见,作者在下面省略下标k=yans。

空间监督。在attention以端对端方式弱监督学习的同时,也可以用GT框的监督来训练它。作者定义一个框,如果它的IoU≥0.5(带有GT框),则为正。attention得分Mt,j∈R No,它来自在帧vt中GT假设hyans中的一个概念词wj对候选框的表示{ot,r}r=1No。作者预计对正框的attention将高于负框,因此对监管使用LSE损失:
在这里插入图片描述

其中Ωp和Ωn分别表示正负框指数集。

LSE损失是广泛使用的hinge损失的平滑替代方案,它比原来的hinge损失更容易优化。在训练过程中,作者对每个正框随机抽样两个负框。对于第i个例子,作者使用Liatt来表示attention损失,它是通过对于Lt,jatt在所有带注释的帧{vt}和概念{wj}上求和得到的。作者定义整个attention损失Latt=1/N。在推理时,作者选择分数大于0.2的框作为预测。

时态监督。给定softmax正则化的开始和结束概率p1和p2,作者应用交叉熵损失:
在这里插入图片描述

其中y1和y2是GT开始和结束索引。

答案预测。类似地,给定答案概率pans,作者的答案预测损失是:
在这里插入图片描述

其中yans是GT答案的索引。

最后,总损失是上述三个目标的加权组合。

实验
Metrics

为了衡量QA性能,作者使用分类精度(QA Acc.)。根据Hendricks等人在语言引导下的视频时刻检索方面的工作,作者使用时间平均交集过并集(Temp.mIoU)来评估跨度预测。由于跨度取决于假设(QA对),每个QA对提供一个预测跨度,但作者只评估预测答案的跨度。此外,作者还提出了答案-跨度联合精度(ASA),它可以对答案预测和跨度预测进行联合评估。对于这个度量,作者定义一个预测是正确的,如果预测的跨度有一个IoU≥0.5和GT跨度,假设答案预测是正确的。最后,为了评估目标grounding性能,作者从PASCAL VOC挑战中降低标准度量,并报告IoU阈值为0.5的平均精度(GRD.mAP)。当计算mAP时,作者只考虑注释的单词和帧。

Comparison with Baseline Methods
在这里插入图片描述

双流模型是作者的主要基线。在该模型中,使用两个流来预测来自字幕的答案分数和视频,并通过将来自两个流的分数相加产生最终答案分数。作者在TVQA+数据上使用官方代码重新训练模型,具有与STAGE相同的特性。作者还考虑了ST-VQA模型,该模型主要设计用于短视频(GIF)上的问答。作者还提供了仅使用视频或字幕的STAGE变体,以研究仅使用其中一种模式的效果。表3给出了STAGE和基线的测试结果。STAGE在QA ACC.中的相对增益为9.83%,大大优于基线模型(双流)。此外,STAGE也是用时间32.49%的mIoU对相关时刻定位;用27.34%的mAP对涉及到的物和人进行了检测。然而,STAGE与人之间仍存在较大差距,显示出进一步改进的空间。

Model Analysis
在这里插入图片描述

将主干模型定义为主干模型的消融版本,在该版本中,作者去掉了跨度预测器和跨度候选模块,以及显式的attention力监督。用RNN编码器代替CNN编码器,并从主干模型中去掉对齐融合。这个基线模型使用RNN对输入序列进行编码,并分别与字幕和视频交互QA对。最终的置信度得分是来自两种模式的置信度得分之和。在主干模型中,作者从一开始就将字幕与视频帧对齐,根据输入的QA对融合它们的表示,如图4所示。作者相信这种对齐的融合对于提高QA性能是必不可少的,因为STAGE的后期对视频和字幕都有共同的理解。在这两个变化下,作者的主干模型获得了68.31%的QA ACC.,显著高于基线的65.79%。结果如表4所示。

时空监督。在表4中,作者也展示了使用时空监管时的结果。增加时间监督后,模型能够基于时间轴,这也提高了模型在其他任务上的性能。增加空间监控提供了额外的改进,特别是对于Grd.mAP相对增益为121.92%。

在表4的倒数第二行中,作者展示了作者的完整STAGE模型,该模型用问题回答的局部特征Gl进行了扩充。局部特征是通过最大池化跨度区域来获得的,这些区域包含了更多的相关线索来回答问题。通过Gl,作者在所有度量中实现了最佳性能,这表明了使用局部特征的好处。

使用GT跨度的推断。表4的最后一行显示了作者的模型在推断时使用GT跨度而不是预先指定的跨度。作者观察到具有GT跨度的更好的QA ACC.。
在这里插入图片描述

在表5中,作者显示了QA ACC.的细分。按问题类型。作者观察到,在使用Backbone Network并在每个栏目中添加attention/跨度模块后,关于 “what”,“who”,和 “where” 的问题有明显的增长趋势。有趣的是,对于 “what”和“how”的问题,作者的完整模型没有呈现出压倒性的性能,这表明了一些推理(文本)模块将作为未来的工作合并。
在这里插入图片描述

定性示例。作者在图5中展示了两个正确的预测。图5(a)中,使用grounded目标回答问题,图5(b)使用文本。
在这里插入图片描述
TVQA结果。作者也在完整的TVQA数据集(表6)上进行了实验,而不需要重新放置TVQA+中的边界框和精化的时间戳。在没有时态监督的情况下,在TVQA测试-公共设置上,STAGE Binking能够实现比最佳发布结果(多任务)提高3.91%的相对增益。加入时间监督后,性能提高到70.23%。为了公平比较,作者还提供了使用GloVe而不是BERT作为文本特征的STAGE变体。使用手套,STAGE模型仍然取得更好的效果。

贡献

(1)作者收集了TVQA+,一个大规模的时空视频问答数据集,它用帧级的边界框标注对原始的TVQA数据集进行了扩充。据作者所知,这是第一个将时刻定位、目标grounding和问题回答结合起来的数据集。

(2)作者设计了一个新颖的视频问答框架STAGE(Statio-Temporal Answerer with Grounded Evidence),用于联合定位时刻、ground目标和回答问题。通过共同执行所有三个子任务,作者的模型在基线上实现了显著的性能增益,并且呈现出有洞察力的、可解释的可视化。

小结

提出了一种时空视频问答的任务,它要求智能系统同时检索相关时刻和检测被引用的视觉概念(人和物)来回答视频中的自然语言问题。作者首先用310.8k的边界框扩充TVQA数据集,将描述的目标与问答中的视觉概念联系起来。作者将这个增强版命名为TVQA+。在此基础上,作者提出了基于证据的时空回答器(STAGE),这是一个统一的框架结构,它在空间和时间两个域上都基于证据来回答视频问题。综合的实验和分析证明了作者的框架的有效性,以及作者的TVQA+数据集中丰富的标注是如何对问题回答任务做出贡献的。此外,通过执行这一联合任务,作者的模型能够产生有洞察力和可解释的时空attention可视化。

全部评论 (0)

还没有任何评论哟~