Advertisement

WACV 2020 BERT Representations for Video Question Answering

阅读量:
动机

视觉问答(VQA)的重要性。

自动回答问题被认为是智能系统的最高目标之一。为了实现这一目标,视觉问答(VQA)旨在通过提取语言内容(即问题)和视觉内容(即图像)中包含的语义信息来回答关于图像的问题。一种典型的VQA系统将图像和问题对作为输入,将它们的视觉和语言特征编码为高维向量,并使用attention机制对它们进行处理以预测正确答案。

目前VQA框架的局限性。

近几年来,VQA引起了人们的广泛关注,并取得了显著的进展。视觉问答(VQA)旨在回答关于图像或视频的视觉内容的问题。然而,目前的框架仍然存在一些局限性。例如,VQA主要关注于静态图像相关问题的建模,但对问题的回答关注较少关于视频。基于视频的问答与基于图像的VQA不同,基于视频的问答需要对问题和候选答案、视频帧的时间序列以及相关联的字幕进行联合理解。此外,VQA系统的大部分工作主要集中在从图像中提取更好的视觉表征,而语义语言的建模则留给了标准的递归神经网络(RNN)。

视频问答(video-QA)的研究意义和挑战。

为了解决时间序列中的VQA问题,视频问答(video-QA)近年来也就如何正确回答关于视频剪切片段的问题进行了研究。由于视频的时间特性,video-QA相对于标准VQA提出了一些独特的挑战:1)它要求理解一组帧中的时间一致性,需要建模一系列随时间变化的视觉特征,2)它经常需要基于相关字幕推理与情节相关的问题。这意味着视频质量保证模型需要处理比标准VQA系统更多的输入数据,因此它们需要特定的方法来提取和表示如此数量的视觉和语言内容。

之前方法出现的问题。

目前介绍的大多数视频问答模型使用RNNs,特别是长短时记忆(LSTM)网络对问题和字幕中的语言信息进行编码。然而,LSTM表示在捕获长文本序列中的语义关系方面可能是失败的,例如出现在长视频剪切片段(例如大约30秒)的字幕中的那些。与以往的研究不同的是,本论文在工作中使用BERT对视频片段中捕获的信息进行建模。

方法
简介

在这一工作中,本论文提出通过使用BERT表示从视频剪切片段中封顶视觉和语言语义信息来改进视频问答。BERT是一个强大的基于语言transformers的双向网络,它在几个自然语言处理任务中的表现已经证明优于LSTMs。然而,BERT在计算机视觉应用中几乎没有被研究过。对于视频问答,Lei等人。提议使用BERT现成的方式从语言信息中提取预先训练的表征(即问题、答案和字幕)。在本工作中,本论文进一步深入研究了视频中的BERT表示。本论文不仅针对感兴趣的任务对网络进行微调,而且依赖于BERT对语言和视觉信息进行编码。
在这里插入图片描述

本论文将视频问答作为多项选择任务来处理。在本论文提出的模型中,本论文首先从每个视频帧中提取视觉语义信息作为视觉概念,使用Faster-RCNN对视觉基因组数据集进行微调。然后,字幕和提取的视觉概念与问题和候选答案一起分两个独立的流进行处理。在每个流中,使用微调的BERT网络来预测正确答案。两个流的输出被联合处理以得到最终的预测。

BERT简介

BERT是一种语言表示模型,旨在提取预训练好的深度双向表示。它使用了双向transformer,这意味着每个词在网络的每一层都注意到两边的上下文。预训练的BERT表示可以自动微调,在广泛的任务中实现最先进的性能。

对于给定的词token输入序列,每个token的输入表示是相应的token嵌入、片段嵌入和位置嵌入的组合。输入表示的示例如下图3所示。其中段嵌入表示每个token(A:前一个句子;B:后一个句子)的感知,位置嵌入表示每个token在输入序列中的位置。每个语句中的第一个token是[CLS],用于在分类任务中获得输出。添加[SEP]token表示两个句子之间的分隔。
在这里插入图片描述

提出的框架

将视觉信息和语言信息分成两个独立的流进行处理,并将这两个流进行融合,得到联合答案预测。在视觉流程中,本论文将每个视频帧中的视觉语义信息表示为场景中出现的目标属性的集合,称为视觉概念。在语言流中,从字幕中提取语言语义信息。对于每个流,视觉概念特征和字幕分别与问题和每个候选答案一起用BERT网络处理。
在这里插入图片描述

特征表示与预测。本论文使用两个独立的BERT网络,基于从视觉概念特征和字幕中获得的信息,预测每个问题的正确答案。

视觉表示。最近的工作已经发现,在图像字幕和视频问答任务中,使用检测到的目标标签作为输入具有与直接使用CNN特征相当或更好的性能。因此,本论文利用检测到的目标特征来表示视频场景的实际内容,称为视觉概念特征。视觉概念特征既包含目标,也包含属性,比如灰裤子、女人、金发等,本论文使用更快的R-CNN,在Visual Genome上进行微调。从每个视频帧中提取视觉概念特征。帧以3 fps的速度提取。在每一个提取的帧中,视觉概念特征由相应的词或名词短语表示。然后,通过对所有帧中的虚拟概念进行聚合并去除重复,获得整个场景v的独特视觉概念特征。然后,将问题q、独特的视觉概念特征和每个候选答案ai(i=0,1,2,3,4)做concatenation并重新排列成单个字符串ci。每个重新排列的字符串被token以获得序列Tci。

ci=[v,q,ai]

Tci=tokenize(ci)

这里,v和q的串联[v,q]被设置为之前的句子,[ai]被设置为后一个句子。前一个句子和后一个句子中的最后一个(多个)token被截断,直到Tci中的字数不超过最大字数L为止。

接下来,Tci被反馈到BERT网络,该网络输出Vci,包含每个输入句子中的单词。对应于[CLS]token Vci0的输出向量被反馈到完全连接的层,以获得答案i的视觉流预测Rci,其中Fc是可训练参数。

Vci=BERTc(Tci)

Rci=FcVci0

语言表示。类似地,在语言流中,本论文将字幕s、问题q和候选答案项ai(i=0,1,2,3,4)串联起来,形成字符串wi。对重新排列的字符串进行token化,形成token序列Twi,将其反馈到BERT网络得到Vwi。然后,取得答案i的语言流预测Rwi如下:

wi=[s,q,ai]

Twi=tokenize(wi)

Vwi=BERTw(Twi)

Rwi=FwVwi

预测。最后,对每个候选答案的视觉流和语言流的预测求和得到Rpi,并使用softmax将求和的向量转换为答案得分Rf。

Rpi=Rci+Rwi

Rp=[Rp0,Rp1,Rp2,Rp3,Rp4]

Rf=softmax(Rp)

取分值最大的答案作为最终预测答案ap,p=argmax(Rf)。

实验

实验设置。本论文的评测是在一台拥有Core i7 8700K CPU(3.70GHz)、32G RAM和Nvidia TITAN RTX GPU的计算机上进行的。本论文使用基于BERT uncased模型,该模型有12层,768d的隐藏大小,12个自注意力大小,1.1亿个参数,不区分大小写的token。学习率被设置为2e-5,epoch数被设置为10,批处理大小被设置为8和L,每个序列的最大token数被设置为128。

数据集。本论文使用两个视频问答数据集:TVQA和Pororo。TVQA是基于六个电视节目的21,800个片段的152500个问答对(Q/A对),而Pororos数据集是基于一个名为Pororo的儿童卡通视频系列,有171集的8834个Q/A对。在两个数据集中,提供对应于每个视频场景的字幕,并制定问题作为多项选择题,五个候选中有一个正确答案。两个数据集中的问题都需要一个关于视觉和语言特征的联合理解,以找出正确答案。在TVQA中,每个Q/A对中对应的视频和语言元素都用时间戳注释以表示问题的相关部分。由于向测试服务器提交的总数量有限,本论文从训练集中拆分出15253个Q/A对,形成一个test*集,而验证集保持不变。本论文还报告了官方测试集的一些结果。在Pororo数据集中,通过视频和字幕,给出了场景的描述。为了进行比较,本论文报告了TVQA、STAGE和MDAM的结果。

输入序列。本论文考虑了三种方式来重新排列token的输入序列,ci和wi:

1)[CLS]+V/S+Q+[SEP]+A

2)[CLS]+V/S+.+Q+[SEP]+A

  1. [CLS]+V/S+[SEP]+Q+[SEP]+A

其中V表示视觉概念,S表示字幕,Q表示问题,A表示答案。V/S是指在视觉流和字幕流中引入视觉概念和字幕。消融研究是通过同时去除视觉概念和字幕(Q+A)、仅去除视觉概念(S+Q+A)或仅去除字幕(V+Q+A)来进行的。

本论文在两个流行的视频问答数据集TVQA和Pororo上对本论文的模型进行了广泛的评估。在实验中,本论文进行了几个方面的实验研究和对比,结果表明本论文提出的框架在TVQA数据集上,只输入与每个时间戳对应的视觉概念和字幕,当同时使用视觉和字幕表示时,比GloVe+LSTM方法的准确率提高了5.09%,比Stage方法的准确率提高了3.34%。在Pororo数据集上,只使用视频场景和字幕,不使用提供的视频场景描述作为输入,与TVQA模型和MDAM相比,其准确度分别提高了4.89%和11.26%。

消融研究表明,当在TVQA数据集上使用视觉概念和问答时,与仅使用问答的数据相比,准确性提高了约2%。在Pororo数据集上,改进幅度超过13%。另外,字幕的使用在video-QA任务的准确性上有了很大的飞跃。在TVQA数据集上的输入中包含字幕和问答时,与仅有问答的输入相比,正确率提高了20%以上。这些结果表明了一个强大的视觉和语言表示模型在视频问答任务中的重要性。

在TVQA数据集中,三种重新安排的方法给出了比TVQA模型和STAGE更好的预测。然而,每种方法之间有很小的差异,这意味着BERT采用不同的方式处理三种重排(特别是分离token如“.”和[SEP])。当输入为视觉概念、字幕、问题和语句时,[CLS]+V/S+.+Q+[SEP]+A在验证集中的表现最好,而[CLS]+V/S+Q+[SEP]+A在测试集和测试集中的表现最好。

小结

本论文提出使用基于transformer的序列建模技术BERT对视频片段中的复杂语义进行编码。本论文提出的模型通过对视频场景的字幕和一系列视觉概念进行编码来联合捕获视频场景的视觉和语言信息。在本论文的实验中,本论文详尽地研究了本论文的模型在不同的输入安排下的性能,在两个流行的视频VQA数据集——TVQA和Pororo上,与之前的工作相比较,使性能显著提高。

全部评论 (0)

还没有任何评论哟~