AAAI 2020 Location-aware Graph Convolutional Networks for Video Question Answering
动机

视频问答(Video QA)是计算机视觉领域的一个新兴课题,由于其在人工问答系统、机器人对话、视频检索等方面的广泛应用,近年来受到越来越多的关注。与深入研究的图像问答(Image QA)任务不同,图像问答任务侧重于理解静态图像,而视频问答更加实用,因为输入的视觉信息经常动态变化。
与图像问答相比,视频问答更具有挑战性。
(1)视频中的视觉内容更为复杂,因为它可能包含数千帧,如图1所示。更重要的是,一些框架可能被强大的背景内容所支配,而这些背景内容与问题无关。
(2)视频中经常包含多种动作,但只有一部分动作是被关注者感兴趣的。
(3)视频问答任务中的问题往往包含与时间线索有关的问题,这意味着在进行答案推理时,既要考虑目标的时间位置,又要考虑目标之间的复杂交互作用。例如在图1中,为了回答“人在旋转水桶之前做了什么”的问题,机器人不仅要通过理解人与不同帧中的物体(即手提电脑和水桶)之间的相互作用来识别动作“旋转笔记本电脑”和“旋转水桶”,而且还要找出动作的时间或时间(如前/后)进行沿时间轴的回答推理。
以往的研究方法试图将时空attention机制应用于视频帧特征,而没有明确地对视频中发生的目标交互间的位置和关系进行建模。然而,目标交互与位置信息之间的关系对于行为识别和问题推理都是非常重要的。
以视频帧为输入,大多数现有方法采用帧特征上的某种时空attention机制来询问网络“去哪里看、什么时候看”。然而,由于视频中的复杂的背景内容,这些方法往往不够健壮。2018年Lei等人通过检测每帧中的目标,然后通过LSTM处理目标特征的序列来解决这个问题。然而,输入目标序列的顺序可能会影响系统的性能,很难排序。更重要的是,以递归的方式处理目标必然会忽略非相邻目标之间的直接交互作用。然而,目标交互与位置信息之间的关系对于对于视频问答至关重要。
方法
简介
本文介绍了一种简单而功能强大的网络-位置感知图卷积网络(L-GCN),用于建模与问题相关的目标之间的交互。作者提出通过将目标的位置信息纳入到图构造中,将视频中的内容表示为位置感知图,并通过图卷积来识别动作的类别和时间位置。具体地说,感兴趣的目标首先由现成的目标检测器检测。然后,构造一个全连通图,其中每个结点都是一个目标(由其外观和位置特征表示),结点之间的边表示它们之间的关系。作者进一步将空间和时间的目标位置信息结合到每个结点中,使图形能够感知目标的位置。在对目标图进行图卷积时,目标之间直接通过边传递消息进行交互。最后,将GCNs的输出和编码的问题特征一起输入到一个视觉-问题交互模块(利用attention机制)中,以预测问题的答案。大量的实验证明了所提出的位置感知图的有效性。作者在TGIF-QA、Youtube2Text-QA和MSVD-QA数据集上实现了最先进的结果。
问题定义
给定一个包含N个帧的视频,其中在每个帧检测到K个目标。 R ={on,k,bn,k}n=1,k=1n=N,k=K 是检测到的目标集,其中o表示通过RoIAlign获得的目标特征,b是每个目标的空间位置。用T=N×K来表示一个视频中目标的总数。本文将图表示为G=(V,E),其中M个结点vi∈V,边eij∈E,图的邻接矩阵表示为A∈R M×M。包含k个单词的问题记为Q。
在本文中,作者关注视频QA任务,该任务要求该模型用于回答与视频相关的问题。由于视频内容复杂且具有很强的不相关背景,这一任务具有挑战性。此外,视频问答任务中的大多数问答对都与一个以上的带有时间线索的动作相关。要正确回答问题,模型是必需的,而不仅仅需要正确识别来自复杂内容的行为,也需要知道它们的时间顺序。
总体方案

作者方法的一般方案如图2所示。L-GCN由两个分支组成,即问题编码器分支和视频编码器分支,分别处理queries和视频内容。两个分支的输出与视觉-问题(VQ)交互模块相结合。建立在目标上的位置感知图既考虑了目标之间的交互作用,又考虑了目标的时间位置信息。具体地,第一条分支是关于一个问题编码器,它用一个BI-LSTM处理queries。第二个分支与视频编码器相关,该视频编码器通过利用基于目标的位置感知图来理解视频内容。然后,两个分支的输出由视觉-问题(VQ)交互模块组合,该模块使用attention机制来探索哪些问题单词与视觉表征更相关。最后,通过在VQ交互模块的顶部应用FC层来预测答案。
在本文中,位置感知图起到了关键的作用。具体地说,作者使用目标图G=(V,E) 来建模一个视频中目标之间的关系。注意到视频中动作的时间顺序对于一个视频问答任务中的一个问题的答案推理是重要的。因此作者建议将空间和时间位置信息集成到图中每个结点的目标特征中。这样,作者就可以同时利用动作的时间顺序信息和时间顺序信息进行时间相关的答案推理。
为了方便起见,作者给出了算法1的整体训练过程。

Question Encoder
给定一个问题句子,问题编码器是为视频QA建模问题。为了处理单词的漏词和拼写错误,作者采用了字符嵌入Qc∈R k×c×dc和单词嵌入Qw∈R k×dw两种方法来表示一个带有k个单词的问题Q,其中dc和dw分别表示字符嵌入和单词嵌入的维数。
在优化中,词的嵌入函数是使用预训练好的300维GloVe初始化,并随机初始化符号嵌入函数。给定字符和词的嵌入,问题的嵌入可以由两层highway网络h(·,·),这被证明它对于解决训练难点是有效的,即:

其中字符嵌入通过一个g(·)做进一步处理,它由一个二维卷积层组成。
为了更好地对问题进行编码,作者将问题嵌入Q输入到一个双向LSTM(Bi-LSTM)中。然后通过在每个时间步从两个方向堆叠Bi-LSTM的隐藏状态来获得问题特征FQ。
构造位置感知图
给定一个每帧有K个检测目标的视频,作者寻求将视频表示成一个图。注意到到动作可以从目标之间的交互来推断,因此作者在检测到的目标上构造了一个全连通的图。
作者可以使用目标特征来表示每个结点。然而,该结点类型忽略目标的位置信息,这对于时间相关的答案推理是至关重要的。为了解决这个问题,作者将描述如何用所谓的位置特征来编码位置信息。利用位置特征,能够构造一个位置感知图,即作者将目标外观和位置特征连接起来作为结点特征。
位置编码。给定在第n帧中具有空间位置b和对齐特征o的检测目标,作者用由两个FC层和一个ReLU激活函数组成的多层感知器(MLP(·))对其空间位置特征ds进行编码,即:

其中b由左上角坐标以及检测目标的宽度和高度表示。
此外,作者还使用不同频率的正弦和余弦函数对目标的时间位置特征dt进行了编码,如下所示:

其中dit是时间位置特征dt的第i个条目,dp是其维数。然后,每个图结点的特征可以定义为:

其中 [· ; · ; ·]将三个向量拼接为一个较长的向量。这样,图中的每个结点不仅包含目标外观特征,还包含位置信息。
图卷积推理
给定构造的位置感知图,作者进行图卷积以获得区域特征。在实现中,作者建立了P层图卷积。具体地说,对于第p层(1≤p≤p),图卷积可以正式表示为:

其中X§是第p层的隐藏特征;X(0)是同公式(5)中的输入结点特征v;A§是邻接矩阵,它是通过第p层中的结点特征计算得到;W§是可训练权重矩阵。设X§是P层GCNs的最后一层的输出。然后,作者定义区域特征FR为:

这可以看作是输入X(0)和输出X§的跳连接,有助于提高训练性能,类似于ResNet(He et al.2016)。在作者的方法中,邻接矩阵是一个可学习矩阵,它能够通过学习所有边的权值来同时推断一个图。作者通过以下方法计算邻接矩阵:

其中W1和W2是投影矩阵。softmax操作在行轴中执行。
Visual Encoder
视频编码器是通过目标交互对视频内容进行建模,用于视频问答。给定一个N帧视频,作者使用固定的特征提取器(例如RESNET-152)提取帧特征。同时,通过现成的目标检测器为每帧检测K个边界框。在图像特征之上使用RoIAlign获得目标特征o,随后使用一个FC层和ELU激活函数以降低维数。
给定检测到的目标集R,作者在目标上构造一个位置感知图G(V,E)。然后,作者执行图卷积,使消息通过边在目标之间传递,可以形式化地表示为:

其中[· ; ·] 表示多个向量的拼接,f(·)表示任何映射函数,例如多层感知机(MLP)。GCNs的输出称为区域特征FR。此外,为了引入上下文信息,作者在框架特征上应用了全局平均池化以生成全局特征FG。

VQ Interaction Module
在获得视觉和问题表征后,作者提出一个视觉-问题(VQ)交互模块,将它们组合起来预测答案。VQ交互模块的框架如图2(b)所示。作者首先通过两个独立的FC层映射FV和FQ到维数为ds的同一个子空间中,导致FV∈R T×ds和FQ∈R L×ds。然后,作者探索哪些问题单词与视频QA的每种视觉表征更相关。在本文中,作者利用attention机制学习了一个受2017年Seo等人方法启发的跨模态表征。
具体地说,作者首先通过应用沿每行点积以及采用一个softmax函数来计算FV和FQ间的相似矩阵S,即:

然后,通过S和~FQ之间的点积,计算与每个视觉特征对应的加权问题特征FQ。跨模态表示FC∈RP×3ds的计算公式如下:

为了给出答案预测的最终表示,作者在维度T上引入一个Bi-LSTM,然后引入一个最大池化层。
答案推理与损失函数
视频问答的问题可以概括为三种类型:多选、开放式和计数。那么,在给定跨模态特征fc的情况下,如何预测每个问题类型的答案?
多选:对于这类问题,存在U个选项,要求模型选择正确的一个。作者首先以与上述描述的问题编码相同的方式嵌入每个选择的内容,导致U个独立的答案特征FA。然后,每个答案特征以上述描述的方式与视觉特征交互,其中作者用回答问题代替问题特征,产生加权答案特征FA。然后,公式(12)中的跨模态表示FC是被构造为[FV,FQ,~FA,FV · ~FQ,FV · ~FA]。作者利用U个跨模态表示上相同的FC层来预测分数A={a1,…,aU}。分数由一个softmax函数处理。作者用交叉熵损失作为损失函数:

其中如果答案ai是正确的选择,则yi=1,否则yi=0。作者以得分最高的选择作为预测。
开放式问题:对于这些问题,要求模型从预定义的总共C个候选词的答案集中选择一个正确的词作为答案。作者采用一个FC层和一个softmax层预测每个候选词的得分A={a1,…,aC}。作者用交叉熵损失作为损失函数:

其中如果答案ai是正确的选择,则yi=1,否则yi=0。作者以得分最高的选择作为预测。
计数问题:对于这些问题,请求模型预测一个范围从0到10的数字。作者利用FC层来预测数量。作者用均值平方误差损失训练模型:

其中x是预测数,y是真实值。在测试过程中,预测值四舍五入到最接近的整数,并在0到10之间进行裁剪。
实验
训练细节
作者将问答中的所有单词转换成小写,然后用预训练好的GloVe模型将每个单词转换成300维的向量。对于公平比较,作者采用了与比较方法相同的特征提取器。参见表1。作者使用Mask R-CNN作为目标检测器,每帧选择K个得分最高的检测目标。默认情况下,K设置为5。GCNs层数设置为2。作者使用一个Adam优化器来训练初始学习率为1e-4的网络。作者将多选任务和开放式任务的批处理大小分别设置为64和128。
在TGIF-QA数据集、Youtube2Text-QA数据集和MSVD-QA数据集这3个数据集上进行了实验分析。

评估指标。
(1)对于TGIF-QA数据集中的“计数”任务,作者采用预测答案与实际答案之间的均方误差(MSE)作为评价指标。
(2)对于作者实验中的所有其他任务,作者使用准确度来评估性能。
TGIF-QA
TGIF-QA是一个用于视频QA的大规模数据集,由从71,741个GIF中收集的165,165个问答对组成。在TGIF-QA中,有4种类型的任务:重复动作、状态转换、帧QA和重复计数。重复动作和状态转换是多选任务。问题附有五个选项。帧QA与图像QA类似,是一个开放式的单词任务。重复计数要求模型计数某个动作的重复次数。
TGIF-QA结果。作者将作者的L-GCN与最先进的方法进行比较,包括ST-VQA、Co-Men、PSAC和HME。从表2中,作者的L-GCN在四个任务上实现了最佳性能。值得注意的是,作者的方法比HME、ST-VQA和Co-Mem的性能要高出一大截,即使它们使用了额外的特征(即C3D特征和光流特征来建模动作。这些结果证明了利用利用目标图来捕获目标-目标交互和执行推理的有效性。

Youtube2Text-QA
Youtube2Text-QA包括MSVD video set中的视频以及从Youtube2Text视频描述语料库中收集的问答对。它包括开放式多选和多项多选,分为what,who,others三种类型。

在YouTube2Text-QA上的结果。为了进一步比较,作者在一个更具挑战性的数据集YouTube2Text-QA上测试了作者的模型。该数据集由开放式和多选组成,分为三个主题(即what,who,others)。作者考虑了两种最先进的基线方法(HME和r-ANL),并在表3中报告了结果。
从表3来看,与基线相比,作者的方法在多选和开放式问题的总体准确性上都取得了更好的表现。更具体地说,对于多选,作者在what和who的任务上取得了最好的性能。在其他任务上的相对较差不能代表不同模型的能力,因为这类问题只占所有QA对的2%。对于开放式问题,作者的L-GCN将who任务的准确率从29.4%提高到53.2%。这证明了利用目标特性的优越性,它为视频QA任务显式地定位目标。
MSVD-QA
为了进一步评估所提模型的有效性,作者还在MSVD-QA数据集上测试了作者的探索。
MSVD-QA中的任务是开放式单词任务,问题可以按照问题的第一个单词分为5种类型,包括what、who、how、when和where。所有问题都是采用一个大小为1,000的预定义好的答案集。
作者将作者的L-GCN与MSVD-QA数据集上的ST-VQA、Co-Mem、AMU和HME进行了比较。从表4可以看出,作者的L-GCN在总体计算上取得了最有希望的性能,这说明了本文方法在有意义场景下的优越性。

消融研究
各组成部分的影响。作者首先构造所提方法的一个简单变体作为基线,它仅使用全局帧特征FG通过公式(10)生成视觉特征FV。然后,将目标特征、GCNs和位置特征逐步合并到基线中,以生成更高质量的视觉特征,作者将它们分别表示为“OF”、“GCNs”和“Loc”。“FC”和“LSTM”分别代表GCN被两个全连接(FC)层或一个2层LSTM所代替的模型。“Loc_T”和“Loc_S”分别表示仅由时间或空间位置信息组成的位置特征。

作者在表5中显示了TGIF-QA数据集上的结果。(1)与基线相比,加入目标特征后,在所有任务中的性能都得到了一致的提高,证明了将检测到的目标用于视频QA任务的有效性。作者推测,检测到的目标显式地帮助模型排除不相关的背景。(2)在目标特征上应用GCNs可以进一步提高性能,论证了通过GCNS建模目标间关系的重要性。另一方面,使用FC层或LSTM只能带来较小的提高甚至降低性能。这并不奇怪,因为在每个目标上单独应用FC层时,模型无法学习目标-目标关系。此外,不同空间位置的目标不能看作是一个序列,因此LSTM不适合于对它们之间的关系进行建模。(3)增加位置特征进一步增加了性能。尤其是在状态转换和计数任务上的改进更为显著。一个可能的原因是,这两个任务对事件顺序的知识更加敏感,其中transition任务询问行为转换,而count任务询问操作的重复次数。作者还尝试只将时间或空间位置信息纳入L-GCN。与使用这两种位置类型的变体相比,性能下降,说明这两种位置信息是互补的,对于视频QA任务都是至关重要的。


#GCNS层和检测到的目标的影响。在这篇论文中,作者提出利用检测到的目标的GCNs来学习动作。在此,作者对GCNs的深度和每帧中目标的数量进行了消融研究。从表6可以看出,具有两层的GCNs在三个任务上表现最好。考虑到效率和性能,作者默认使用2层GCNs。此外,如表7所示,具有5个检测目标的GCNs在三个任务上都达到了最好的性能。有2个被检测目标的网络性能最差也就不足为奇了,因为网络可能会检测到一些重要的目标。另外,由于TGIF-QA数据集中的大多数问题回答对仅与少数几个显著的目标相关,向网络中输入过多的目标可能会影响系统的性能。默认情况下,作者在实验中利用5个检测到的目标。
定性分析

作者使用图3中的两个示例来演示GCNs中的相似矩阵。作者从这些示例得出两个结论:
(1)几乎所有与问答对相关的显著目标都被预先检测出来,如示例1中的飞机和男孩,示例2中的人和摩托车等,这些检测出来的目标明确地帮助网络避免了复杂无关背景内容的影响。
(2)作者的图形不仅捕捉了不同帧中相似目标之间的关系,而且关注语义相似性:第一个例子,飞机不仅在不同帧中与自己相关,而且还与小男孩相关,这有助于识别“飞机跑过男孩”的动作。
贡献
(1)通过学习被检测目标之间的交互来探索视频QA任务的动作,使得不相关的背景内容可以被显式排除;
(2)作者提出通过GCNs来建模目标之间的关系,使得所有的目标都能够直接进行交互;
(3)提出将目标位置信息集成到图形中,使网络能够感知特定动作的位置;
(4)作者的方法在TGIF-QA、Youtube2Text-QA和MSVD-QA数据集上取得了较好的性能。
小结
介绍了一种简单而功能强大的网络-位置感知图卷积网络(L-GCN),用于建模视频QA任务中与问题相关的目标之间的交互。作者提出将视频中的内容表示为图形,并通过图形卷积来识别动作。作者利用attention机制将图卷积的输出和编码的问题特征结合起来进行最终的答案推理。与现有的时空注意机制相比,L-GCN能够明确地去除无关背景内容的影响。此外,作者的网络能够感知事件的空间和时间位置,这对于预测正确答案非常重要。作者的方法在三个基准数据集上的性能优于现有技术。
