2019:Fusion of Detected Objects in Text for Visual Question Answering
摘要
为了推进多模态上下文的模型,我们引入了一个简单但强大的结合视觉和自然语言的数据神经架构。“文本Transformer中的边界框”(B2T2)还利用简单统一的体系结构中的引用信息绑定词到图像的部分。B2T2在视觉常识推理基准上非常有效,与发布的基线相比降低了25%的错误率,并在公共排行榜上获得了最佳性能(截至2019年5月22日)。详细的消融分析表明,早期将视觉特征整合到文本分析中是实现新体系结构有效性的关键。
一、介绍
不同的上下文概念导致了对下游NLP任务的不同程度的成功,最近的神经结构,包括Transformer和BERT,显著提高了我们包含一个广泛的潜在词汇提示窗口的能力。然而,同样的能力允许多模态上下文,这可能有助于建模单词的一般含义,并提高其对上下文中单词实例的理解。
本文中,我们也考虑了视觉上下文,并表明视觉和语言信息的正确整合可以改进VQA。我们要解决的是如何在神经结构中编码视觉和语言信息,如何最好的做到这一点仍不清楚。文本实体怎样与图像中的对象绑定?文本和图像最好整合较晚,以允许独立分析(晚融合)?或一个处理应该以另一个的分析为条件(早融合)?跨模态共引用是如何最好的编码?在编码句子语义前,在视觉接地单词有意义吗?
本工作中,我们通过设计在文本Transformer中的边界框来回答这些问题--B2T2,一种用于语言和图像的多模态编码的神经结构,我们在视觉常识推理基准上评估B2T2。
图1显示了一个来自VCR基准测试的一个说明性示例。视觉常识推理很适合测试丰富的多模态表示,需要更多的建模能力进行语言理解。

在我们的实验中,我们发现文本标记和对象视觉特征之间的早期融合是获得改善VCR的最关键因素。我们发现,我们在模型的输入中包含的视觉对象特征越多,模型的性能就越好,即使它们没有明确地共同引用文本,而且对图像中对象的位置特征也很有帮助。我们最终发现,当VCR模型从概念标题的预训练中初始化时,它们可以更可靠地进行训练,这是一个包含约300万张图像和标题的公共数据集。通过这些建模改进的结合,我们获得了一个新的视觉问答模型,该模型实现了VCR上的最先进水平,相对于最好的发布和记录的模型,错误率降低了25%以上。
二、问题定义
本工作中,我们假设数据由四元组组成(I,B,T,l):I为一个图像;B为指向I的区域的边界框列表,每个bi通过左下角、高度和宽度来确定;T是标记文本的一部分,具有一些标记不是自然语言,而是对B的明确引用;l是一个二值标签{0,1}。
我们假设一个图像表示函数,可能在调整大小和填充后,将图像转换为维数为d的固定尺寸向量表示。
同样,我们假设一个预训练过的文本表示,能够将任何标记化的文本段落,可能是在截断或填充之后,转换为维度为h的向量表示。假设一个上下文独立的标记表示E,维度h,以及一个段落级表示(返回维度h的段落级向量表示)。表1概述本工作使用的符号。

三、模型和方法
我们评估两种主要结构:双编码器,一种晚融合结构,图像和文本分别编码,答案分数作为一个内积计算;以及完整的B2T2模型,一种早融合架构,视觉特征和输入词标记嵌入在相同的层次上。
3.1 双编码器
双编码器是将潜在的不同种类的对象嵌入到公共表示空间中的模型,其中相似性函数可以是点积或余弦相似度。一个用于图像分类的双编码器的一个显著例子是WSABIE。
双编码器结构如图2所示,我们建模类分布:

D是一个d*h的学习矩阵,共参考信息被完全忽略,模型必须依赖固定维度向量来实现文本和视觉的晚融合。然而,这在VCR上实现了竞争的性能,可能因为选择了强大的预训练模型。

3.2 B2T2
B2T2结构如图3所示,我们建模类分布:

al和bl是学习到的参数,E'(I、B、R、T)是每个标记及其在文本中的位置的非上下文表示,也是边界框的内容和位置的表示。与“双编码器”的关键区别是,文本、图像和边界框是在非上下文化标记表示的级别上组合起来的,而不是在分类决策之前。

E0(I、B、R、T)的计算方法如图4所示。更正式地说,对于一个给定的例子,让矩阵R∈{0,1}m×n对B中的边界框和T中的标记之间的引用进行编码,因此当且仅当边界框i被标记j引用时,Rij为1。然后:

其中M是一个学习到的h×d矩阵,Φ(crop(I,bi))表示裁剪图像I到边界框bi,然后提取大小为d的视觉特征向量,π(bi)表示将bi的形状和位置信息嵌入到大小为d的向量中。
为了嵌入边界框b的位置和大小,我们引入了两个新的可学习嵌入矩阵X和矩阵Y。设b的对角坐标为(x1,y1)和(x2,y2),归一化后,使覆盖整个图像的边界框具有x1=y1=0和x2=y2=k。位置嵌入因此被定义为:


3.3 损失
我们所有的模型都使用标签l进行二值化交叉熵损失的训练。对每个例子:

3.4 在概念标注上预训练
在VCR训练之前,我们使用Mask-LM预训练技术对图像和标题对进行预训练,如BERT中使用的预训练技术。在预训练中使用的设置如图5所示,其中模型在填充掩码时使用图像作为附加上下文。
我们使用两个任务来进行预训练:1)冒名者识别和2)掩码语言预测。对于冒名者任务,问哦们为每张图像抽取一个副标题,并要求模型预测标题是否正确关联。对于掩码-LM,我们用[MASK]标记随机替换标注中的标记,模型必须预测原始标记。
形式上,预训练数据由图像和标注组成,在预训练期间不考虑边界框,二值标签l表示标注是否是冒名者。冒名者识别的损失是二值交叉熵LBCE,标签为l。我们将掩模-lm的损失表示为LMLM,这是预测的标记分布对真实标记的交叉熵之和。
为了确保我们的模型正确地将语言接地于基于掩模LM损失的图像,我们只将它用于正标题,。我们的最终目标是计算损失之和:


四、数据
我们通过将每个VCR示例转换为四个Q->A实例,每一个答案,有四个QA->R的示例。我们为Q→A任务中的实例构建文本

在QA->R任务中:

其中,[b0]是整个输入图像的一个边界框,q0是问题标记,a0答案标记,A0*正确答案标记,r0理由的标记。我们将O中的第一个带有类标签的p边界框附加到序列的末端(在我们的实验中,我们使用p=8),对于Q、A、R中引用的对象,我们预先准备类标签标记(即[bi]变成li,[bi])。我们将二进制标签l分配给每个实例,以表示答案或基本原理选择是正确的。
五、实验结果
5.1 VCR任务表现
我们的双编码器模型工作得非常好,超过没有使用边界框的基线。我们还评估了一个仅限文本的基线,它类似于双编码器模型,但忽略了图像。与Q→A、QA→R和Q→AR任务的已发布的R2C基线相比,其绝对准确率分别提高了8.9%、9.8%和13.1%。我们的单个B2T2和集成B2T2模型都优于VCR排行榜上的所有其他系统。

5.2 消融
我们考虑消融,以降低对VCR开发集Q→A精度的影响。
使用边界框:边界框是我们模型改善精度的最重要因素,没有任何边界框,仅优于双编码器的正确率。用4个而不是8个附加的边界框,我们得到了71%的准确率。有8个边界框,但没有文本边界框中的文本标签,我们获得了70.9%的准确率,这表明我们的模型可以对检测到的对象使用标签。表4中的示例1显示了一个示例,即只有当边界框5可用时,我们的模型才能正确。
晚融合vs早融合:第二个最重要的选择是在上下文独立的标记嵌入的水平上结合视觉信息,而不是在神经表征的最高级别上。如果在完整的B2T2模型中,我们在BERT的最后一层而不是在第一层中添加视觉嵌入,我们就会失去3.3%的精度。
文本模型大小的影响:为了测试我们的改进仅仅是由于我们的模型更大,我们使用bert-base重新训练B2T2模型,发现我们失去了2.9%的准确性。
视觉模型大小的影响:即使是对象检测模型的大小似乎也很重要。如果我们把ResNet-152换成ResNet-50,准确率会降低1.5%。
预训练:我们发现,从预训练中获得的性能改进相当小,准确率约为0.4%,但从预训练的模型中初始化大大减少了结果的方差。我们在图6中,在3.5节中描述的学习率、随机种子和训练时代的网格中展示了这种效应。

边界框的位置:此外,我们还研究了从模型中去除位置信息的影响。有边界框位置嵌入的好处是我们所考虑的最小的。与完整的模型相比,没有位置嵌入训练的模型只损失了0.3%的精度。

5.3 错误分析

七、总结
在这项工作中,我们对比了当强大的文本和视觉模型可用时,结合文本和图像的不同方法。我们选择BERT-Large作为我们的文本模型,ResNet-152作为我们的视觉模型,并选择VCR数据集作为我们的主要基准。
早期融合B2T2模型对句子进行编码,以及对图像中识别对象周围的边界框的链接,在视觉问答任务中产生最佳的可用结果。一个控制模型,实现晚期融合(但否则相同),表现得更差。因此,在视觉上下文中的基础应该尽早而不是晚。
我们还用双编码器模型演示了竞争结果,即使忽略了对图像边界框的文本引用,也能匹配VCR数据集上的最先进的结果。然后,我们展示了我们的双编码器模型可以通过深入合并从整个图像和边界框中提取的文本嵌入视觉特征来大大改进。最后,我们展示了用掩模-lm损失对概念标题的深度模型进行预训练,可以产生一个小的额外改进以及更稳定的微调结果。
