Advertisement

ConceptBert: Concept-Aware Representation for Visual Question Answering (2020)

阅读量:

视觉问答(VQA)是一项耗时较长的任务,受到计算机视觉和自然语言处理领域的广泛关注。目前的研究主要集中在通过直接分析问题和图像来回答问题。本文提出了一种概念感知算法(ConceptBert),用于解决需要外部常识或基本事实知识的问题。该算法通过联合视觉、语言和知识图(KG)嵌入,捕获图像-问题-知识的特定交互,并在OK-VQA和VQA数据集上进行了评估。与现有方法不同,ConceptBert利用预先训练的图像和语言特征,并将其与KG嵌入融合,从而将外部知识纳入VQA任务,降低了计算成本。实验结果表明,该模型在VQA 2.0和OK-VQA数据集上的性能良好。未来研究将探索如何集成实体和对象之间的显式关系,以进一步提高预测效果。

视觉问答(VQA)是一项需要大量时间和资源的任务,受到了学术界和工业界的广泛关注。目前,VQA研究的主要方向是通过直接分析问题文本和图像内容来生成回答。为了应对这一挑战,我们开发了一种基于概念感知的深度学习模型,命名为ConceptBert。该模型旨在解决需要依赖外部结构化知识以获取常识或基本事实的问题。具体而言,当系统接收到自然语言描述中的图像信息和问题时,ConceptBert需要结合图像的视觉特征和预先构建的知识图谱(Knowledge Graph,KG)来推导出正确的答案。为了实现这一目标,我们设计了一种多模态表示方法,能够学习构建一种联合的概念-视觉-语言嵌入空间。在知识表示方面,我们采用了ConceptNet KG来编码常识性知识。为了评估该方法的性能,我们在OK-VQA数据集和VQA基准数据集上进行了实验验证。

Introduction

视觉问答(VQA)最早被引入视觉与语言的联合空间,以弥补自然语言处理和图像理解应用之间的差距(马林诺夫斯基和弗里茨,2014)。大多数VQA基准主要采用单词嵌入技术和递归神经网络(RNNs),并结合边界框坐标和图像特征向量的描述符来构建问题表示。随后,单词和图像的表示被融合并输入到网络中以训练VQA模型。当仅依赖于视觉信息时,这些方法是实用的。

将外部知识融入其中能带来诸多优势。外部知识事实能够改善图像中检测到的对象之间的关系表示,或者在问题中与图像中的对象之间的关系表示上发挥作用。此外,它还提供了从问题中获取答案所需信息的途径。因此,基于知识库的支持,问题的复杂性得以提升。将世界上的事实组织并存储于结构化的数据库中,即大规模知识库,已成为表示外部知识的重要资源。典型的知识库由主谓宾三元组构成,亦称事实。这种形式的知识库通常被称为知识图(KG),由Bollacker等提出,因其具有图形化表示而闻名。知识图通常由节点和有向边组成,其中节点代表实体,有向边表示实体之间的关系。三元组则具体指定了两个实体通过特定关系连接的方式,例如(莎士比亚,作家,哈姆雷特)。

基于知识的视觉问答系统(VQA)的研究是当前人工智能领域的重要课题之一,但目前这一方向仍处于起步阶段,尚未取得显著进展。近期研究者开始尝试将基于知识的方法整合到视觉模型中,相关研究工作已在多个高水平国际会议(如CVPR、ICCV、EMNLP等)上取得成果(王等人,2017,2016;Narasimhan等人,2018年;Narasimhan和Schwing,2018年;朱等,2015;Marino等人,2019年)。这些研究工作主要采用两种整合方式:第一种是通过收集相关事实的方式为VQA数据集中的每个问题提供支持;第二种则是通过获取搜索信息的方式,为每个问题-图像对构建搜索查询,并利用API技术快速获取答案。基于上述方法,我们在此基础上进一步创新,构建了一种完全自 contained 的端到端可训练VQA模型。与现有方法不同,我们的模型无需依赖VQA数据集中的标注信息或搜索预处理步骤。

最近的大部分工作仍然基于上下文无关的单词嵌入 的思想,而不是预先训练的语言表示(LR)模型。虽然预先训练的LR模型如BERT (Devlin等,2018)是一个新兴的方向,但在VQA任务中很少研究它与KG和图像表示的融合 。刘等人提出了一种基于知识的语言表示方法,并使用BERT作为标记嵌入方法 。然而,这个模型也是一个基于查询的方法。它收集问题中涉及的实体名称 ,并从KG中查询它们对应的三元组 。然后,它将查询的实体注入到问题中。在这篇文章中,我们介绍了一个模型,该模型从视觉、语言和KG嵌入中 联合学习,并捕获图像-问题-知识特定的交互 。我们方法的管道如图1所示。我们计算一组对象、问题和KG嵌入。嵌入的输入然后通过两个主要模块传递:

I)视觉语言表示,以及ii)概念语言表示。视觉语言表示模块协同提升了图像与问题嵌入的质量,都对另一个的文本表示进行了优化。概念语言表示则在问题嵌入过程中采用了KG嵌入技术,整合了相关信息。随后,将两个模块的输出进行整合,形成概念-视觉-语言嵌入表示,随后通过分类器进行答案预测。

我们的模型相较于以往的方法有所创新,主要基于我们采用了预训练的图像与语言特征,并将其有机整合至KG嵌入体系中,从而实现了外部知识的自然融入。这一创新使得我们的模型无需依赖额外的知识标注或搜索查询,从而有效降低了计算成本。此外,这一端到端的训练管道具有完全可扩展性。

综上所述,我们工作的核心贡献主要体现在:
1.创新性地将常识知识融入VQA模型(图1)。
2.在VQA模型中采用知识边图嵌入的概念感知表示(图2-b)。
3.创新性地提出多模态概念-视觉语言嵌入(第3.4节)。

Conclusions

在本文中,我们开发了ConceptBert,这一概念感知的端到端框架旨在从外部结构化内容中提取知识。我们提出了一种新的问题表示方法,通过结合Transformer块和知识图谱嵌入来整合外部知识。随后,我们整合视觉、语言和概念嵌入,以学习概念-视觉-语言的联合表示。实验结果表明,该方法在VQA 2.0和OK-VQA数据集上的性能表现优异。

在后续研究中,我们将探讨如何将实体与对象间的显式关联纳入模型。我们相信,通过结合知识图谱中的关联信息,并将其与问题及图像中识别的对象关联起来,将有助于提升预测效果。

总结:

提出的问题

目前VQA方法主要集中在分析问题和图像上,而目前存在的两种方法是

1)使用知识标注的探索一组外部相关事实

2) 使用API检索的方式。

大多数嵌入工作主要基于与语境无关的嵌入方法,通过检索与查询实体相关的三元组,随后将查询实体注入到问题中。

解决方案:

基于BERT模型,我们开发了一种在视觉、语言以及知识图谱嵌入方面联合学习的方法,以图像、问题及知识特定的交互关系为核心。

参考了VilBERT的多模态预训练方式,引入了KG的联合嵌入

讨论:

基于预训练模型的思想,在BERT模型中融合嵌入图片、文本以及与知识图谱相关的知识,从而实现了信息的补充与对齐,同时具备了注意力机制等核心功能。

该联合嵌入引入的外部知识,未对KG进行细粒度处理,计算开销较大,可能导致数据噪声。

全部评论 (0)

还没有任何评论哟~