Advertisement

Multi-Modal Answer Validation for Knowledge-Based VQA

阅读量:

基于知识的视觉问答问题除了图像的内容外,还涉及到回答需要外部知识的问题 。这种知识通常有多种形式,包括视觉、文本常识知识 。然而,更多知识来源的使用也增加了检索更多不相关或嘈杂事实的机会,使得理解事实和找到答案变得困难 。为了应对这一挑战,我们提出了使用外部知识的多模态答案验证,其思想是基于答案特定的知识检索 来评估一组候选答案。这与现有的从大量无关事实中寻找答案的方法形成对比。我们的方法旨在了解每个答案应该信任哪些知识来源 ,以及如何使用该来源验证候选人。我们考虑一个多模态设置,依赖文本和视觉知识资源,包括使用谷歌搜索的图像、维基百科文章中的句子和概念网中的概念。我们在一个具有挑战性的基于知识的VQA数据集OK-VQA上的实验表明,MAVEx 获得了新的最先进的结果。

Introduction

在过去的几年里,视觉问题回答(VQA)领域已经见证了重大进展[2, 41, 13, 32]。最近有一种基于知识的VQA的趋势[37, 36, 25],它需要超出图像内容的信息。为了正确回答那些具有挑战性的问题,该模型不仅需要视觉识别的能力,还需要逻辑推理和纳入关于世界的外部知识 。这些知识事实可以从各种来源获得,如图像搜索引擎百科全书文章 和关于常见概念 及其关系的知识库。

我们解决了基于知识的问题回答问题。在不同的知识来源(视觉知识、文本事实、概念等) 中检索相关知识。)相当具有挑战性。本文的目标是了解特定问题应该使用什么知识来源,以及如何使用该来源验证一组潜在的候选答案。

图1展示了一些视觉问题以及回答这些问题所需的来自不同外部来源 的知识。每个问题都需要不同类型的外部知识。例如,要识别以一个男人向陌生人讲述他的生活故事为特色,我们需要将图像n''内容和问题与一些文本事实(图中的蓝色方框)联系起来;素食和吃蔬菜关系到健康的概念(绿盒子);并且检索到的“金毛猎犬”(黄色方框)的图像在视觉上类似于问题图像中的狗。面临的挑战是如何在一个开放领域的问答框架中有效地检索和正确地整合这些外部知识。我们还见证了基于知识的VQA数据集的转变——从结构化检索知识(如三元组和密集标题[37,36])到非结构化开放知识[25]。最近的基于知识的VQA系统[25,36,42,24]遵循两阶段框架,其中检索器首先查找与问题和图像相关的知识,然后单独的理解模型预测答案。

然而,直接为问题和图像检索的知识通常是嘈杂的 ,对预测正确答案没有用处。例如,如图2所示,仅使用问题中的单词和图像中的对象(上图)或错误答案(中图)检索的句子几乎对问题没有帮助,这增加了答案预测器的负担,导致对检索到的知识的使用仅带来微不足道的提升[25]。有趣的是,有了正确的答案“温布尔登”(下图),检索到的事实的质量得到了显著提高,这使得回答问题变得有用。这一观察结果激励我们使用检索到的知识来验证答案,而不是生成答案

为了应对这一挑战,我们提出了一个新的框架,称为MAVEx使用外部知识的多模态答案验证MAVEx 背后的关键直觉是,使用重新搜索的知识来验证候选答案的有效性比使用开放的知识搜索来寻找答案更可靠 。因此,我们根据检索到的事实学习一个模型来评估每个候选答案的有效性。要让这种方法发挥作用,我们首先需要一小组候选答案。我们观察到,虽然最先进的VQA模型与基于知识的VQA斗争,但这些模型在生成通常包含正确答案的候选人小列表方面令人惊讶地有效。使用这些候选人来指导知识搜索使得检索到的事实不那么嘈杂,并且通常与问题更相关 ,如图2所示。

总之,我们的主要贡献是:

(a)我们介绍了一种新的方法,该方法使用候选答案来指导开放域VQA的知识检索

(b)我们通过探索视觉知识和文本知识 来使用多模型知识检索;

以及(c)我们提出一个一致性标准来决定 何时信任从每个来源检索的知识。

Conclusion

我们提出了一种新的基于知识的视觉问答方法MAVEx目标是从不同的知识来源中检索特定于答案的文本和视觉知识,并了解哪些来源包含最相关的信息 。在大量检索到的知识中进行搜索是一种挑战,这种搜索通常相当嘈杂。因此,我们将问题表述为答案验证 ,目标是学习根据检索到的知识验证一组可教答案的有效性。更具体地,答案候选确认模块预测由为每个候选检索的知识提供的支持程度,并决定每个候选答案信任哪些来源。MAVEx展示了答案引导知识检索的明显优势,在OK-VQA数据集上实现了新的最先进的性能

\

提出的问题:

作者分析,现阶段的VQA系统遵循两阶段框架,检索器首先查找与问题和图像相关的知识 ,然后用一个单独的理解模型 预测答案。

仅使用问题中的单词和图像中的对象(上图)或错误答案(中图)检索的句子几乎对问题没有帮助 ,这增加了答案预测器的负担

解决方案:

使用检索到的知识来验证答案 ,而不是生成答案。

本文认为使用重新搜索的知识来验证候选答案 的有效性比使用开放的知识搜索来寻找答案更可靠**。**

本文的最终目标事了解特定问题应该使用什么知识来源,以及如何使用该来源验证一组潜在的候选答案。

答案候选确认模块预测由为每个候选检索的知识提供的支持程度,并决定每个候选答案信任哪些来源。

讨论:

本文的主要思想是通过训练一个判别器来训练判别每个候选答案应该信任从哪个知识源获取的知识,然后根据这些知识获取正确的答案。

这样设计的模型过于复杂,生成候选答案之后再搜索多个外部知识验证,过于复杂。

全部评论 (0)

还没有任何评论哟~