Advertisement

《Multimodal Relational Reasoning for Visual Question Answering》(视觉问题回答的多峰关系推理)论文理解

阅读量:

这是我对近期阅读的一篇文章 Multimodal Relational Reasoning for Visual Question Answering 几个要点体会

一、摘要

多模态注意力网络旨在解决当前涉及真实图像的视觉问题解答(VQA)任务中的前沿技术。尽管现有的注意力机制能够聚焦于与问题高度相关的视觉信息上, 但它们无法满足对VQA或其他高级认知任务所需复杂推理能力的需求。在本研究中, 我们开发了一种新的多模态关系网络——MUREL, 其通过端到端的学习过程能够实现对真实图像的深入推理能力。我们的主要贡献包括: 首次提出了一种称为MUREL单元的新模块, 这些单元作为基础推理模块, 利用复杂的向量表示来精确描绘问题与图像区域之间的相互作用机制; 并成功将这些单元整合进一个完整的MUREL网络架构中, 该架构能够逐步优化视觉感知与问题求解之间的互动关系; 最终验证表明, 该方法在多个基准测试集上表现优异: 包括VQA2.0、VQA-CPv2以及TDIUC数据集等; 在这项充满挑战的研究工作中, 所提出的MUREL网络不仅展现出显著的技术优势, 而且在某些领域甚至超越了现有的最佳研究成果

二、介绍

在这里插入图片描述

该方法在可视化方面的展示为本研究的核心内容。在我们提出的VQA架构中,MuReL网络被设计为一个迭代过程,其基础是问题与视觉信息间的丰富矢量表示,明确模拟了区域间的关系。由此可知,MuReL模型能够通过复杂的分析机制超越注意力图的能力:其中,通过识别头部与甜甜圈等关键特征及其语义关联,系统能够精准地选择对应的空间区域,从而正确回答"她在吃什么?"这一问题

如上图所示地阐述了核心概念的基础上

三、MuRel方法

在这里插入图片描述

我们的VQA方法如上图所示,给定

在这里插入图片描述

我们要预测的答案得分

在这里插入图片描述

其中

在这里插入图片描述

是我们的可训练模型
在我们的系统中,图像由一组向量

在这里插入图片描述

表示
其中

在这里插入图片描述

对应于图片中检测到的对象。
我们还使用每个区域的空间

在这里插入图片描述

(x, y) 代表坐标框的 top-left corner;h 和 w 分别代表盒子的高度和宽度。通过门控递归单元网络生成表示为 q 的嵌入向量。

3.1MuRel单元

MuRel单元将一袋N个视觉特征

在这里插入图片描述

以及它们的边界框坐标bi作为输入,如下图:

在这里插入图片描述

在MuRel单元内实现了一种双线性融合机制来描述问题空间向量与区域向量q及si之间的多样细致交互关系。各生成的多峰特征向量mi经由成对建模模块传递以便于生成各区域对应的空间语义嵌入xi。最后整合该单元输出结果作为进一步推理的基础信息

在这里插入图片描述

计算为si和xi之间的和,作为xi的残差函数。

由两个模块组成,在这种情况下, 高效的双线性融合模块负责将问题与区域特征向量进行整合, 从而实现局部多峰嵌入. 随后, 这种融合结果会被成对建模组件所接收, 该组件通过其自身的位置和视觉特性不断优化每个峰值表示.

多峰融合
该双线性融合模型主要关注输入维度间的相关关系。它能够有效地建模多样化的多模式交互细节,并保持较低的参数复杂度。对于每个输入向量Si与问题嵌入q而言,采用了统一的双线性融合机制:

在这里插入图片描述

其中

是

是融合模块的可训练参数。

mi的每个维度都可以写成双线性函数形式

在这里插入图片描述

成对交互
为了应对某些特定类型的问题, 可能需要对多个实体之间的交互进行推理操作, 其中每个表示形式都具备空间与语义环境的知识. 我们采用了成对关系建模的方式, 其中每个区域都基于与其邻居的关系来接收消息. 在工作流程中, 一个地区的邻居对应于k个最相似的区域; 然而,在MuRel单元中, 邻域由图像中的每个区域构成. 我们通过将空间信息与语义表示相结合来构建关系向量. 其中, eˇi 用于表示第i个区域的信息; rij 表示第i个区域与第j个区域之间的关系向量; 在聚合函数中使用最大运算符以减少平均池化或总池化操作; 并要求所有区域相互作用以定义关系向量

在这里插入图片描述

其中rij定义计算过程:

在这里插入图片描述

在上述公式中使用加号时,默认前一个单元负责自主获取空间概念信息;而后一个单元则用于计算语义关联,并通过加法运算整合多峰向量Mi

在这里插入图片描述

在该阶段,在处理过程中,在该阶段的MuRel单元中其输出被计算为输入残差函数的结果,并采取措施防止梯度消失现象;其中每个视觉特征si被更新为:

在这里插入图片描述

整合前面计算过程,得到MuRel的简单表示:

在这里插入图片描述

3.2MuRel 网络

在MuRel网络中,通过借助双线性融合的能力将视觉信息被整合到上下文感知的视觉嵌入中,并模拟了一种基本的循环推理机制。

在这里插入图片描述

该网络逐步优化单个模块的作用,并整合到基于空间的位置特征集合{Vi}中进行问题求解

如图所示,在每个时间步t=1,…,T中, 区域的状态MuRel单元将通过一系列的过程进行状态更新. 在每个更新阶段, 系统将利用当前时刻及其历史信息来逐步细化表示内容. 这种方法能够有效提取与目标相关的多维度信息并将其整合到状态向量中.

在这里插入图片描述

状态向量由对象检测器输出的特征初始化。对于每个区域 i ,

在这里插入图片描述

该网络通过其自身的区域表示来体现各问题特征,并且能够结合自身的视觉环境进行优化。具体而言,在该模块内通过多个连续步骤进行逐步优化以完成对问题区域的表征。此外,在该模块中各单元间的特性配置使得能够同时优化多组单元参数而不至于出现梯度消失的问题。最后,在模型设计中我们采用了模块化的方式实现各组件间的协同工作,并且通过各模块间参数共享的方式实现了信息的有效传递与整合

在步骤 t = T,表示

在这里插入图片描述

被聚合,用全局最大池化操作提供单个向量

在这里插入图片描述

该场景涵盖包含相关对象的信息,并非单纯指代具体实体本身。这些信息不仅涵盖了实体间的位置关系及意义关联,并且与特定议题直接相关。

场景表示S与嵌入问题q合并以计算每个可能答案的分数,

在这里插入图片描述

最后

在这里插入图片描述

是在

中得分最高的答案。

可视化MuRel网络
我们的模型还可以用来设计比单一关注图更为精细的可视化方案。特别地,在MuRel网络的末端部分采用最大池化操作整合了多通道视觉特征以强化各图像区域间的关联性。

在这里插入图片描述

生成dv维向量S, 因此, 我们可以通过评估每个区域对最终向量的影响度来计算贡献映射. 为了计算贡献映射, 我们将逐个点地进行分析.

在这里插入图片描述

计算该向量c中各区域出现频率,并评估它们在最终结果中的重要性。这一指标为各个区域赋予权重系数,在整个网络架构中逐步进行。这种设计不仅考虑到了每一层神经元的作用(即不仅关注最后一层),而且即使采用无监督学习策略训练模型(如不依赖于人工标注数据),这些相关性分数仍然能够合理地反映实际观察结果,并且可以帮助我们深入理解模型的行为逻辑。

同样地, 我们有能力和信心可视化MuRel细胞预测涉及的关键配对关系。 第一步就是确定i⋆, 这个区域被证明为两两建模中影响最大的部分。该区域就是

在这里插入图片描述

最大的区域。在我们所有可视化中,此边界框均以绿色显示,然后,我们使用

在这里插入图片描述

通过计算各区域在中的出现频率来评估每个其他区域对i⋆的影响程度。 在可视化中,我们使用红色标注那些其对i⋆贡献超过预设阈值(此处为0.2)的区域,在此基础上进一步分析各部分的具体影响情况。 如果没有任何一个区域达到该阈值,则不绘制绿色方框以表示无显著贡献的情况。

对比分析MuRel网络与现有FiLM网络的架构设计及其适用场景差异。具体而言,在针对基于合成数据集CLEVR的任务研究中(如FiLM架构),现有的研究主要关注于模型构建的基础模块设计;而与之不同的是,MuRel网络旨在应对真实世界中的复杂场景需求。在现有研究中(如FiLM架构),图像通常被输入到一个深度残差块中进行多步变换;而在本研究中提出的MuRel架构,则采用了迭代单元结构以更好地捕捉空间关系。此外,在多模态信息融合方面(如FCOS架构),现有方法主要依赖于简单的加性操作;而本研究则通过引入双线性融合机制显著提升了模型对复杂关系的捕捉能力。最后,在关注点上两者的共通之处在于均试图通过分析图像的空间特征来建模区域之间的关系:其中,在已有工作(如FCOS架构)中主要采用全卷积神经网络提取图像表示;而在本研究提出的MuRel框架下,则采用了系列局部特征表示方法以增强模型鲁棒性。

四、实验

1、首先将MuRel模型和基于注意力的模型进行比较

在这里插入图片描述

在模型中分别进行Pairwise和Iterative两种方式的逐一测试以评估其对准确率的影响研究结果表明当同时引入这两种方法时整体表现达到最佳水平由此可观察到这两种方法之间存在相互补充的关系

在这里插入图片描述

3、探究对于不同类型的问题迭代次数的影响:

在这里插入图片描述

4、不同的模型在不同数据集的比较:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5、模型实例

在这里插入图片描述

基于关系机制的彩色区域内重要性的分布可视化。隐式注意机制将被选中的最大面积显示为更明亮的部分。配对建模中影响最大的是绿色部分,并且红色部分对于绿色部分的影响也最为显著。当数值超过该特定阈值时才呈现这些彩色区域能量变化特征

五、结论

本文探讨了一种针对解决视觉信息处理问题的多模态关系网络MuRel。我们的系统利用了视觉图像区域的丰富表示,并通过融合图像区域特征与其对应的问题描述来构建整体模型。在融合过程中我们不仅考虑了各区域间的关联性还引入了配对式组合机制来提升模型性能。该系统能够构建清晰的数据可视化方案,并为分析决策过程提供了直观的理解框架。

全部评论 (0)

还没有任何评论哟~