Multi-Granularity Alignment for Visual Question Answering(视觉问答的多粒度对齐)
摘要
识别不同模态之间的组件连接以及每个模态内组件间的内部联系从而得到更好的注意力权重是非常关键的任务。本文着重研究如何设计输入分层以及嵌入结构信息以反映组件间的关联性从而改善各层次组件之间的对齐效果
该系统针对视觉信息问答任务设计了一种新型架构MGA-VQA,在这种架构中,系统基于多粒度对齐挖掘了内部关联性和跨模态关联性,并同时采用决策融合模块整合生成最终回答。
介绍
不同层次的细粒度图像特征与自然语言句子之间的直接融合具有显著复杂性,并且表现出较低的可解释性水平。本文着重研究在无额外数据支持的情况下如何实现更高效的多模态对齐过程。为了实现粒度级别的对齐目标,在我们的模型中引入了lead graph概念,并将其图结构信息有机地嵌入其中。
贡献:
- 该文创新性地提出了一个多层级关联架构,在概念实体层、区域名词短语层及空间句子层上实现了模态内部与外部的关联模式综合学习,并将其与决策融合模块整合以获取最终答案。
- 该机制通过结合视觉注意力引导与问题导向的空间注意力机制实现了信息的有效交互。
- 实验研究选择GQA基准数据集及其增强版本VQA-v2作为评估平台并验证了所提模型无需依赖额外预训练数据即可实现两套基准任务的有效性对比现有基于预训练模型的研究发现所提出的方法不仅能在GQA基准中取得超越性能更能有效提升VQA-v2的任务准确率。
目前存在方法的一些缺陷:
图像缺乏自然语言的语法结构,语言可能存在偏见。
文本特征和细粒度图像特征之间的对齐,其中图像缺乏语言结构和语法规则,导致难以获得良好的结果。 此外,这些工作大多以简单的方式处理问题,而忽略了自然语言领域中的内部逻辑关系。这些问题成为理解多模态特征之间关系的瓶颈。
方法

模型的主要思想:在多模态输入之间对应地配准多个信息层级,并进而整合相关信息以获得最终预测。该模型拥有三种不同粒度层级的对齐。
第一步是从输入图像中识别出一系列物体及其相关属性与关联关系。在问题识别阶段,则被检测出包括名词短语、实体以及句子语法结构等多个关键要素。随后利用lead graph进一步引导对齐学习,并根据上述步骤中提取的结构信息构建它们;这些构建过程将被划分为概念级与实体级要素、区域级与名词短语级要素以及空间级与句子级要素三大类基本组成单元。最后将这三个层级上的GA-TRM模型进行集成处理,并基于此预测最终答案。
VQA中的粒度层次

图像中的粒度信息
基于输入图像 Img 来提取三个不同层级的特征
概念层次(Concept Level): 依据图像中的语义特征、属性描述以及关联关系等信息点进行构建,在这一过程中首先需要对这些基本要素进行明确界定与分类整理的基础上构建相应的概念模型

,首先将关系看作是额外的节点,然后将该图拆分为节点序列

并通过索引

表示节点之间的连接关系。为了描述节点之间的关联性, 将 subject-predicate-object 三元组拆分为 '主词-谓词' 和 '谓词-宾语' 两个部分, 这样就能用索引对分别描述这两种情况

。
[Example 1]
在这里,token序列的特征

是通过GloVe嵌入和多层感知器(MLP)从节点序列

计算出来的。
区域层级(Region Level): 区域层级捕获了中间层级的具体视觉特征,并明确标识出物体所具有的特定视觉区域。与概念层面的对象特征不同,在此层级中所描述的对象特异性地反映了其视觉特性而非语义内涵。token序列的特征

是由Faster R-CNN提取,然后关系对

的获取方式和

具体来说,在某些情况下**(例如)**当两个对象在概念层面上具有语义关联时,则在区域层次上对应地形成相关联的对。
[Example 2]
\textbf{T}_{r} = \[ \textbf{t}_{girl}, \textbf{t}_{dog}\]
Space Levels (Spatiotemporal Levels): The spatial level characterizes the most detailed visual features at the finest granularity, offering comprehensive spatial and supplementary information for the preceding two levels. These features are extracted as a sequence of tokens from the main CNN.

,

是所有特征单元的全连接关系。
问题中的粒度信息
从输入问题中提取三个层面的特征,并考虑架构信息与语法规则以更精确地对齐。
实体层面的特征表示方法有助于模型在抽象层面上进行对齐。该方法通过将不具有属性的单个对象(即实体)作为分析重点,并将其转换为token序列化的形式来实现这一目标。

与图像中的概念特征处理方式相似,对应的 lead graph 对

是全连接对。
在经过解析器处理后,在去除限定词(如a, the)和位置相关词汇(如left, right)的基础上构建名词性短语的过程中实现与图像中的区域层次特征的对齐。在此过程中,视觉特征包含了属性这一关键信息。值得注意的是,在实际应用中大多数组件均为多个单词组成,并非将它们统一合并为单一token而是分别进行拆分操作;随后我们采用MLP模型来处理GloVe向量以获取各token的特征表示

。此外,对应的 lead graph 对

是全连接对。
对于句子级的问题处理而言,在实际操作中通常会采用以下方式:即通过依赖解析器对问题进行分析,并从其对应的依赖图中提取相应的邻接矩阵

视觉特征相较于自然语言处于更高层次,并且在语境整合方面更为高效。因此,在对齐前需对句子级别的特征进行进一步的处理。首先引入额外的Transformer模块来处理这些句子内容,以便提取出具有上下文感知能力的特征。

,而不是直接将句子 token 放入Transformer中以融合多模态特征。
其中

是带有输入token

和注意力掩码

的 Transformer 模块。连接信息已经嵌入到了

中,句子层次的 lead graph 对也由全连接对组成。

多模态粒度对齐
GA 多头注意力

将来自图像(

) 和问题(

将这些 token 连续拼接起来,并在经过线性变换后注入可学习的位置编码(包括相对和绝对位置信息)。相较于传统 Transformer 模块而言,在 Graph merging 模块中生成的 lead graph (

)作为一种mask。

Graph merging模块
graph merging模块的设计是为了将图对(

)转换为单模态的lead graph(

),然后将他们融合成多模态的lead graph(

)。
单模态lead graph生成:
首先是从图像(

)和问题(

)的图对中获取单模态的lead graph,

都是二值图,维度为

[Example 2]
假设
,

,则有:

多****模态lead graph生成:
多模态lead graph是一组维度为

的二元图,对于编码器的不同层设置了不同的的lead graph。
第一层:

该方法旨在解决模型学习中的自注意力机制问题。其中由于视觉特征具有较高的表示能力,在实际应用中往往需要对输入句子中的每个单词进行有限范围内的上下文融合,并随后还需进一步优化处理以确保整体性能稳定
第二层:

这是为了使模型学习模态间的co-attention。
第三层:

这可以使模型关注两种模式中存在的所有连接。
多粒度决策融合
三个层次对齐后的输出为

,采用线性多模态融合的方式融合特征,

loss被称为三个层级的cross-entropy loss与融合后total cross-entropy loss,并均赋予相同权重

这篇文章总感觉有点怪怪的,实验部分感觉没讲清就不放了



,