《Knowledge Graph Enhanced Multimodal Transformer for Image-Text Retrieval》中文校对版
文章汉化系列目录
文章目录
-
文章汉化系列目录
-
《知识图谱增强的多模态Transformer用于图文检索》
-
摘要
-
I.引言
-
II.相关工作
-
- A. 图文检索
- B. 粗粒度检索方法
- C. 细粒度检索方法
- D. 增强的多模态嵌入方法
-
III. 方法
-
-
A. 问题表述
-
B. 图像和文本表示
-
-
- 图像表示:
- 文本表示:
-
-
C. 模态内图推理和嵌入
-
-
- 视觉图:
-
- 文本图
-
- 视觉图推理与嵌入
-
- 文本推理与嵌入:
-
-
D. 多模态知识增强多模态Transformer
-
-
-
- 多模态知识图
-
-
- MKG增强的多模态Transformer
-
-
E. 粗粒度和细粒度跨模态检索
-
- 1)粗粒度跨模态检索
-
- 细粒度跨模态检索
-
F. 目标函数
-
-
- 多模态对比损失
-
- 细粒度匹配损失
- 3)总损失
-
-
G. 从粗到细的推理方法
-
-
IV. 实验
-
-
A. 数据集和评估指标
-
-
- MS-COCO:
-
- Flickr30K:
-
- 评估指标:
-
- 实现细节:
-
-
B. 图像-文本检索结果 * * 1) Flickr30K上的结果:
-
- MS-COCO上的结果:
-
- 比较结果与讨论:
-
-
C. 消融实验和分析
-
-
- 参数分析:
-
- 推理时间比较:
-
- 消融分析:
-
-
-
V. 结论
《知识图谱增强的多模态Transformer用于图文检索》
摘要
图文检索是一项基础的跨模态任务,旨在对齐图像和文本模态之间的表示空间。现有的跨模态图文检索方法为图像和文本独立生成嵌入,引入基于交互的网络进行跨模态推理,然后通过使用匹配度量实现检索。然而,它们忽略了每种模态内部粗粒度和细粒度表示之间的语义关系,未能捕捉到不同模态表示的一致性,这影响了跨模态表示的语义学习,并使得在语义空间中对齐模态变得困难。因此,这些先前的工作不可避免地面临低检索精度或高计算成本的问题。本文中,我们没有直接融合两个跨模态的异构空间,而是提出了一种多模态知识增强的多模态Transformer网络框架,将粗粒度和细粒度表示学习结合到一个统一的框架中,捕捉目标之间的对齐信息,构建全局语义图,最终在语义空间中对齐多模态表示。在我们的方法中,图像生成语义和空间图来表示视觉信息,而句子则根据单词之间的语义关系生成文本图,并用于模态内图网络推理。随后,生成的全局和局部嵌入被融合到增强的多模态Transformer框架中,通过利用多模态知识图中的先验隐含语义信息,来有效实现跨模态交互过程。此外,与简单地将单词与图像区域匹配相比,我们的方法提出了一种双向细粒度匹配方法,用于筛选图像和文本中的显著区域和词汇,去除干扰噪声信息,实现双向细粒度配对,从而捕捉细粒度的双向表示信息,使模型能够生成更具区分性的表示。最后,结合基于全局和局部跨模态相似性的粗到细推理方法,我们通过使用两个广泛使用的数据集评估我们的方法,证明了该方法能够显著优于现有的最先进算法。

图1. 模态内和模态间检索对应关系示意图 。现有模型通常聚合每个模态表示中的模态内关系。与之不同的是,所提出的模型整合了模态内关系和模态间关系,以探索跨不同模态的粗粒度和细粒度关系。
I.引言
图文检索与各种计算机视觉任务和机器学习方法密切相关,例如图像字幕生成【1】、文本生成图像【2】、多模态机器翻译【3】以及场景图生成【4】。最近,许多研究致力于计算机视觉和自然语言处理的交叉领域,导致对高效图文检索技术的需求不断增长。然而,视觉场景和文本描述在分布和表示上存在不一致性和异质性,这使得测量图像和文本之间的语义相似性变得极具挑战性。图文检索包括两个密切相关的任务:文本到图像的检索和图像到文本的检索。前者旨在根据文本查询从候选集选择最相关的图像,而后者旨在从候选句子集中为一幅图像找到最具描述性的句子。大量的研究工作专注于这一领域并取得了显著进展。我们大致将以往的工作分为三类:粗粒度检索、细粒度检索以及视觉-语言预训练。
粗粒度检索方法 仅基于图像和文本的全局表示计算其全局相似性。早期的研究工作【5】、【6】、【7】、【8】通过直接将完整的图像和文本映射到共享的嵌入空间,实现了两种模态样本之间的相似性。DPC【6】、VSE++【7】及其他研究工作使用双分支深度网络将图像和文本分别映射到嵌入空间。然而,这些方法只能捕捉模态之间的粗粒度对应关系,缺乏视觉和语言之间的细粒度交互。尽管这些方法通常具有快速的推理速度和良好的扩展性,但它们未能缩小复杂图像和文本之间的语义差距。
近年来,细粒度检索 【9】-【13】变得越来越流行,通常引入注意力机制来对齐两个模态中的元素。代表性的方法如SCAN【11】、IMRAM【14】,使用跨模态注意力动态地将每个元素与另一模态中的所有其他元素对齐。由于这些方法在样本间建立了跨模态的部分对应关系,通常在检索性能方面优于粗粒度检索方法。然而,跨模态注意力需要在图像和文本之间进行大量的跨模态计算。这些方法的低计算效率给检索过程增加了负担,导致推理时间增加,灵活性降低。
以往的方法,如粗粒度和细粒度检索方法,很难在准确性和效率之间取得平衡,粗粒度方法强调效率,而细粒度检索则专注于准确性。此外,先前的方法直接融合了两个异构不同模态的语义空间,忽略了模态之间有效的语义信息交互,导致无法进一步提高检索准确性。为了解决上述跨模态检索效率和准确性的问题,我们提出了一种名为知识图谱增强多模态Transformer(KGEMT)的高效图文检索方法。
所提出的KGEMT的主要思想如下。对于每个图像或文本样本,设计了一个基于图卷积网络(GCN)【15】的编码器,用于同时学习每个模态中的全局粗粒度特征和局部细粒度特征。为了学习文本和视觉输入共享的公共语义空间,引入了基于多模态知识图谱(MKG)的Transformer框架,以利用MKG中的隐式先验知识,帮助融合来自两种模态的特征。紧凑的全局特征从整体角度描述图像和句子,而局部特征自动对齐以建立图像区域和文本词语之间的联系。此外,使用多模态对比学习来确保图文对的一致性,保证图像和文本在共享嵌入空间中的模态内和模态间的语义一致性。最后,基于学习到的粗粒度和细粒度表示,采用了不同的推理策略,并提出了一种快速且有效的粗到细推理方法用于图文检索。
我们的主要贡献概括如下:
我们提出了一种名为知识图谱增强多模态Transformer (KGEMT) 的高效图文检索技术。通过同时学习每个模态中的全局粗粒度特征和局部细粒度特征,我们的方法在两个模态之间培养了共享的语义空间,从而促进了用于图文检索的粗到细推理过程。
我们提出了一种创新的粗到细检索策略 ,结合了粗粒度检索方法和细粒度检索方法。该策略不仅保证了检索效率,还提高了跨模态检索模型的精度和适用性。
我们构建了一个知识增强多模态Transformer ,其中融合了多模态知识图谱(MKG)。该方法利用MKG中的潜在先验语义信息,将图像和文本映射到共同的“兴趣嵌入”语义超空间。通过有效融合图文对的相应语义信息,并减少在统一的多模态语义表示中忽略最佳位置的可能性,该方法提高了跨模态检索性能。
我们引入了一种独特的跨模态显著细粒度对齐方法 。与传统的单向单词到区域匹配方法相反,我们的方法突出显示了图像和文本中的显著区域和词汇,启用了双向语义匹配。这一突破显著提高了细粒度检索的精度。
我们使用多个基准数据集评估了我们提出的方法。结果表明,我们的方法在检索精度和模型效率方面优于现有的最先进方法。这项工作标志着使用多模态知识图谱技术进行跨模态数据检索的重大进展,为跨媒体数据检索研究开辟了新的道路。
II.相关工作
A. 图文检索
测量图文语义相似性对于图文检索至关重要。现有的图文检索方法可分为两类:跨交互匹配方法和独立表示匹配方法。VSE++【7】通过在线难例挖掘来提高视觉-语义嵌入的质量。VSRN【13】解决了当前图像表示中缺乏全局语义概念的问题,这些概念存在于图像对应的文本描述中,并通过捕捉场景中的关键对象和语义概念生成增强的视觉表示。PVSE【16】通过结合全局上下文与局部引导的特征,计算实体的多个多样化表示。
B. 粗粒度检索方法
随着深度学习的发展,端到端的图文检索变得更加流行。Wang等人【5】使用了两个独立的多层感知器处理图像和文本,并采用了结构特征进行目标优化。Zheng等人【6】研究了两个独立的CNN网络架构,分别处理图像和文本,并使用实例损失进行目标优化。Faghri等人【7】提出了一种基于难例挖掘和三元组采样的训练损失。这些方法通过两个独立的网络分支处理全局图像和文本信息,具有推理速度快和易于预计算的优势。然而,它们无法建模对象实例与语言标签之间的细粒度交互,检索精度无法进一步提高。因此,性能在某种程度上受到了限制。
C. 细粒度检索方法
目前,越来越多的研究工作【9】【10】【11】【12】【13】致力于文本单词与图像区域之间的细粒度对齐。Karpathy等人【9】为每个图像区域和文本单词提取特征,并将它们对齐到一个共同的嵌入空间。Niu等人【10】强调了文本的表示,利用语义树和循环神经网络(RNN)提取文本短语特征。Lee等人【11】引入了图像区域与文本单词之间的多层跨注意力机制,以学习更好的对齐特征。Wang等人【12】基于跨注意力机制,通过门控自适应控制信息传递增强对齐效果。Li等人【13】为图像区域引入了图结构,并应用基于图卷积网络(GCN)的架构来提取特征。Chen等人【14】引入了一种迭代匹配方案,逐步探索这种细粒度的对应关系。Messina等人【17】设计了两个Transformer编码器,分别为图像区域和文本单词提取特征。这些方法主要关注图像和文本的细粒度组件之间的对齐,通常使用跨注意力机制,这需要不同模态之间大量的跨模态计算。虽然这些方法的检索性能良好,但细粒度推理需要更多时间,因此难以在实际应用中实施。
D. 增强的多模态嵌入方法
现有的多模态知识增强深度学习方法旨在将多模态知识整合到用于各种多模态任务的网络中。Yang等人【18】提出在预训练中进行三元组对比学习,利用来自图像和文本输入的局部和结构信息来促进表示学习。Feng等人【19】提出了一种用于图文检索的方法,该方法利用基于嵌入的多模态知识图谱。然而,当图像中包含文本中未直接描述的对象时,这些方法忽略了多模态隐含关系,从而影响了图像和文本之间建立联系的能力。
III. 方法
在本节中,我们详细解释了所提出的知识图增强多模态Transformer(KGEMT)架构,如图2所示。我们首先描述图像-文本特征表示模块,该模块分别提取图像特征和文本特征。在 模态内图推理模块中,利用基于图的推理方法整合每种模态内的特征。然后,我们引入了模态间Transformer推理和嵌入模块 ,该模块利用嵌入于 多模态知识图(MKG) 中的先验知识来融合跨模态表示,这些表示来自“兴趣嵌入”超空间。此外,我们描述了图像-文本检索的粗粒度和细粒度检索,并引入了“显著区域”策略,用于细粒度的区域到词语的匹配。最后,我们介绍了模型的训练损失,并引入了一种高效的从粗到细的推理方法。

图2. 所提框架概述 。图像-文本表示模块用于从图像区域和文本词语中提取特征。模态内推理模块整合每个模态内的表示,而基于MKG的多模态Transformer模块对齐图像标记和文本标记。在训练过程中,多模态对比损失和细粒度匹配损失共同优化这些模块以及图像和文本模态的网络结构。
A. 问题表述
给定一个包含视觉数据实例 V 和文本数据实例 T 的数据集,跨模态检索的目标是通过构建一个多模态 Transformer 网络,联合学习多模态语义映射 f: (I_i, S_i) = f(V_i, T_i, \theta_{TRM}),以保持跨媒体数据实例之间的潜在语义相似性,其中 V_i 和 T_i 分别表示输入的图像和文本数据,I_i 和 S_i 分别表示输入图像和文本的实值特征,\theta_{TRM} 是网络参数。由多模态语义映射 f 生成的实值特征应该保持跨媒体数据实例之间的潜在语义相似性,使得相似的实例具有相似的特征,而不相似的实例具有不同的特征。
B. 图像和文本表示
1) 图像表示:
遵循之前的工作【11】,给定一张图像 I,我们使用通过Visual Genome 【22】预训练的带有自底向上注意力机制【1】的Faster R-CNN 【21】来检测 n_i 个显著区域,并获得它们的区域特征 R = \{r_i | i = 1, ..., n_i, r_i \in \mathbb{R}^D\}。然后,这些特征通过一个全连接层编码为 D 维空间中的表示:
v_i = W_f \times r_i + b_f, \tag{1}
其中,W_f 是全连接层的参数矩阵,b_f 是偏置向量。通过此过程,图像 I 被表示为 I = \{v_1, ..., v_{n_i}\}。
文本表示:
在文本表示方面,自然语言处理的发展带来了许多优秀的表示模型。文本可以在句子或词汇层面上进行表示。我们采用广泛使用的预训练模型 BERT 【23】来提取两个层次的文本语义信息。对于包含 n_t 个单词的给定句子 T,我们通过 BERT 将其嵌入为 D 维特征向量 E_{nt} = \{s_1, ..., s_{n_t}\}。
C. 模态内图推理和嵌入
1) 视觉图:
在描述图像时,我们通常会探索图像中出现的区域或实体之间可能的关系。当图像中存在人物和智能手机时,我们可以假设它们之间存在使用关系。同时,不同区域或实体之间的位置距离也可能影响我们对其关系的认知。为了表示图像中不同区域之间的空间连接和潜在语义连接,我们构建了两个图:一个是空间图 G_{sp} = (V_{sp}, E_{sp}),另一个是语义图 G_{se} = (V_{se}, E_{se})。空间图 G_{sp} = (V_{sp}, E_{sp}) 用于表示图像中区域之间的位置关系。我们使用交并比(IoU, Intersection over Union) 来建立两个区域之间的位置关系。空间图 G_{sp} 的节点集 V_{sp} 建立在图像表示 V 的基础上。边 E_{sp} 的权重 W_{sp} 取决于配对区域的 IoU。具体来说,IoU_{i,j} 用于表示第 (i, j) 区域对的 IoU,区域对的权重定义如下:
A_{sp_{i,j}}^{i} = \begin{cases} \cos(v_i, v_j) \times IoU_{i, j}, & \text{当 } IoU_{i,j} \geq \xi \\ 0, & \text{当 } IoU_{i,j} \tag{2}
其中,\cos(\cdot, \cdot) 是余弦函数,\xi 是阈值。语义图 G_{se} = (V_{se}, E_{se}) 表示区域特征和区域之间的潜在语义连接。同样,V_{se} 是基于区域特征 V 构建的,而 E_{se} 是通过邻接矩阵 W_{se} 表示的图结构中的边集,表示区域之间的连接。按照参考文献【20】,我们使用一个区域关系推理模型来描述图像区域之间的关系:
A_{i,j}^{se} = \psi(v_i)^T \cdot \phi(v_j), \tag{3}
其中,\psi(v_i) = W_{\psi} \cdot v_i 和 \phi(v_j) = W_{\phi} \cdot v_j 是两个特征嵌入,W_{\psi} 和 W_{\phi} 是需要学习的参数。语义图 G_{se} = (V_{se}, E_{se}) 是一个完全连接的图,两个节点之间的边值较大意味着它们之间存在强语义关系。
2) 文本图
对于每个句子,文本图构建为 G_t = (V_t, E_t),其中 V_t 基于文本特征 S 构建,边权重由矩阵 W_t 给定。句子中存在某些可解释的语法依赖关系。通过Stanford CoreNLP 【24】,生成一个语法依赖矩阵 W_d,如果单词 s_i 和 s_j 之间存在语法依赖关系,则 W_{d_{i,j}} = 1,否则 W_{d_{i,j}} = 0。类似于 A_{sp},词与词之间的相似性有助于强调句子中的内部关系。因此,我们将节点之间的两两相似性纳入权重矩阵,定义如下:
A_{t_{i,j}} = \cos(s_i, s_j) \times W_{d_{i,j}}. \tag{4}
3) 视觉图推理与嵌入
为了分别探索区域和词语之间的模态内关系推理,我们在构建的 k 节点图 G = (V, E) 上应用图卷积网络(GCN) 【15】,其中 V_i \in \mathbb{R}^{k \times D} 表示区域节点,A_i \in \mathbb{R}^{k \times k} 表示节点之间的边权值,D 是视觉区域节点的维度。V_i 表示区域节点,A_i 表示节点之间边的权重。节点之间边的权重值决定了信息的传递。图的更新函数定义如下:
V_i^{(l)} = \begin{cases} V_i^{(0)}, & l = 0 \\ \sigma(A_i V_i^{(l-1)} W_i^{(l-1)} + C_i^{(l-1)}), & 0 \tag{5}
其中,l_m 是 GCN 的总层数,W_i^{(l-1)} \in \mathbb{R}^{D \times D} 是可学习的矩阵,C_i^{(l-1)} \in \mathbb{R}^{n_i \times D} 是可学习的偏置,\sigma(\cdot) 是LeakyReLU 激活函数。GCN 的输出表示为 V^{(l)} = \{v_1^{(l)}, ..., v_k^{(l)}\},其中 v_i^{(l)} \in \mathbb{R}^D,这是一个新的图结构,包含节点之间的推理关系。将此类 GCN 模型应用于视觉图时,我们得到:V_{sp}^{(l)} = GCN_{sp}(V_{sp}, A_{sp})和V_{se}^{(l)} = GCN_{se}(V_{se}, A_{se})这两个图结合在一起表示图像。最终我们可以得到最终的视觉图 V_{i}^{\text{intra}}:
V_i = \frac{V_{sp}^{(l)} + V_{se}^{(l)}}{2}. \tag{6}
其中,V_0 是学习到的全局图像表示,\{V_1, ..., V_{n_i}\} 是关于目标实例的细粒度表示。
4) 文本推理与嵌入:
与图像相同,GCN 也用于文本图的推理和嵌入:
V_t^{(l)} = \begin{cases} V_t^{(0)}, & l = 0 \\ \sigma(A_t V_t^{(l-1)} W_t^{(l-1)} + C_t^{(l-1)}), & 0 \tag{7}
其中,V_t 表示单词的节点,A_t 表示节点 V_t 之间的邻接矩阵。W_t^{(l-1)} \in \mathbb{R}^{D \times D} 是可学习的矩阵,C_t^{(l-1)} \in \mathbb{R}^{n_t \times D} 是可学习的偏置。最终我们可以得到最终的文本图 V_{\text{intra}t}:
T_t = V_t^{(l)}. \tag{8}
其中,T_0 是学习到的全局文本表示,\{T_1, ..., T_{n_t}\} 是细粒度的单词表示。
D. 多模态知识增强多模态Transformer
1) 多模态知识图
从MSCOCO或Flickr的数据集中选择了出现在训练集中的图像\{\hat{I_1}, ..., \hat{I_N}\},这可以避免验证集数据泄露。然后得到N (N = 47210)个三元组(\hat{I_i}, \hat{O_i}, \hat{T_i}),其中\hat{I_i}是原始图像,\hat{O_i}是出现在\hat{I_i}中的图像对象列表,\hat{T_i}是人工标注的文本说明。我们遵循文献【25】【26】的做法,忽略无意义的文本单词,如"is"和"a",并从总共14,777个文本单词中选出最常出现的N_i个单词\{\hat{T_1}, \hat{T_2}, ..., \hat{T_{N_i}}\},从总共56,355个图像对象中选出最常出现的N_i个图像对象\{\hat{O_1}, \hat{O_2}, ..., \hat{O_{N_i}}\}。
然后参考MKVSE模型【19】,我们使用\{\hat{O_1}, \hat{O_2}, ..., \hat{O_{N_i}}, \hat{T_1}, \hat{T_2}, ..., \hat{T_{N_i}}\}之间的共现次数来衡量这N个三元组(\hat{I_i}, \hat{O_i}, \hat{T_i})之间的语义关系。共现矩阵表示为\hat{A} \in \mathbb{R}^{2n_i \times 2n_i}。使用WordNet的路径相似度sp(\cdot, \cdot)来表示模态内的语义关系。文本单词的路径相似度矩阵表示为\hat{A_t} \in \mathbb{R}^{n_i \times n_i},图像对象的路径相似度矩阵表示为\hat{A_i} \in \mathbb{R}^{n_i \times n_i}。这两个路径相似度矩阵定义如下:
\hat{A_t}_{i,j} = sp(\hat{T_i}, \hat{T_j}) \\ \hat{A_i}_{i,j} = sp(\hat{O_i}, \hat{O_j}) \tag{9}
其中sp(\cdot, \cdot)通过自然语言工具包(NLTK)中的“路径相似度”进行计算。路径相似度sp(\cdot, \cdot) = 1/(1 + d(\cdot, \cdot)),d(\cdot, \cdot)表示两个词在"是一个"(上位词/下位词)分类法中的最短路径距离。它返回一个分数,用以表示两个单词的相似程度。分数范围在0到1之间,其中1表示最大相似度,0表示最小相似度。路径相似度可以帮助区分语义空间中的其他实体。
我们将所有实体嵌入为向量,使用BUTD【1】注意力模型和图卷积来训练三元组中的实体,最终获得MKG中的文本和视觉实体的表示:
MKG = [g_1, ..., g_{N_i}; b_1, ..., b_{N_i}] = [p_1, ..., p_{N_i+N_i}], \tag{10}
其中,N_i是最常出现的视觉对象和文本单词的数量。g_i和b_i表示视觉和文本实体的表示,p_i表示整个MKG中的所有实体的嵌入。
2) MKG增强的多模态Transformer
最近,基于Transformer的架构在视觉和语言任务中表现出色。Transformer编码器能够同时学习输入标记的全局和局部信息的表示。我们使用Transformer架构来关注图像区域和整个图像的特征。

图3. 基于多模态知识图的多模态Transformer框架图 。在模态内推理之后,获得了不同模态的全局和局部嵌入。通过编码器,融合了来自多模态知识图的隐含语义知识,模态内的嵌入被投射到相对对齐的“兴趣嵌入”语义超空间。随后,在解码器中执行全局和局部的跨模态语义交互,并将其投射到融合的多模态语义空间。
如图3所示,通过模态间图推理获得的视觉特征\{V_0, V_1, ..., V_{n_i}\}和文本特征\{T_0, T_1, ..., T_{n_t}\}被输入到MKG增强的Transformer中(MKGT)。然后,我们使用MKG提取的实体嵌入\hat{M}^{(l_m)}对所有特征进行注意力操作,将图像和文本的特征映射到一个称为“兴趣嵌入”的超空间中。具体来说,采用多头注意力机制【27】来编码区域V_i和单词T_j,通过MKG的实体嵌入\hat{M}^{(l_m)}操作如下:
MKG-\text{Att} = \text{multiHead}(X, \hat{M}^{(l_m)}) = \text{concat}(h_1, ..., h_H) + X \tag{11}
其中,X = V_i 或 T_j,\text{concat}(\cdot)表示沿特征维度的拼接操作,h_i表示注意力得分,H表示头的数量。获得的注意力得分通过Transformer框架的标准全连接前馈和归一化操作进行处理,完成一层编码器操作。
经过N层Transformer网络后,视觉特征和文本特征都被映射到兴趣嵌入的超空间中,表示为\{V_0, V_1, ..., V_{n_i}\}和\{T_0, T_1, ..., T_{n_i}\}。
如何理解“兴趣嵌入”这个术语?例如,如果一个区域V_i包含对象“人类”,它在实体“手机”的兴趣嵌入U_i中得分很高,这表明该区域可能与实体“手机”有某种关系。而单词T_j包含“人”这个词,也在实体“手机”的兴趣嵌入U_j中得分很高,那么我们可以断定区域V_i与单词T_j之间存在语义关系。因此,我们通过MKG将图像特征和文本特征映射到兴趣嵌入的超空间中。兴趣嵌入的超空间基于MKG中的实体嵌入,这意味着图像特征和文本特征在某种程度上是对齐的。通过这种方法,我们避免了直接融合图像和文本这两个异质的语义空间,从而在细粒度和粗粒度维度上更高效地实现图像与文本的交互。
总结而言,经过基于MKG的Transformer编码器后,图像和文本特征可以获得基于MKG的兴趣嵌入表示,如下所示:
X = \text{Encoder}(X_0, X_1, ..., X_n) = \{X_0, X_1, ..., X_n\} \tag{12}
其中,X_0 = V_0 或 T_0 表示全局图像或文本的兴趣嵌入,X = V_i 或 T_j 表示视觉区域或文本单词的兴趣嵌入。
在获得全局和局部的兴趣嵌入后,我们使用全局兴趣嵌入作为MKGT中解码器注意力机制的键和值,具体如下:
\text{Global-Att} = \text{multiHead}(X, \text{global}) = \text{concat}(h_1, ..., h_H) + X \tag{13}
其中,X = V_i 或 T_j,\text{concat}(\cdot)表示沿特征维度的拼接操作,h_i表示注意力得分,H表示头的数量。从编码器获得的兴趣嵌入被映射到全局嵌入所在的语义空间。
需要注意的是,在训练过程中,我们依赖的是图像全局兴趣嵌入和文本全局兴趣嵌入的结合。然而在推理过程中,由于缺少另一模态的信息,我们将使用当前模态的全局兴趣嵌入作为全局嵌入,然后对所有兴趣嵌入执行注意力操作,这类似于自注意力机制。与编码器类似,通过Transformer框架获得的注意力得分通过标准的全连接前馈和归一化操作完成一层解码器操作。
经过N层网络后,视觉特征和文本特征都会映射到最终的公共语义空间中,如下所示:
X = \text{Decoder}(X_0, X_1, ..., X_n) = \{X_0, X_1, ..., X_n\} \tag{14}
其中,X_0 = I_0 或 S_0 表示全局图像或文本特征,X = I_i 或 S_j 表示视觉区域或文本单词的细粒度嵌入。
E. 粗粒度和细粒度跨模态检索
先前的工作通常采用粗粒度的全局检索或细粒度的局部检索进行图像-文本检索。提出的MKGMT将全局和局部检索在一个框架下进行了适当的统一。我们的方法中使用的两种检索方法的详细信息如下所述。
1)粗粒度跨模态检索
粗粒度检索仅使用两种模态的全局特征进行跨模态检索。如上所述,I_0 和 S_0 分别表示不同模态的两个样本在公共特征空间中的全局特征。使用余弦相似度来度量两个样本之间的相似性。对于任意两个样本,分别表示为 I 和 S,全局粗粒度相似度定义如下:
S_C(I, S) = \frac{I_0^T \times S_0}{||I_0|| \times ||S_0||} \tag{16}
其中,S_C(I, S) 仅依赖于全局特征。
粗粒度检索的一个重要优势是,两个全局特征可以独立计算,两个样本之间没有交叉。因此,全局检索计算具有较高的速度,所有图像和文本样本的全局特征可以预先计算并存储在内存中,以避免重复计算。

图4. 区域-词语匹配的可视化 。
2) 细粒度跨模态检索
细粒度检索充分利用两种模态的局部特征进行检索。它通过对齐区域与词语之间的局部元素来计算相似性。如上所述,X = \{X_1, ..., X_{n_i}\} 和 Y = \{Y_1, ..., Y_{n_t}\} 是视觉区域和文本词语在公共特征空间中的特征。
按照文献【12】【13】【28】的说明,由于句子,尤其是短句,包含的语义信息相比图像区域要少,且并非所有区域都有对应的词语进行描述。因此,目前主流的细粒度方法使用文本词语来匹配图像区域,忽略了区域到词语匹配的重要性,这限制了细粒度检索的准确性。为了解决这一问题,我们提出了一种“显著区域”策略用于细粒度检索,以缓解无法匹配区域与对应词语的痛点。
具体而言,Fast R-CNN 在目标检测领域起到了同样重要的作用。在筛选对象区域时,它会标注识别目标的置信水平(Confidence Level,CL)。我们可以利用这一阈值来选择能够代表图像的主要对象,定义如下:
\hat{X}_i = \{\hat{X}_1, ..., \hat{X}_{n_x}\}, CL_{X_i} > \theta \tag{17}
其中,\hat{X}_i 表示图像 X 中的“显著区域”,n_x 表示“显著区域”的数量,\theta 是一个松弛超参数。我们有理由相信,选出的“显著区域”可以找到它们对应的词语描述。因此,区域到词语的细粒度检索相似性定义如下:
S_{I2T}(\hat{X}, Y) = \frac{1}{n_x} \sum_{i \in [1, n_x]} \max_{j \in [1, n_t]} \cos(\hat{X}_i, Y_j) \tag{18}
其中,\cos(\cdot, \cdot) 是余弦函数。具体来说,\sum_{i \in [1, n_x]} \max_{j \in [1, n_t]} \cos(\hat{X}_i, Y_j) 找到了每个词语元素在区域中最匹配的元素。最后,取所有词语元素最佳匹配相似性的平均值,作为区域与词语之间的相似性。
同样,词语到区域的细粒度检索相似性定义如下:
S_{T2I}(Y, X) = \frac{1}{n_t} \sum_{i \in [1, n_t]} \max_{j \in [1, n_i]} \cos(Y_i, X_j) \tag{19}
最终,细粒度相似性定义如下:
S_F(I, S) = \frac{S_{I2T} + S_{T2I}}{2} \tag{20}
细粒度-粗粒度检索相似性的优势在于,更精细的特征能够实现更好的检索性能。然而,图像和文本之间的交互增加了检索过程中的计算量,尤其是基于跨注意力的高度纠缠的方法,它们需要在词语和图像区域之间进行低效的细粒度对齐。
F. 目标函数
1) 多模态对比损失
在训练用于图像-文本检索的神经网络时,确保图像和文本样本在共同嵌入空间中的语义一致性是合理的。基于多模态对比学习的三元组排序损失在之前的工作中被广泛使用【7】【14】【17】【29】【30】。其目标是缩短匹配的图像-文本对之间的距离,同时拉开不匹配的图像-文本对之间的距离。设(I, S)为一个匹配的图像-文本对,其中I和S分别表示图像和文本。我们可以使用图像或文本作为锚点,获取难负样本对。例如,使用图像I作为锚点,我们可以找到难负图像样本Iv^-及其对应的文本样本Sv^-。通过这种方式,得到两个难负样本对(Iv^-, Sv^-)和(Il^-, Sl^-),其中v^-和l^-分别是图像和文本模态的难负样本索引。多模态对比损失的正式定义如下:
L_G = \max(0, \beta - S_C(I, S) + S_C(I, S_{l^-})) + \max(0, \beta - S_C(I, S) + S_C(I_{v^-}, S)) \tag{21}
其中,\beta 是一个松弛超参数,要求两个负样本对(I, S_{l^-})和(I_{v^-}, S)之间的跨模态距离比正样本对(I, S)大\beta。
2) 细粒度匹配损失
类似地,细粒度匹配损失旨在使具有相似意义的词语与区域之间的距离更近,并增大不同表达之间的差异。损失定义如下:
L_F = \max(0, \beta - S_F(I, S) + S_F(I_{v^-}, S_{v^-})) \tag{22}
其中,\beta 是多模态对比损失中的同一个松弛超参数。
3)总损失
训练的最终损失是多模态对比损失和细粒度匹配损失的组合,定义如下:
\text{Loss} = L_G + \alpha \cdot L_F \tag{23}
其中,\alpha 是一个损失权重超参数。
G. 从粗到细的推理方法
如上所述,独立的全局或局部检索任务各有其优势,但无法同时实现高准确性和高效率。此外,基于全局检索的方法缺乏对局部语义信息的理解,而基于局部检索的方法通常忽略了全局描述。这些原因限制了这两类模型的性能。为了解决上述问题并保留两种检索任务的优势,我们提出了一种混合全局和局部检索的方法。以下是我们方法的推理阶段的详细信息。
在推理过程中,我们有三种方法来计算两个样本之间的相似性:
-
仅使用全局特征计算全局粗粒度相似性S_G(I, S)。
-
同时使用全局粗粒度相似性和细粒度相似性来获得混合相似性: S_{CF} = (1 - \gamma) \cdot S_C + \gamma \cdot S_F \tag{24} 其中,\gamma 是用于调整两种相似性比例的超参数。随后实验中将比较这三种变化的检索准确性和推理速度。
粗粒度检索通常具有较快的推理速度,但检索准确性有限;细粒度检索通常具有较高的检索准确性,但推理速度较慢。为了平衡检索的准确性和速度,我们设计了一种从粗到细的推理方法 ,该方法优雅地结合了全局和局部检索进行推理。首先,使用全局检索快速获得前K个候选样本,然后仅对这K个样本应用基于全局和局部检索的混合相似性进行重新排序。
IV. 实验
在本节中,我们展示了我们的方法在两个重要的基准数据集上的实验结果:Flickr30K 【33】和MSCOCO 【32】。通过广泛且全面的消融研究验证了所提出方法的各个模块的有效性。
A. 数据集和评估指标
1) MS-COCO:
MS-COCO 包含 113,287 张用于训练的图像,1,000 张用于验证,5,000 张用于测试。每张图像有五个注释。与之前的实践【7】【12】【17】【31】一致,我们分别提供了 COCO 5K 和 COCO 1K 的实验结果。COCO 5K 使用完整的 5,000 张图像进行测试,而 COCO 1K 使用 1,000 张图像进行五次独立测试。
2) Flickr30K :
Flickr30K 数据集包含 31,783 张图像,每张图像有 5 个对应的文本。图像从 Flickr 网站收集,每张图像都有 5 个文本描述。与【7】【14】【17】一致,我们将数据集分为 29,783 张图像用于训练,1,000 张图像用于验证,1,000 张图像用于测试。
3) 评估指标:
对于文本检索和图像检索,我们使用 Recall@K (R@1, R@5, R@10) 来评估比较方法的性能,R@K 定义为正确的检索结果出现在前 K 个排名结果中。我们使用“rsum”来合理表示模型的质量,定义如下:

4) 实现细节:
对于图像输入,我们使用参考文献【1】提供的目标提议(object proposals),选择置信度最高的前36个区域提议,并用一个2048维的自底向上特征向量描述每个目标提议。对于文本输入,我们使用预训练于英语句子掩码语言任务的BERT 【23】,以获取768维的文本嵌入特征。对于增强的多模态Transformer,MKG注意力层和全局注意力的嵌入大小为1024,输出特征维度为2048。损失函数中的默认松弛超参数\beta和\mu分别为0.2和0.3。在训练过程中,我们使用Adam作为优化器,初始学习率为1e^{-6},训练的轮数为30,批量大小为40。在推理过程中,混合相似性的超参数\gamma为0.5,粗到细推理中选取的样本数量K为100。关于这些超参数的敏感性分析将在后续实验中进行详细讨论。
B. 图像-文本检索结果
我们在Flickr30K 、COCO 1K 和COCO 5K 数据集上评估了我们的方法,并将结果与最新的前沿方法进行比较。
1) Flickr30K上的结果:
Flickr30K数据集的结果汇总在表1中。为了简化表示,"Coarse"表示仅在推理过程中使用图像和文本的全局表示的粗粒度检索方法,"Fine"表示依赖于图像区域或词语标记的局部表示进行推理的细粒度检索方法。
在粗粒度类别中,我们的方法在文本到图像检索和图像到文本检索这两个任务中,显著优于最新的前沿方法。在细粒度类别中,所提出的方法也以较大优势超过了大多数最新的前沿方法。

Flickr30K数据集上与当前最先进方法的比较
2) MS-COCO上的结果:
COCO 1K和COCO 5K数据集的结果分别展示在表2和表3中。我们提出的方法在这两个数据集上的所有粗粒度检索方法中都取得了最佳结果。结果证明了在所提出的架构中,粗粒度检索和细粒度检索模块的有效性。

COCO 1K 数据集上与当前最先进方法的比较

COCO 5K 数据集上与当前最先进方法的比较
3) 比较结果与讨论:
与粗粒度检索算法DXR 相比,我们的KGEMT 在三个基准数据集上分别实现了平均RSum 提升70.8%、33.9%和62.9%。这种显著的改进归因于KGEMT 在细粒度层面上进行有效且精确的匹配交互,使得模型的表示和检索能力优于粗粒度检索模型。
与几种细粒度检索算法相比,诸如SGRAF 、TERAN 和MKVSE ,我们在三个基准数据集上的RSum 性能平均提升分别为19.7%、23.4%和6.0%。这一显著进展得益于多模态知识图中的隐含语义信息在KGEMT 中帮助多模态对齐,以及KGEMT 在细粒度检索中使用的显著区域策略 ,实现了双向的区域-词语匹配,使得模型能够学习到更精确的多模态细粒度表示。
与同时使用粗粒度和细粒度检索的CGMN 和TGDT 相比,我们的KGEMT 在三个基准数据集上分别实现了平均RSum 提升20.9%和0.4%。这一显著增强归因于多模态知识图的优势。这一过程不仅为输入提供了隐含的多模态先验知识,还进一步增加了在“兴趣嵌入”空间中不同模态特征之间的交互概率,增强了所学习到的实值域的多模态统一表示能力,使得模型能够更好地区分相似和不相似的图像-文本对。
C. 消融实验和分析
1) 参数分析:
我们进一步提供了详细的实验分析,包括超参数的敏感性分析、跨模态检索的推理速度分析和消融研究。超参数分析 :我们分析了所提出方法中重要超参数对检索性能的影响。主要的超参数是细粒度“代表区域”策略中的松弛参数 \theta、粗到细推理中的比例参数 \gamma 以及用于选择前 K 个候选样本的 K 值。需要注意的是,之前多模态对比损失中的松弛超参数 \beta 没有被评估,因为它通常被设定为 0.2。
如何分配松弛超参数 \theta 的权重与视觉区域的细粒度匹配相关,这会影响模型的检索性能。我们测试了不同值的 \theta,选择的值为 \{0.5, 0.6, 0.7, 0.8, 0.9\}。表4展示了文本检索 I → T 和图像检索 T → I 的定量结果,其中当 \theta = 0.8 时性能最佳。当 \theta 值小于 0.8 时,更多的图像区域被包含在匹配策略中,但并非所有的区域都有对应的词语进行描述。这导致模型过度利用跨模态信息,陷入过拟合的情境,进而导致检索性能下降。当 \theta 的值大于 0.8 时,选择的区域太少,意味着细粒度的图像区域匹配没有得到有效利用,导致检索性能下降。

Flickr30K 数据集上“显著区域”超参数 θ 的定量结果
为了进行参数 N_i 的敏感性分析,我们通过将 N_i 从 0 增加到 400 进行了实验。结果如表5所示。

MKG实体数量 N_i 对 Flickr30K 数据集的影响
可以看到,增加 N_i 并不总是有助于提升性能。事实上,当 N_i 从 300 增加到 400 时,RSUM 下降了 1.5%。这可能是由于后面 100 个词的出现频率较低,这引入了噪声,阻碍了模型学习稳健概念特征的能力。
粗到细推理中\gamma的影响展示在图5中。可以看出,当\gamma = 0.5时,性能最佳。该性能显著高于当\gamma = 0或\gamma = 1时的结果,\gamma = 0或\gamma = 1分别表示仅使用粗粒度相似性或细粒度相似性的推理策略。需要注意的是,基于融合特征的粗到细推理在效率和准确性上均优于仅基于细粒度特征的单阶段推理。效率的提升源自于使用了粗到细推理,而准确性的提升则源于融合特征比单纯的细粒度特征或粗粒度全局特征表现更好。结果表明,描述图像或句子整体语义信息的粗粒度全局特征与代表候选对象区域或句子词语的细粒度特征在图像-文本检索中都是有效的,并且两者是互补的。
图6测试了重排序后K对检索性能的影响。当K接近100时,性能达到最佳。当K从1增加到100时,性能单调提升,但当K > 100时,性能趋于饱和。

图5. Flickr30K数据集上不同γ值下的检索结果
图6. Flickr30K数据集上不同Top-K值下的检索结果
由于检索过程中是通过嵌入匹配来实现的,因此图节点匹配损失是一个辅助任务,用于学习细粒度对应关系和跨模态关系推理。我们通过不同的值\alpha \in \{1, 2, 3\}测试了参数\alpha的影响。图7和图8展示了定量结果。可以观察到,当\alpha = 1时,性能最佳。

多头机制被用于计算节点对之间的块级相似性,这可以联合利用不同特征位置的语义对应关系。在多头机制中,我们进一步探讨了头数k的影响,设置头数范围为4到128。在Flickr30k和MSCOCO数据集上测试的代表性结果如图8所示,可以发现头数的不同设置对图像-文本匹配的准确性有一定影响,但幅度不大。值得注意的是,当头数k等于64时,模型表现最佳。一方面,如果头数太少,多头机制中的块级相似性未得到充分利用,导致推导出的相似性在细粒度语义匹配中没有足够的区分度。另一方面,如果头数过大,块特征的维度将非常小,无法精确表达图像中的对象特征和句子中的词语。
2) 推理时间比较:
对于特定数据集的测试子集,我们统计了图像-文本和文本-图像检索任务的总推理时间。代表性的最新方法包括IMRAM 【12】、TERAN 【17】和CGMN 【20】。前两者是细粒度检索方法,后者是粗粒度方法。不同数据集上的结果汇总在图9中。我们的方法在推理速度上相对于当前表现最佳的方法具有显著优势。与我们的预期一致,CGMN 完成检索任务所需的时间最短,而我们的方法比CGMN稍慢。我们提出的方法在粗粒度相似性检索中选取前100个样本进行细粒度重新排序,在牺牲少量速度的同时实现了显著的性能提升。

图9. 多头机制中头数 k 的影响。 (a) Flickr30K上的头数。 (b) MSCOCO上的头数。

图10. 不同数据集上代表性方法的推理时间。模型在NVIDIA RTX 3090Ti GPU上。相比当前最先进的方法,我们的方法具有显著的速度优势。
3) 消融分析 :
所提出的架构主要由三个创新组件组成:基于MKG的多模态Transformer(MKGMT)、细粒度的“显著区域”策略(SR)和细粒度匹配损失(LossF)。我们对每个组件进行了消融,以分析它们对检索性能的影响。缩写MKGMT、SR和LossF分别表示单独使用基于MKG的多模态Transformer作为跨模态框架、在细粒度检索中使用“代表区域”策略,以及使用细粒度匹配损失。为了不失一般性,我们仅在表6中给出了Flickr30K数据集上的结果。
如表6所示,可以观察到,集成了MKGMT 模块的模型相比基线在文本到图像检索 的R@1和图像到文本检索 的R@1上分别提高了1.5%和1.7%。在Rsum 指标上也提升了4.9%,这表明所提出的MKGMT在跨模态检索中的有效性。这可以解释为,MKGMT整合了来自多模态知识图(MKG)的先验隐含语义信息。MKGMT没有直接融合来自两个异质空间的表示,而是将两种表示映射到一个共享的语义超空间,在该空间中它们可以进行交互。这使得跨模态语义信息得到了全面融合,帮助模型学习到更多具有区分性的多模态特征。
此外,RR (“代表区域”)模块使基线在文本到图像检索 和图像到文本检索 的R@1分别提高了1.2%和1.1%,确认了RR策略的有效性。这些结果表明,完整模型通过结合这两个模块增强了多模态语义表示能力,并提升了检索的准确性。

我们提出的方法在Flickr30K数据集上的消融分析。结果验证了两个模块的有效性:MKGMT和RR。
V. 结论
总而言之,我们提出的知识图增强多模态Transformer (KGEMT) 利用多模态知识图,将表示映射到“兴趣嵌入”语义空间,进行跨模态语义交互,同时保留模态内的语义信息,有效解决了跨媒体检索中面临的对齐问题。细粒度的显著区域和词语策略提高了细粒度检索的性能,而粗到细的检索策略大大提升了跨模态检索的效率。KGEMT 为高效的多模态数据检索提供了新的可能性,并为该领域未来的研究奠定了坚实的基础。此外,我们的KGEMT 方法在检索准确性和模型效率方面均优于当前最先进的方法。
