《Consensus-Aware Visual-Semantic Embedding for Image-Text Matching》中文校对版
文章汉化系列目录
文章目录
-
文章汉化系列目录
-
摘要
-
关键词
-
引言
-
2 相关工作
-
- 2.1 基于知识的深度学习
- 2.2 图文匹配
-
3 共识感知的视觉-语义嵌入
-
- 3.1 利用共识知识增强概念表示
- 3.2 共识感知表示学习
- 3.3 训练和推理
-
4 实验
-
- 4.1 数据集和设置
- 4.2 实现细节
- 4.3 与最新技术的比较
- 4.4 消融研究
- 4.5 进一步分析
-
5 结论
-
致谢
2020 ECCV (European Conference on Computer Vision) 是计算机视觉领域的顶级国际会议之一,与 CVPR (Computer Vision and Pattern Recognition) 和 ICCV (International Conference on Computer Vision) 并称为计算机视觉领域的三大顶级会议。ECCV 的论文接受率通常较低,具有很高的学术影响力和研究水平。
摘要
图文匹配在连接视觉与语言方面起着核心作用。现有的大多数方法仅依赖图文实例对来学习其表示,从而利用其匹配关系并进行相应的对齐。这类方法仅利用了实例对数据中的表面关联,而未考虑任何外部的常识知识,这可能限制其推理图文之间高级关系的能力。在本文中,我们提出了一种共识感知的视觉-语义嵌入(Consensus-aware Visual-Semantic Embedding,CVSE)模型,将共识信息,即两种模态共享的常识知识,引入到图文匹配中。具体来说,通过计算图像字幕语料库中语义概念的统计共现关系并部署构建的概念相关图来生成共识感知概念(CAC)表示来利用共识信息。随后,CVSE在利用的共识以及两种模态的实例级表示的基础上学习图文之间的关联和对齐。在两个公共数据集上进行的大量实验验证了所利用的共识对构建更有意义的视觉-语义嵌入的显著贡献,并且在双向图文检索任务上性能优于最新方法。本文的代码可在以下网址获取:https://github.com/BruceW91/CVSE。
关键词
图文匹配、视觉-语义嵌入、共识
引言
视觉和语言理解在人类感知现实世界中起着基础性作用,近年来由于深度学习的迅速发展而取得了巨大的进步。为了深入研究多模态数据的理解,本文聚焦于解决图文匹配问题【26】,这为一系列下游应用提供了支持,如视觉问答【2, 27】、视觉定位【4, 34, 47】、视觉描述【40, 41, 48】以及场景图生成【5】。具体而言,其目标是检索与给定图像(文本)查询最相关的文本(图像)。尽管取得了令人振奋的进展,该任务由于图像与文本之间的语义差异性而仍面临挑战,这种差异分别存在于异质表示空间中。
为了解决这一问题,目前的主流解决方案是将图像和文本投射到统一的联合嵌入空间中。如图1(a)所示,大量方法【10, 20, 29, 42】采用深度神经网络提取图像和文本的全局表示,并基于这些表示测量其相似性。然而,这些方法未能探索图像对象与句子片段之间的关系,导致匹配精度有限。另一类工作【17, 22】进行片段级匹配并聚合其相似性以测量其相关性,如图1(b)所示。虽然可以表征复杂的跨模态相关性并实现令人满意的双向图文检索结果,这些现有方法仅依赖图文实例对来进行跨模态检索,我们在本文中将其称为实例级对齐。
对于人类而言,除了图文实例对之外,我们具备利用以基础语义概念及其关联表达的常识知识来表示和对齐图像与文本的能力。例如,考虑句子“一个人在冲浪板上骑着海浪”及其语义相关的图像,如图1(c)所示。当“冲浪板”出现时,“海浪”一词在图像和文本中都会有很高的出现概率。因此,“冲浪板”和“海浪”的共现以及其他共现的概念构成了我们称之为共识的常识知识。然而,这种共识信息尚未在图文匹配任务中被研究和利用。在本文中,受到人类这种认知能力的启发,我们提出将共识信息纳入图文匹配的视觉-语义嵌入学习中。具体而言,我们不仅挖掘图文实例对之间的跨模态关系,还利用来自大规模外部知识的共识信息来表示和对齐两种模态,以便进一步进行图文相似性推理。

图1. 我们提出的共识感知视觉-语义嵌入(CVSE)方法与现有基于实例级对齐方法的概念比较。(a) 基于图像和文本全局表示的实例级对齐;(b) 利用复杂的片段级图文匹配的实例级对齐;(c) 我们提出的CVSE方法。
在本文中,我们提出了一种用于图文匹配的共识感知的视觉-语义嵌入(CVSE)架构,如图1(c)所示。具体而言,我们首先通过计算来自图像字幕语料库的语义概念之间的统计共现关系并构建概念相关图来进行共识利用,以学习共识感知概念(CAC)表示。之后,基于所学习的CAC表示,图像和文本都可以在共识级别上进行表示。最后,共识感知的表示学习将实例级和共识级的表示结合起来,从而实现跨模态对齐。公共数据集上的实验结果表明,所提出的CVSE模型能够学习具有区分性的图文匹配表示,从而提升双向图像和句子检索的性能。我们的贡献体现在以下三个方面。
我们首次尝试在图文匹配中利用共识信息。不同于现有基于实例级对齐的方法,我们的模型利用一个外部语料库来学习共识感知的概念表示,以表达常识知识,从而进一步加强图像和文本之间的语义关系。
我们提出了一种新颖的共识感知视觉-语义嵌入(CVSE)模型,该模型在共识级别上统一了两种模态的表示。共识感知的概念表示通过图卷积网络学习,该网络捕捉语义概念之间的关系,以实现更具区分性的嵌入学习。
在两个基准数据集上的广泛实验结果表明,我们的方法不仅在传统的图文检索任务上优于最新方法,还表现出优越的跨领域迁移泛化能力。
2 相关工作
2.1 基于知识的深度学习
越来越多的研究关注将外部知识引入以改进数据驱动的神经网络。例如,知识表示已被用于图像分类【30】和对象识别【7】。在视觉-语言理解领域,这种方法已在多个上下文中得到探索,包括视觉问答(VQA)【43】和场景图生成【12】。与之相比,我们的CVSE利用共识知识生成同质的高级跨模态表示,从而实现视觉-语义对齐。
2.2 图文匹配
近年来,针对图文匹配问题提出了大量研究。这些研究大多采用双分支深度架构来获取全局【10,20,25,26,29,42】或局部【16,17,22】表示,并在联合语义空间中对齐两种模态。Mao等人【29】采用卷积神经网络(CNN)和循环神经网络(RNN)来表示图像和文本,并通过使用双向三元组排名损失来学习联合的视觉-语义嵌入空间。在片段级对齐方面,Karpathy等人【17】通过累积所有区域-单词对的局部相似性来测量全局跨模态相似性。此外,还引入了几种基于注意力的方法【15, 22, 31, 38】来捕获更细粒度的跨模态交互。总的来说,这些方法主要遵循在实例级建模表面统计关联,但缺乏结构化的常识知识,削弱了它们在多模态数据推理和推断方面的能力。
与之前的研究不同,我们的CVSE将常识知识纳入共识感知表示,从而提取图像和文本之间共享的高级语义。与我们方法最相关的现有工作是【37】,其通过使用图像场景图作为外部知识来扩展视觉概念。不同于【37】,我们的CVSE能够利用所学习的共识感知概念表示,在共识级别上统一表示和对齐两种模态。这样做可以通过解开图像和文本的高级语义来测量跨模态相似性,从而进一步提高其可解释性。
3 共识感知的视觉-语义嵌入
在本节中,我们详细说明用于图文匹配的共识感知视觉-语义嵌入(CVSE)架构(见图2)。不同于基于实例级表示的方法,我们首先介绍了一种新颖的共识利用模块,该模块利用常识知识来捕捉概念之间的语义关联。接下来,我们展示如何使用共识利用模块来生成共识级别的表示,并将其与实例级表示相结合以表示两种模态。最后,我们介绍了对齐目标和推理方法。

图2. 提出的用于图文匹配的CVSE模型。以两种模态的片段级特征为输入,它不仅采用双自注意机制生成实例级表示v^I和t^I,还利用共识利用模块来学习共识级别表示。
3.1 利用共识知识增强概念表示
如前所述,捕捉概念之间的内在关联(在人类推理中作为常识知识)可以提供高级语义,从而实现更准确的图文匹配。为此,我们构建了一个共识利用(CE)模块(见图2),该模块采用图卷积来传播基于保持概念相互依赖的相关图的语义关联,从而在概念表示学习中注入更多的常识知识。它涉及三个关键步骤:(1)概念实例化,(2)概念相关图构建,以及(3)共识感知概念表示学习。具体细节将在下文中介绍。
概念实例化 。我们依赖于自然句子的图像字幕语料库来利用常识知识,这些知识表现为语义概念及其关联。具体来说,语料库中的所有词都可以作为语义概念的候选项。由于词汇表的规模庞大且存在一些无意义的词,我们遵循【9, 14】的方法从词汇表中移除出现频率较低的词。特别是,我们选择概念词汇表中出现频率最高的q个词,这些词大致被分类为三种类型,即对象、动作和属性。有关更详细的划分原则,我们请读者参考【13】。此外,根据整个数据集中相同类型概念的统计频率,我们将对象、动作和属性类型的概念比例限制为(7:2:1)。之后,我们采用GloVe【32】技术来实例化这些选定的概念,表示为Y。
概念相关图构建 。在实例化的概念基础上,检查它们的共现关系以构建相关图,从而利用常识知识。具体来说,我们构建了一个条件概率矩阵P来建模不同概念之间的关联,其中元素P_{ij}表示在概念C_j出现时概念C_i的出现概率:
P_{ij} = \frac{E_{ij}}{N_i} \tag{1}
其中,E \in \mathbb{R}^{q \times q}是概念共现矩阵,E_{ij}表示C_i和C_j的共现次数,N_i是C_i在语料库中的出现次数。值得注意的是,P是一个非对称矩阵,这使我们能够捕捉各种概念之间合理的相互依赖关系,而不是简单的共现频率。
虽然矩阵P能够捕捉概念间的内在关联,但它存在一些不足之处。首先,它是通过图像字幕语料库中语义概念共现关系的统计得出的,这可能与实际场景中的数据分布偏离,从而影响其泛化能力。其次,概念之间共现频率的统计模式容易受到长尾分布的影响,导致相关图产生偏差。为缓解上述问题,我们设计了一种称为置信缩放(CS)函数的新缩放函数,用于重新缩放矩阵P:
B_{ij} = f_{CS}(P_{ij}) = s^{P_{ij} - u} - s ^{- u}, \tag{2}
其中,s和u是预定义的参数,用于确定重新缩放矩阵P中元素的放大/缩小率。之后,为了进一步防止相关矩阵过拟合训练数据并提高其泛化能力,我们遵循【6】的方法对重新缩放的矩阵B应用二值化操作:
G_{ij} = \begin{cases} 0, & \text{if } B_{ij} \tag{3}
其中G是二值化的矩阵B。\epsilon表示用于过滤噪声边的阈值参数。这种缩放策略不仅有助于我们关注概念之间更可靠的共现关系,还帮助抑制长尾数据中包含的噪声。
共识感知概念表示 。图卷积网络(GCN)【3, 19】是一种多层神经网络,在图上,并通过基于节点邻域的信息传播来更新其嵌入表示。与在欧几里得结构上实现的传统卷积操作不同,GCN可以在图结构数据上学习映射函数。在本节中,我们使用多层堆叠的GCN层来学习概念表示(称为CGCN模块),引入概念之间的高阶邻域信息以建模其相互依赖关系。形式化地说,给定实例化的概念表示Y和概念相关图G,第l层的嵌入特征计算为:
H^{(l+1)} = \rho(\tilde{A}H^{(l)}W^{(l)}) \tag{4}
其中H^{(0)} = Y,\tilde{A} = D^{-\frac{1}{2}}GD^{-\frac{1}{2}}表示归一化的对称矩阵,W^{(l)}代表可学习的权重矩阵。\rho是非线性激活函数,例如ReLU函数【21】。
我们从GCN的最后一层输出中获取最终的概念表示Z \in \mathbb{R}^{q \times d},其中z_i表示概念C_i的生成嵌入表示,d表示联合嵌入空间的维度。具体来说,矩阵Z = \{z_1, ..., z_q\}的第i行向量,即z_i,表示概念词汇中第i个元素的嵌入表示。为清晰起见,我们将Z命名为共识感知概念(CAC)表示,它能够利用常识知识来捕捉各种语义概念之间的潜在交互。
3.2 共识感知表示学习
在本节中,我们将结合所利用的共识来生成图像和文本的共识感知表示。
实例级图像和文本表示 。如前所述,传统的图文匹配仅依赖单个图像/文本实例来生成匹配的相应表示,如图2所示。具体而言,给定一个输入图像,我们使用预训练的Faster-RCNN【1, 35】并接上一个全连接(FC)层来将其表示为M个区域级视觉特征O = \{o_1, ..., o_M\},其中每个元素都是F维向量。给定一个包含L个单词的句子,将词嵌入顺序输入到双向GRU【36】中。然后,通过在每个时间步聚合前向和后向隐藏状态向量的均值池化,获得词级文本特征\{t_1, ..., t_L\}。
接下来,使用自注意机制【39】集中于片段级特征中信息量较大的部分,以增强两种模态的潜在嵌入。需要注意的是,这里我们仅描述视觉分支的注意力生成过程,因为文本分支的过程相同。区域级视觉特征\{o_1, ..., o_M\}用作键和值项,而全局视觉特征向量\bar{O} = \frac{1}{M} \sum_{m=1}^{M} o_m用作查询项进行注意力策略。因此,自注意机制将实例级视觉表示优化为v^I。对词级文本特征\{t_1, ..., t_L\}进行相同处理后,实例级文本表示优化为t^I。

图3. 共识级表示学习及其与实例级表示的融合示意图。
共识级图像和文本表示 。为了整合所利用的共识,如图3所示,我们将实例级视觉和文本表示(v^I和t^I)作为输入,以从CAC表示中进行查询。不同语义概念的生成显著性得分使我们能够统一地利用CAC表示的线性组合来表示两种模态。数学上,视觉共识级表示v^C可按以下公式计算:
a^v_i = \frac{\exp(\lambda v^I W^v z_i^T)}{\sum_{i=1}^{q} \exp(\lambda v^I W^v z_i^T)},
v^C = \sum_{i=1}^{q} a^v_i \cdot z_i, \tag{5}
其中,W_v \in \mathbb{R}^{d \times d}为可学习的参数矩阵,a^v_i表示与语义概念z_i对应的显著性得分,\lambda控制softmax函数的平滑度。
对于文本,由于语义概念是从文本统计中实例化的,我们可以通过使用出现在其相应描述中的概念集合来标注任意图文对。形式上,我们将此多标签标注称为概念标签L^t \in \mathbb{R}^{q \times 1}。考虑到共识知识来自文本统计,我们认为利用概念标签作为先验信息来指导共识级表示学习和对齐是合理的。具体来说,我们计算预测的概念得分a^t_i和共识级表示t^C如下:
a^t_j = \alpha \frac{\exp(\lambda L^t_j)}{\sum_{j=1}^{q} \exp(\lambda L^t_j)} + (1 - \alpha) \frac{\exp(\lambda t_I W_t z_j^T)}{\sum_{j=1}^{q} \exp(\lambda t_I W_t z_j^T)},
t_C = \sum_{j=1}^{q} a^t_j \cdot z_j, \tag{6}
其中,W_t \in \mathbb{R}^{d \times d}表示可学习的参数矩阵。\alpha \in [0, 1]控制生成文本预测概念得分a^t_j时概念标签的比例。我们通过实验证明,将概念标签融入文本共识级表示学习中可以显著提高性能。
融合共识级和实例级表示 。我们整合实例级表示v^I(t^I)和共识级表示v^C(t^C)来全面表征视觉和文本模态的语义含义。通过实验证明,简单的加权求和操作可以实现令人满意的结果,其定义如下:
v^F = \beta v^I + (1 - \beta) v_C,
t^F = \beta t^I + (1 - \beta) t_C, \tag{7}
其中,\beta是控制两种表示比例的调节参数。v_F和t_F分别表示组合后的视觉和文本表示,被称为共识感知表示。
3.3 训练和推理
训练 。在训练过程中,我们采用广泛使用的双向三元组排名损失【10, 11, 20】来对齐图像和文本:
L_{\text{rank}}(v, t) = \sum_{(v,t)} \left\{ \max[0, \gamma - s(v, t) + s(v, t^{-})] + \max[0, \gamma - s(t, v) + s(t, v^{-})] \right\}, \tag{8}
其中,\gamma是预定义的边距参数,s(\cdot, \cdot)表示余弦距离函数。对于匹配的图文对(v, t),其对应的负对分别记为(t, v^{-})和(v, t^{-})。双向排名目标适用于实例级、共识级和共识感知表示的所有三种类型。
考虑到匹配的图文对通常包含相似的语义概念,我们对视觉和文本预测的概念得分施加Kullback-Leibler (KL)散度,以进一步规范对齐:
D_{KL}(a^t \parallel a^v) = \sum_{i=1}^{q} a^t_i \log \left(\frac{a^t_i}{a^v_i}\right), \tag{9}
综上所述,我们的CVSE模型的最终训练目标定义为:
L = \lambda_1 L_{\text{rank}}(v^F, t^F) + \lambda_2 L_{\text{rank}}(v^I, t^I) + \lambda_3 L_{\text{rank}}(v^C, t^C) + \lambda_4 D_{KL}, \tag{10}
其中,\lambda_1, \lambda_2, \lambda_3, \lambda_4用于平衡不同损失函数的权重。
推理 。在推理阶段,我们仅使用共识感知表示v^F(t^F),并利用余弦距离来测量其跨模态相似性。由于我们在模型训练中采用了成对句子的共享概念标签,因此使用一种概念预测策略来缩小训练和推理阶段之间的差距。
具体而言,给定共识感知的视觉和文本表示,我们从以下两个角度预测文本描述的相关概念:
- 文本到文本的相似性 。根据文本相似性执行K近邻(KNN)搜索,获取k个最相关句子的索引I^k_{t2t}。
- 跨模态相似性 。根据文本到图像的相似性,首先定位与给定句子最相关的图像,然后使用KNN搜索通过测量图像到文本的相似性获取k个最近句子的索引I^k_{i2t}。
最后,将I^k_{t2t}和I^k_{i2t}合并,并使用它们的概念标签的并集作为预测的概念标签。
此外,从另一个角度看,我们的概念预测方法也可以视为一种特殊的重排序过程,这在模态内【50】和跨模态【44】检索任务中常用。
4 实验
4.1 数据集和设置
数据集 。Flickr30k【33】是一个包含31,783张图像的图像字幕数据集,每张图像均配有五个句子注释。按照【29】的协议,我们将数据集划分为29,783张训练图像、1000张验证图像和1000张测试图像。我们在1000张测试集上报告图文检索的性能评估。MSCOCO【23】是另一个包含123,287张图像的图像字幕数据集,每张图像大致配有五个句子级描述。我们遵循【17】的公共数据集划分,其中包括113,287张训练图像、1000张验证图像和5000张测试图像。我们报告1K测试集上的实验结果,该测试集是通过对完整5K测试图像中的5个1K子集的平均获得的。
评估指标 。我们采用广泛使用的R@K作为评估指标【10, 20】,该指标衡量查询中匹配项在前k个检索结果中被找到的比例。我们还报告了“mR”标准,该标准平均了所有六个R@K召回率,从而提供了更全面的评估来验证整体性能。
4.2 实现细节
我们所有的实验均在PyTorch中实现,并使用NVIDIA Tesla P40 GPU进行。对于视觉表示,每张图像中检测到的区域数量为M = 36,区域向量的维度为F = 2048。词嵌入空间的维度设置为300,联合空间的维度d设置为1024。对于共识利用,我们采用在Wikipedia数据集上训练的300维GloVe【32】来初始化语义概念。语义概念词汇表的大小为q = 300。使用了两层图卷积层,嵌入维度分别设置为512和1024。
对于相关矩阵G,我们在公式(2)中设置s = 5和u = 0.02,在公式(3)中设置\epsilon = 0.3。对于图像和文本表示学习,我们在公式(5)中将\lambda设置为10,在公式(6)中将\alpha设置为0.35。对于训练目标,我们在公式(7)中经验性地将\beta设置为0.75,在公式(8)中将\gamma设置为0.2,并在公式(10)中将\lambda_1, \lambda_2, \lambda_3, \lambda_4分别设置为3, 5, 1, 2。
在推理时,我们将k设置为3。我们的CVSE模型使用Adam优化器【18】进行训练,批量大小为128。学习率在前15个周期中设置为0.0002,接下来的15个周期中设置为0.00002。使用了0.4的dropout率。我们的代码可在此获取【3】。
4.3 与最新技术的比较
MSCOCO数据集上的实验结果如表1所示。从表1 可以看出,我们的CVSE在大多数评估指标上明显优于竞争对手,在文本检索和图像检索的R@1指标上分别取得了74.8%和59.9%的结果。特别是,与表现第二好的LIWE方法相比,我们在图像检索的(R@1, R@5, R@10)上实现了绝对提升,分别为2.0%、1.1%和1.0%。此外,作为最具说服力的标准,我们的CVSE在mR指标上依然显著超过了其他算法。

在MSCOCO 1K测试集和Flickr30k测试集上的实验结果比较。
此外,某些方法在某些方面部分超越了我们,例如SCAN【22】,该方法通过穷尽性地聚合视觉和文本片段之间的局部相似性,导致推理速度较慢。相比之下,我们的CVSE仅使用组合的全局表示,从而大大加快了推理阶段。因此,综合考虑有效性和效率,我们的CVSE仍在这些方法中具有显著优势。
Flickr30K数据集的结果如表1所示。可以看到,我们的CVSE在“mR”标准上达到80.4%,也超过了所有最新的方法。尤其在文本检索方面,CVSE模型在(R@1, R@5, R@10)上分别比之前最好的方法高出3.9%、1.8%和0.2%。上述结果充分证明了利用两种模态之间的共识来对齐视觉和文本表示的有效性和必要性。
4.4 消融研究
在本节中,我们进行了一些消融研究,以系统地探讨CVSE模型中不同组件的影响。除非另有说明,我们在MSCOCO数据集的1K测试集上验证性能。

表2.CGCN模块不同配置对MSCOCO数据集的影响
不同的共识利用配置 。首先,我们探讨共识利用模块的不同配置如何影响CVSE模型的性能。如表2所示,尽管我们仅采用GloVe词嵌入作为CAC表示,模型(CVSEwo/GE)仍能够达到与当前领先方法相当的性能。这表明,词嵌入技术中包含的语义信息仍能够提供弱共识信息,从而有助于图文匹配。相比于在公式(2)中排除CS函数的模型(CVSEwo/CS),CVSE模型在文本检索和图像检索的R@1上分别获得了0.3%和1.1%的性能提升。此外,我们还发现,如果排除了概念标签L^t,模型(CVSEwo/CL)的性能显著下降。我们推测,这一结果归因于共识知识是从文本统计中收集的,因此概念标签中包含的文本先验信息极大地有助于增强文本共识级别的表示,从而实现更精确的跨模态对齐。

表3.目标和推理方案的不同配置对MSCOCO数据集的影响。
训练目标和推理策略的不同配置 。我们进一步探讨了不同的对齐目标如何影响性能。首先,如表3所示,当分别移除实例级排名损失L_{\text{rank}-I}和共识级排名损失L_{\text{rank}-C}时,CVSEwo/SC模型的性能比CVSE模型差,这验证了这两个项的有效性。其次,我们发现CVSEwo/KL的检索结果较差,这表明D_{KL}在规范图像和文本之间的预测概念得分分布差异中的重要性,这再次提供了更多解释,即异构数据对应于近似的语义概念。
最后,我们探讨了实例级特征和共识级特征在表示两种模态中的关系。具体而言,CVSE(\beta = 1)表示公式(7)中\beta = 1的CVSE模型,仅使用实例级表示。同样,CVSE(\beta = 0)模型仅采用共识级表示。有趣的是,我们观察到,仅使用任一单一语义级别的表示将导致较差的结果,优于组合使用的结果。这实质上验证了实例级和共识级表示之间的语义互补性,对于实现显著的性能提升至关重要。
4.5 进一步分析
共识利用在领域适应中的应用 。为了进一步验证共识知识的能力,我们通过进行跨数据集实验来测试其泛化能力,这在以往研究中很少被探讨,但对评估实际场景中的跨模态检索性能具有重要意义。具体来说,我们通过将训练在MSCOCO数据集上的模型直接迁移到Flickr30k数据集上进行实验。为了进行比较,除了两个提供对应结果的现有工作【8, 24】外,我们还基于其公开发布的代码重新实现了两个先前的研究【10, 22】。从表4中可以明显看出,我们的CVSE大幅超过了所有竞争对手。此外,与仅使用实例级对齐的基线模型(CVSEwo/consensus)相比,CVSE实现了显著的改进。这些结果表明,学习到的共识知识可以在跨域异构数据之间共享,从而带来显著的性能提升。

表4.从MSCOCO到Flickr 30k的跨数据集概化的比较结果。
概念置信得分的可视化 。在图4中,我们可视化了CVSE预测的概念置信得分。可以看到,预测结果相当可靠。特别是一些未涉及到图文对中的信息量较大的概念也能被捕捉。例如,在图4(a)中,“交通”和“建筑物”的相关概念也被准确指出以增强语义表示。

图1.前10个概念的预测得分的可视化结果。

图5. 基于word2vec的概念表示与我们的共识感知概念表示的t-SNE结果。我们随机选择每个词性(POS)下的15个概念进行可视化,并用相同的颜色标注每个词性。
共识感知概念表示的可视化 。在图5中,我们采用t-SNE【28】来可视化CAC表示。与基于word2vec【32】的嵌入特征相比,我们的CAC表示的分布更符合常识。例如,带有动作词性(POS)的概念,如“骑”,与“人”的概念紧密相关。类似地,“盘子”的概念与“吃饭”紧密联系。这些结果进一步验证了我们的共识利用模块在捕捉概念间语义关联方面的有效性。
5 结论
对多模态数据的模糊理解严重削弱了机器将图像与文本精确关联的能力。在本研究中,我们提出了一种共识感知视觉-语义嵌入(CVSE)模型,将常识知识集成到多模态表示学习中以实现视觉-语义嵌入。我们的主要贡献在于利用共识知识来同时定位高级概念,并为图像和文本生成统一的共识感知概念表示。通过在广泛使用的MSCOCO和Flickr30k数据集上优于最新模型,我们证明了CVSE在图文检索任务中的优势。
致谢
本工作得到天津市自然科学基金19JCYBJC 16000和国家自然科学基金61771329的资助。
