图网络:Graph Structured Network for Image-Text Matching
用于图文匹配的图结构网络
摘要
因为图像-文本匹配通过视觉与语言实现了深度关联,因此它引起了越来越大的关注.这一核心难题在于如何建立图像与文本之间的对应关系.目前的研究主要依赖于基于对象共现的统计方法来粗略学习对应的关联,但缺乏对细粒度短语级别的深入探讨.本研究提出了一种创新性的图结构匹配网络(GSMN),旨在深入探究细粒度语义对应关系.该网络通过节点级与结构级双重机制实现精确配准:在节点级匹配阶段中,每个节点都会被关联到其对应的另一种模式中的相关节点;随后在结构级匹配过程中,通过融合各领域知识构建完整的语义映射框架.这种双层设计不仅能够分别建模并学习对象、关系与属性间的配准规律,还能有效推导出更加精细的语义对应关系.经过全面实验评估,在基准测试集上,GSMN的表现显著优于现有最先进的方法,其性能分别提升了约7%至2%.
1.介绍
图像-文本匹配是一项新兴的任务,它将来自一种模式的实例与来自另一种模式的实例进行匹配.这可以连接视觉和语言,从而有可能提高其他多模态应用程序的性能。图像-文本匹配的关键问题在于学习图像和文本的对应关系,以便准确地反映图像-文本对的相似性.
现有的方法要么侧重于学习全局对应关系,要么侧重于学习局部区域-单词对应关系.全局对应学习方法的总体框架是将整个图像和文本共同投射到一个共同的潜在空间中,在这个空间中对应的图像和文本可以统一成相似的表示.公共空间投影技术的范围从设计特定的网络增加约束,如三重损失[29],对抗性损失[27]和分类损失.图像-文本匹配的另一个分支是学习局部区域-词对应关系,用于推断同一对象的全局相似度和属性点。图像-文本匹配的另一个分支是学习局部区域-词对应,用于推断图像-文本对的全局相似度。一些研究者关注于学习显著区域与关键词之间的局部对应关系。例如,Ji等提出了一种轻量级显著性模型检测到的部分显著区与单词相关,这就需要外部显著性数据集作为监督。最近的研究发现了所有可能的区域-词对应。例如,Lee等人提出将每个单词与所有权重不同的区域关联起来,反之亦然。在此基础上,wang et al.集成了位置嵌入来指导对应学习,Liu et al.提出了去除对应学习中部分无关词和区域的方法。
但是现有的作品只学习基于对象共现统计的粗对应,没有学习结构化对象、关系和属性的细粒度对应.结果,它们有两个局限性:(1)很难了解关系和属性的对应关系,因为它们被对象对应关系所淹没。 (2)在没有描述性关系和属性指导的情况下,对象容易对应于错误的类别。如图1所示,粗略的对应关系会错误地将单词“狗”与图像中的所有狗相关联,而忽略了“狗”则具有更精细的细节,即棕色或灰色。相比之下,细粒度的对应关系显式地将对象"狗",关系“咬”和属性“棕色”建模为短语。因此,关系“咬”和属性“棕色”也可以与特定区域相关联,进一步促进细粒度短语"brown dog bite"的识别.

图1:粗粒度和细粒度对应关系的图示。在左图中,两只狗与“狗”这个词粗略相关,忽略了它们的关系和属性(咬还是被咬?)灰色或棕色吗?),在右图中,灰色和棕色的狗与更精细的文本细节相关联,这可以通过使用基于图的方法学习短语对应关系来实现。
为了学习细粒度的对应关系,我们提出了一种图结构化匹配网络(GSMN),该网络将对象,关系和属性明确建模为短语,并通过对这些本地化短语进行匹配来共同推断细粒度的对应关系。这将对象、关系和属性的对应学习以一种相互强制的方式结合起来。一方面,关系对应和属性对应可以指导细粒度对象对应学习,另一方面,细粒度的对象通信迫使网络明确地学习关系通信和属性通信,具体来说,所提出的网络分别为视觉图和文本构造图。图节点由对象,关系和属性组成,如果任意两个节点相互交互,则图边缘存在(例如,对象的节点将与其关系或属性的节点连接)。然后,我们在视觉图和文本图上执行节点级和结构级匹配。节点级匹配将每个节点与另一个模态中的节点有区别地关联,然后在结构级匹配时传播到邻域。在节点对应的指导下,可以推导出短语对应。只要对象节点的邻近关系和属性指向同一个对象,就可以更新对象节点的对应关系。最后,将更新后的对应关系用于预测图像-文本对的全局相似度,综合考虑所有单个短语的对应关系。
本文的主要贡献总结如下:
∙\bullet 提出了一种图结构匹配网络,它明确地构造图像和文本的图结构,并通过学习细粒度的短语对应进行匹配.据我们所知,这是第一个对异构的视觉图和文本图执行图像-文本匹配的框架。
∙\bullet 据我们所知,这是第一项使用图卷积层传播节点对应关系并用来推断细粒度短语对应关系的工作。
2.相关工作
现有工作主要通过对象共现来分析图像与文本之间的联系,并将其划分为两种类型:一种是全局对应的学法、另一种是局部位对应的学法。其中、全局对应的学法核心目标在于最大化匹配不同图文对间的相似性;该领域的研究思路主要包括:首先将图像与文本来转化为特征向量;随后将其映射到一个经过排序损失优化后的公共空间中。然而、这种全局对应的学法存在不足之处:由于主要的对象在图文对的整体表征中占据主导地位、导致次要的对象容易被忽视。
3.方法
本研究提出了一种网络概述方案(如图2所示)。随后从图像与文本特征提取入手展开研究工作。接着构建了视觉图与文本图两种表示形式。随后,在节点级别进行匹配学习以确定节点间的对应关系,并将此关联关系扩散至邻居节点。其中通过融合对象、关系及属性间的对应信息来推导出细粒度短语间的对应关联

图2展示了我们方法的概述图,该图由三个主要模块构成:第一部分是特征提取模块,利用Faster-RCNN和Stanford CoreNLP分别识别图像中的关键区域并进行语义依赖分析;第二部分是图构建模块,将对象、关系或属性作为节点,并根据节点间的语义关联性建立边;第三部分包含两个子步骤,首先在节点级匹配阶段,系统分别学习识别对象、关系及属性之间的对应关系;其次在结构级匹配阶段,则通过传播相邻节点间的已知对应关系来推断出更细粒度的具体短语对应。
3.1图结构
文本图

在式中,s_{ij}表示i号节点与j号节点间的相似度指标。λ(lambda)是一个归一化常数。通过计算两个相似度矩阵对应元素的乘积(即两个矩阵的哈达玛积),得到权重向量W_e,并对该结果向量进行L2范数归一化处理:

此外,在构建文本图时将其设计为全连通结构与基于单词语义关联的稀疏架构形成对比这种设计选择凸显了其对潜在联系的依靠通过实验结果我们发现两者并非对立而是相辅相成的关系从而显著提升了整体性能具体细节可在4.2.1节中找到
视觉图 : 为了建立视觉图G₂=(V₂,E₂) G₂ = (V₂, E₂),我们将每个图像表示为无向全连接图,并将Faster-RCNN检测到的所有显著区域设作节点;这些节点之间相互连接以反映空间关系。通过极坐标建模方法对每个图像的空间关系进行建模以消除配对区域的方向性和距离性;这有助于预期具有更强邻近性的关系,并利用方向信息来推断关系类型;例如,“on”与"under"等关系能够揭示与对象"desk"相反的位置分布情况;为了获取该全连接图中边的权重值,则需基于配对区域边界框中心计算得到其极坐标(ρ,θ)(\rho, \theta),并将边权重矩阵WeW_e定义为其配对区域对应的极坐标值
3.2 多通道图像匹配
给定文本的文本图 G_1 = (V_1, E_1) 和图像的可视化图 G_2 = (V_2, E_2) 的目的是实现异构图中细粒度语义对应关系的学习与推理。为了实现这一目标,在节点表示学习阶段首先建立节点之间的对应关系;随后通过基于邻居传播的方法建立关联节点间的语义对应关系;最后综合上述结果推导出结构化对象及其属性间的细粒度对应关系
3.2.1 节点级匹配
在文本图与可视化图中,每个节点都将对应另一模态图中的相应节点。随后重点阐述了文本图中节点级别的匹配过程。接着,在可视化图上也进行了简要说明。随后计算了视觉节点与文本节点之间的相似度值UαVβTU_\alpha V_\beta^T。这一过程可具体表述如下:

λ\lambda 用于调节节点匹配的程度
与以往方法基于学习到的一一对应关系评估全局关联性不同, 我们提出了一种多层模块 Ct→i 来评估全局关联性. 该模块通过逐层分析文本节点与其可视化的聚类中心, 计算其局部关联性. 这一过程有助于提高整体计算效率, 并将每个单值关联结果转化为向量形式以便后续操作. 具体来说, 在第 ii 个文本特征与其对应的可视化聚类中心之间划分出 t 个子区域. 多层间的关联程度则可通过逐一比较来确定其相关程度. 例如, 在每一对子区域之间评估它们之间的余弦相似度 x_{ij} = cos(u_{ij}, c_{ij}). 其中 x_{ij} 为标量值, cos(⋅) 表示余弦运算. 第 ii 个文本特征的最终关联向量可通过整合所有子区域间的关联强度来获得.

|| 表示连接,在这种情况下,
每个文本标记点都将与其对应的可见性标记点建立关联,
这些可见性标记点将通过结构级配准传播到它们的相邻位置,
以便帮助它们学习更细致的短语对应关系。
同时地,
在一个已知的可观察性分布图中,
对每个可见性标记点进行层次化分析,
相应的位置将根据具体情况采取不同的关联策略。

通过多个组件分别对每个可视化节点及其关联的文本节点进行计算,并最终生成匹配向量X_x。
3.2.2 结构级匹配
层次级匹配机制采用节点级特征向量作为输入,并将其与图结构中的边信息一起传递到相邻节点。这种设计有助于学习语义间的细粒度关联关系,因为相邻节点能够相互指导语义理解。例如,在句子"一只棕色的狗咬了一只灰色的狗的耳朵"中,第一个"狗"会在一个更细致层次上对应视觉上的棕色狗这一特征,因为它的邻居"咬"和"棕色"等词汇指向了棕色 dogs这一具体类别,从而使得该词项更倾向于与图像中标注正确的 dogs 连接起来。具体而言,通过应用 GCN 模型整合邻域匹配向量来更新每个节点的匹配向量。GCN 层将应用 K 个内核,这些内核能够学习如何整合邻域匹配向量以生成最终特征表示,其数学表达如下:

其中NiN_i表示第ii个节点的邻域,WeW_e表示3.1节中描述的边缘权值,WkW_k和bb是第kk个核需要学习的参数.请注意,应用了k个内核,空间卷积的输出被定义为对kk个内核的输出的串联,从而产生反映连接节点对应关系的卷积矢量,这些节点形成了局部短语.
通过传播相邻节点对应关系,可以推断出短语对应关系,并以此推断出图像-文本对的整体匹配得分。在这里,我们将卷积后的向量输入到一个多层感知器(MLP)中,共同考虑所有短语的学习对应关系,并推断出全局匹配分数.它表示一个结构图与另一个结构图的匹配程度。这个过程被表述为:

其中Ws、bsW_s、b_s代表MLP中的参数。这些参数由两层全连接网络构成,在计算过程中采用了tanh激活函数(见公式σ(⋅))。请注意以下几点:第一,在对视觉图与文本图进行处理时;第二,在图像-文本配准过程中采用了一种新的设计思路——这种设计能够帮助不同短语之间的互补性得到充分利用。

3.2.3 目标函数
基于三元组损失函数设计目标函数J,在每一批次的数据集中提取与查询相关的正样本图像和负样本图像。对于每一对正配对(x^+,x^-)而言,其相似度差值应大于等于预先设定的阈值\gamma(即d(x^+,x^-) \geq \gamma)。同理地,在将图像I作为查询对象的情况下,则对应的负样本I'应为与当前查询无关的文字内容,并要求满足d(I,I') < \gamma这一约束条件。为了提高模型性能,在每一批次中优先优化那些能够带来较大损失的难分类负样本。

具体而言,在此设定中,I′, T′代表的是硬负样本的位置。函数[\cdot]^+ [\cdot \_+]等价于\text{max}([\cdot], 0)\text{ max}([\cdot], 0)。其中,g(\cdot)和g(\cdot)分别基于公式9被定义为图像与文本对之间的全局相似度计算结果。
3.3 特征表示
视觉表达方面, 给定图像编号II, 我们将该图像的特征表达为由nn个显著区域构成, 这些区域是由经过视觉基因组预训练的Faster-RCNN模型检测出来的.接着, 将这些检测出的区域输入至预先经过训练的ResNet-101模型以提取其特征, 最后, 使用全连接层将这些特征映射至一个d维的空间中

其中CNN网络通过编码边界框内的每个区域来生成区域特征;其中Wm,bmW_m,b_m是用于将特征映射到公共空间的完全连接层参数;这些区域特征共同构建了图像的空间表示;具体表示为向量形式:[v₁,v₂,…,vₙ]
给定一个由mm个单词组成的文本TT,在其特征空间中我们定义了一个长度为m的序列[u_1, u_2, ..., u_m]。其中每个位置u_i对应于第i个单词的一个特定特征向量。随后我们将这些热编码通过双向门控回归单元(BiGRU)转换到d维连续空间中。这种设计使得模型能够整合前后文信息以生成更丰富的文本表示。具体而言,在处理第ii个时间步时我们取前向和后向GRU的状态进行平均计算得到当前词的表示
4.实验
4.1 数据集和实现细节
为了验证我们提出的方法的有效性,我们在两个最广泛使用的基准Flickr30K [25]和MSCOCO [16]上对其进行了评估。 每个基准包含多个图像文本对,其中每个图像由五个相应的句子描述。 Flickr30K总共收集31,000张图像和31,000 5 = 155,000个句子。 根据先前工作[12]中的设置,该基准分为29,000个训练图像,1,000个验证图像和1,000个测试图像。 大型基准MSCOCO包含123,287张图像和123,287 5 = 616,435个句子,我们使用113,287张图像进行训练,验证和测试集均包含5,000个实例。 评估结果是根据5张测试图像计算得出的。
Adam优化器用于小批处理,批大小64。初始学习率设置为0.0002,在Flickr30K上每15个epoch衰减10%,在MSCOCO上设置为0.0005,每5个epoch衰减10%,我们将单词嵌入的维数设置为300,然后将其提供给Bi-GRU以获得1024-diemensioanl的单词表示。在图像特征方面,每幅图像包含36个最突出的区域,并对每个区域提取2048维的特征,区域特征通过全连接层转化为1024维的视觉表示,在结构级匹配中,我们使用一个空间图的卷积层,8个核,每个核都是32维的,在此之后,我们将图中的每个节点输入到两个全连接的层中,然后通过激活tanh来推理匹配分数.缩放因子λ\lambda的设置在4.2.3节中进行了研究。 对于优化,边界γ\gamma根据经验设置为0.2。
4.2 实验结果
我们展示了学习节点与短语间的对应关系(如图4所示)。特别地,在展示过程中,默认只突出每个文本节点与其最相关的区域。这表明不同类型的节点可以与高分对应的区域建立关联。进一步地,在分析结果的基础上可以看出,多个边界框内的短语对应关系能够显著提升分数。此外,在Flickr30K上展示了文本到图像以及图像到文本的匹配效果(如图5、6所示)。这些结果显示我们的方法在检索真实值方面表现优异;更重要的是,在层次化特征学习方面也取得了不错的效果。例如,请看图片中的第一个文本查询部分:我们的网络能够区分不同种类的帽子

图4:在框中显示具有分数的节点对应关系和短语对应关系。 彩色效果最佳。

图5展示了Flickr30K中基于文本到图像匹配可视化的实验结果。当处理一个文本查询时,在图表左侧列出其最相关的三个图像中(即排名靠前的三个),未匹配的结果将被标注为红色框;而匹配的结果则被标注为绿色框。

图表1:Flickr30K展示了图像与文本之间的配对关系的视觉呈现。对于每一个图像查询而言,在其结果列表中我们会展示出排名靠前的5个候选结果,并将未达到预期效果的部分标记为非绿色。
4.3 结论
该网络基于图结构实现了图像与文本之间的高效匹配方法。该方法能够处理不同类型的图数据,并通过节点级别的对应关系建立以及整体结构特征分析实现了跨模态数据的匹配。具体而言,该网络通过沿边传播节点间的对应关系进而推导出更细致的具体配对。这种设计不仅能够有效学习各模态间的语义关联,还能准确捕捉到各属性间的细微差异。实验结果表明我们提出的方法在性能上具有显著优势。
