Advertisement

image-text matching(二)Expressing Objects just like words: Recurrent Visual Embedding for ITM

阅读量:

背景

本篇论文的工作来自罗彻斯特大学。已被AAAI2020接收

动机

研究者指出,在以往的工作中仅将图像中的单一object与caption进行关联可能导致object定位上的误配对现象。事实上,在图像中可能存在多个object能够对应同一个caption的情况出现。例如这个mismatch的例子:Two people riding skis…在这种情况下每个people区域都高度关联于整个句子。但仅仅通过单一region与各个词项的联系来建模是远远不够的。正确的处理方式应该是通过整合各区域语义信息来实现对象级别的对应关系确定

在这里插入图片描述

方法

该研究设计了Dual Path Recurrent Neural Network (DP-RNN),通过神经网络提取图像与文本特征序列,并形成双路神经网络架构。个人认为,在这项研究中一个关键创新在于将递归神经网络用于提取图像区域的语义信息,并使这些区域呈现出类似文本中的层次上下文特性。通过整合多个区域语义信息的大脑机制模型,在此过程中每个区域仿佛都具备了一种类似于人类语言层次上下文的理解能力。这种机制能够生成多样化的描述输出针对不同的人像描述。

在这里插入图片描述

DP-RNN的具体执行步骤如下:
第一步,在输入一个image-text对时,无论当前输入的image-text是否与目标匹配都需要执行以下操作:根据其与该区域相关性最强的词的位置进行重新排序。完成重排后将这些区域传递给RNN模型进行处理。第二步,在图像-文本自注意力机制中提取特征后,在后续步骤中需利用自注意力层输出后的加权系数来计算并得到基于单词级和物体级的图像-文本相似度矩阵。

在这里插入图片描述

loss部分

考虑硬负样本的rank loss

在这里插入图片描述
配对早选择

在一个batch中包含n张图像和n个text样本时,每一对之间的相似度都会被计算,其复杂度为O(n²)。作者指出这种方案带来的计算成本较高,因此提出了早选择策略,通过筛选出一些不具有挑战性的image-text对,从而降低了整个模型的时间复杂度

在这里插入图片描述

其中

在这里插入图片描述

基于先决条件下的分数评估机制下,在图像文字配对中满足一定条件后仅选取top-d组分数最高且未匹配的对象进行筛选处理,则通过这一筛选标准生成的是硬负样本。

训练策略

通过多阶段训练策略对DP-RNN进行训练。 在第一个学习周期中,我们专注于训练一种基于多注意力机制的交叉匹配模型,并更新了包括文本编码器、图像编码器(仅限全连接层)以及注意力机制组件在内的相关参数。 在第二个学习周期中,我们在保持前一周期所得结果稳定的基础上,将循环视觉嵌入模块接入网络,并仅对该模块的相关参数展开优化调整。 在第三个及后续学习周期中,我们全面优化了整个网络架构,持续更新所有的可学习参数直至收敛。

实验结果

在这里插入图片描述

结论

该研究提出了一种新型双路径递归神经网络模型用于图像-文本匹配任务。与传统的文本编码方法相仿,在这一过程中我们依据图像对象所蕴含的语义意义对图像对象进行了自适应排序处理,并通过RNN模型完成其编码工作。为优化序列选择策略,在此过程中我们特别引入了一种改进型早期选择机制 从而使得循环视觉嵌入能够更加容易地被后续系统所处理。此外 我们设计并集成了一个多注意力交叉匹配模块 该模块能够有效计算并建模基于循环迭代生成的视觉特征与原始文本特征之间的相似度关系。为了全面验证本模型的有效性 我们进行了系列实验并获得了令人满意的实验结果 这些结果充分表明了所提出的模型在捕捉语义相关联的信息方面具有显著优势 并且能够在有效识别目标单词位置方面表现出色。

全部评论 (0)

还没有任何评论哟~