Advertisement

image-text matching(六)Visual Semantic Reasoning for Image-Text Matching

阅读量:

背景

这篇论文是美国东北大学的工作,接收于ICCV2019

动机

图文匹配任务的challenge在于,当前的图像表示通常缺乏全局语义概念(?)。作者提出模型VSRN,包含一个推理模块来生成视觉特征表示。具体地,第一步先构建图像regions之间的关系矩阵,在其上使用GCN来捕捉带有语义联系的visual features;接下来,利用得到的relationship enhanced features,输入到GRU中执行全局推理。

模型结构

在这里插入图片描述

方法

Region Relationship Reasoning

区域v_iv_j之间的关系可用下式计算
在这里插入图片描述
其中在这里插入图片描述
经过这一步,就得到了由视觉区域regions构成的全连接的关系图G=(V,E).V是regions的特征表示,视为图的顶点;E是各regions之间的关系,视为图中的边。对边矩阵E做行归一化,得到regions间的亲和度矩阵R。将这些作为GCN的输入,有
在这里插入图片描述
得到语义增强后的视觉特征表示。

Global Semantic Reasoning

在这里插入图片描述
送入GRU中进行全局推理。

Loss

匹配部分,常规的rank loss
在这里插入图片描述
生成部分
对于生成部分,作者认为学习到的视觉表征也应该有能力生成与ground-truth captions相近的句子。文章使用带有注意机制的sequence2sequence模型来实现这一点,最大化预测输出语句的对数概率。损失函数定义为
在这里插入图片描述
总的Loss
在这里插入图片描述

实验结果

在这里插入图片描述

结论

本文提出了一种基于区域关系推理全局语义推理 的可视化表示模型VSRN。增强的图像表示捕获场景的关键对象和语义概念,以便更好地与相应的文本captions对齐。在MS-COCO和Fliker30K数据集上进行的大量实验表明,所得到的模型在图像-文本匹配方面始终优于目前最先进的方法。与复杂的基于注意力的区域和词之间的两两相似度聚合方法相比,经典的图像-文本相似度度量方法在增强整体图像表示的前提下仍有应用前景。

全部评论 (0)

还没有任何评论哟~