image-text matching(六)Visual Semantic Reasoning for Image-Text Matching
发布时间
阅读量:
阅读量
背景
这篇论文是美国东北大学的工作,接收于ICCV2019
动机
图文匹配任务的challenge在于,当前的图像表示通常缺乏全局语义概念(?)。作者提出模型VSRN,包含一个推理模块来生成视觉特征表示。具体地,第一步先构建图像regions之间的关系矩阵,在其上使用GCN来捕捉带有语义联系的visual features;接下来,利用得到的relationship enhanced features,输入到GRU中执行全局推理。
模型结构

方法
Region Relationship Reasoning
区域v_i和v_j之间的关系可用下式计算

其中
经过这一步,就得到了由视觉区域regions构成的全连接的关系图G=(V,E).V是regions的特征表示,视为图的顶点;E是各regions之间的关系,视为图中的边。对边矩阵E做行归一化,得到regions间的亲和度矩阵R。将这些作为GCN的输入,有

得到语义增强后的视觉特征表示。
Global Semantic Reasoning
将
送入GRU中进行全局推理。
Loss
匹配部分,常规的rank loss

生成部分
对于生成部分,作者认为学习到的视觉表征也应该有能力生成与ground-truth captions相近的句子。文章使用带有注意机制的sequence2sequence模型来实现这一点,最大化预测输出语句的对数概率。损失函数定义为

总的Loss

实验结果

结论
本文提出了一种基于区域关系推理 和全局语义推理 的可视化表示模型VSRN。增强的图像表示捕获场景的关键对象和语义概念,以便更好地与相应的文本captions对齐。在MS-COCO和Fliker30K数据集上进行的大量实验表明,所得到的模型在图像-文本匹配方面始终优于目前最先进的方法。与复杂的基于注意力的区域和词之间的两两相似度聚合方法相比,经典的图像-文本相似度度量方法在增强整体图像表示的前提下仍有应用前景。
全部评论 (0)
还没有任何评论哟~
