Advertisement

【论文阅读】Visual Semantic Reasoning for Image-Text Matching

阅读量:

Visual Semantic Reasoning for Image-Text Matching

    • 介绍

    • 模型

      • 图像特征表示
      • 文本特征表示
      • 区域关系推理
      • 全局语义推理
      • 损失函数
    • 实验结果

论文发表时间:2019
论文作者:Kunpeng Li, Yulun Zhang, Kai Li, Yuanyuan Li and Yun Fu
论文地址:https://openaccess.thecvf.com
代码地址:https://github.com/KunpengLi1994/VSRN

介绍

考虑到当前图文匹配缺少图像全局语义概念(就像文中标题一样),作者提出首先建立图像区域之间的联系,再使用图卷积网络进行推理,生成具有语义关系的特征。随后使用门和记忆机制对这些关系增强的特征进行全局予以推理,选择有区别的信息并逐步生成全局场景表示

模型

整体结构如下图所示:

分成几步:

  • 自下而上的注意力模型生成的图像区域及其特征
  • VSRN首先在这些图像区域之间建立联系,并使用图形卷积网络(GCN)进行推理,以生成具有语义关系信息的特征
  • 对这些关系增强的特征进行全局语义推理,以选择有区别的信息,并过滤掉不重要的信息,从而生成整个图像的最终表示
  • 对于文本标题部分,我们学习使用RNNs表示句子,最终通过图像-句子匹配和句子生成的联合优化对整个模型进行训练

图像特征表示

自下而上的注意力模型Faster-RCNN

V=\{v_{1},...,v_{k}\}v_{i}=W_{f}f_{i}+b_{f}

文本特征表示

双向GRU网络

区域关系推理

这一部分使用到了图卷积网络GCN

原GCN中使用的邻接矩阵在本文中用亲和矩阵替代,计算公式为

R(v_{i},v_{j})=\varphi (v_{i})^{T}\phi (v_{j})
其中\varphi (v_{i})=W_{\varphi}v_{i}\phi (v_{j})=W_{\phi}v_{j}

这样,对于一个图来说,其表示为G_{r}=(V,E),V为检测出来的区域,E为亲和矩阵。这就意味着,如果图像区域之间的关系越紧密,相关度越高,那么它们之间的亲和矩阵的系数应该越大

最后GCN的表示为:V^{*}=W_{r}(RVW_{g})+V,其中W_{g}为GCN的权重矩阵,维度为D×DW_{r}为残差结构的权重矩阵,R为亲和矩阵,大小为k×k。最终输出为图像区域节点的关系增强表示V^{*}=\{v_{1}^{*},...,v_{k}^{*}\}

全局语义推理

这里作者说是使用了门和记忆机制,实际上也就将第二部得到的增强了的图像区域节点关系送入GRU网络中去

其中更新门为:z_{i}=\sigma _{z}(W_{z}v_{i}^{*}+U_{z}m_{i-1}+b_{z})
重置门:r_{i}=\sigma _{r}(W_{r}v_{i}^{*}+U_{r}m_{i-1}+b_{r})
新增的内容:\tilde{m}_{i}=\sigma _{m}(W_{m}v_{i}^{*}+U_{z}(r_{i}\circ m_{i-1})+b_{m})
最后整个场景的描述:m_{i}=(1-z_{i})\circ m_{i-1}+z_{i}\circ \tilde{m}_{i}

如果对照着GRU网络的公式来看,是一模一样的

损失函数

最终的损失函数为:L_{M}=[\alpha -S(I,C)+S(I,\hat{C})]_{+}+[\alpha -S(I,C)+S(\hat{I},C)]_{+}
这里其实就是三元组损失函数

实验结果

MS-COCO 1k test

MS-COCO 5k test

Flicker30K

全部评论 (0)

还没有任何评论哟~