【论文阅读】Visual Semantic Reasoning for Image-Text Matching

阅读量：

Visual Semantic Reasoning for Image-Text Matching

- 介绍
- 模型
- - 图像特征表示
  - 文本特征表示
  - 区域关系推理
  - 全局语义推理
  - 损失函数
- 实验结果

论文发表时间：2019
论文作者：Kunpeng Li, Yulun Zhang, Kai Li, Yuanyuan Li and Yun Fu
论文地址：https://openaccess.thecvf.com
代码地址：https://github.com/KunpengLi1994/VSRN

介绍

考虑到当前图文匹配缺少图像全局语义概念（就像文中标题一样），作者提出首先建立图像区域之间的联系，再使用图卷积网络进行推理，生成具有语义关系的特征。随后使用门和记忆机制对这些关系增强的特征进行全局予以推理，选择有区别的信息并逐步生成全局场景表示

模型

整体结构如下图所示：

分成几步：

自下而上的注意力模型生成的图像区域及其特征
VSRN首先在这些图像区域之间建立联系，并使用图形卷积网络(GCN)进行推理，以生成具有语义关系信息的特征
对这些关系增强的特征进行全局语义推理，以选择有区别的信息，并过滤掉不重要的信息，从而生成整个图像的最终表示
对于文本标题部分，我们学习使用RNNs表示句子，最终通过图像-句子匹配和句子生成的联合优化对整个模型进行训练

图像特征表示

自下而上的注意力模型Faster-RCNN

$V=\{v_{1},...,v_{k}\}$ ， $v_{i}=W_{f}f_{i}+b_{f}$

文本特征表示

双向GRU网络

区域关系推理

这一部分使用到了图卷积网络GCN

原GCN中使用的邻接矩阵在本文中用亲和矩阵替代，计算公式为

$R(v_{i},v_{j})=\varphi (v_{i})^{T}\phi (v_{j})$
其中 $\varphi (v_{i})=W_{\varphi}v_{i}$ ， $\phi (v_{j})=W_{\phi}v_{j}$

这样，对于一个图来说，其表示为 $G_{r}=(V,E)$ ，V为检测出来的区域，E为亲和矩阵。这就意味着，如果图像区域之间的关系越紧密，相关度越高，那么它们之间的亲和矩阵的系数应该越大

最后GCN的表示为： $V^{*}=W_{r}(RVW_{g})+V$ ，其中 $W_{g}$ 为GCN的权重矩阵，维度为 $D\timesD$ ， $W_{r}$ 为残差结构的权重矩阵， $R$ 为亲和矩阵，大小为 $k\timesk$ 。最终输出为图像区域节点的关系增强表示 $V^{*}=\{v_{1}^{*},...,v_{k}^{*}\}$

全局语义推理

这里作者说是使用了门和记忆机制，实际上也就将第二部得到的增强了的图像区域节点关系送入GRU网络中去

其中更新门为： $z_{i}=\sigma _{z}(W_{z}v_{i}^{*}+U_{z}m_{i-1}+b_{z})$
重置门： $r_{i}=\sigma _{r}(W_{r}v_{i}^{*}+U_{r}m_{i-1}+b_{r})$
新增的内容： $\tilde{m}_{i}=\sigma _{m}(W_{m}v_{i}^{*}+U_{z}(r_{i}\circ m_{i-1})+b_{m})$
最后整个场景的描述： $m_{i}=(1-z_{i})\circ m_{i-1}+z_{i}\circ \tilde{m}_{i}$

如果对照着GRU网络的公式来看，是一模一样的

损失函数

最终的损失函数为： $L_{M}=[\alpha -S(I,C)+S(I,\hat{C})]_{+}+[\alpha -S(I,C)+S(\hat{I},C)]_{+}$
这里其实就是三元组损失函数

实验结果

MS-COCO 1k test

MS-COCO 5k test

Flicker30K

全部评论 (0)

还没有任何评论哟~

【论文阅读】Visual Semantic Reasoning for Image-Text Matching

VisualSemanticReasoningforImageTextMatching 介绍模型图像特征表示文本特征表示区域关系推理全局语义推理损失函数实验结果论文发表时间：2019 ...

image-text matching(六)Visual Semantic Reasoning for Image-Text Matching

背景这篇论文是美国东北大学的工作，接收于ICCV2019 动机图文匹配任务的challenge在于，当前的图像表示通常缺乏全局语义概念?。作者提出模型VSRN，包含一个推理模块来生成视觉特征表示。

【论文阅读】Similarity Reasoning and Filtration for Image-Text Matching

SimilarityReasoningandFiltrationforImageTextMatching 介绍方法特征提取图特征提取文本特征提取相似性表示学习 SGR相似图推理 SAF相似注...

论文解读：《Consensus-Aware Visual-Semantic Embedding for Image-Text Matching》

论文解读系列文章目录文章目录论文解读系列文章目录一、什么是场景图生成二、我们依赖于自然句子的图像字幕语料库来利用常识知识，这些知识表现为语义概念及其关联。具体来说，语料库中的所有词都可以作为语...

【论文阅读】Stacked Cross Attention for Image-Text Matching

StackedCrossAttentionforImageTextMatching 介绍方法图像预处理文本预处理堆叠交叉注意力机制 image2txt txt2image 损失函数实验结果 ...

《Consensus-Aware Visual-Semantic Embedding for Image-Text Matching》中文校对版

文章汉化系列目录文章目录文章汉化系列目录摘要关键词引言 2相关工作 2.1基于知识的深度学习 2.2图文匹配 3共识感知的视觉语义嵌入 3.1利用共识知识增强概念表示 3.2共识感知表示学习...

【论文阅读】Text-IF: Leveraging Semantic Text Guidance for Degradation-Aware and Interactive Image Fusion

TextIF:LeveragingSemanticTextGuidanceforDegradationAwareandInteractiveImageFusion 现有方法存在的问题受环境条件限制，...

【论文阅读】Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval

IterativeMatchingwithRecurrentAttentionMemoryforCrossModalImageTextRetrieval 介绍模型跨膜态特征表示 RAM：重复记忆模...

论文阅读《Rethinking Atrous Convolution for Semantic Image Segmentation》

Deeplabv3 1.Contribution: 这篇论文和deeplabv2相比，contribution不多，主要是在原来的ASPP模块里面加入了bn，同时引入加入了globalcontext来...

论文阅读《Semantic Prompt for Few-Shot Image Recognition》

论文地址：<https://arxiv.org/pdf/2303.14123.pdf 论文代码：<https://github.com/WentaoChen0813/SemanticPrompt 目录...

是否确定退出登录?

【论文阅读】Visual Semantic Reasoning for Image-Text Matching

Visual Semantic Reasoning for Image-Text Matching

介绍

模型

图像特征表示

文本特征表示

区域关系推理

全局语义推理

损失函数

实验结果

全部评论 (0)

相关文章推荐

【论文阅读】Visual Semantic Reasoning for Image-Text Matching

image-text matching(六)Visual Semantic Reasoning for Image-Text Matching

【论文阅读】Similarity Reasoning and Filtration for Image-Text Matching

论文解读：《Consensus-Aware Visual-Semantic Embedding for Image-Text Matching》

【论文阅读】Stacked Cross Attention for Image-Text Matching

《Consensus-Aware Visual-Semantic Embedding for Image-Text Matching》中文校对版

【论文阅读】Text-IF: Leveraging Semantic Text Guidance for Degradation-Aware and Interactive Image Fusion

【论文阅读】Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval

论文阅读《Rethinking Atrous Convolution for Semantic Image Segmentation》

论文阅读《Semantic Prompt for Few-Shot Image Recognition》