《Learning Semantic Concepts and Order for Image and Sentence Matching》

阅读量：

Learning Semantic Concepts and Order for Image and Sentence Matching

CVPR 2018

一、Motivation

目前该领域的主要挑战之一在于像素级别的图像描述难以捕捉高层次语义信息。传统的做法是采用一个全局化的CNN特征向量来表示图像内容。然而这种单一特征提取的方式会导致关键信息占据主导地位而次要信息则会被忽视。该研究则构建了一个基于语义增强的图像与文本匹配模型以解决这一问题。

二、Model

1.Sentence Vector:通过LSTM模型获取了文本特征，在其序列处理的最后一时刻产生的隐藏状态向量被定义为s（其中s属于实数空间R^H）

Semantic Concept Extraction: 对输入图像提取多组候选区域，并通过多标签卷积神经网络（CNN）对每个候选区域进行分类操作以获得对应类别的概率分布向量。随后对各分类结果进行元素级最大值池化操作以整合信息并生成最终的概率得分向量p.

即：针对图像数据而言，在处理过程中首先生成一批区域框（regions），随后对这些区域框进行尺寸调整使其形成规定的正方形形状。值得注意的是，在上图中所展示的region生成方案参考了{ Cnn: Single-label to multi-label. arXiv, 2014}中的相关方法，并在此基础上进行了进一步优化设计。具体而言，在完成region提取后会依次将这些区域框输入至预设好的CNN模型中进行特征提取和分类任务处理。

图片多标签loss function,K个词汇

3.Global Context Extraction:利用VGG技术从图像中抽取全局特征向量（global vector），其值设为g

4.Feature Confusion（gated fusion unit):通过将scores vector与global vector结合以门控方式生成最终向量（final vector）为v

全局与局部特征整合在一起，在不同图幅中它们的重要性并不完全一致。这篇文章的最大亮点在于此处设计了一个gated fusion unit通过门控单元融合的方式，则可以选择性地平衡语义概念与上下文之间的相对重要性。

三、Joint Matching and Generation

通过训练过程，总能获得一个语句。但这种直接匹配的方法效果不佳。传统的基于图像的直接匹配方法效果有限。该研究采用了一种基于 ground truth semantic 的方法，并通过提取图片特征向量生成目标语句。

共同执行图像和句子匹配以及句子生成，最小化以下组合目标函数：

匹配目标函数：

生成目标函数：

利用变量x和p来计算图像特征v。接着将计算出的图像特征v与句子特征s进行比较分析,从而得出两者的余弦相似度得分

四、总结

亮点在于：

1.提取高层次的语义信息

构建了具有门式的融合结构以整合全局与局部特征其重要性在不同图像中存在差异

3.用语句生成作为图像特征学习的监督

全部评论 (0)

还没有任何评论哟~

《Learning Semantic Concepts and Order for Image and Sentence Matching》

LearningSemanticConceptsandOrderforImageandSentenceMatching CVPR2018 一、Motivation 目前该领域主要问题之一是像素级别的图...

2021_Exploiting Semantic and Boundary Information for Stereo Matching

1. 贡献： 1.提出了一个用于联合语义分割、边界检测和立体匹配的神经网络，其中语义和边界信息一致性成为视差估计的积极指导。 2.设计了一种使用注意力机制构建混合成本量的方法，该方法分别结合了三种不同...

Weakly- and Semi-Supervised Learning of a Deep Convolutional Network for Semantic Image Segmentation

abstract DeepconvolutionalneuralnetworksDCNNstrainedonalargenumberofimageswithstrongpixellevelannota...

图文匹配Visual-Semantic Matching by Exploring High-Order Attention and Distraction

背景本篇论文来自北大王选计算机研究所，接收于CVPR2020 动机本文的出发点主要是两个： 1.发掘高阶语义信息objectpredicatesubjecttriplet物体之间主谓宾三元组信息、...

image-text matching(六)Visual Semantic Reasoning for Image-Text Matching

背景这篇论文是美国东北大学的工作，接收于ICCV2019 动机图文匹配任务的challenge在于，当前的图像表示通常缺乏全局语义概念?。作者提出模型VSRN，包含一个推理模块来生成视觉特征表示。

【论文总结】weakly- and semi-supervised learning of a DCNN for semantic Image Segmentation

一、概述这篇文章研究了如何从弱注释的训练数据（如边界框或图像级标签）或少量强标记图像和许多弱标记图像的组合中学习DCNN用于语义图像分割的问题，在弱超监督和半监督条件下提出了期望最大化（EM）方法。

(1) Understanding Machine Learning Concepts and Applica

作者：禅与计算机程序设计艺术 1.简介机器学习（Machinelearning）是一门新的计算机科学技术，它可以使计算机“学习”到数据内部的模式或规律性，并通过应用此模式解决现实世界中的各种问题。

Destruction and Construction Learning for Fine-grained Image Recognition

DestructionandConstructionLearningforFinegrainedImageRecognition abstract 本文提出一种“破坏和构件的学习”简称为DCL的方法，...

《Learning Enriched Features for Real Image Restoration and Enhancement》

一、论文《LearningEnrichedFeaturesforRealImageRestorationandEnhancement》摘要：以从降级版本中恢复高质量图像内容为目标，图像恢复在监视，...

【论文阅读】Similarity Reasoning and Filtration for Image-Text Matching

SimilarityReasoningandFiltrationforImageTextMatching 介绍方法特征提取图特征提取文本特征提取相似性表示学习 SGR相似图推理 SAF相似注...

是否确定退出登录?

《Learning Semantic Concepts and Order for Image and Sentence Matching》

全部评论 (0)

相关文章推荐

《Learning Semantic Concepts and Order for Image and Sentence Matching》

2021_Exploiting Semantic and Boundary Information for Stereo Matching

Weakly- and Semi-Supervised Learning of a Deep Convolutional Network for Semantic Image Segmentation

图文匹配Visual-Semantic Matching by Exploring High-Order Attention and Distraction

image-text matching(六)Visual Semantic Reasoning for Image-Text Matching

【论文总结】weakly- and semi-supervised learning of a DCNN for semantic Image Segmentation

(1) Understanding Machine Learning Concepts and Applica

Destruction and Construction Learning for Fine-grained Image Recognition

《Learning Enriched Features for Real Image Restoration and Enhancement》

【论文阅读】Similarity Reasoning and Filtration for Image-Text Matching