《Learning Semantic Concepts and Order for Image and Sentence Matching》
Learning Semantic Concepts and Order for Image and Sentence Matching
CVPR 2018
一、Motivation
目前该领域的主要挑战之一在于像素级别的图像描述难以捕捉高层次语义信息。传统的做法是采用一个全局化的CNN特征向量来表示图像内容。然而这种单一特征提取的方式会导致关键信息占据主导地位而次要信息则会被忽视。该研究则构建了一个基于语义增强的图像与文本匹配模型以解决这一问题。

二、Model

1.Sentence Vector:通过LSTM模型获取了文本特征,在其序列处理的最后一时刻产生的隐藏状态向量被定义为s(其中s属于实数空间R^H)
Semantic Concept Extraction: 对输入图像提取多组候选区域,并通过多标签卷积神经网络(CNN)对每个候选区域进行分类操作以获得对应类别的概率分布向量。随后对各分类结果进行元素级最大值池化操作以整合信息并生成最终的概率得分向量p.
即:针对图像数据而言,在处理过程中首先生成一批区域框(regions),随后对这些区域框进行尺寸调整使其形成规定的正方形形状。值得注意的是,在上图中所展示的region生成方案参考了{ Cnn: Single-label to multi-label. arXiv, 2014}中的相关方法,并在此基础上进行了进一步优化设计。具体而言,在完成region提取后会依次将这些区域框输入至预设好的CNN模型中进行特征提取和分类任务处理。

图片多标签loss function,K个词汇
3.Global Context Extraction:利用VGG技术从图像中抽取全局特征向量(global vector),其值设为g
4.Feature Confusion(gated fusion unit):通过将scores vector与global vector结合以门控方式生成最终向量(final vector)为v
全局与局部特征整合在一起,在不同图幅中它们的重要性并不完全一致。这篇文章的最大亮点在于此处设计了一个gated fusion unit通过门控单元融合的方式,则可以选择性地平衡语义概念与上下文之间的相对重要性。


三、Joint Matching and Generation
通过训练过程,总能获得一个语句。但这种直接匹配的方法效果不佳。传统的基于图像的直接匹配方法效果有限。该研究采用了一种基于 ground truth semantic 的方法,并通过提取图片特征向量生成目标语句。
共同执行图像和句子匹配以及句子生成,最小化以下组合目标函数:

匹配目标函数:

生成目标函数:

利用变量x和p来计算图像特征v。接着将计算出的图像特征v与句子特征s进行比较分析,从而得出两者的余弦相似度得分
四、总结
亮点在于:
1.提取高层次的语义信息
构建了具有门式的融合结构以整合全局与局部特征其重要性在不同图像中存在差异
3.用语句生成作为图像特征学习的监督
