Advertisement

深度学习跨模态图文检索研究综述

阅读量:

摘要

随着深度神经网络技术的蓬勃发展,多模态学习逐渐成为机器学习领域的重要研究方向。跨模态检索作为多模态学习的关键分支之一,其核心目标在于挖掘不同模态样本之间的内在联系,即通过某一特定模态样本来实现对具有近似语义特征的另一种模态样本的有效检索。近年来,跨模态检索已成为国内外学者关注的前沿课题与热点问题,被视为信息检索领域未来发展的重点方向之一。首先,我们重点探讨了基于实值表示与二进制向量表示方法的最新研究成果进展:其中,实数域表示方法被用于提升跨模态语义的相关性度量指标;而二进制向量表示方法则被用于提高跨模态图像-文本检索系统的运行效率与存储空间利用率;其次,我们系统梳理了当前跨模态检索领域中广泛使用的公开数据集;并对不同算法在标准化测试集上的性能表现进行了详细对比分析;此外,我们深入总结并评估了该技术在公安、传媒及医学等多个领域的实际应用案例;最后基于当前研究进展,我们深入分析了跨模态检索技术的发展趋势及其未来可能的研究方向与应用前景。

关键词: 跨模态检索; 深度学习; 特征学习; 图文匹配; 实值表示; 二进制表示

多模态学习(multi-modal learning)主要致力于处理与理解来自感官情态的多源信息。近年来,由于深度学习的发展, 多模态学习已经成为研究热点课题。

1976年,文献[1]开创了视觉对言语感知影响的研究领域,并将其成功应用于视听语音识别(Audio Visual Speech Recognition, AVSR)技术中,并因此奠定了多模态概念的基础。随后经过数十年的发展完善。2010年,基于融合方法与融合水平两个维度作为分析框架,文献[2]系统地对现有的多模态融合研究方法进行了分类梳理。2015年,文献[3]成功开发出一种新型的深度学习模型——多模态隐条件随机场(Multi-Modal Hidden Conditional Random Fields,M-HCRF),该模型显著提升了处理复杂场景下的分类性能。与此同时,文献[4]提出了基于正交正则化约束机制的新一代深度学习算法——深度多模态哈希(Deep Multi-Modal Hashing with Orthogonal Regularization,DMHOR),该算法有效降低了不同模式之间高度冗余的信息量。到2019年为止,文献[5]系统地归纳了当前主要的研究方向包括但不限于:多层次表征学习、跨语言自动翻译、模式对齐优化以及集成融合技术等。

目前多模态学习在多个领域得到了广泛应用,在人脸识别技术、人体姿态估计技术、多模态信息检索技术和情感识别技术等方面均取得了显著成果,并成为当前人工智能研究中的一个新兴且重要的研究方向和发展前景。

跨模态学习作为多模态学习的重要组成部分,在这一领域内集中运用了各模式间的表示、翻译技术和对齐等技术手段。就其特性而言,在多数情况下两者均涉及从多个模式获取数据并进行整合;然而在细节上存在明显差异:前者仅在单一模式下应用数据资源;后者则能够广泛应用于各个模式。

跨模态搜索(cross-modal search)是跨模 mod学习的关键应用之一,也可称为多型搜索,其核心特征在于在整个学习阶段,各类型的数据都被综合处理,但在测试环节仅依赖单一类型的数据 [6]。该方法的主要目标在于实现不同类型数据间的有效交流与理解,即通过某一类型数据来进行具有近似语义的另一种类型数据的检索 [7]。近年来,随着计算机视觉与自然语言处理技术的进步,跨模态检索逐渐成为国际学术界关注的热点问题 [8]。其中一项重要的研究方向是交叉多型图像检索 (cross-modal image retrieval),其定义如下 [7]:

数据集O={oi=[xi,yi,ci], i=1,2,…,n},其中视觉特性和语言特性分别构成X=[x₁,x₂,…,xₙ]∈ℝ{d×n}和Y=[y₁,y₂,…,yₙ]∈ℝ{d×n},类别标签集合C=[c₁,c₂,…,cₙ]∈ℝ{c×n}.当样本对(x_i,y_i)属于类别j时,c_ji=1;否则c_j^i=0.样本对{(x_i,y_i)| i=1,…,n}反映了视觉特性和语言特性的语义对应关系.

定义测试集T = { oi = [xi, yi] | t = 1, 2, ⋯, m } ,其中X = { xi | i = 1到m } 和 Y = { yi | i = 1到m } 是两种不同模态的数据集合。则跨模态图像检索问题等价于学习一种跨模态相似性度量similarity(·)。对于给定查询xq ∈ X 或 yq ∈ Y ,返回最接近的另一模态样本

yq=mintsim(xq-yi)或 xq=mintsim(xt-yq)

针对跨模态图文检索领域,基于关键词至图像的检索因其本质上是在查找关键字与图像的标注注释之间的匹配关系,因而常被视为一种伪"跨模态"问题.从多模态的角度来看,文本(图像)至图像(文本)的检索机制更注重不同媒介间的交互融合.这种不依赖辅助信息的知识密集型搜索方式,其核心目标就是实现通过单一媒介(文本或图像)来进行另一种媒介的数据获取.具体而言,多模态信息处理系统旨在构建一个能够有效结合视觉数据与自然语言描述的知识表示框架 [8].图1展示了三者之间的相互关联模式.

图1

1多模态、跨模态检索和跨模态图文检索关系图

Fig.1 多模态检索与跨模态检索之间的关联性研究及图像-文本跨模态检索分析

目前多模态图像与文本联合检索方法已广泛应用于舆情监控与预测、媒体内容识别及医疗数据分析等领域

此外也有近几十年来,众多国内外学者致力于跨模态检索相关文献及综述的研究,对研究现状进行了系统分析和总结。

2014年,文献[15]首次将跨模态建模策略划分为直接建模与间接建模两大类,其中前者的特征是通过构建共享层来直接衡量不同模态数据间的关联程度,而后者的重点则是建立公共表示空间以实现不同场景下多模态数据间的语义联系。类似地,2015年,文献[16]对多模态数据间关联关系的构建方法进行了系统划分,具体包括基于共享层的方法与基于公共表示空间的方法两种主要思路,并深入探讨了跨模态深度学习模型的设计方案。2016年,文献[17]对现有的跨模态检索技术进行了全面归纳,将其划分为实值表示学习与二进制表示学习两大类,并分别阐述了各自的核心理论依据与实践方法。2018年,文献[18]针对跨模态检索中的内容相似性度量难题,将其划分为公共空间学习方法与跨模态相似性度量方法两类问题进行研究,并对各类跨模态检索技术进行了系统性总结与分析。同年,文献[7]提出了另一种分类框架:基于子空间的方法、基于深度学习的方法、基于哈希变换的方法以及基于主题模型的方法等四类典型算法框架;并指出了当前跨模态检索领域的主要研究不足之处即缺乏对单个模式内局部数据特征及其多模式间语义关联关系的关注与探索。同年,文献[19]从信息抽取与表示、跨模态系统建模两个维度对基于表示学习的跨模态检索模型进行了全面评述;并较为系统地总结了特征抽取领域的最新研究成果进展及应用现状。2018年,文献[20]则首次提出了一种联合图正则化的跨模匹配检索算法框架;该方法通过引入图正则化项来提升模型对多模式间全局语义关联关系的学习能力;并在实验结果表明该算法在保持较高检索精度的同时显著提升了计算效率的特点下获得了较好的应用效果;并因此受到了广泛关注与深入研究;同时也为后续相关技术的发展提供了重要的理论支撑基础及实践指导意义。

以上文献从多个维度对跨模态检索进行了系统梳理与分析,而本文则特别关注图像与文本之间的跨模态检索问题。目前,在这一领域取得的主要研究成果包括:
• 2017年,文献[22]将跨模态图文检索的研究内容划分为多模态数据特征表示和模态间关联机制两大类。
• 2019年,文献[23]根据构建模态间关联方式的不同,将其划分为基于典型关联分析、基于深度学习以及基于深度哈希的方法三类,并深入探讨了各类方法存在的局限性。
• 2021年,文献[24]对跨模态图文检索的主要研究工作进行了系统对比评述,并从文献计量学视角分析了该领域的研究热点及发展趋势,同时较为简要地介绍了其在实际中的应用前景。
然而需要注意的是,基于深度学习的方法仅为其研究框架中的重要分支之一,并未全面阐述其发展动态。
相比之下,相较于已有综述性研究,
本文在选题定位上有所突破:
• 首次聚焦于近年来基于深度学习技术的最新研究成果;
• 突出了公安、传媒及医学三大领域中跨模态图文检索的实际应用。

1****跨模态图文检索相关工作介绍

本章重点阐述了多模态图文检索中涉及的主要概念及其相关算法和网络结构。

1.1 相关概念

在跨模态图文检索的不同算法过程中涉及到了若干关键概念,请就这些关键概念进行阐述

(1)跨模态重构

基于跨模态数据的条件下融合输入特征表示,随后对各模态数据进行交互式重构,并致力于保存Reconstruction细节;最终通过对比Reconstruction细节与原始状态间的Similarity程度来完成整个流程

(2)细粒度数据

代表的是信息非常细致入微的具体内容。而数据粒度则反映了数据处理的精细程度,在这一过程中,如果粒度较小则能够更好地反映细节信息,在机器学习中更容易捕捉到数据中的内在规律和本质特征。

(3)无监督学习

无监督学习方法被称为那些在缺乏训练数据样本的情况下直接进行数据建模的技术。这些算法主要基于观察到的数据间的共同特征来进行多模态数据表示的学习。其中,共现信息指的是在多个模式化的文档中共同存在的不同类型的数据显示出的一致的主题或意义。

(4)监督学习

该系统通过带有标签的训练数据构建理想模型是一种学习方法。监督学习基于标签信息构建公共表示,在不同类别的样本之间使学习到的表示间距离最大化,在同一类别内的样本间使表达间的距离最小化。

(5)端到端学习(end-to-end learning)

也被认为是另一种训练方法,在减少人工干预的同时实现了从输入直接生成输出的过程。其训练数据采用"输入-输出"形式表示,并不需要额外的信息辅助。通过基于数据的自适应调整机制,这种学习方法显著提升了模型的整体契合度。

1.2 相关网络结构

跨媒体图像检索系统在深度学习领域中涵盖七种网络结构的具体阐述

深度自编码器模型(deep autoencoder, DAE)[25]包含了一个编码子网络与一个解码子网络。这种架构设计使得深度自编码器具备强大的特征提取能力,在多模态数据间的转换过程中发挥着重要作用,并揭示不同数据类型间的潜在关联关系。

深度信念网络(deep belief nets,DBN)源自Hinton于2006年的研究工作。该网络不仅能够被视作自编码器用于非监督学习,还能够被视作分类器用于监督学习。

限制性玻尔兹曼机体系(restricted Boltzmann machine, RBM)可用于多模态重建。2012年,Srivastava等人[27]提出了一种基于多种输入模式构建的多层次玻尔茨机器,该模型可实现模式融合与统一表征,并具备分类识别和信息检索功能。

注意力机制模型首次提出于视觉图像领域中,在2015年DeepMind团队[28]将这一技术引入至循环神经网络(recurrent neural network,RNN)[29]框架内开展图像分类研究,并获得了显著的效果。当前多数注意力机制在跨模式图像检索任务中被用于表征各模式的局部特征,并对其不同模式片段进行配准操作。这一做法有助于深入挖掘各模式间的精细对应关系,并在一定程度上弥补了各模式数据不足的问题。

生成对抗网络(Generative Adversarial Networks, GAN)_30_能够通过两个模块之间的竞争与合作最终实现高质量的输出结果。在跨模态图像与文本检索任务中,生成对抗网络通常采用图片与文本之间的相互对抗机制,使得数据间的潜在语义关系及其深层语义结构得到了更好的保留,同时生成过程能够有效地学习到跨越模态的深层特征表示,从而提升了不同模态之间语义的一致性水平

卷积神经网络(convolutional neural networks,CNN)得到了广泛应用,并被视为深度学习的重要组成部分 [_

长短期记忆网络(long short-term memory,LSTM)[42]能够巧妙地整合短时与长时记忆,并在此基础上深入挖掘数据的空间与时间关联性,在跨模态图文检索任务中展现出显著的效果. 在这一过程中, 首要任务是首先要确定从单元状态中被遗忘的信息, 并进而判断哪些信息能够被保留在单元状态中. 最后通过tanh函数作用于单元状态并结合输出门的方式, 精确地筛选出关键的信息.

除此之外,在跨模态图像文本检索中的特征提取任务中得到广泛应用的模型包括:双向递归型神经网络(BRNN)、基于词嵌入的卷积神经网络(WCNN)、循环神经网络以及递归神经网络(RNN),还有区域卷积神经网络(RCNN)。

2****跨模态图文检索算法研究现状

对基于深度学习的跨模态图文检索而言,在保证检索效果的前提下解决的主要难点在于各模态之间底层数据特征存在异构性所导致的信息鸿沟问题;此外,在追求快速检索效率的过程中如何优化算法以提升查询速度也成为当前研究的重点方向。基于搜索结果精度与搜索速度两个关键指标的考量,在现有的研究方法中可大致将实值表示学习与二进制表示学习划分为两大类:前者通过构建公共向量空间实现多模态信息融合并有效提高搜索精度;后者则采用哈希编码的方式加速搜索过程但在这种编码方式下往往会牺牲一定的搜索精确度以换取计算效率

本章主要聚焦于深度学习技术在近期跨模态图像文本检索领域的发展现状及研究进展,并对其分类展示如 图 2 所示

图2

2基于深度学习的跨模态图文检索的研究现状分类图示

Fig.2 Overview of image-text cross-modal retrieval through deep learning

2.1 实值表示学习方法

实值表示的学习方法通常常见于有效降低图像与文本间语义差异的过程,并以此为基础确保检索系统的准确性。其目标在于为不同类型的数据建立稠密且有意义的特征表达方式。
目前广泛采用基于深度学习的技术实现实值表示在跨模态图文检索中的应用,
主要可分为两大类:
一类是基于特征表征的方法,
另一类是基于图纹匹配的技术。
第一类方法主要致力于建立不同模态之间的表征关联模型,
并通过高效的表征提取技术来解决多模态数据在特性上的异构问题;
第二类方法则专注于探索图像与文本之间的语义对应关系,
并试图通过缩小两者的语义差距来提升图片与文字匹配的精确度。

2.1.1 基于特征表示的方法

该系统的准确性与其所依赖的特征提取过程具有关键性的影响。
通过引入多模态信息来建立不同数据类型之间的模型关系成为解决跨模式图像文字检索中异构障碍的核心策略。
利用基于深度学习的单模式特征提取技术将其整合到跨模式图像文字检索系统中。
从而实现各模式之间特性的相互建模。

在基于特征表示的方法中,一些研究者以最大似然准则为基础发展了学习框架,该框架通过结合反向传播算法与随机梯度下降方法实现网络参数的有效优化.文献[8]针对性地提出了针对不同模态特性的深度结构模型(modality-specific deep structure,MSDS).该模型采用CNN与宽卷积神经网络(WCNN)相结合的方式分别提取图像与文本特征,并通过标准化反向传播技术更新两者的参数.值得注意的是,WCNN不仅能够处理长度不一的序列信息,还能生成具有统一维度结果特征向量[44],这一特性有助于更高效地提取文本表征.实验结果表明,当样本数据量较大时,模态特定特征学习策略能够显著提升输入模态表示的质量;相比于传统深度卷积神经网络(CNN),WCNN在文本表征提取方面展现出更强的优势.在此基础上,文献[46]进一步提出了一种基于深度双向表示学习模型(deep and bidirectional representation learning model,DBRLM)的新方法.该方法通过对文本序列中的顺序信息与结构性质进行综合建模来增强原始特征表达能力;同时通过构建双向匹配机制深入挖掘图像-文本对之间的对应关系.具体而言,DBRLM不仅能够捕捉到匹配样本对间的相似性关联,还能够有效识别出非匹配样本对中存在的潜在联系.实验对比分析表明,DBRLM相较于仅关注单一方向非匹配对的传统方法表现出更为优异的表现;此外该模型在匹配数据集上的学习效果显著优于其他对比基准算法

针对单标签或多标签样本跨模态图文检索问题,文献[47]采用了深度卷积激活特征描述子(DeCAF),将预训练CNN模型提取出1,000维预测得分作为ImageNet视觉特征输入,以实现图像与语义概念间的有效连接。实验结果表明,该方法能够充分捕捉图像的核心表征特性并实现精准检索。在同一个研究方向上,文献[48]通过对预训练CNN模型进行微调优化,提出了深度语义匹配方法(deep-SM)。该方法根据不同目标数据集采用了不同的损失函数配置,并结合微调后的CNN模型与全连接层构建了多模态信息融合框架,成功将图像与文本映射到高度抽象的同构语义空间中。实验表明,这种基于微调的方法显著提升了模型对目标数据集适应性的同时,还有效降低了图像与相应语义之间的差异性。文献[49]在此思路指导下,进一步优化了模型架构设计,通过微调深度神经网络模型来生成图像的视觉嵌入表示,从而有效避免了部分语义信息在信息提取过程中的丢失现象

基于特征表示的技术通常采用两种途径以获取更优的跨模态输入特征:第一种方法则根据不同应用场景设计特殊的网络架构或提取具有代表性的图像文本特征;第二种途径则对经典的人工智能模型进行优化升级。此类方法在处理大规模、多标签数据集方面表现出色,并为未来的跨模态检索提供了更为有效的解决方案。然而,在现有研究中发现研究者们更倾向于专注于视觉特征的研究,在跨模态语义特性的提取过程中并未给予文本数据足够的关注。因此,探索一种更适合的神经网络架构来建立文本数据从低级到高级语义特性的映射关系成为这类方法面临的主要挑战

2.1.2 基于图文匹配的方法

针对跨模态原始数据的处理,基于特征表示的方法主要致力于提取更加优质的输入特征,通过深入研究各模态之间的特征学习机制来有效降低其固有的异构性问题;与之前方法相比,侧重于不同媒体类型间的深层关联性的图文匹配方法则更加关注图像与文本之间在语义层面的相互映射关系,从而实现各媒体类型间特征表达的一致性和互补性提升。

目前主流的基于图文匹配的技术主要根据模态间的语义关联性划分成三大类:包括图像与文本对齐的技术、跨模态重构技术以及图文联合嵌入方法等。

(1)图像-文本对齐的方法

图像与文本的对齐方法通常通过学习同一实例不同模态特征之间的联系来识别或确定句子片段与图像区域之间的潜在的对应关系,从而实现图像与文本的匹配。

基于图像内容及其在自然语言领域的表示的双重推理需求,文献[50]提出了一种多模态双向递归神经网络架构,其主要观点在于将句子视为一个复杂的标签空间,使得连续的单词片段能够映射到图像中特定但未知的位置。该模型具备对小区域或相对罕见对象视觉语义关联关系进行解释的能力,并在图像-句子排序实验中展现出良好的性能水平。此外,通过整合图像表示与自然语言处理的进步成果,文献[51]针对回答图像自然语言问题这一目标,将问题意图推理、视觉场景理解和单词序列预测任务进行了有机结合,提出了Neural-Image-QA模型。该模型通过将问题与视觉表征共同输入至LSTM单元进行联合训练,其语言输出结果取决于视觉特征与自然语言输入之间的相互作用关系;通过端到端的方式同步优化单词级和像素级特征提取过程,最终实现了较为理想的匹配效果。实验研究表明该方法在单字变体测试场景下取得了最佳性能表现

因为图像-文本对齐的方法侧重于局部细节信息,并且在细致粒度的跨模态图像-文本检索任务中得到了广泛应用。研究文献[52]针对服装领域提出了FashionBERT模型;其text representations tend to capture more granular information compared to region of interest(RoI) models. But it is derived from the BERT(bidirectional encoder representations from transformers) model[53]. However, this model differs in that it specifically targets fashion-related text. The BERT model is a variant of the Transformer architecture designed for natural language processing tasks and is primarily used for encoding single-modal text data. FashionBERT innovates upon this foundation by incorporating image segmentation techniques. He divides each image into identical-pixel-sized patches and feeds them as a sequence into the BERT model. During matching processes, he concatenates text tokens with these patch sequences. Experimental results demonstrate that this approach can effectively mitigate irrelevant information within images and reduce the detection of redundant or repeated regions.

此外

然而,基于注意力机制的方法往往忽视了全局上下文中存在的多种语义情况。针对这一问题,文献[56]提出了一种名为语境感知注意力网络(context-aware attention network,CAAN)的技术。该方法通过根据全局上下文精准定位并重视信息量最大的局部区域,实现了跨模态和内生注意机制的有效整合。实验结果表明,在自适应检索过程中考虑特定的上下文信息有助于模型提升检索性能。类似地,文献[57]则提出了基于循环注意记忆的迭代匹配(iterative matching with recurrent attention memory,IMRAM)方法。该方法通过构建迭代更新的过程来逐步优化跨模态注意力核心,从而深入挖掘图文之间的细粒度对应关系(如图_3所示)。具体而言,该模型首先通过跨模态注意单元计算V特征与T特征之间的相似度;随后利用记忆提取单元进一步细化注意力结果,从而深化潜在对应关系;最后通过对各匹配阶段的分数求和计算出图文之间的相似度值。实验表明当迭代次数K=3时比K=2次时表现更为优异,这证明了迭代匹配策略能够显著提高检索系统的性能

图3

3 IMRAM模型框架

Fig.3 Framework of IMRAM model

从实验结果可以看出,图像与文本对齐的方法在关注图像与文本之间的局部区域片段信息方面具有显著优势。这类方法的主要优势在于,通过引入注意力机制等方式,能够实现更为精细的语义区分能力,从而有效解决多语义识别、图像问答、图像描述以及细粒度交互等问题,最终提升图文匹配的准确性,展现出良好的检索性能。然而,这一类方法往往对数据集的规模和质量以及模型的精细度要求较高,并且在全局信息匹配方面存在一定的局限性。因此,如何在保证局部片段良好对齐的前提下实现图文整体的准确匹配仍是一个亟待解决的问题

(2)跨模态重构的方法

与图像-文本对齐的不同之处在于它们侧重于局部信息的处理;而跨模态重构则更加注重全局布局的构建。这些方法往往依赖于单个模态的信息来进行重构,并不仅能够保持重建的信息完整性,反而能提升跨域特征的一致性和语义辨别力。

考虑到跨模态之间的相互关联呈现出高度非线性特征

此外,在不可扩展跨模态检索任务中,源集与目标集中的实例通常被假设属于同一类别范围。然而当两者实例所属类别完全不相交时,则难以获得理想检索效果。对此文献[60]提出了一种称为模态对抗语义学习网络(MASLN)的方法。其中,跨模态重构子网络借助条件自编码器实现各模式数据间的相互重建作用,从而实现从源域到目标域的知识迁移功能;而模态对抗语义学习子网络则通过引入对抗性学习机制生成更为紧凑的语义表征空间,使得所学公共表示能够区分类别信息而不受特定模式特征的影响。实验结果表明,该方法在可扩展性和不可扩展性检索任务中均表现优于其他现有方法,并显著地缩小了不同模式之间的异质性程度。相关流程图如 图 4 所示

图4

4 MASLN模型框架

Fig.4 Framework of MASLN model

为了解决嵌入空间的需求,文献[61]构建了循环一致图文检索网络(cycle-consistent text and image retrieval network,CyTIR-Net),将其对图文检索问题的描述转化为文本与视觉特征间的转换问题。该方法通过文本项与视觉特征间的相互转换来建立重构约束关系(如图_5_所示)。具体而言,txt2img和img2txt模型分别实现了图像到文本域以及文本到图像域之间的前向与反向转换过程,从而保证了重构后的文本或图像与原始版本高度相似的同时充分保留了相关信息量。实验结果表明,该方法在中型规模的数据集上表现更为优异,成功体现了循环一致性约束带来的正则化效果以及网络具备的良好泛化能力,并显著提升了模型在跨模态检索任务中的场景识别能力。

图5

5 CyTIR-Net网络架构

Fig.5 Network architecture of CyTIR-Net

跨模态重构的方法主要依赖深度自编码器等技术手段,在一定程度上缩小了各模态之间的异构性差异,并显著地提升了语义识别能力。这类方法对于数据训练的要求相对较低,在标注成本方面也较为经济,并且特别适合应用于中型规模以下的数据集上。尽管这类方法具有良好的扩展性和广泛的应用前景(如图像字幕生成等领域),但在模型训练过程中可能会忽视一些细节信息,并且在目标数据集成时对于相关性的表征能力仍有待提升。因此,在保证缩小各模态间统计差异的前提下实现局部文本与图像信息的有效对齐,并据此动态地调节各模态间的生成过程,则成为当前这类方法面临的主要挑战

(3)图文联合嵌入的方法

相较于传统的图像与文本对齐技术以及跨模态重构技术,在图文联合嵌入方法中通常会整合全局与局部信息并以特定形式体现为语义特征的嵌入方式;这使得该方法具备更为优异的特征区分能力。这类方法通常采用图像与文本模态数据融合训练策略并充分运用语义特征进行提取;从而有效达成图像与文本的匹配目标

针对模态特征的一致性问题所导致的跨模态迁移困难这一关键问题,文献[62]采用了弱对齐的数据以生成具有强一致性的跨模态表示,并在共享层中应用多层感知机将文本信息映射至与视觉模式等维度相同的表示空间中。该模型综合运用了微调与统计正则化两种技术,在无需严格数据对齐的情况下实现了同一概念在多模态环境下的识别功能,并展现出良好的检索性能。为了解决这一问题,DSCMR方法通过最小化样本在标签空间与公共表示空间之间的判别损失来进行监督学习以提取判别特征,并利用加权共享策略消除了多模态数据在公共表征空间中的异质性差异。相较于传统方法,DSCMR采用了更为创新的学习策略以充分利用配对标签信息与分类信息并有效地学习异构数据间的共同表征

值得注意的是,尽管以上方法已考虑到不同模态到公共空间的特征映射,这种映射函数主要专注于学习模态内或模块间的区分特征,而导致在跨模块学习方法中未能充分挖掘出隐含的语义信息

针对此问题,文献[14]提出了一种基于正则化跨模态语义映射的深度神经网络(regularized deep neural network,RE-DNN),通过施加模态内正则化的方式构建了一个联合模型以捕捉不同输入之间的高度非线性关系。该模型在语义层上同时提取了模态内和模态间的关系特征,并且所学习的深层架构具备了通过停用部分网络解决模态缺失问题的能力,从而表现出良好的处理不成对数据的能力。此外,该算法只需要少量的模型训练先验知识即可实现对大规模数据集的有效扩展。进一步地,为了缩小低级视觉特征与高级用户概念之间的'认知鸿沟',文献[49]提出了多感官融合网络(multi-sensory fusion network,MSFN)联合模型:将其视为人类两种感知方式将同维CNN视觉嵌入与LSTM描述嵌入相结合的方式进行跨模态信息融合。在测试集中的所有图像与文本样本均被映射到公共语义空间后,跨模态检索问题被转化为利用传统相似性度量评估的传统同构检索问题;该方法通过最小化类别损失函数挖掘并增强了跨模态间的丰富语义关联性

此外,在图文联合嵌入领域中通常会掌握内嵌式函数(injective embedding functions),对于具有歧义性的样本而言,在单一映射点处定位特征可能会严重影响其实际应用效果。为此,[64]提出了一种多义实例嵌入网络(Polysemous Instance Embedding Networks,PINEtworks),如 图 6 所示

图6

6多义视觉语义嵌入体系结构

Fig.6 Architecture of polysemous visual-semantic embedding

同样为解决多义实例问题,文献[65]提出了生成式跨模态学习网络(generative cross-modal feature learning,GXN),将基础表示和抽象表示相结合。除了全局语义层的跨模态特征嵌入外,GXN还引入了图像到文本和文本到图像两种生成模型的局部跨模态特征嵌入,通过生成过程来学习全局抽象特征及局部基础特征。该方法能够有效处理多义实例问题,并能够检索具有局部相似性的图像或具有词级相似性的句子。另一方面,通过引入GAN网络的对抗思想,文献[66]提出了对抗式跨模态检索方法(adversarial cross-modal retrieval,ACMR),该模型在对抗机制下执行语义学习,其中,特征投影器从公共子空间中的不同模态生成模态不变表示,模态分类器根据生成的表示来区分不同的模态,并以这种方式引导特征投影器的学习。通过对特征投影器施加三元组约束,将具有相同语义标签的跨模态表示差异最小化,同时最大化具有不同语义的图像文本之间的距离。该方法在跨模态数据被投影到公共子空间中时,数据的潜在语义结构被更好地保留。

图文联合嵌入的方法侧重于对高级语义信息的研究。此类方法通常采用生成对抗的思想,并通过优化判别式损失函数与模态一致性损失的方式提取丰富的语义关联性。这种做法在一定程度上消除跨模态异构差异,并缩小‘语义鸿沟’以及‘认知鸿沟’。同时能够有效地解决了多义实例、模态缺失等问题,并且不仅能够有效地捕捉到成对的信息关联性。该方法显著提升了图文匹配的准确度和可扩展性(且在实际应用中表现突出)。具有良好的检索性能(且在实际应用中表现突出)。

2.2 二进制表示学习方法

实值表示法展现出卓越的语义辨别能力,并能在较大程度上降低信息理解上的障碍;因此其实现精度通常较高;但在那些对搜索效率有较高需求的任务中,则不建议采用该种技术;相比之下,在保证搜索精度波动范围有限的前提下,在实现速度上有明显优势;二进制表现型则能有效提升搜索速度。

基于二进制编码的技术通过映射至统一的哈明空间实现跨模态数据的投射其主要目标是为具有相似性的跨模态内容分配相同的哈希码

近十年来,在二进制表示学习领域取得了显著的进展与成果。于2009年,Hinton[67]研究组首次提出了深度哈希算法。在2014年,文献[68]提出了一种基于卷积神经网络的哈希模型(CNNH),该方法促使基于CNN的深度哈希算法逐渐受到关注。在2015年,文献[69]引入了一种称为深度学习的二进制哈希码方法(DLBHC)。该方法利用了深度CNN的逐步学习能力,并以点的形式对图像进行编码和表示;同时它还学习了特定图像特征以及相关的映射函数,从而实现了高效的图像检索,并将其应用到了大规模的数据集中。此外,在深入研究多标签关联图像复杂的多层次语义结构方面,文献[70]提出了深度语义排序Hashing(DSRH)方法。该方法结合了深度CNN与列表排序监督Hashing技术,并通过共同学习特征表示及其到Hash码的关系,在一定程度上克服了传统方法在特征语义表达能力上的不足

采用二进制表示学习方法的原理是因为二进制哈希码长度较短,在实际应用中能够高效处理海量数据,并因此广泛应用于跨模态图像与文本检索任务。

为了保证哈希码与各不同信息源所设计的哈希函数具有一致性,文献[71]提出了一种多源信息复合哈希算法(Composite Hashing with Multiple Information Sources, CHMIS)。该算法通过一种调整权重的方法(CHMIS with Adjusted Weights, CHMIS-AW)来优化各个单独信息源的权重分配,并将来自不同来源的信息整合到二进制哈希码中。这种设计不仅实现了对编码性能的最大化提升,并且成功地保持了训练样本之间的语义相似性。

在基于深度哈希的跨模态图文检索算法研究中,部分研究者采用了端到端的方式进行探索。为了应对不同模态的异构性问题,文献[72]提出了一种深度视觉语义哈希(DVSH)模型,该模型是首个采用端到端学习策略进行跨模态哈希的方法,通过开发一种学习图文联合嵌入并融合视觉语义信息的技术,该技术旨在连接不同模态的数据,并整合每个模态特有的哈希网络,其生成的紧凑哈希码能够有效地反映视觉数据与自然语言之间的深层关联。此外,文献[73]介绍了另一种跨模量深度哈希算法(DCMH)。该算法将特征提取与哈希码生成的过程有机地结合在一个统一的端到端框架中,通过施加约束条件使相似样本间相互靠近的同时保证各类型样本间的均衡分布,从而实现各模式间的精确对齐。值得注意的是,DCHM直接优化离散化的哈希码生成过程而避免了传统方法因离散化导致检索性能下降的问题

为了针对模态差异以显著提升检索准确度,文献[74]提出了一种自我监督的对抗式哈希方法(self-supervised adversarial Hashing,SSAH)。该方法通过将对抗性学习以自监督的方式整合到跨模态哈希体系中实现两者的融合。具体而言,该体系由自监督语义生成网络(LabNet)与图像文本对抗网络(ImgNet and TexNet)两部分构成:其中,自监督语义生成网络用于监督两个模态的语义空间并推动其进行对抗性学习;而两个对抗网络则协同学习不同模态下的高维特征及其对应的哈希码。实验结果表明,在训练时间上,SSAH相比DCMH减少了90%,同时SSAH能够更充分地提取大量 supervision information并更精确地捕捉不同 modality 之间的相关性

针对跨模态哈希在有限标记样本下易产生过拟合现象以及高维空间转换为二进制编码所带来的信息损失问题,在现有研究的基础上文献[75]提出了一种循环一致的深层生成式哈希算法(Cycle-Consistent Deep Generative Hashing,CYC-DGH)。该方法利用深度生成模型从得到的哈希码中重建出原始输入,并在此过程中使得学到的哈希码尽可能紧密地映射到每个输入及其对应的输出关系上。同时通过最小化Hash嵌入过程中的信息损失达到了有效降低输入数据空间维度的目的,并不仅能够最大程度地保持自身信息特征的同时也较好地维持了不同模态样本之间的相关性

二值化表示学习方法主要针对因模态间特征异构而导致的模态差异问题,并采用端到端框架及生成对抗网络等技术手段进行研究以使各模态的特征分布趋于一致。此类方法在一定程度上缓解了过拟合等问题。然而,在对数据进行二值化处理时,这类方法可能导致部分信息丢失,并破坏原有数据结构。同时需关注不同模态内部数据特性与外部模态间特性匹配的关系,并进一步优化计算流程及相关的性能指标成为当前研究的重点之一。

2.3 小结

本节详细阐述了现有的基于深度学习技术实现的跨模态图像与文本检索系统。针对图像与文本检索系统的性能指标——准确度与效率问题,本文主要从实值表示学习与二进制表示学习两个角度展开讨论,系统分析并总结了当前相关研究进展。通过对比分析Table 1、Table 2、Table 3所列示的不同算法在分类任务中的性能表现,我们能够清晰地了解各类算法的特点及其适用场景差异性。

1基于特征表示的代表性方法总结

Table 1 Overview of representative methods based on feature representation

类别 代表性方法 特点 适用场景
基于特征表示的方法 MSDS 能够更有效地提取文本特征,但对于样本数量较少的情况性能较差 大规模数据集
DeCAF 学习到的视觉特征具有足够的表征能力 单标签或多标签样本图文跨模态检索
deep-SM 提高了对目标数据集的适应性,有效降低了图像与相应语义概念之间的鸿沟,但未能良好建立文本数据的低级特征和高级语义间的关系

新窗口打开|下载** CSV**

2基于图文匹配的代表性方法总结

Table 2 Summary of representative methods based on image-text matching

类别 代表性方法 特点 适用场景
图像-文本对齐的方法 Neural-Image-QA 减少了爆炸梯度问题,且“单字”变体能使获得的准确率翻倍,实现最佳性能,但答案较长时准确率会迅速下降,且在训练数据点太少或图像有强遮挡等情况时容易匹配失败 现实世界的图像问答 任务
FashionBERT 可掩盖图像中的不相关信息,且补丁能提供不重复且合理相关的信息,但需要大量带注释的图像文本对,在实际场景中不易获得 细粒度的跨模态图文检索任务
CAAN 检索速度快,模型小,在部署和应用上更方便实用,然而模态间比对和模态内相关性的结合要求更精细的模型设计 单词或图像区域在不同全局上下文中多种语义
IMRAM 对小规模和大规模数据集都能达到最佳性能,具有鲁棒性 考虑语义复杂性的跨模态检索任务
跨模态重构的方法 SC-NLM 训练模型后可在图像嵌入上对模型调节,且能够不断优化对生成新描述的评分函数,实现对图像和字幕的排序;但不能动态修改用于调节解码器的向量 解决图像字幕生成问题
MASLN 能够有效缩小不同模态间的统计差距,最大化语义区分能力,但训练模型可能不能很好地反映公共表示中目标集的成对相关性 可扩展跨模态检索任务
CyTIR-Net 在中小型数据集情况下表现更好,且在训练数据稀缺时能够增强最终检索性能,无需额外注释成本,但在某些情况下无法检索到模态间对应的所有细节信息 中小型数据集
图文联合嵌入的方法 RE-DNN 仅需要很少的模型训练先验知识,同时能解决模态缺失问题,且对大规模数据集可扩展 多媒体信息检索系统
PVSE 克服了被忽略信息在映射点丢失后无法恢复的问题 多义实例问题
GXN 能够检索具有局部相似性的图像或具有词级相似性的句子

新窗口打开|下载** CSV**

3二进制表示学习代表性方法总结

Table 3 Summary of representative methods in binary representation learning

类别 代表性方法 特点 适用场景
二进制表示学习方法 DVSH 有效克服了传统融合网络对双峰对象联合嵌入的需求,对参数选择具有鲁棒性 适用高精度,同时能容忍较少最佳检索结果的应用程序
DCMH 直接学习离散的哈希码,避免了对所学习哈希码准确性的降低,但所需训练时间长 大规模数据集上的人工神经网络搜索
SSAH 训练时间短,可捕获更精确的模态间相关性
CYC-DGH 可以有效压缩输入数据,同时能最大限度地保留其自身信息及来自不同模态的样本间关系 有限数量标记样本的跨模态检索任务

新窗口打开|下载** CSV** 3****常用数据集及评价指标

3.1 常用数据集

在图像与文本等单模态或跨模态的信息处理方面,通常需要借助数据集来进行评估。拥有高质量的数据集能够使神经网络充分学习各种潜在知识,并有效避免神经网络出现过拟合等问题。目前,在跨模态图文检索领域中常用的几种数据集包括:

(1)NUS-WIDE[76]

由新加坡国立大学多媒体检索实验室开发的NUS-WIDE网络图象数据集合包含来自Flickr网站的大量图象样本。这些图象样本共计269,648张图片左右,并且每张图片平均配有2至5个标签语句描述其内容特征;其中独立存在的标签类别共有5,018项分类信息。值得注意的是这一集合仅专注于图片与文本两种类型的数据表示形式,在跨模态哈希算法研究中具有重要应用价值。利用这一集合作为研究平台我们可以深入探讨网络图象标注与检索的相关技术问题

(2)MSCOCO[77]

该COCO数据集是由微软研究团队开发的一个综合性的视觉语言数据资源库。它主要聚焦于场景理解任务,在丰富的日常场景中提取高质量的视觉内容作为训练素材。该资源库是一个大规模的基于句子级别的图像描述数据库,在现有基础上进行了大幅扩展与优化工作。具体而言, 该数据库包含共计123,287幅高质量图片样本, 每一幅图片均配有至少5条对应的文字描述信息,有效支持了多模态语义理解和生成模型的研究需求。此外, 数据库中的图片样本涵盖了91个不同的领域类别,总计收录了超过32.8万种影像素材以及多达250万个精准标注的对象实例信息。尽管与ImageNet相比在分类数目上略逊一筹,但其丰富的实例级训练素材为深入探索特定领域场景提供了更为充足的支撑条件。

(3)Flickr30k[78]

该平台推出了一个名为Flickr的数据集合库(Data Repository),其中包含了约1亿幅图片以及70万条视频链接(URL),这些资源均附带元数据信息(如图片标题、描述及分类标签)。该集合特别关注人类或动物所执行的具体行为动作。为了构建这一集合体,在其中约有6个不同的Flickr子项目组负责手动采集图片素材,并特意选择的专业人员运用多样化的标题注解来丰富内容;其中最为知名的是源自Flicker网站上的"Flickr30k"子项目组(Project),它收录了大约3.1万张日常生活场景图以及与之匹配的158915个相关联的文字描述,并对每张图片配以5句中文说明文字;这一套系统广泛应用于图像与文字关联检索领域中

(4)Wikipedia[79]

Wikipedia 数据集源自维基百科,在跨模态检索领域中应用最为广泛的基准数据集。它由包含相关联的文字与图片配对的文档语料库构成,并基于维基百科精选出具有代表性的高质量文章而构建。为了增强数据分析能力,该基准数据集借助维基共享资源中的图片进行扩展,并包含了共计 2866 份图片与文字对应的数据包。这些包涵盖了 10 种不同的主题类别。值得注意的是:该基准数据集涵盖的主题类别数量有限,并不支持除图像与文本以外的其他模态类型

(5)IAPRTC-12[80]

IAPRTC-12起源于Grubinger等人的工作,并被称为Image CLEF 2006项目。该项目旨在为Cross-Language Evaluation Forum(CLEF)提出的跨语言图像检索任务提供基准数据集,并评估基于视觉与文本检索技术的有效性。该数据集包含总计19,627幅图像,在这些图像的描述中主要采用了英语和德语等多种语言形式,并且每个图像通常与其1至5个相关描述相联系。这些相关描述主要聚焦于图像的不同特征部分。整个数据集所包含的词汇量共计4,424项。值得注意的是,在此数据集中使用的文本几乎都是语法正确的,并且几乎没有噪音干扰。在句子中使用了良好的语言组织方式,并且内容紧密关联于相应的意象内容。

基于这些常用的基准数据集,主要参数如4所示,且各数据集的图像文本对示例图如图7所示.

4常用数据集介绍

Table 4 Introduction of common datasets

数据集名称 年份 图像数量 图像对应标签数量 文本(标签)数量 介绍 来源 示例图像**-**文本对

| NUS-WIDE[76] | 2009年 | 去除了重复的图像 | 每个样本平均分配 | 去除了无意义标签 | 多标签图像 | 新加坡国立大学 |
多媒体检索实验室

MSCOCO[77] 2014年 共计约1.23万张图片 每张图片约分配5张上下文参考图片 约61.6万张图片数据库 图像描述库 微软公司
Wikipedia[79] 2014年 约有约3千篇独立文章构成维基百科网站
每篇文章单独作为一个数据样本
维基百科网站
图集中的第d部分
IAPRTC-12[80] 初始发布于2006年版本中包含总计约二十万六千七百二十七件独立内容每件样本可分配多个关键词 Clef数据集 CLEF组织提供的参考资料库 CLEF

新窗口打开|下载** CSV**

图7

7不同数据集图像文本对示例图

Fig.7 Sample graph of image-text pairs in different datasets

3.2 性能评价指标

现有跨媒体图像检索系统主要采用的评估标准包括检索召回度、识别准确性以及识别正确性等。

(1)召回率( Recall ,R

召回率是指系统对查询返回的所有与查询相关的文档数量与全部相关文档数量之比。具体而言,召回率等于系统对查询返回的所有与查询相关的文档数量除以全部相关文档的数量。

R=aa+v

(1)

其中, a代表搜索结果中与查询样本相关的文档数量;v代表数据集中未被搜索结果包含且与查询样本相关的文档数量。

在图文检索领域,R@k常被视为关键评估指标,其定义为Recall@k. Recall@k通过计算前k个搜索结果中至少包含一个正确目标图像或句子的比例来衡量.针对图像检索任务,Recall@k则通过计算前k个搜索结果中的目标图像比例来评估查询的效果.其中,' r @1'.' r @5'和'r @10'分别代表当取回数量达到1项.5项和10项时的目标召回率.

(2)精确率( Precision ,P

精确率是指,在检索系统中被正确检索的样本数目与总数量之间的比例。精确率的计算公式如下:P = \frac{TP}{TP + FN}

P=aa+u

(2)

其中,u 表示被检索样本中与查询样本不匹配的数量。

通常情况下,召回率与精确率之间存在冲突,因此需要根据不同实验场景对精确度与召回量的要求进行权衡判断。通常不将精确率与召回率单独作为评价标准,而是通过绘制 Precision -Recall 曲线来直观展示两者之间的权衡关系,横坐标为召回率,纵坐标为精确度。

(3)准确率( Accuracy ,A

识别率为表示在检索系统中被正确分类的样本数量与总样本数量之比。其计算公式如下:(正确识别数 / 总识别数)×100%

A=a+bn

(3)

其中, a代表搜索结果中对应于查询样本的相关文档数量;b代表搜索结果未包含而对应于查询样本的相关文档数量;n代表全部测试案例的数量。

(4)综合评价( F -score,FS

FS=(1+β2)×Precision×Recallβ2×(Precision+Recall)

(4)

其中β被用作权重调节参数,在特定条件下两者的影响力会趋于一致,并被称为F-分数。在信息检索过程中,如果Precision的重要性高于Recall,则应适当降低β值;相反地,在Recall更为关键的情况下,则适当提高β值。

考虑到 Precision 和 Recall 指标间存在冲突,在综合评价时可采用 F-Index(F-score)这一指标。这种指标既能兼顾 Precision 和 Recall 的优点,在计算方式上也更为精确。因此,在评价指标的选择中,F-score表现更为突出。

(5)平均精度(mean average precision,MAP)

MAP是当下跨模态图文检索领域中最常见的评估标准,在给定一个查询并从结果集中检索出top-R 的数据时,其平均精度则定义为:

AP=1R∑r=1RP(r)δ(r)

(5)

其中,在检索文档中取第r号样本作为代表,并定义其精度指标为P(r)。此外,在这种情况下设定\delta(r)=1;若无此关联关系,则\delta(r)=0

MAP能够克服Precision、Recall以及_F_-measure等单点值的局限性,并用于评估算法的检索能力以体现其整体性能表现。

3.3 不同算法对比

本节系统性地对比分析了多种不同算法在各自适用的数据集上的表现特征,并以核心性能指标 R @K 和MAP作为主要评估标准进行量化分析。具体而言,针对跨模态图文检索任务,Flickr30k数据集主要选用 R@K 作为评估实值表示学习性能的标准,这种方法尤其适用于衡量实值向量空间中的相似度表现效果。而对于Wikipedia和NUS-WIDE数据集而言,采用MAP作为算法性能评估的标准更为普遍,这种方法适用于对文本检索精度进行多维度综合考量,尤其适合于实值表示学习与二进制表示学习方法的评估比较研究。在MSCOCO数据集中,研究者既可以使用 R@K 来量化算法的表现水平,也可以借助MAP这一指标来进行深入分析,这种双维度评估体系适用于对各类表示学习方法的有效性进行全面检验。最后针对IAPRTC-12任务特点,研究者主要采用MAP这一指标来评估二进制表示学习方法的性能表现,而对实值表示学习方法则采用top@k这一度量标准来进行具体表征,其中top@k的具体计算公式如下:

top@k=1z∑i=1z1(ri≤k)

(6)

在本研究中,z代表测试集中图像与文本配对的数量.其中,指示函数是一种数学函数.具体而言,它被定义为自变量范围内的一个数值.此外,ri是在第i对图像(文本)中所对应的排序结果.同时,k值被设定为分别设为{1;2;10;20;100;200;1 999}这些数值范围.

对于实值表示学习方法的选择与分类研究中,本文主要采用了CyTIR-Net、IMRAM、BRNN等算法作为研究对象;根据特征表征的不同,将其划分为两类:一类是基于特征表示的算法,包括deep-SM、DeCAF等;另一类是基于图像与文本对齐的技术,现有研究主要包括IMRAM、BRNN等;针对跨模态重构的方法主要包含CyTIR-Net和MASLN两种;而对于图文联合嵌入的研究则涵盖了ACMR、MSFN+TextNet等多种方法

这些数据均源自各经典算法相关文献中的报道,并可在表格5至表格12中找到具体对比结果。其中表现最优的结果本节采用加粗方式突出显示以供重点参考;其中‘—’符号表示结果未提供

这些数据均源自各经典算法相关文献中的报道,并可在表格5至表格12中找到具体对比结果。其中表现最优的结果本节采用加粗方式突出显示以供重点参考;其中‘—’符号表示结果未提供

5对于Flickr30k现有不同算法R@K比较

Table 5 R@Kcomparison of different existing algorithms for Flickr30k

模型 文本检索 图像检索
R****@1 R****@5 R****@10 R****@1 R****@5 R****@10
BRNN[50] 15.2 37.7 50.0
SCAN[55] 67.4 90.3 95.8 48.6 77.7 85.2
CAAN[56] 70.1 91.6 97.2 52.8 79.0 87.9
IMRAM[57] 74.1 93.0 96.6 53.9 79.4 87.2
CyTIR-Net[61] 36.9 67.8 79.2 21.6 51.8 65.5

新窗口打开|下载** CSV**

6对于MSCOCO现有不同算法R@K比较(1 000幅测试图像)

Table 6 R@Kcomparison of various current algorithms against the MSCOCO dataset (with 1,000 test images)

模型 文本检索 图像检索
R****@1 R****@5 R****@10 R****@1 R****@5 R****@10
BRNN[50] 27.4 60.2 74.8
SCAN[55] 72.7 94.8 98.4 58.8 88.4 94.8
CAAN[56] 75.5 95.4 98.5 61.3 89.7 95.2
IMRAM[57] 76.7 95.6 98.5 61.7 89.1 95.0
CyTIR-Net[61] 44.7 78.0 88.1 28.9 63.8 79.4
PVSE[64] 55.2 86.5 93.7 69.2 91.6 96.6
GXN[65] 56.6 94.5 68.5 97.9

新窗口打开|下载** CSV**

7对于MSCOCO现有不同算法R@K比较(5 000幅测试图像)

Table 7 Assessments of various current algorithms for MSCOCO (5,000 test image sets)

模型 文本检索 图像检索
R****@1 R****@5 R****@10 R****@1 R****@5 R****@10
BRNN[50] 10.7 29.6 42.2
SCAN[55] 50.4 82.2 90.0 38.6 69.3 80.4
CAAN[56] 52.5 83.3 90.9 41.2 70.3 82.9
IMRAM[57] 53.7 83.2 91.0 39.7 69.1 79.8
PVSE[64] 32.4 63.0 75.0 45.2 74.3 84.5
GXN[65] 31.7 74.6 42.0 84.7

新窗口打开|下载** CSV**

8对于MSCOCO现有不同算法MAP比较

Table 8 MAP comparison of different existing algorithms for MSCOCO

模型 文本查询 图像查询 平均值
ACMR[66] 0.871 0 0.932 0 0.902 0
DVSH[72] 0.767 3 0.755 2 0.761 3
SSAH[74] 0.578 0 0.577 0 0.578 0
CYC-DGH[75] 0.859 0 0.781 0 0.820 0

新窗口打开|下载** CSV**

9对于Wikipedia现有不同算法MAP比较

Table 9 MAP comparison of different existing algorithms for Wikipedia

模型 文本查询 图像查询 平均值
SCM (semantic correlation matching)[12] 0.226 0.227 0.252
deep-SM[48] 0.354 0.398 0.376
MSFN+TextNet[49] 0.453 0.518 0.486
MASLN[60](Non-XTD) 0.499 0.623 0.561
MASLN[60](XTD) 0.287 0.331 0.309
DSCMR[63] 0.478 0.521 0.499
ACMR[66] 0.489 0.619 0.546
CYC-DGH[75] 0.826 0.820 0.823

新窗口打开|下载** CSV**

10对于NUS-WIDE现有不同算法MAP比较

Table 10 MAP comparison of different existing algorithms for NUS-WIDE

模型 文本查询 图像查询 平均值
DeCAF[47] 0.409 0.486 0.448
deep-SM[48] 0.776 0.823 0.800
MSFN+TextNet[49] 0.453 0.518 0.486
MASLN[60](Non-XTD) 0.552 0.550 0.551
MASLN[60](XTD) 0.284 0.291 0.287
DSCMR[63] 0.615 0.611 0.613
ACMR[66] 0.538 0.544 0.541
DCMH[73] 0.691 0.644 0.667
SSAH[74] 0.683 0.639 0.661

新窗口打开|下载** CSV**

11对于IAPRTC-12现有不同算法MAP比较

Table 11 MAP comparison of different existing algorithms for IAPRTC-12

模型 文本查询 图像查询
DVSH[72] 0.680 6 0.723 6
CYC-DGH[75] 0.837 0 0.832 0

新窗口打开|下载** CSV**

12对于IAPRTC-12现有不同算法top@k比较

Table 12 top@k comparison of different existing algorithms for IAPRTC-12

模型 文本检索 图像检索
top@1 top@2 top@10 top@20 top@100 top@1 top@2 top@10 top@20 top@100
MSDS[8] 0.256 0 0.364 0 0.626 0 0.740 0 0.921 0 0.255 0 0.362 0 0.633 0 0.742 0 0.919 0
DBRLM [46] 0.207 0 0.296 0 0.557 0 0.673 0 0.895 0 0.201 0 0.292 0 0.567 0 0.682 0 0.904 0

新窗口打开|下载** CSV**

5 ~ 7 可以看出,算法IMRAM在跨模态图文检索中取得了更好的 R@K值,该算法实验环境为Pytorch v1.0,在Flickr30k数据集上分别将29 000、 1 000、1 000幅图像用于训练、验证和测试模型,在MSCOCO数据集上也分别将1 000幅图像用于验证和测试,其在小规模数据集(Flickr30k)上和大规模数据集(MSCOCO)上都有较好的表现,证明了该 算法的鲁棒性,同时也得出对细粒度对应关系进行探索的必要性。此外,CAAN算法在Flickr30k数据集分别将29 000、1 000、1 000幅图像用于训练、验证和测试模型,该算法在前15个epochs的学习率为0.000 2,后15个epochs的学习率降至0.000 02。PVSE算法在MSCOCO数据集上将113 287幅图像用于训练模型,并在完整的5 000幅测试图像上进行测试,且以平均值超过5倍以上来进行1 000幅图像的测试,该算法初始学习率为0.036 6,并在损失停滞时减少一半,用批量大小为128的样本进行50个epochs的训练。CAAN算法和PVSE算法分别在小规模数据集(Flickr30k)和大规模数据集(MSCOCO)上也取得了更好的 R@K值,表明了注意力机制在跨模态图文检索中的优势。且这几种方法都强调局部特征和全局特征的结合,以提升特征的判别性。对于该领域的后续发展具有借鉴意义。

从表中可以看出,在MSCOCO数据集上ACMR算法展现了显著的性能优势。该算法通过将图像与文本特征对的数量设定为66,226个用于模型训练以及16,557个用于测试,并采用了4,096维VGGNet作为图像特征提取网络、3,000维BoW模型作为文本特征提取网络(其中BoW代表"bag-of-words"),并设置了小批量训练策略(batch size为64)。通过基于对抗生成网络的思想(GAN),该算法成功保留了数据潜在的跨模态语义关联性。实验结果表明,在大规模数据集(MSCOCO)上采用实值表示的学习方法能够显著提升检索性能(MAP值)较二进制表示学习方法更为优异。其中,CYC-DGH算法在该基准数据集上的表现优于其他二进制表示学习方法。具体而言,CYC-DGH算法采用了预设的学习率策略:初始学习率为固定值0.000 2,在前100个epoch周期内保持不变;随后线性衰减至最终值为零,并结合卷积退出层使用Dropout技术(概率设为50%)以防止过拟合问题的发生。CYC-DGH方法同样继承了基于GAN的核心思想,在有效压缩输入数据的同时最大化地保留了自身信息以及不同模态样本之间的内在联系特性。

9 10 可以看出,CYC-DGH和deep-SM分别在数据集Wikipedia和NUS-WIDE上取得了最佳MAP值,CYC-DGH从Wikipedia数据集中随机选择75%的文档作为数据库,其余为查询样本,且批量大小为1。deep-SM算法实验环境为开源Caffe CNN库,分别将114 114和76 303个图像文本对用于训练和测试,其dropout率为0.5,动量参数为0.9,且对不同模态采取不同学习率,在CNN中分别将卷积层、前两个完全连接层和最后一个完全连接层的学习率设置为0.001、0.002和0.010,通过设置不同层的不同学习率来控制参数更新速率;在TextNet中每层的初始学习率为0.010,然后根据交叉熵损失动态变化。deep-SM算法对预处理的CNN模型进行微调以提取CNN视觉特征,一定程度上提升了跨模态检索性能。同时,在Wikipedia数据集上,MASLN算法结果优于其他实值表示学习方法,该算法学习率为0.000 1,批量大小为128,其将跨模态重构和模态对抗性语义网络进行了联合训练,对于小规模数据集上跨模态检索性能的提升有很大帮助。

对比分析了不同算法在IAPRTC-12数据集上的性能后发现:二进制表示学习方法中,CYC-DGH表现更为优异;实值表示学习方法中,MSDS则表现出色。基于Caffe平台构建了MSDS模型,并分别采用了17627个图像文本对作为训练与测试的数据。其中,在卷积神经网络(WCNN)、普通卷积神经网络(CNN)以及深度卷积神经网络(DNN)的学习率设置为0.0100.0010.001的基础上,通过标准反向传播算法更新了两个卷积神经网络的参数。该方案适用于大规模数据集

综合上述分析可知,在对各类算法进行比较后发现,在提升跨模态图文检索性能方面存在显著优势的一类方法在此基础上值得进一步深入研究。

(1)通过细粒度的图像-文本对齐该方法有助于深入探讨不同模态之间的细微联系,这种技术能够更加灵活地应用于多模态图像与文本结合的情境,这种技术可以从语义多样性的角度出发有效提升搜索效果。

(2)无论是采用实值表示的方法还是采用二进制表示的方法,生成对抗网络的博弈机制都可以用于提取并保持各模态之间的语义关联信息,其网络架构通过优化跨模态检索的整体性能实现了有效的信息提取与融合。

(3)通过微调预处理后的CNN模型可以在一定程度上增强其适应目标数据集的能力;这种做法旨在通过现有模型而非从零开始训练来提升性能;同时该方法也能通过反向传播机制优化网络参数;这种方法不仅操作简便而且显著提升了跨模态图像检索的效果。

(4)该模型能够识别出图像与文本中最显著的特征;明确区分出各个单词以及图像区域所受到的关注程度;有助于缓解信息冗余带来的挑战;同时显著提升计算效率的同时保证了较高的准确率;在处理那些要求细致识别不同模态局部特征的任务中具有显著优势

4****应用

目前该技术在公安、传媒及医学等多个领域有着较为广泛的运用。具体而言,在公安领域主要应用于舆情监测与网络舆情预警工作;现有的舆情检测系统通常通过互联网实现对网络信息的采集、追踪、监控和预警功能;而在传媒领域主要应用于多媒体事件检测、公众意见挖掘以及智能推荐系统的构建;在医学领域则用于医学存储数据的高效检索。

4.1 公安领域的应用

跨模态图文检索在公安领域主要用于网络舆情分析和网络舆论欺诈。

具有动态变化且多维度的特征_81_,基于 图 8 的分析流程图,在事件发生后,首要任务是实施突发事件的监控.随后需对相关话题进行实时追踪.通过语义分析来判断其情感倾向.同时,在事件处理过程中,可以通过信息索引数据库来回顾以往热点事件,并持续监控敏感信息源.

图8

8舆情分析一般流程图

Fig.8 General flow chart of public opinion analysis

其中,在热点话题识别方面主要包括主题追踪、主题识别以及关联分析等内容。该系统需具备从多领域获取图像与文本信息的能力,并通过优化算法提升语义理解效果;为了确保语义分析的有效性,在方法设计上需兼顾情感互补性和整体一致性。主要采用图文融合技术以及注意力机制模型进行特征提取,并结合模态贡献度量方法进行优化;所提取的关键特征能够有效降解复杂度并揭示深层关联;充分挖掘各领域间的关联性以丰富整体语义表达;通过高效整合来自不同媒介的舆情数据,并运用跨模态图文检索相关技术手段,...

针对实时社交网络数据流中的突发事件监测与深度挖掘问题,文献[82]提出了一种基于多模态图融合的国民安全突发事件检测系统.该系统采用多模态图融合技术和话题恢复算法实现事件检测,并通过分类模块筛选出相关类型的安全事件.

就网络舆情分析而言,现有研究主要聚焦于热点话题识别、语义分析以及情感倾向预测三个维度。在这一领域,文献[83]开发了一种基于文本的情感显著性特征提取方法,该方法不仅能够有效识别情感信息,还通过图文融合技术解决了不同模态之间可能存在的情感冲突问题。为了进一步提升舆情语义分析的效果,文献[84]提出了一种深度多模态注意融合模型(DMAF)。该模型通过整合视觉与语义特征的差异性与关联性,利用视觉注意力机制精准定位情感区域,同时结合语义注意力机制突出情感相关的关键词。DAF模型能够分别提取最具判别的文本词汇与视觉区域信息,并通过中间层融合机制整合多模态注意力信息。最后,该模型采用了多层次融合方案将三种注意力机制的结果进行综合判断与预测处理

跨模态图文检索技术已在公安领域被用于网络舆论欺诈预测及应对措施的研究。当前互联网技术的发展使得图像形式下的“网络谣言”成为处理网络舆论欺诈的重要手段 [85].基于智能化技术的应用,在图证工作中可以实时采集证据材料,并借助智能检索系统快速定位关键影像素材。这些影像资料不仅能够还原案件事实真相,在电子数据存证和辅助侦查工作中发挥着不可或缺的作用 [85].研究者们已就“网络舆情欺诈”相关问题展开了深入探讨 [86].其中一项研究聚焦于结合视觉与文本特征的信息提取方法,在案例分析中展示了该技术的应用效果(见 图 9)。

图9

9图文特征联合的证据图像检索系统工作原理图

Figure 9: Schematic illustration of the evidence-based image retrieval system integrated with both visual and textual information features

目前,受限于现有理论知识和技术手段,复杂舆情变化的预测以及舆情自动化监测等方面仍存在诸多挑战。对于跨模态图文检索技术,由于文字语义的歧义性和视觉数据所造成的"认知鸿沟",亟需进一步研究并加以应用以改善现状

4.2 传媒领域的应用

跨模态图文检索技术在传媒领域广泛应用于多媒体事件检测(MED)、意见挖掘以及网络推荐系统等技术领域。此外,文献[59]、文献[87]以及文献[88]基于跨模态特征表示及跨模态重构的方法实现了图像或视频的字幕生成。

多媒体事件检测通常需要从视频档案中识别出特定事件的视频实例,并提供相应的示例视频及其详细描述。与之相关的多媒体分类任务旨在从示例视频中学习最能体现其独特性的特征,在多个互补特征的协同作用下达到最佳性能水平。例如,请参见图10所示的位置标注,在完成多模态特征提取后,该研究通过早期融合与后期融合相结合的方式实现了不同表征信息的有效整合。

图10

10多媒体事件检测系统示意图

Fig.10 Schematic diagram of multimedia event detection system

对于不同用户的意见挖掘,社交媒体主要依靠将多种类型的数据进行多维度数据整合来完成情感分析,以便进一步识别不同事件的情绪倾向。在意见挖掘的过程中,情感分析的主要特点在于深入探究特征融合的具体方式,现有的研究多以图像内容、用户行为信息及媒体传播机制为基础进行有效整合,从而实现较为理想的语义解读效果

为了判断情感极性

此外,在情感分析方面除了关注内容的情感倾向外还应通过媒体数据分析精确识别当前的话题热点。就该研究而言 文献[93]基于社交网络媒体数据开发了一种多模态融合话题发现方法 该方法通过分别提取文本中的潜在主题模型以及图像中的潜在主题模型 并构建相应的文本图与视觉图 最终通过对这两个图的语义融合生成一个多模态图 最后在该多模态图上运用聚类算法与回归分析技术 得出最终的话题发现结果

构建个性化的网络推荐系统通常需要整合图像信息与其相关语义属性来提取图像语义特征表达,并以此提高产品推荐效果。这一任务旨在推断不同社交媒体平台之间的联系。研究者在文献[94]中构建了一个基于深度信念网络的关系生成模型,并将非参数贝叶斯模型印度自助餐过程(Indian buffet process, IBP)融入修改后的深度信念网络架构中。这种设计旨在学习媒体内容及其相互关联的潜在特性。其中,IBP的核心理念在于每个数据点可能同时拥有多个隐性特征,并且这些特征的概率分布总和不等于1。通过该模型不仅能够分析异构与同构数据间的关联关系,并支持跨模态检索功能;同时,在实际应用中,该方法可被集成到社交媒体平台以实现精准的用户推荐。

可以看出,在当前社交媒体中的事件检测、意见挖掘以及个性化推荐等领域该技术的发展带来了显著促进。但在实际应用中一些复杂的情感分析涉及处理高阶抽象概念并要求对主体性概念及线索需有更深一层的理解而对于这类问题则需对跨模态数据构建更为深入的关联

4.3 医学领域的应用

跨模态图文检索技术在医学领域主要用于医学存储数据的查询。

现有医院信息系统主要服务于特定领域的医疗数据。由于医学数据种类繁多且具有明确的语义关联性特征,使其成为了一种典型的跨模态数据类型。研究者[95]开发了一种跨模态生物医学图像多标签分类算法,并通过融合图像内容与说明性文本资料,在运用迁移学习技术的基础上实现了复合医学图像信息的有效识别功能。这种功能显著提升了图像检索性能。作为典型的数据处理技术之一,医学影像存档与通信系统(PACS)具备从医学图像数据库中获取、存储、检索和展示的能力[96].当用户在系统中输入关键词时,在关系型数据库中执行查询操作以检索对应的相关字段,并最终定位到文件系统中的相关医学影像资料。此外,在多模态索引图模型的作用下,在不同数据间建立起语义关联性机制并计算出各模态间的相关度值后完成不同类型信息的融合处理工作 [97]。该算法的具体流程图示见 图 11.

图11

11基于模态网络模型的医学数据检索技术流程图

Fig.11 Flow chart of medical data retrieval based on modal network model

目前,因医疗数据具有高度敏感性,…

5****难点及未来研究趋势展望

尽管目前跨模态图文检索技术已经获得了显著进展,但在模态特征表示方面、复杂语义处理方面、不同模态特征对齐方面以及数据集构建方面仍面临着诸多亟待解决的问题。这些问题的具体研究将引领未来研究方向。

(1)更加细致地表征了模态数据的特征信息。其在跨模体图像文字检索系统中的性能表现尤为突出,因为不同应用场景下对单一领域内的全局性或局部性特征选择以及提取方式各有差异.随着数据复杂度与应用需求持续攀升,在提升跨媒体检索系统性能方面提出了更为严格的模块化特异性要求.

(2)各具特色的模态特征在微观层面的对齐显得尤为关键。由于图像与文本之间存在本质上的异质性差异,在视觉数据提取信息时难以确保这些信息与用户的认知一致。面对这一挑战,在图文检索领域如何通过关注图像与文本间的细致关联来提升模态特性的表达成为一个重要的研究方向 [57].

第三部分讨论了与本研究相关的上下文信息开发. 跨模态关联通常与丰富的上下文信息相关联. 现有的方法通常仅利用共存关系和语义类别标签作为训练数据,然而,实际的跨模态数据中通常还包含了丰富的链接关系等关键的上下文信息. 其中,准确提取和利用这些上下文信息对于提升跨模态检索效果至关重要. 在复杂的实际应用场景中,如何有效开发这些共同特征以及深入研究这些问题成为提升检索性能的关键方向 [18].

(4)优化参数形式并进一步提升跨模态检索效率。面对大量模型参数使得该技术难以广泛应用于实际场景中,这一问题已成为制约其发展的重要因素之一。到目前为止,尽管已有诸多技术手段辅助提升该领域的搜索效率 [98], 但如何加快跨模态检索速度仍是一个亟待解决的关键问题 [18].

(5)设计优化目标函数的求解方法。当前跨模态深度学习中的训练算法仍然未能有效规避由鞍点所带来的寻优失败问题。鉴于此,在跨模态检索领域亟需研究非凸优化问题的有效求解策略

(6)在跨模态信息处理中,拥有高质量的数据集能够有效规避过拟合等技术难题。构建跨模态信息处理所需的数据集是一项具有挑战性的任务。尽管像Flickr和MSCOCO这样的公开数据集中包含了大量丰富的图像样本,并且每一幅图像都配有详实的文字描述;然而,在实际应用场景中所涉及的对象类别远远超出这些公开提供的图像类型;因此,在扩充不同类别的数据并对其进行全面注释方面也存在诸多挑战与探索空间

全部评论 (0)

还没有任何评论哟~