Advertisement

Modal-adversarial Semantic Learning Network for Extendable Cross-modal Retrieval 阅读笔记

阅读量:

重点是可扩展的(extendable):训练和测试集中的实例具有不相交的类。

一个新的体系框架:基于模态对抗的语义学习网络(MASLN) 1.该体系框架包含两个功能模块:一个是跨模式重建模块(Structure-Aware Reconstruct Module, SRM),另一个是抗干扰共同表示提取模块(Adversarial Co-Represent Module, ACRM) 2.SRM主要依赖类嵌入准则作为辅助信息用于数据重构,在此过程中通过对各模式的数据进行重建优化以减少不同模式之间的分布差距 3.ARM模块则能够生成能够跨越模式界限的一致性语义特征,并通过对抗性学习机制将各模式与其共同表示区分开来 4.该两部分组件经过协同优化后,在公共子空间中实现了跨模式一致性较高的目标状态

Introduction

Figure 1 (a)展示了大多数现有跨模态检索方法所依赖的核心原理之一:我们将其命名为不可扩展型跨模态检索原则;该原则要求使用一组具体实例集合,在这些实例中每一个都是带有特定类别标签的图像与文本配对的形式。随后将整个集合划分为源集合与目标集合两部分,在这两个子集中分别包含所有类别对应的互不重叠的图像-文本配对。在训练阶段基于源集合的数据构建公共语义空间模型,并将其应用于目标集合进行各实例间的公共表示提取。最终通过计算各共同表示之间的相似度值来实现跨模态检索操作;在此过程中,默认情况下假设目标集合中的每一个样本都属于预先确定好的类别(总共包括十个类别)。然而,在实际应用中,并非总是能够满足这一前提条件的情况。

Figure 1 (b):该文提出的新兴理论被称为一种新型的跨模态检索方案;其中源域与目标域分别来自互不重叠的类别集合;例如,在源域中选取了五个互斥于目标域的关键类别;该模型基于源域数据进行训练,并将其迁移至目标域进行验证;其研究思路与计算机视觉领域中经典的零样本学习问题具有相似之处;但相较于此,在多模态场景下进行知识迁移的研究仍处于探索阶段

如图2所示的是Modal-adversarial Semantic Learning Network的流程图。该网络整合了跨模态重构模块与模态对抗语义学习模块两大功能单元。其中绿色线条代表数据重构路径而红色线条代表语义关联方向两者在整体架构上实现了协同运作通过联合优化实现跨模态信息的有效融合与统一表示

主要贡献:

  • 提出了一种跨模态重建子网,并通过条件自动编码器最小化各领域间的分布差异以生成每个模态的数据表示。相较于现有方法仅依赖自动编码器进行模态重建这一做法,条件自动编码器能够将类嵌入作为辅助信息融入到重建过程中。这种机制有助于整合学习到的共同表示中各类别的判别特征,并实现知识的有效迁移(这种机制有助于整合学习到的共同表示中各类别的判别特征,并实现知识的有效迁移)。
  • 为此我们提出了一种模态-对抗语义学习子网用于生成语义表示,在这一过程中我们不仅消除了对不同模态特性的先验假设还实现了对各类别特征与其公共表征之间的清晰区分。这一双重过程均基于对抗训练框架得以实现。
  • 它们共同作用的结果是使得学习到的联合表达不仅在语义维度上具有判别能力而且在类别特性上呈现出高度的一致性从而显著提升了跨模态检索的效果。

method

source set:

N_{s}

个文本图像对,例如,

O_{s}=eft  {o_i} ight {i=1}^{N{s}}

,

o_{i}=eft  v_i,t_i ight

,

v_i

是图像特征向量,

t_i

是文本特征向量

Y_s

: source set 的类标签集合,

y_ipsilon Y_s

target set:

N_t

个实例,

O_{t}=eft  {o_j} ight {j=1}^{N{t}}
Y_t

:target set 的类标签集合,

y_qpsilon Y_t

源自零样本学习的思想,在研究过程中我们发现其中所使用的辅助信息可视为源与目标集合之间进行知识转移的关键线索,并在此基础上进一步探讨了类别级别的词嵌入(简称为类别嵌入)作为一种非常有用的辅助信息。具体而言,在实验设置中我们观察到自然语言处理模型能够从语言知识中提取出这些类别嵌入,并将其视为用于表征Ys与Yt中各类别语义的核心元素。针对Os与Ot中的每一个实例oi而言,在这种设定下其对应的类别嵌入得以明确表征

a_{i}psilon R^k

,其中k是嵌入向量的维数。

Modal-adversarial Semantic Learning Network

1、Cross-modal Reconstruction Subnetwork. 跨模态重建子网

这个子网由两个分支构成,这两个分支通过预先设定好的相似度指标在隐藏代码层面进行连接。每个分支接收自同一模态提取出的特征,并经由全连接层进行处理,在条件自编码器的帮助下相互重建。值得注意的是,在此过程中类嵌入项起到辅助作用,在此过程中结合了代码层中类别间的区分能力,并最终实现了知识的有效转移。

每个图像-文本模态中的实例vi,在使用编码器fv(.)将其映射至代码层后,再利用函数gv(.)进行重建.

在训练阶段, 通过相似性度量将两组分支在其代码层进行融合, 实现了它们之间的耦合关系. 经过训练后, Corr-AE 模型中的两个子网展现了不同的参数配置, 尽管它们具有相同的体系结构. 如图所示, 条件自动编码器不仅能够重构输入数据, 还能实现对其他模态数据的重构. 共享表示空间其表示空间整合了来自不同模态的数据信息. 对于任意一对输入样本的损失函数定义如下:

借助该子网络,在跨不同模态重建中类嵌入的应用不仅促进了跨模态相关性的建模能力,并且提升了共享代码层的区分度,并将知识有效地转移到目标数据

2、Modality-Adversarial Semantic Learning Network. 模态-对抗语义学习网络

用于增强共享代码层(跨模态公共子空间)的同时实现了可扩展的跨模态检索任务的知识转移

语义关联学习。该分支通过跨模态的相关性将知识从一种模式转移到另一种模式。从直观上讲,在两个不同的模态中配对样本的网络输出应当表现出相似性;这一目标旨在使表示对齐并促进知识共享。为了衡量不同模态之间的交叉差异,在图像和文本特定表示层之间采用欧几里德距离进行计算;具体来说:

本研究关注语义识别学习。

基于对抗的一致性增强模式。

在测试环节中,在目标集合中的每一个测试样本都可以被转换为可扩展检索任务所需的最终统一表征。 不同类别的嵌入会对每个测试样本施加特定特征影响,在计算配对相似度时能够精准定位最相关的样本。

Optimization

总的目标损失函数:

ambda

属于对抗训练阶段中正负损失函数之间的积极平衡参数。我们的目标在于利用对抗训练方法在min-max优化框架内确定相应的模型参数。例如:

=>

μ表示学习速率,并且这些规则可以通过随机梯度下降(SGD)算法来实现。

Experiment

数据集:

  • Wikipedia:采用2,866组图像与文本配对样本,并赋予每组样本来自1至10类别的分类标记。
  • Pascal Sentence:采用了包含1,000幅图像的数据集,在该集合中这些图像被均等地分配到2至20类中,并为每幅图像生成了5组描述性句子以构建完整的文档。
  • NUS-WIDE-10k:从NUS-WIDE大规模数据集中随机抽取了1至1万组图像与文本配对样本,并均等地选取了来自其内部最多涵盖的前1至1万类别的代表性样本。

特征:

  • CNN提取图像的特征信息,并将其表示为4, ⁠⁠⁠⁠⁠⁠⁠ ⁠      4, ⁠ ⁠ 4,  行矩阵。
  • 将1,  行BOW向量用作维基百科数据集的文本特征描述,并采用3,  行BOW向量用于另外两个数据集的文本特征表示。
  • 在类嵌入模型中,每个类别名称会被编码为一个3,  行长度的向量。

检索: (在所有数据集上进行两种类型的跨模态检索任务)

  • Non-overlapping (non-XTD) retrieval:源集合与目标集合必须涵盖所有类别
  • 可扩展的(XTD)检索策略:无重叠类别

网络细节:

  • 跨模态重建子网:经过实验发现,在跨模态重建子网中采用四个全连接层进行图像特征转换以及三个全连接层处理文本特征,并通过代码层维度为50的方式完成特征提取。
    • 其中辨别器与模态分类器分别采用了基于前馈神经网络的架构设计。

比较方法和评估指标:

  • 与现有七种方法相比
  • 性能评估指标:mAP及CMC曲线:CMC曲线是一种微分粒度的评价标准,在查询系统的检索列表中计算前r个匹配项中的第一个匹配项位置。这一指标通常与mAP(平均精度)共同使用,并从不同角度评估检索系统的性能表现。

结果:

  • 在可扩展和不可扩展检索中均获得最佳性能

类嵌入:

  • 可以帮助模型学到更加有效的公共表达

全部评论 (0)

还没有任何评论哟~