Advertisement

【论文阅读一】Adaptive Cross-Modal Few-shot Learning

阅读量:

1、introduction

本文提出了一种结合语义与视觉知识的自适应交叉模态方法(AM3)。基于不同定义的视觉与语义特征空间具有各自独特的结构,在某些概念中发现视觉特征往往比文本特征更为丰富且富有鉴别力。然而,在图像分类任务中受限于视觉信息时,通过从无监督文本语料库中学习获得的语义表示能够提供强大的先验知识及上下文信息来辅助学习过程。研究则以Prototypical Networks for Few-shot Learning理论为基础展开,并在此基础上提出了Adaptive Modality Mixture Mechanism(AM3),该机制基于度量型元学习框架构建,在已学习的度量空间中通过比较样本间距离实现分类目标。文本信息 (即语义表达)被纳入其中以提升分类性能。

2、algorithm

在AM3中引入了基于度量的自监督学习框架,并结合预训练词嵌入模型W提取的语言特征,在所有类别中包含了label embeddings。考虑到引入了类别嵌体后,在每个类中重新定义了类别原型表示(prototype representation)。从图1可以看出AM3通过将视觉特性和语义信息以凸组合的方式整合形成了最终的类原型参数化表示为:

其中:

对于每一个episode(片段)e,类c的嵌入原型

p_c

(即support set的均值,这里与原型网络设计一致)。

通过在给定的支持集上进行训练来实现分类任务的目标是以降低查询集样本预测误差为核心

在训练过程中与原始的原型网络具有相似性;然而,在这里采用的距离度量发生了变化;其中通过引入AM3技术增加了语义信息的融入;此时d被定义为查询点与跨模态原型之间的关系

p'_c

在某种度量下计算差异。上图(右侧)展示了AM3的工作流程;假设查询样本q属于类别i,在视觉特征上与q最接近的是

p_j

分别展示了(a)和(b),它们各自代表了每个类别对应的语义特征;当引入语义嵌入后,在此过程中AM3调整了各元学习器在空间域中的位置以实现(c);经过更新计算后发现与q最邻近的那个元学习器属于类别i

算法流程为:

3、experiments

该研究分别针对miniImageNet、tieredImageNet(涉及少量样本学习)以及CUB-200(零样本学习)这几个领域展开实验分析。研究结果显示,在这些数据集上的测试中,AM3展现出卓越的性能。其结构简洁且具备良好的可扩展性。通过实验证明,在零样本学习框架下应用基于度量的方法显著提升了性能。其余详细的内容见原文。

总结:

看完整片文章后可知, AM3的主要优势在于,在基于原型网络构建起语义与视觉信息融合的基础之上, 从而形成了一种具有自我适应性的模型架构, 特别在样本数据有限的情况下

ambda _c

较小,文本信息占主要地位,当

ambda _c

较大时,视觉信息占主要地位。

全部评论 (0)

还没有任何评论哟~