（AM3）Adaptive Cross-Modal Few-shot Learning 论文笔记

阅读量：

前言

本文提出了一种利用跨模式（cross-modal）信息（视觉特征和语义特征）来增强基于度量的小样本学习的方法。

一般来说，当来自视觉模式的数据有限时，利用辅助模式的数据（属性，未被标记的文本语料库等）也可以帮助进行图像分类，这种方法在零样本学习 中使用的特别多。在训练时，会通过模式对齐（modality-alignment）将视觉模式与辅助模式的数据映射到一块儿，从而迫使它们具有相同的语义结构。这样，辅助模式的数据就可以在测试时转移到视觉方面，从而能够识别新类。

但是，视觉和语义特征空间的结构是不同的，比如，对于某些物体来说，视觉特征可能会更加丰富，并且与文本相比更具有辨识性。如Figure 1所示，在分界线左边的图中，一些类可能在视觉上是相似的，但它们的语义特征是完全不同的；在右边的图中，具有相同语义特征的物体在视觉上却相差很大：
在这里插入图片描述
而且，当来自视觉模式的图像样本很少时，它提供的信息可能很片面并且含有噪声；而语义表示可以作为一种通用的先验知识来帮助网络进行学习。因此，在小样本学习中，与其将两种模式的数据进行对齐（将语义信息转换为视觉方面的数据），不如将两者看成是两种独立的知识，并且根据不同的场景自适应地对它们进行混合，以达到最优效果。由此，本文提出AM3（Adaptive Modality Mixture Mechanism），它能够自适应并且有选择地结合两种模式（视觉和语义）的信息，来进行小样本学习。

AM3是建立在基于度量的元学习之上的方法。在基于度量的元学习方法中，通过从视觉数据中学习得到一个度量空间，然后在该空间中通过比较距离来进行分类。而AM3在此基础之上，利用文本信息来进一步提升分类准确度。AM3能够利用视觉空间和语义空间中的优点，并根据场景的不同对两者的侧重程度进行调整。 比如在Figure 1左边的图中，AM3会更关注语义模式以得到通用上下文信息；在右边的图中，AM3会更关注视觉模式以获取局部视觉特征。

方法实现

在这里插入图片描述
上图是AM3模型的整体结构。在AM3中，通过扩展基于度量的小样本学习方法来整合语义结构，该语义结构是通过word-embedding模型WW得到的，它包括Dtrain⋃DtestD_{train} \bigcup D_{test}中所有类别的label embedding。在AM3中采用了一种新的原型表示，即视觉和语义特征表示的凸组合（convex combination） ，也就是说，在计算类原型时，除了考虑视觉特征，还要将语义特征也融合进来。对于类cc，新的原型可以被计算为：
在这里插入图片描述
其中λc\lambda_c是自适应混合系数（adaptive mixture coefficien），wc=g(ec)w_c=g(e_c)是对类cc的label embedding的一个转换，ece_c是WW中类cc的word embedding。由θg\theta_g进行参数化的转换gg：Rnw→Rnp\Bbb R^{n_w} \to \Bbb R^{n_p}，确保两种模式都位于相同维度的空间Rnp\Bbb R^{n_p}上，并且可以组合。也就是说，通过转换gg将word embedding转换为与pcp_c具有相同维度的语义原型wcw_c，使两者可以结合。

系数λc\lambda_c以语义label embedding为条件：
在这里插入图片描述
其中hh是自适应混合网络（adaptive mixing network），参数是θh\theta_h。

AM3的训练过程和原型网络的类似，只是AM3中的dd变为query和新原型pc′p^{'}_c之间的距离：
在这里插入图片描述

上图说明了AM3的工作流程。假设query qq的类别是ii，在图（a）中，离qq最近的视觉原型是pjp_j；在图（b）中，得到了三个语义原型wiw_i，wjw_j和wkw_k；在图（c）中，利用AM3修改了每个类的原型的位置，得到了新的原型；在图（d）中，经过更新后，离qq最近的原型变成了pi′p^{'}_i，与qq的类别是相同的，从而得到正确的分类结果。

结论

本文提出的AM3其实是对原型网络的改进，在计算原型时将语义特征也考虑了进来，从而实现自适应地利用跨模式信息，来进行小样本学习。视觉原型pcp_c的计算和原始原型网络中的相同，语义原型wcw_c是对word embedding的一个转换，然后利用自适应混合系数λc\lambda_c计算新的原型pc′p^{'}_c，根据这个新的原型来进行分类。

全部评论 (0)

还没有任何评论哟~

（AM3）Adaptive Cross-Modal Few-shot Learning 论文笔记

前言本文提出了一种利用跨模式（crossmodal）信息（视觉特征和语义特征）来增强基于度量的小样本学习的方法。一般来说，当来自视觉模式的数据有限时，利用辅助模式的数据（属性，未被标记的文本语料库...

【论文阅读一】Adaptive Cross-Modal Few-shot Learning

1、introduction 这篇文章提出了一种将语义与视觉知识相结合的自适应的crossmodal。视觉和语义特征空间根据定义具有不同的结构。对于某些概念，视觉特征可能比文本特征更丰富，更具辨别力。

[论文笔记] Domain-Adaptive Few-Shot Learning

原文链接：https://openaccess.thecvf.com/content/WACV2021/papers/ZhaoDomainAdaptiveFewShotLearningWACV2021...

论文笔记：Cross-Modulation Networks For Few-Shot Learning

这两天读完的一篇论文,UniversitatAutònomadeBarcelona和GoogleBrain对小样本学习的研究,已被NIPS2018WorkshoponMetaLearning接收。其中...

【论文笔记】Multimodal Cross-Domain Few-Shot Learning for Egocentric Action Recognition

🍎个人主页：小嗷犬的个人主页 🍊个人网站：小嗷犬的技术小站 🥭个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。基本信息标题:MultimodalCrossDomainFewSh...

【论文笔记】Interventional Few-Shot Learning

概述目前流行的metalearning、finetuning等小样本学习方法都利用外部知识进行预训练，以使模型在小样本上有好的效果。而预训练知识很可能会成为影响样本特征与标签之间的关系的混杂因素，使...

论文阅读Adaptive Subspaces for Few-Shot Learning

论文阅读：AdaptiveSubspacesforFewShotLearning 论文代码这是一篇2020cvpr的一篇关于少数样本学习的论文，它主要是跟2017年的PrototypicalNet...

《Adaptive Subspaces for Few-Shot Learning 》学习笔记

贡献:使用子空间来扩展现有的动态分类器。在训练过程中，引入了一种鼓励子空间之间最大差别的判别性公式，进一步提高了性能。表示类c的子空间的基可以通过矩阵分解，如奇异值分解SVD得到。子空间的分类方法之...

Meta-Transfer Learning for Few-Shot Learning 论文笔记

前言元学习（metalearning）是目前广泛使用的处理小样本学习问题的方法，它的目的是在学习不同任务的过程中积累经验，从而使得模型能够快速适应新任务。比如在MAML（ModelAgnosticM...

Meta-Learning Triplet Network with Adaptive Margins for Few-Shot Named Entity Recognition 论文笔记

中文题目：带有自适应边际的元学习三联网络用于小样本命名实体的识别论文链接：<https://arxiv.org/abs/2302.07739 github:<https://github.com/h...

是否确定退出登录?

（AM3）Adaptive Cross-Modal Few-shot Learning 论文笔记

前言

方法实现

结论

全部评论 (0)

相关文章推荐

（AM3）Adaptive Cross-Modal Few-shot Learning 论文笔记

【论文阅读一】Adaptive Cross-Modal Few-shot Learning

[论文笔记] Domain-Adaptive Few-Shot Learning

论文笔记：Cross-Modulation Networks For Few-Shot Learning

【论文笔记】Multimodal Cross-Domain Few-Shot Learning for Egocentric Action Recognition

【论文笔记】Interventional Few-Shot Learning

论文阅读Adaptive Subspaces for Few-Shot Learning

《Adaptive Subspaces for Few-Shot Learning 》学习笔记

Meta-Transfer Learning for Few-Shot Learning 论文笔记

Meta-Learning Triplet Network with Adaptive Margins for Few-Shot Named Entity Recognition 论文笔记