(AM3)Adaptive Cross-Modal Few-shot Learning 论文笔记
前言
本文提出了一种利用跨模式(cross-modal)信息(视觉特征和语义特征)来增强基于度量的小样本学习的方法。
一般来说,当来自视觉模式的数据有限时,利用辅助模式的数据(属性,未被标记的文本语料库等)也可以帮助进行图像分类,这种方法在零样本学习 中使用的特别多。在训练时,会通过模式对齐(modality-alignment)将视觉模式与辅助模式的数据映射到一块儿,从而迫使它们具有相同的语义结构。这样,辅助模式的数据就可以在测试时转移到视觉方面,从而能够识别新类。
但是,视觉和语义特征空间的结构是不同的,比如,对于某些物体来说,视觉特征可能会更加丰富,并且与文本相比更具有辨识性。如Figure 1所示,在分界线左边的图中,一些类可能在视觉上是相似的,但它们的语义特征是完全不同的;在右边的图中,具有相同语义特征的物体在视觉上却相差很大:

而且,当来自视觉模式的图像样本很少时,它提供的信息可能很片面并且含有噪声;而语义表示可以作为一种通用的先验知识来帮助网络进行学习。因此,在小样本学习中,与其将两种模式的数据进行对齐(将语义信息转换为视觉方面的数据),不如将两者看成是两种独立的知识,并且根据不同的场景自适应地对它们进行混合,以达到最优效果。由此,本文提出AM3(Adaptive Modality Mixture Mechanism),它能够自适应并且有选择地结合两种模式(视觉和语义)的信息,来进行小样本学习。
AM3是建立在基于度量的元学习之上的方法。在基于度量的元学习方法中,通过从视觉数据中学习得到一个度量空间,然后在该空间中通过比较距离来进行分类。而AM3在此基础之上,利用文本信息来进一步提升分类准确度。AM3能够利用视觉空间和语义空间中的优点,并根据场景的不同对两者的侧重程度进行调整。 比如在Figure 1左边的图中,AM3会更关注语义模式以得到通用上下文信息;在右边的图中,AM3会更关注视觉模式以获取局部视觉特征。
方法实现

上图是AM3模型的整体结构。在AM3中,通过扩展基于度量的小样本学习方法来整合语义结构,该语义结构是通过word-embedding模型WW得到的,它包括Dtrain⋃DtestD_{train} \bigcup D_{test}中所有类别的label embedding。在AM3中采用了一种新的原型表示,即视觉和语义特征表示的凸组合(convex combination) ,也就是说,在计算类原型时,除了考虑视觉特征,还要将语义特征也融合进来。对于类cc,新的原型可以被计算为:

其中λc\lambda_c是自适应混合系数(adaptive mixture coefficien),wc=g(ec)w_c=g(e_c)是对类cc的label embedding的一个转换,ece_c是WW中类cc的word embedding。由θg\theta_g进行参数化的转换gg:Rnw→Rnp\Bbb R^{n_w} \to \Bbb R^{n_p},确保两种模式都位于相同维度的空间Rnp\Bbb R^{n_p}上,并且可以组合。也就是说,通过转换gg将word embedding转换为与pcp_c具有相同维度的语义原型wcw_c,使两者可以结合。
系数λc\lambda_c以语义label embedding为条件:

其中hh是自适应混合网络(adaptive mixing network),参数是θh\theta_h。
AM3的训练过程和原型网络的类似,只是AM3中的dd变为query和新原型pc′p^{'}_c之间的距离:


上图说明了AM3的工作流程。假设query qq的类别是ii,在图(a)中,离qq最近的视觉原型是pjp_j;在图(b)中,得到了三个语义原型wiw_i,wjw_j和wkw_k;在图(c)中,利用AM3修改了每个类的原型的位置,得到了新的原型;在图(d)中,经过更新后,离qq最近的原型变成了pi′p^{'}_i,与qq的类别是相同的,从而得到正确的分类结果。
结论
本文提出的AM3其实是对原型网络的改进,在计算原型时将语义特征也考虑了进来,从而实现自适应地利用跨模式信息,来进行小样本学习。视觉原型pcp_c的计算和原始原型网络中的相同,语义原型wcw_c是对word embedding的一个转换,然后利用自适应混合系数λc\lambda_c计算新的原型pc′p^{'}_c,根据这个新的原型来进行分类。
