论文阅读:A New Meta-Baseline for Few-Shot Learning
小样本分类中的元学习:一种基于预训练的高效框架
摘要
本文提出了一种名为Meta-Baseline的小样本分类元学习方法,旨在通过结合预训练和优化策略提升模型性能。该方法分为两个阶段:预训练阶段 和 元学习阶段。
预训练阶段:
- 使用分类器-基线(Classifier-Baseline)方法在所有基类上进行预训练。
- 删除最后一个全连接层(FC layer),生成编码器 f_\theta ,将输入映射到特征空间。
元学习阶段:- 在每个任务中采样支持集(包含每个类的K个样本)和查询集(包含Q个未标记样本)。
- 计算支持集中每个类的质心表示,并使用余弦相似度对查询集进行分类。
- 引入缩放因子 \tau 以优化余弦相似度的缩放参数。
实验结果表明:
Meta-Baseline在miniImageNet、tieredImageNet和Image Net-800等基准数据集上显著优于现有方法。
基类泛化性能有所提升,但新类泛化性能下降较快。
预先训练的表示具有更好的可转移性,并且使用平方欧氏距离作为目标函数可能限制性能提升。
从零开始训练的Meta-Baseline虽然提升了基类泛化性能,但新类泛化性能下降明显。
此外,文章分析了影响因素:
类相似性:新类与基类越相似,元学习效果越好。
数据集规模:较大规模的数据集可能削弱元学习效果。
样本数量:增加样本数可能减少元学习的优势。
主干大小:深层骨干(如ResNet)有助于提升性能。
结论指出Meta-Baseline为小样本分类提供了一个简单有效的解决方案,并为未来研究提供了新的方向。
思维导图

基本概念:
(1) meta-learning
元学习体系是一种自我优化机制,在机器智能领域具有重要应用价值。传统的深度神经网络架构旨在通过训练建立一个能够预测结果的数学表达式。与之不同的是,在元学习框架下关注的是优化过程本身。具体而言,在这种体系中我们主要关注的是训练机制的设计以及算法参数的有效配置,并非直接针对最终要解决的具体问题本身。而其核心目标则是通过不断迭代优化来提升整体收敛速度。
以一个现实生活的案例说明,在教授小朋友英语时,我们可以让他们模仿苹果和香蕉的发音。然而,在随后的学习中他们会遇到新的单词例如strawberry这时需要我们重新示范正确的发音过程。通过掌握音标发音规则后孩子们就能在听到新单词时自行应用这些规则从而正确地读出每一个单词。而这个过程——即从具体到抽象的学习方法——正是元学习的重要体现。
在深度学习领域中,现有的多种元学习模型主要可分为三类:一是掌握高效率权重初始化方案的方法;二是能够生成其他模型参数的元模型;三是可转移优化器。其中一类是MAML方法。该方法通过掌握高质量的权重初始化方案,在小规模训练数据下能够快速适应新任务并完成微调过程。
(2) model-agnostic
该方法与现有主流深度学习框架不同之处在于它不依赖特定于某类别的模型架构(model-agnostic)。MAML与其被描述为一个深度学习模型的说法并不完全准确——与其说它是一个复杂的算法框架(framework),不如说它是一个元学习器(meta-learner),通过提供一个元学习者来训练基础学习器(base-learner)。这里的元学习器即为MAML的核心理念——通过"学习到学习"(learning to learn)实现高效的学习机制;而基础学习器则是在目标特定数据集上经过训练并实际用于执行预测任务的真正数学模型。绝大多数现有的深度学习方法都可以作为基础学习器无缝整合到MAML框架中去,并且值得注意的是,在强化学习领域(reinforcement learning)中也可以找到其应用实例——这就是该方法所体现出来的"model-agnostic"特性。
(3) N-way K-shot
在few-shot learning中常用于评估模型性能的实验设置主要包含两部分:一部分是针对分类任务的数据集划分方式(即N-way),另一部分则是对每类样本数量的限定(即K-shot)。具体而言,在few-shot learning场景下,我们通常会从多个类别(即N-way)中选取一定数量的样本(即K shots)进行学习和推理任务。这种设计不仅能够有效缓解标注数据获取的高成本问题,并且也为研究者提供了探索高效学习机制的重要工具。
1、介绍
该论文系统性地探讨并提出了元基线 (Meta-Baseline)方法。具体而言,在所有基类(base classes)上进行了预先训练,并在此基础上结合基于最近质心的少样本(few-shot)分类算法开展元学习工作。经过实证检验发现, 该方法在实验结果方面显著超越了现有最先进水平的方法(SOTA)。
该方法最早由Fei-Fei团队于2006年以及Vinyals团队于2016年分别提出。该方法最初面临的主要挑战在于直接面对大量参数而仅有少量训练样本来建立有效的模型存在诸多困难,并且可能导致严重的过拟合问题。为了克服这一困境,在实际应用中一种常见的解决方案是采用迁移学习策略。具体而言,我们通常首先在具备充足数据的基础类别(基准类)上训练深度模型,然后将已有的知识转移至仅依赖少数几个实例的新类别进行进一步优化。
元学习框架的小样本学习基于学会学习的核心理念。具体而言,该方法通过从基类的训练样本中抽取有限的学习任务,并对模型进行优化以使其在这些特定的任务上表现出色。一个典型的学习任务一般采用N-way和K-shot的形式,其中包括多个类别,并在每一个类别中有一定数量的支持样本来构成训练集以及若干数量的查询样本来构成验证集。(其中涉及以下两种主要形式:一种是将所有分类问题划分为多个类别的情况——即为N-way分类;另一种是在每个主要类别下又划分为若干子类别的情况——即为K-shot分组)。
该文提出了一种基线分类器(Classifier-Baseline),其基本思路是在基础模型上进行预先训练以学习视觉表示特征,并通过删除全连接层(FC)来减少对类别标签的依赖性。具体而言,在处理新引入的小样本类别时,我们首先计算每类样本的均值特征向量;然后利用特征空间中的余弦相似度作为度量基准;最后将查询样本(即验证集)映射到该特征空间中进行识别与分类操作——这一过程本质上等同于估计新类别的最终全连接层权重参数;值得注意的是,在这种设计下无需为新类别重新优化参数即可实现性能超越现有最优方法(SOTA)。
随后研究者尝试通过元学习优化这一基线模型;其方法框架被称为元学习增强型基线模型(Meta-Beaseline)。该框架的基本流程是:首先基于已有的基线模型构建初始参数设置;然后利用余弦最近轮廓度量作为评估标准来进行元学习训练;这种设计在一定程度上继承并扩展了原基线模型的优势特性。
通过实验结果表明,在评估Meta-baseline的效果时, 我们发现其显著提升了分类器-基线(Clssififier-Baseline)的性能表现

此外,在这一研究阶段中也发现了模型在测试阶段中的性能有所下降。特别是在元学习环境下对模型的泛化能力进行了系统性分析,并考察了两种主要的泛化策略。
- 基于不可见数据的小样本分类能力是基类panorama的核心概念;它基于现有的panorama理论框架构建而来,并在此基础上提出了独特的定义。
- 新类别在小样本分类任务上的迁移性能被称为new-way panorama;通过实验结果可以看出这种迁移性能能够有效支持跨类别学习的过程。
虽然Meta-Baseline正在改进基类泛化,但它的新类泛化在降低,这表明:
在元学习阶段可能存在一个客观存在的差异, 改进基类泛化反而可能导致新类泛化的性能下降。
因模型在元学习之前进行了预训练, 分类前的额外训练可能为元学习模型带来了可转移性。
如果新类与基类之间相似度更高, 则元学习相对于基于分类符-基线的方法会有更大的优势。
贡献如下:
开发出了一个简单的Meta-Baseline方法,在结合分类预训练与元学习优势的同时,在性能上显著超越了现有基准水平。
发现存在基类与新类泛化能力之间显著的不一致性,并可能涉及元学习中的关键挑战问题。
深入探讨了数据集特性(包括类别相似度与尺度)以及模型架构要素(如大小)对元学习相较于传统分类器性能提升的影响因素。
2、相关工作
用于小样本学习的元学习架构,大致可以是分为三种主要类型:
- 依赖记忆的元学习方法:其核心理念在于通过训练具有记忆能力的元学习器来掌握新概念。(LSTM)
- 在元学习框架内区分优化过程与支撑集:这是基于优化方法的主要思路。
- 依赖度量的元学习方法:除了注重动态 learning 过程之外,在特征空间中建立了度量化的深度表示来进行(匹配网络、原型网络)。
3、方法
3.1 问题定义
小样本分类:基于标记数据集D_{base},该研究假定每个类别包含大量图像。目标在于从未标记实例中学习新类别C_{novel}的概念分布,在特定条件下实现精确分类任务。(其中假设条件包括:1)类别间互斥性(C_{base}∩C_{novel}=∅);2)训练规模受限(N-way指训练集中有N个类别;K-shot指每类仅标注K个样本)。在此设定下,在一个包含N×K训练样例的小样本学习任务中:- 支持集合由来自每个类的前K个样本组成;- 查询集合则由每类中的Q个未标注样本组成。研究目标即为将所有查询实例正确归类至对应的目标类别中。)
3.2 分类器-基线
分类器-基线基于所有基类进行训练,并采用余弦最近质心方法处理小样本任务。具体而言,在所有具备标准交叉熵损失的基类上经过训练后获得一个分类器模型,在去除其最后一个全连接层(FC)后得到编码器fθ(theta),该编码器将输入数据映射至特征空间中。对于一个小样本任务来说,在支持集S中选取c类的小样本数据集Sc时(即假设Sc代表c类的小样本),我们可以计算出每个类别对应的平均特征向量W_c作为其质心:即通过计算每个类别支持样例的平均特征值来确定该类别质心的位置。

然后,在小型任务中对查询样本x进行处理时,我们估计其落入c类的概率,并将其特征向量与该类别质心的余弦相似度计算为该特征向量与质心的余弦相似度:

其中<.,.>表示两个向量的cosine similarity(余弦相似度)。值得注意的是,在这种情况下,Wc 也可以被视为该层在预测新概念时所赋予的权重系数
3.3. Meta-Baseline
一般来说,Meta-Baseline包含两个训练阶段。
本研究的第一阶段为预训练阶段,在该过程中采用基于前向传播的深度学习模型进行学习操作。具体而言,在每个基础模型的基础上构建全连接层,并通过逐层递减的方式消除冗余特征。
在第二阶段中进行元学习过程 ,将基类数据划分为多个子任务(tasks)。在此过程中,在每个子任务中使用fθ函数对支持集(support-set)进行编码,并计算每类的平均特征向量表达式(如公式1所示)。与此同时,并完成查询集(query-set)的编码操作。随后,通过公式2计算查询集与支持集之间的余弦相似度,并通过Softmax函数实现分类目标。
基于基准分类器体系结构,在分类器-基线评估算法上的模型参数优化过程。具体而言,在预先训练的特征编码器fθ基础上,在基类中的训练数据中提取了每个类别中的K个示例问题实例(每个问题实例包含Q个查询样本)。
在支持集中定义了N个类的质心后,在方程1中进行计算。接着,在方程2中利用这些质心来分别对查询集内的每个样本进行预测概率分布建模。该损失基于p与查询集内样本标签之间的交叉熵进行计算。特别注意的是,在训练过程中将每个任务视为独立的数据点处理,并将同一批次中所有任务的损失进行平均。

图2展示了两种分类器设计:基线型和改进型Meta-基线架构。在传统的Classifier-Baseline设置中,我们首先建立一个预训练分类模型,并通过去除其最后一个全连接层(FC层)来提取编码器fθ。接着,在面对小样本学习任务时,我们计算了支持集中各类别样本的平均特征向量,并采用基于余弦相似度的质心分类策略对查询集中的测试样本进行识别。而在改进型Meta-Baseline架构中,则进一步采用了图像化的方法对预先训练的基础分类器进行了优化,并引入了一个缩放因子τ以调节余弦相似度计算过程中的权重分配。
缩放余弦相似度
batch size,class_ num
考虑到余弦相似度的取值范围包含在[-1,1]区间内,在深度学习模型中使用它来计算logits(即未经过归一化的预测概率)时,在Softmax函数作用之前必须对其进行缩放处理。这是因为将该值输入到Softmax函数中会直接得到概率输出结果(即类别预测概率),而这一过程通常由全连接层完成,并将结果传递给 Softmax 函数进行归一化处理以确保所有类别的概率之和为1。例如,在分类任务中我们通常希望得到一个类别级别的概率输出结果而不是直接的概率值。因此,在模型构建过程中必须明确区分并正确应用这些概念: logits 是指经过全连接层处理但尚未归一化的预测结果;而 Softmax 函数则负责将 logits 转换为真正的概率分布输出以供后续使用

相比于(2)添加了一个可学习参数 τ。
4、实验
4.1 数据集
miniImageNet数据集(Vinyals等研究者于2016年提出)被视为小样本学习的标准基准。它由ILSVRC-2012中抽取了来自不同类别(共1796个类别)的数据,并将其随机划分为训练集(64个类别)、验证集(16个类别)和测试集(20个类别)。每个分类组均包含了总共6,337张图像,并且每张图像的尺寸均为84\times 84像素。我们的研究参考了Lee等人的工作。
tieredImageNet(Ren等人, 2018)是一项作为ILSVRC-2012子集而建立的大型通用基准系统,其覆盖范围更为广泛.具体而言,该基准系统包含了34个大类中的608个小分类.随后划分为三个层次:分别为训练(351)、验证(97)及测试(160)的数据集.所有图像均为84 \times 84像素尺寸.值得注意的是,在此划分方式下,基础分类与新增分类均源自不同大类范畴,由此带来了更高的难度.
我们在此基础上开发出一个新的数据集命名为Image Net-800,并将其用于性能评估。该数据集源自于ILSVRC 2012年的大规模分类任务,并通过随机分割的方式筛选出其中的87%作为基础类别(共874个),剩余约3%则被归为新类别(共约34个)。这些基础类别包含了来自原始训练集合的所有图像样本;而新类别则由原始验证集合中的图片组成。为了确保系统的可靠性和可比性,在后续实验中我们参考了He等人在该领域的工作(He等, 2016)所提出的设置标准。值得注意的是,在该数据集中并未进行传统的验证集划分;相反地,在这种设计下各类别间的差异可能会影响客观评估结果的表现。
4.2. 实现细节
我们采用了 miniImage Net 和 tiered Image Net 作为实验数据集,并基于 Resnet−12 进行训练;此外,在 Image Net 800 数据集中也进行了 Resnet−18 和 Resnet−50 模型的训练。
在训练初期阶段, 我们采用了动量为0.9的SGD优化算法, 初始学习速率为0.1, 并按指数衰减至最终值为0.1.
在MiniImageNet数据集上进行深度学习训练时,在使用4个GPU并采用批量大小为128的方法的情况下,在经过90个epoch后对学习速率进行了衰减。
基于tieredImageNet数据集,在利用4个GPU进行批处理训练的情况下,在每个epoch的批量大小设定为512的情况下,并行计算了总计120次批量处理;此外,在第40和80个epoch时对学习率进行了衰减。
基于Image Net-800平台,在本研究中我们设置了批量处理规模为256的8个GPU并行训练任务,并进行了总共90个epoch的训练。在此过程中,学习速率在第30和60个阶段进行了降学习率操作。
ResNet-12的重量衰减为0.0005,ResNet-18或ResNet-50的重量衰减为0.0001。
在元学习阶段中, 我们采用动量因子为α= 9/1的随机梯度下降(SGD)优化器, 并将固定的学习率设置为η= 1×1e^{-3}. 每个训练批次包含4个子任务, 这些子任务用于计算平均损失函数. 余弦缩放参数τ被设定初始值τ_{init}= 1.
4.3. 标准基准的结果
基于标准配置,在miniImageNet和tieredImageNet上展开实验研究后发现,实验结果包括表1和表2的数据展示。

对比以往的研究者,在miniImageNet数据集上进行实验比较。实验结果表明,在五个类别上的准确率均达到95%以上的置信水平。注:其中DropBlock方法最早由Ghias等人在2018年提出[1];而标签平滑则是一种常见的正则化技巧。
在95%置信度下(其中95%被视为置信水平),从总体中抽取每一个样本时,均可计算出对应的95%置信区间。这些区间可能会因样本的不同而有所差异。然而,在实际操作中,当抽取样本数量逐渐增加时(例如达到100次),预计约有95个对应的置信区间能够包含总体的真实均值。
数学公式...原样保留

为了进一步证实这些改进不仅源于对N-wayK-shot任务的专业化, 我们构建了一个单类K-shot子任务, 用于对比评估Classifier-Baseline与Meta-Baseline的表现差异。 在该子任务中, 支持集由类c的K个样例构成, 而查询集则包含了类c与c0的两个不同类别各提供K个样例, 我们将AUC(基于ROC曲线计算的面积)分数作为查询样本二元分类性能的重要指标进行评估。 见表3中的结果, 研究发现元学习阶段的表现依然优于传统方法, 这表明元学习策略在处理小样本数据方面具有有效性

本研究在规模较大的数据集上对Image Net-800方法进行了进一步评估。通过观察在该规模实验中的表现, 我们注意到, 冻结批量归一化层(Ioffe&Szegedy, 2015)确实具有一定的优势, 如表4所示。通过分析实验结果, 在这个大型数据集上, 单样本Meta增强显著地提升了分类器性能, 尽管如此, 在该分类器上的性能提升并未达到预期目标。

4.4. 为什么测试性能下降很快?
然而,在元学习阶段的表现仍显不足。尽管有观点认为过拟合可能是导致这一现象的原因,并经观察发现,在更大规模的数据集上该问题并未得到显著改善。为此,我们开发了评估框架来系统性地分析这两方面的表现。具体而言,在度量基类panization的过程中, 模型是从不可见图像中随机采样任务进行训练的。相比之下, 在分析new class panization时, 则关注于从每个new类别中抽取的小样本任务的表现情况。
图3详细描绘了在miniImageNet和tieredImageNet上实施的Meta-Baseline训练过程。
在元学习阶段中发现:当基类泛化性能提升时,
模型对目标任务的学习效率显著提高。
伴随之的是新类别的泛化能力迅速下降。
此外,在Image Net-800数据集上的实验结果与前文发现的一致,
如图1b所示的部分结果进一步验证了这一现象。
这种现象可能源于元学习模型在处理基类任务时表现出的高度专门化特征,
即元学习模型在基类上迅速变得特定,
这对新类别产生了负面影响。


4.5. 预训练的重要性
从另一个角度来看,在深入分析了性能下降现象后,
我们的研究表明:预先训练的分类器在元学习阶段具备向基类到新类迁移的能力。
为此,在这项研究中,
我们将重新进行元学习实验,并将结果与现有方法进行对比分析。
基于Mini-imagenet平台, 我们采用自定义优化流程对原始模型进行训练, 并从中筛选出最佳的小样本分类性能周期, 分别针对1-邻近和5-邻近分类任务进行评估. 为了全面分析不同优化策略的影响, 我们将所选优化周期与其基准模型下的优化策略进行了对比分析(如表5所示). 实验结果表明, 虽然仅基于原始数据进行微调的传统方法能够实现更高的基类泛化能力, 但在新类别学习任务上的表现却明显落后于经过预训练优化后的版本.

4.6 继承一个好的度量的重要性
在 prototypical network (Snell et al., 2017)中, 原始作者建议将平方欧氏距离设定为空间表示的目标函数. 本研究则采用平方欧氏距离替代传统方法中的余弦相似度进行性能评估. 为了确保公平对比, 我们引入了缩放参数τ(初始值为0.1)对原有方法进行改进. 表6展示了实验结果. 需要指出的是, 分类器-基线(基于欧几里得度量)是指在不改变原始表示的前提下, 使用平方欧几里得距离对分类器-基线进行评估的过程. 经过分析发现, 余弦距离在预训练元基线模型上表现更为优异. 这一现象的一个可能解释是: 预训练表示能够更有效地支持小样本条件下基于余弦相似度的任务学习; 当元基线采用与分类器-基线一致的距离度量时, 其能够更好地复用已有的表示资源, 并展现出更强的知识迁移能力, 因为这种设置所需的优化调整相对较少, 因此知识迁移能力也较之前有所提升
4.7. 我们什么时候需要元学习?
为了解答这一问题而开展消融研究, 我们从tieredImageNet中构建了四个变体, 其具体架构可在表8中找到。其中, 全层定义为初始化时通过重排tieredImageNet中的类别并将其划分为训练、验证和测试数据集。具体而言, 小层次及其对应的缓冲区则基于全层次与全部缓冲区构建, 而这些小层次的训练数据集是由随机选取64个类别组成的完整集合, 每个类别包含600幅图像; 与此同时, 验证集与测试集的数据保持不变。

一些影响因素:
1、类相似性。
基于我们进行的一系列观察实验,在这些实验中发现基类在实验中的泛化能力持续提升。当新类别与基类别高度相关时,在这种情况下其子类别的泛化性能s也会持续增强。由此推测,在元学习过程中类别间的相似性可能是影响模型性能提升的关键因素之一。通过表7的数据可以看出,在较小粒度层次至较小子缓冲区域之间以及在较大粒度层次至较大缓冲区域之间所获得的元学习效果提升幅度相对较高

2、数据集规模。
在表7中又发现了一个有趣的现象:从微调模型向全模型过渡过程中以及从微调模型向全缓冲模型过渡过程中,在数据量增大时元学习性能的提升幅度显著下降。尽管这种性能下降的现象一定程度上可以归因于在较高精度下优化空间相对受限,但另一个可能的原因在于,在处理大规模数据时预先训练得到的分类器能够提取出更具通用性的特征,在元学习阶段这一特性容易被破坏。
3、样本数量。
根据我们在表1、2、4和7中的实验结果表明,在5组样本中元学习阶段的表现显著弱于单组样本的表现。我们推测这一现象可能源于当样本数量增加时,平均特征被用作分类器-基线类中心的一种更为稳健的选择。因此元学习的效果相对下降了。
4、主干大小。
在图1a中发现,在使用基准分类器(classifier-baseline)时表现优于自监督学习方法(meta-learning from scratch)。值得注意的是,在浅层主干网络ConvNet-4中该现象并不显著出现,并且基于深度骨架的ResNet可能对方法性能产生影响。

5. Meta-Dataset的其他结果
Meta-Dataset(Triantafillou等学者, 2019年)被提议为一种针对小样本学习的基础框架,它由一组用于训练与评估的数据集构成。该研究采用ResNet-18作为基础网络结构,并设定原始图像尺寸为126×126像素,随后将输入网络前的图像调整至统一的128×128像素尺寸以适应后续处理需求。在预训练阶段,我们采用了与Image Net-800类似的常规训练策略进行参数优化,而对于元学习阶段的具体而言,则经过5000次迭代更新以完成模型参数的优化过程

表9左侧专有地展示了仅在ILSVRC-2012中使用的数据集所训练的模型。我们观察到,在这种情况下,默认分类器基线超越了先前的方法。实验结果表明,在这种设置下,Meta-Baseline未超越分类器基线可能是因为较高的平均样本数量导致了这一现象
表9右侧呈现了模型在各数据集上的训练结果(未包含交通标志和MSCOCOCO无样本的数据)。基于多数据集预训练的有效性(即),该分类器设计了一种统一的学习框架(通过结合编码器与多个全连接层)。此框架旨在模仿单一同源视觉基准(ILSVRC)下的学习过程(见表9左侧对比)。实验结果显示,在模拟ILSVRC学习任务的过程中(见表9右侧对比),尽管ILSVRC表现得更为优秀(见表9左侧对比),但我们观察到虽然ILSVRC性能更好(见表9左侧对比),但其他数据集上的性能则普遍较低的原因在于这些数据集中存在足够的样本支持(见表9右侧对比)。
6、结论
我们开发了一种简洁有效的单镜头学习方案,并命名为Meta-Baseline。该方案在性能上显著超越了当前最先进的方法,并在小样本分类领域奠定了新的基准水平。尽管近年来提出了多种元学习方法,并有若干研究者认为单一预训练分类器足以应对小样本学习任务;然而我们的Meta-Baseline则展现出双重优势:首先具备预训练能力;其次包含元学习特性;研究表明,在实现强大的性能方面这两点缺一不可:具体而言,在预训练阶段积累良好的少量样本分类度量对于提升模型泛化能力至关重要;这不仅有助于提高模型对已有知识的学习效率;更能增强其类间迁移能力
参考:
<>
https://www.cnblogs.com/king-lps/p/12785209.html
https://zhuanlan.zhihu.com/p/113293092
论文翻译版本:
<>
