《Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks》 论文翻译笔记
元学习系列文章
基于优化的第一阶元学习算法深入解析
《基于优化的第一阶元学习算法》翻译笔记:本篇博客
不依赖模型架构的快速适应深度网络:MAML论文详述
MAML源码详述(一)与(二)
基于优化的第一阶Meta-Learning算法深入解析
以优化为框架的少样本学习研究:MAML相关工作进展
- metric based meta-learning: 待更新…
- model based meta-learning: 待更新…
这篇文章是对这篇论文 Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks的一个直译本。由于英语水平较为基础,在许多地方采用了直译的方式,并且由于英语水平有限,在许多地方采用了直译的方式(如有误漏之处,请多多指正)。如需进一步了解相关内容,请参考《元学习方向 optimization based meta learning 之 MAML论文详细解读》。
文章目录
Abstract
-
Introduction
2 Model-Agnostic Meta-Learning Framework
2.1 Meta-Learning Problem Formulation
2.2 A Model-Agnostic Meta-Learning Algorithm-
3 MAML 实例
-
- 3.1 有监督分类和回归任务
-
4.相关工作
- 5.实验评估
-
- 5.1 回归
-
5.2 分类
-
5.3 强化学习
- 6 讨论和未来的工作
-
摘要
该文章提出了一种无需特定模型假设的元学习方法。这种算法适用于任何能够通过梯度下降进行参数更新的模型结构,并且可以应用于分类任务、回归问题以及强化学习等多个应用场景。元学习的目标是通过大量多样化任务的学习,在不同场景中预先训练出通用模型。利用此预训练模型,在新任务的数据集上仅需少量样本即可完成初步训练。本文所提出的方法中已获得一组性能较好的参数配置,并基于这些优化后的参数,在新任务的数据集中仅需几轮梯度更新即可实现良好的泛化能力。我们的研究结果表明,在当前少样本学习领域的两个基准测试集——图片分类任务中的表现尤为突出;此外,在少样本回归问题以及策略梯度下的强化学习领域中也取得了令人满意的进展。
1.介绍
人类具备快速学习的能力。例如仅 exposure到少量样本即可分类识别或者通过短暂的学习周期掌握一项新技能。同样地,在人工智能领域中从少量样本中学习的同时能够迅速适应新的数据。随着样本数量的增加其适应性也会不断提升。为了实现这一目标人工智能系统必须能够有效地整合先前的知识与新输入的数据以避免在新数据上发生过拟合问题同时还能持续优化自身的性能水平。因此发展出一种能够动态平衡知识更新与性能优化的方法将有助于提升系统的泛化能力并使其更好地适应复杂多变的任务需求
本研究中,我们提出了一种无需依赖模型架构的通用型元学习方法。该算法适用于所有可能的学习任务,并且其对应的模型参数通过单次梯度下降更新获得。本文主要关注于深度神经网络领域,在此基础上我们展示了该方法如何能够灵活处理不同类型的网络架构以及多样的学习问题。例如,在分类、回归和策略梯度强化学习等方面均取得了良好效果。在元学习过程中,我们的目标是从有限样本中迅速适应新任务,并通过预训练阶段优化初始参数以提高泛化能力。与以往研究相比,在扩展模型参数或限定特定结构方面我们的方法更为灵活,并且能够与其他常见神经网络架构(如全连接网络和卷积网络)无缝衔接。此外,在损失函数方面也具备较强的适应性支持监督学习下的多种损失函数设计以及不可微强化学习目标函数优化工作
在极简的梯度更新次数内(即仅进行一两步更新),我们便能在新任务上获得良好表现;从特征空间的视角出发(即关注模型内部表示),我们可以设计适用于多任务学习的模型架构)。这种架构只需通过仅微调顶层结构即可实现快速适应(即无需重新训练整个网络)。实际上,在合适的学习框架下快速收敛是我们对这一过程的主要追求;而从动力学系统的角度而言(即关注损失函数对参数的变化敏感性),我们的算法设计目标正是让新任务损失对参数的变化最为敏感(当这种敏感度较高时),就能通过最小幅度的参数调整实现较大损失值变化。
这项工作的核心成果是提出一种无需依赖特定模型或任务的元学习算法。该算法通过训练初始参数使新任务只需有限次数梯度更新即可快速适应其特性。此方法具有广泛的适用性,在全连接网络、卷积神经网络等多种架构下均可应用,并覆盖跨领域的研究方向如监督分类、回归分析以及强化学习等多个关键领域。实验结果表明,在特定监督分类问题中与现有的最优少样本学习方法相比我们的方法仅使用较少的参数实现同样效果在处理可变性问题时表现出色并显著优于传统的预训练方法
2 Model-Agnostic Meta-Learning
我们的目标在于训练出能够迅速适应新环境的模型;这里的任务设定属于小样本学习的情境;在本节内容中将介绍我们的算法的整体架构,并详细阐述其工作原理。
2.1 元学习问题设定
小样本学习的主要目标是培养一个能够迅速完成特定任务的学习机制。该机制能够在有限的数据支持下快速完成适应过程,并以系统性优化的方式生成出来。因此经过过充分训练后的模型能够在面对新任务时仅依赖少量示例就能迅速完成适应过程。实际上,在元学习过程中将所有的 tasks 视为重要的训练数据来进行系统性优化工作。在本节内容中我们将介绍一种通用形式用于全面阐述元学习问题并涵盖多个不同领域的实例分析在此基础上我们将深入探讨两种主要的学习范式的内容安排将在下一节进行详细阐述
我们定义函数 f 作为模型,并使其接受输入样本 x 并生成输出 a。在元学习训练过程中(即模型经过特定优化步骤),该函数经过重新配置后能够迅速适应多种任务类型。鉴于我们的框架设计旨在适用于多个应用场景(如分类问题、强化学习等),为了便于后续介绍我们将重点放在通用的学习任务表示方法上:每个任务都可以通过指定特定的输入空间 X 和输出空间 Y 来描述。

其中L为损失函数(loss function),q(x_1)代表了初始观测x的经验分布(empirical distribution),而q(x_{t+1}|x_t, a_t)则表示状态转移概率分布(state transition probability distribution)。此外,在独立同分布(i.i.d.)监督学习问题中,默认将episodic长度设定为H=1。在这种情况下,在每一个时间步t时刻(time step),模型能够生成相应的序列输出(at),从而实现相应长度为H的任务目标。需要注意的是,在马尔可夫决策过程中(Markov Decision Process, MDP),损失函数L通常与任务的具体目标相关联(task-specific objective)。其具体的反馈形式既可以采用分类错误率(classification error)的形式来表现分类任务中的误差信息(error information),也可以采用基于马尔可夫决策过程的成本函数(cost function)来描述复杂的行为决策过程(decision-making process)。
在元学习的情境中,我们关注一个任务分布 P(T),旨在使模型能够适应这一分布.在 K-shot 学习的设置中,从概率分布 P(T) 中随机选取一个子任务 Ti,并从其相关的数据集 qi 中提取 K 个样本用于训练.模型基于这些样本生成评估该子任务 Ti 的损失函数 Lti,随后在此基础上进行测试.为了衡量模型对新数据的学习效果,我们关注其测试误差随参数变化的情况,以此来优化模型性能.具体而言,在整个训练过程中,所有子任务 Ti 上的平均测试误差构成了元学习阶段的关键指标.而在元学习的后期阶段,我们从原始的概率分布 P(T) 中重新采样一批新子任务,每个新子任务同样包含 K 个样本.通过基于这些新样本的学习过程,我们可以评估模型的整体性能表现.通常情况下,那些用于后续验证的任务也会包含在之前的元训练过程中.
2.2 一个模型无关的元学习算法
不同于以往的研究工作,在本研究中我们主要关注于将递归神经网络模型应用于全数据集上,并基于特征嵌入空间展开相关工作探讨(San- toro et al., 2016; Duan et al., 2016b)。在此过程中为了提高测试阶段的泛化能力我们采用非参数化方法(Vinyals et al., 2016; Koch, 2015)而本文则提出了一种新型元学习算法设计框架该方法能够在不依赖特定任务的情况下自动优化并适应各种标准模型参数的变化需求。这种设计的核心理念在于通过多层内部表示的学习机制使得算法能够捕捉到更具迁移价值的知识储备即在深度学习体系中某些潜在特征表示能够超越具体任务实现高度普适性的抽象表征提取过程从而实现性能提升
我们提出了一种明确的方法以解决这一问题:鉴于模型最终的目标是通过一次梯度下降更新来进行微调因此,在训练过程中我们采用这一规则来进行参数更新从而使该模型能够快速适应从中抽取的任务并避免出现过拟合现象。实际上我们致力于寻找一组对于任务变化较为敏感的参数集合这样当损失函数的梯度方向发生变化时参数的小幅度调整会对从中抽取的任务损失产生显著影响我们可以假设这些参数是由某种向量θ进行表示并且能够通过梯度下降方法进行更新

MAML 算法的示意图,旨在优化可以快速适应新任务的参数表示 θ
从形式上来看,在理论框架上我们假设存在一个基于参数θ的函数f(θ),其在引入一个新的任务Ti进行学习时会发生相应的变化。其中参数向量θ被更新为新的值θ_i'。在我们的方法中(如单步更新)这一过程通过一次或多次梯度下降(如单步更新)的过程进行优化,并且能够有效提升性能表现

步长 α 被视为元学习阶段的关键超参数,在本节后续讨论中我们假设仅限于单次梯度更新的情况,默认情况下可取值为1.0;然而采用多轮梯度更新则是一个直接而自然的延伸。
模型参数经过所有任务上 f_θi' 的优化过程而被更新;更详细地说, 元学习的目标就是最小化这些损失函数.

值得注意的是,在元学习阶段的优化工作主要集中在模型参数θ这一层面。然而我们的目标则是通过使用更新后的θ'来进行相关操作。具体而言,在实际应用中我们提出了一种方法,在面对新任务时只需进行一次或少数几次梯度更新即可对模型参数进行优化调整。这样可以在新任务中实现显著的最佳化性能。
meta 的优化是通过梯度下降进行更新的,meta 更新模型参数的过程如下:

其中 β 是 meta 更新时的步长,完整的算法流程在下图中进行概述:

要求 P(T) 是所有任务服从的分布
要求 α,β 是步长超参数
- 随机初始化网络模型参数 θ
- while 循环(此行代表 meta train,如迭代次数等)
- 从任务分布 P(T) 中随机抽样 batch 个 tasks
- 遍历所有的任务,对每个任务 Ti 执行:
- 在任务 Ti 的 K 个样本上计算出模型 f(θ) 对 θ 的偏导
- 使用梯度下降更新参数 θ:θ_i'=θ-α⊽
- batch 个 Ti 都执行完结束本次循环
- meta 更新模型参数 θ
- while 结束即完成 meta 训练过程
在MAML算法中涉及的一个关键部分是将一个梯度映射到另一个梯度的过程,在这一过程中,则需要额外的一次反向传播步骤。具体来说,则是通过函数f来计算Hessian矩阵与某个向量的乘积。这一过程可以通过现有的标准计算库实现,在TensorFlow等框架中则可以直接实现这一功能。值得注意的是,在我们的实验设置中,默认情况下并未采用这一高级优化策略;相反地,则采用了基于一阶微分近似的简单方法进行处理,并将在下一节详细探讨这两种方法之间的差异及其影响。
3 MAML 实例
在这节中, 我们阐述几个监督学习和强化学习中的具体元学习案例. 这些领域虽然在损失函数的表现形式, 任务生成数据的方式以及数据传递给模型的方式上有所不同, 但在上述情况下都能采用相同的适应机制基础.
3.1 有监督分类和回归任务
近年来,在监督学习领域中
在2.1节中阐述了元学习框架下的有监督分类与回归问题。为了解释清楚该问题时,我们将每个任务的 episode 设置为长度 H=1。由于在监督学习中,模型通常接收单个输入并输出单一结果。任务 Ti 的分布是 qi,并遵循该概率分布生成 K 个独立同分布的样本。任务 Ti 的损失函数则计算的是预测值与实际值之间的差异程度。
在有监督学习中进行分类与回归任务时,默认情况下会遇到两个经典的损失函数:交叉熵损失与均方误差(MSE)损失;此外,在某些情况下还可以采用其他类型的损失函数以适应特定需求。针对回归问题而言,则通常采用均方误差(MSE)作为衡量预测值与真实值之间差异的标准;其 loss 的形式为:

对于 K-shot 回归问题中的每一个实例而言,在此过程中仅包含 K 对 <输入-输出> 数据

在K-shot分类任务中,每个类别均采用K对<输入/输出>进行训练;对于一个N-way的分类问题而言,则包含N×K个数据样本.基于给定的任务分布p(Ti),该模型可以采用第2.2节所述的公式来进行元学习优化.整个算法流程如下:

首先,在每次迭代过程中:
先从主分布P(T)中随机抽取一批子任务集合
然后依次遍历每一个子任务
对于每一个子任务:
先从前向传播的过程中得到对应的输出结果
计算当前子网络输出与目标之间的差异
并基于此求取相应的误差梯度
最终根据计算得到的误差梯度
对主网络进行优化更新
3.2 强化学习
强化学习不是很熟悉,暂时略过此部分。。。
4.相关工作
我们阐述了一种适用于一般机器学习问题的方法,在涵盖少样本学习问题方面具有广泛适用性。一种常见元学习方法是构建一个meta 学习器以便于其用于更新模型参数(Bengio 等人, 1992; Schmidhuber, 1992; Bengio 等人, 1990),已被广泛应用于优化深度神经网络(Hochreiter 等人, 2001; Andrychowicz 等人, 2016; Li 和 Malik, 2017)。一种新的方法是在少样本图像识别数据集上同时学会权重初始化和优化器参数,并非像MAML那样利用梯度下降进行参数更新而是采用了一个由算法自主决定的学习更新策略。我们的研究并未引入额外的模型参数同时也未对特定网络架构做出具体假设。
已有研究在几个领域(生成模型(Edwards & Storkey, 2017; Rezende et al., 2016)和图像识别领域(Vinyals et al., 2016))开发了少样本学习的方法。其中一个成功的办法是在度量空间中比较新样本的距离(Koch, 2015),或者带有注意力机制的递归网络(Vinyals et al., 2016; Shyam et al., 2017; Snell et al., 2017)。这些方法已取得了不错的效果。然而难以直接推广至其他场景如强化学习。我们的方法不依赖于具体模型的形式或任务。
另一种元学习策略是通过在多种任务上训练增强记忆网络实现的。当新的任务出现时,递归架构被用来适应这一新任务。此类网络已在少样本图像识别领域(Santoro等人, 2016;Munkhdalai和Yu, 2017)以及快速强化学习体(Duan等人, 2016b;Wang等人, 2016)中得到应用。我们的实验结果表明,在少样本分类问题上,我们提出的方法显著优于上述递归架构。与前述方法不同的是:我们的方法仅提供了一个有效的参数初始化方案,并采用了与传统架构相同的梯度下降优化过程来更新学习器及其元学习器。因此,在对基础模型施加额外的梯度更新后即可适应新的任务
该方法与深度神经网络中的权重初始化策略具有关联性。在计算机视觉领域中,基于大规模图像数据集预训练的模型已被广泛应用于各种特征提取任务,并常被用作初始设置(Saxe et al., 2014;Kirkpatrick et al., 2016)。其中一些研究则致力于通过学习优化初始值来提升性能(Krahenbuhl et al., 2016;Salimans & Kingma, 2016),其中一项重要进展是成功解决了基于数据的初始设置难题(Husken & Goerick, 2000;Maclaurin et al., 2015)。然而与之相比我们提出的方法特别关注于针对特定任务分布优化参数敏感性使其能够高效适应少样本学习和快速强化学习场景(Husken & Goerick, 2000;Maclaurin et al., 2015)。
5.实验评估
本研究旨在探讨以下问题:(1) MAML方法是否具备快速适应新任务的能力?(2)该方法是否能够在涵盖监督分类、回归分析以及强化学习等多个领域中实现有效的元学习?(3)通过额外的梯度下降步骤或增加更多训练样本,所训练出的模型性能能否得到进一步提升?
我们考虑的所有元学习问题均需在测试阶段对新任务实施同等程度的适应。为此,在训练过程中将任务的真实标识作为一个额外输入加入。通过此方法获得的结果可被视为模型性能的一个上限。研究者将这种特殊情形称为 oracle 并将其与 MAML 方法的表现进行对比。所有实验均基于 TensorFlow 平台完成,在处理元学习中的参数更新时会自动执行求导运算。该研究团队提供的代码可通过网络访问获取
5.1 回归
我们从一个简单的回归问题出发,以此阐述MAML的核心原理。每个任务都涉及将正弦曲线作为输入映射到输出,不同任务之间的正弦曲线具有不同的振幅和相位特性,因此p(T)形成了连续分布,其中振幅的变化范围设定在[0.1,5.0]之间,相位则在[0,π]区间内变换,每个任务的输入与输出均为一维数据。在训练与测试阶段中,数据x均来自均匀分布在-5.0至5.0之间的采样点,损失函数采用均方误差(MSE)作为度量标准。回归模型设计为两层神经网络结构,每层包含40个神经元并使用RELU激活函数进行激活。当训练MAML模型时,每个任务仅使用10个训练样本,并且仅进行一次梯度更新以确定优化步长α=0.01;在此过程中,MAML的任务学习器采用Adam优化算法更新其内部参数设置。值得注意的是,baseline组同样采用了Adam优化算法进行参数更新以保证一致性。为了全面评估性能,MAML经过微调后应用于K个样本的新任务上进行了测试;具体而言,(a)在所有任务上分别训练预适应模型;(b)引入oracle设定作为对比基准;此外还进行了对比实验以验证不同方法的有效性。
我们对经过MAML训练的模型进行了性能评估,在K=(5, 10, 20)个新任务的数据点上进行了微调测试。微调过程中始终在同一组K个数据点上进行梯度计算以更新模型参数,在图2中展示了一些定性实验结果的同时附录B中提供了更多详细结论,这些结论表明我们所学模型能够快速适应仅包含5个样本的新任务(如图2所示为紫色三角形区域),然而在所有任务上预先使用标准监督学习方法进行预训练的模型即使在样本数量极少的情况下也无法良好地适应,并且这种情况下不会发生过拟合现象的关键在于,MAML训练过程中始终将这K个训练样本限制于输入范围的一半宽度时,所获得的模型依然能够推断出该范围另一半区域内的振幅与相位变化这一事实表明,MAML优化后的模型f已经成功学习到了正弦函数的基本周期特性此外,我们在定量分析与定性实验的基础上发现(如图3所示以及附录B中详细描述),通过对MAML训练所得模型施加额外多步梯度下降优化可以进一步提升模型性能水平尽管在元学习阶段仅考虑了一次梯度下降就能达到最佳性能水平但这种提升效果表明,MAML优化过程确实找到了一个既能快速适应新任务又对目标损失函数具有高度敏感性的参数区域这一发现与第2.2节中的理论分析结果是一致的

左边两个图:该方法可实现对未见数据分布的学习(即能够拟合仅包含一半样本数据的新曲线分布),这表明模型成功捕捉到了正弦函数的周期性特征。右边两个图:未采用 MAML 的预训练模型在相同任务上的表现也值得商榷(因预训练过程基于多个相互矛盾的正弦函数输出)。尽管如此,在测试任务的小样本下推理能力很差(即所得预训练模型未能获得有效的特征表示)。

在 meta 测试任务中展示了其正弦函数回归的结果。值得注意的是, MAML 通过更多次的梯度下降进行持续优化, 并未在少量样本上发生过拟合。经过进一步优化后,MAML 的损失值显著低于基准水平。
5.2 分类
为了比较MAML与其他现有元学习方法及少样本学习技术的性能特征,在Omniglot和MiniImagenet两个少样本分类数据集上进行了实验研究。其中,Omniglot数据集由50个不同字母构成,总计1623个字符,每个字母包含20个独立的手写实例。而MiniImagenet数据集则源自Ravi与Larochelle的研究成果(2017),包含了64个训练类别、12个验证类别以及24个测试类别的图像分类任务,目前已成为少样本学习领域的基准性测试平台(Vinyals et al., 2016; Santoro et al., 2016; Ravi & Larochelle, 2017)。在实验过程中,我们遵循Vinyals等人的研究方案(2016),分别对单个样本(N=1)和五个样本(N=5)的情况进行了分类能力的评估。具体而言,实验采用了以下设置:从未曾见过的类别中随机选择N个类别作为测试对象,每类提供K个不同实例用于模型训练,并基于Santoro等人的方法(2016)对Omniglot数据集进行了90度旋转以增强数据多样性。在实际操作中,我们从Omniglot数据集中随机选取了1200个字符用于训练阶段,剩余字符则用于模型评估工作
我们的模型设计基于 Vinyals 等人(2016)提出的嵌入函数的具体架构, 即包含 4 个带有 3×3 卷积层和 64 个过滤器的模块, 每个模块均采用了批归一化处理 (Ioffe & Szegedy, 2015), 并配备有 Rulu 激活函数和 2×2 的最大池化操作。在 Omniglot 数据集上, 每张图片经过下采样处理后变为 28×28 大小, 因此最后一层隐藏层的维度设定为 64.与 Vinyals 等人(2016)所采用的分类器相同, 最后一层输出结果会被输入至 softmax 函数中进行计算。在 Omniglot 数据集上未采用最大池化操作, 而是通过带有步长的卷积操作来实现降维效果。在 MiniImagenet 数据集上, 每个卷积层配置为 32 个过滤器以降低过拟合现象 (Ravi & Larochelle, 2017)。为了确保与记忆增强网络 (Santoro 等人, 2016) 的公平比较并测试 MAML 的灵活性, 我们也提供了非卷积网络的结果报告:该网络采用了四层全连接网络结构, 各层节点数分别为 256、128、64 和 64, 每一层都配备了批归一化处理和 Rulu 激活函数;最后一层输出结果同样会输入至 softmax 函数完成分类任务。所有分类模型均采用交叉熵损失函数作为训练目标;具体超参数设置细节可在附录 A.1 中找到详尽说明

图中展示了 Omniglot 数据集上的少样本分类性能。其下部分展示的是 MiniImagenet 数据集上的少样本分类性能。相比之下,MAML 的性能显著优于以往表现较为突出的卷积神经网络和递归神经网络。值得注意的是,在 Omniglot 数据上的结果显示可能存在局限性,在之前的实验研究中由于无法恢复训练集与测试集的有效划分而导致了这一结论。
其中 Siamese 网络、匹配网络以及内存模块等三种方法专为图像进行少量样本分类设计,并不具备直接应用于回归或强化学习的能力。
表1详细展示了各项对比结果。其中,MAML 方法在卷积神经网络方面的性能表现最佳,其优势主要体现在参数效率上。值得注意的是,这些先前的研究方法主要针对小样本学习场景设计,难以直接应用于强化学习等其他领域。与现有的记忆增强网络和 LSTM 元学习器相比,由于我们的算法并未引入额外的参数以扩展模型容量,MAML 方法展现出显著的参数效率优势。通过比较分析可以看出,该方法在 Omniglot 和 MiniImagenet 数据集上的 5-分类任务中均展现出显著优势,无论是在单个训练样本还是五个训练样本的情况下,其性能均明显优于记忆增强网络和 LSTM 元学习器的表现。
在 MAML 方法中存在显著的计算开销源于 meta 使用反向传播更新参数时涉及二阶微分计算(如公式 1所示)。我们在 MiniImagenet 数据集上进行了对比实验,在该数据集上比较了 MAML 方法在不使用二阶微分但采用一阶微分近似的情况。这种情况下仍需对 θ_i' 参数进行元更新梯度的计算。令人值得注意的是,在完全采用二阶梯度与一阶近似相比的情况下性能差异不大。这一结果表明,在大多数情况下 MAML 方法的主要性能提升来源于优化后参数值目标处的梯度作用而非通过梯度更新获得的二阶梯度信息带来的改进效果。此前研究表明,在局部区域 ReLU 神经网络的行为近乎线性(Goodfellow 等人, 2015),这表明在这种情况下二阶梯度通常接近于零值;这种特性使得一阶近似方法能够在实际应用中有效避免对 Hessian-vector 积项进行计算从而带来约33% 的加速效果
5.3 强化学习
略过。。。
6 讨论和未来的工作
我们提出了一个基于梯度下降的高效元学习方法来快速优化模型参数。该方法具有显著优势:操作简便且未引入额外的元学习参数;其能够与任何基于梯度下降训练的模型架构相结合,并适用于可微分的目标函数(包括分类、回归和强化学习)。由于我们的模型仅需一个权重初始化过程,在处理任意数量的数据样本和任意次数的梯度更新时仍能有效提升性能。实验结果表明,在每个类别仅有一个或五个样本的情况下,该方法取得了最新的分类性能记录;同时,在强化学习智能体中应用时也展现出良好的适应性:通过策略梯度更新和少量经验数据即可实现高效的性能提升。
利用已有任务经验可能是生成高容量可伸缩模型的重要手段。例如,在少量样本数据中迅速实现训练的深度神经网络。我们坚信这项工作旨在开发一种简洁且普适性的元学习方法,并适用于各种问题及任意选择的模型。在这一领域内未来的深入研究有望使多任务初始化成为深度学习与强化学习之间的标准连接点。
