CAML: FAST CONTEXT ADAPTATION VIA META-LEARNING

阅读量：

本文基于MAML方法进行研究。相较于MAML而言,该方法将模型参数划分为两组:其中一组用于作为模型额外输入,使其能够适应单独的任务;另一组则用于跨任务共享,并通过元学习机制进行优化。该方法仅对每轮学习中的情境相关参数进行调整,从而能够有效防止过拟合现象的发生,并同时降低了内存占用量。

为了实现模型在新任务上的快速学习, 通常只需执行有限步梯度下降. 此时, MAML的内层优化问题实质上是一个任务识别问题, 而不是解决整个任务的过程. 因此, 如果模型中跨任务变化的部分被视为额外输入, 并且独立于其他输入, 那么这将足以解决问题.
模型中的额外输入即为context parameters $\phi$ , 它们可被视为调整模型行为的任务嵌入或条件. 在元学习过程中的内层优化过程中, $\phi$ 会被更新, 而参数 $\theta$ 则在外层优化过程中被更新. 这种设计使得CAML的学习过程更加清晰: 在外层优化过程中优化参数 $\theta$ , 同时保证内嵌的任务特定参数 $\phi$ 能够迅速适应新的任务.
task solver与task embedding分离具有以下优点:
- 这两者的规模根据具体的任务需求进行适配, 这使得在使用更深网络进行训练时能够在内层优化过程中避免对某个特定的任务过拟合(MAML在使用更深网络时容易过拟合)
- 该设计有助于合理配置模型结构与参数数量: 对于许多实际问题, 我们已知不同任务之间存在哪些差异性特征, 因此也可以合理确定 $\phi$ 的能力范围
- 由于仅对 $\phi$ 求解高阶导数而无需对weights和biases进行操作
- 由于无需像MAML那样复制内层循环中的参数以减少内存操作次数

模型

监督学习

在每一个batch T中的每一个元学习迭代步骤中，在每个任务 $\mathcal{T}_i\in T$ 的训练集 $D_i^{train}$ 上展开训练操作。从初始值 $\phi_0$ 开始（可设为常数值或者通过学习逐步更新，默认设为零），通过单步梯度更新机制确定任务特异参数 $\phi_i$ ：

\phi_i = \phi_0 - \alpha\nabla_\phi \left( \frac{1}{M_i^{\text{train}}} \sum_{(x,y)\in D_i^{\text{train}}} L_{\mathcal{T}_i}(f_{\phi_0,\theta}(x), y) \right)

值得注意的是，在反向传播过程中参数 $\theta$ 也会同步更新其梯度信息（即参数 $\theta$ 会继承父网络中的梯度），因此即使仅计算了 $\phi$ 方向的梯度信息，在后续更新过程中也会自然地影响到 $\theta$ 的变化方向。
在获得了所有采样出的任务均完成各自 $\phi_i$ 计算后，则执行元学习阶段的参数更新操作：

\theta = \theta - \beta\nabla_\theta \left( \frac{1}{N} \sum_{\mathcal{T}_i\in T} L_{T,i}(\hat{\theta}) + C(\hat{\theta}) + D(\hat{\theta}) + E(\hat{\theta}) + F(\hat{\theta}) + G(\hat{\theta})) + H(\hat{\theta})) + I(\hat{\theta})) + J(\hat{\theta})) + K(\hat{\θ}))

其中这一步骤涉及到较为复杂的高阶导数计算。

Conditioning on Context Parameters

考虑到 $\phi$ 与输入相互独立，在网络中如何应用这一特性仍需进一步探讨。对于全连接层中的每个输出节点 $h_i^{(l)}$ 而言，在其计算过程中可以将 $\phi$ 与该层的输入进行结合处理。具体而言，

h_i^{(l)} = g\left(\sum_{j=1}^J \theta_{j,i}^{(l,h)} h_j^{(l-1)} + \sum_{k=1}^K \Theta_{k,i}^{(l,\Phi)} \Phi_{0,k} + b\right)

其中，

$\theta_{j,i}^{(l,h)}$ 表示与当前节点 $h_j^{(l-1)}$ 相关联的权重系数，
$\Theta_{k,i}^{(l,\Phi)}$ 则代表与上下文参数 $\Phi_{0,k}$ 相关联的重要程度，
如图所示

神经网络的 $h^l$ 层的输出与 $\phi$ （在每一步adaption之前都被初始化为0）进行拼接， $\phi$ 在内循环和训练过程中被更新； $\theta$ 只在外循环中被更新并且在任务间共享，所以在测试中固定。通过将 $\phi$ 初始化为0，网络和 $\phi$ 相关联的参数不会影响adaptation之前该层的输出。在第一次adaptation之后，他们将被用于调整网络剩余的部分以解决新的任务。
当使用全连接网络进行训练时，将 $\phi$ 加到第一层与输入进行拼接。
其他的conditioning方法也可以用于CAML，例如卷积网络，使用FiLM的feature-wise linear modulation方法，对feature map进行变换，给定 $\phi$ 和卷积层输出的M个feature map $\{h_i\}_{i=1}^M$ ，
$FiLM(h_i) = \gamma_ih_i+\beta$
$\gamma,\beta$ 都是context parameter的函数，使用全连接层 $[\gamma,\beta]=\sum_{k=1}^K\theta_{k,i}^{(l,\phi)}\phi_{0,k}+b$ 加上输出的恒等变换。

Context Parameter初始化

虽然可以利用元学习进行参数初始化过程中的关键步骤设定，在实际应用中我们发现即使将初始值简单地设定为恒定的 $\phi_0$ 也能获得较好的效果。进一步分析表明，在网络深度较大的情况下如果我们能够同时优化各层参数 $\theta_{k,i}^{(l,\phi)}$ 以及初始化参数 $\phi_0$ 则在一定程度上能够将初始化问题转化为一个与网络深度相关的偏置调整问题因此我们可以将恒定的初始化策略扩展到这种情况中

全部评论 (0)

还没有任何评论哟~

CAML: FAST CONTEXT ADAPTATION VIA META-LEARNING

本文同样以MAML为基础，与MAML不同的是，MAML在每个新任务上会更新所有的参数，而CAML将模型的参数分成了两部分，一部分是contextparameters，作为模型的额外输入使其适应于单独的...

ECCV2020 元学习SR Fast Adaptation to Super-Resolution Networks via Meta-Learning

文章地址：<https://www.ecva.net/papers/eccv2020/papersECCV/papers/123720749.pdf 项目地址（待开源）：<https://github...

MAML:Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks

元学习的目标是在各种学习任务上训练一个可以仅仅使用少量训练样本就可以解决新任务的模型，在本文中，模型的参数训练很明确，所以从新任务的少量样本做几步梯度下降就可以在新任务上得到好的泛化性。同时，由于模型...

Meta-SSD: Towards Fast Adaptation for Few-ShotObject Detection With Meta-Learning【阅读笔记】

目录摘要介绍相关工作网络结构实验总结摘要针对样本不足情况下，目标检测会产生过拟合以及性能下降的问题。该论文提出一种基于元学习的小样本目标检测框架（MetaSSD）。

Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks 读后感

ModelAgnosticMetaLearningforFastAdaptationofDeepNetworks读后感）论文概述什么是元学习 Algorithm1ModelAgnosticMeta...

论文阅读：Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks

论文地址：<https://arxiv.org/abs/1703.03400 代码：<https://github.com/cbfinn/maml 发表：ICML2017 假设图里面，Task1,Ta...

Domain Adaptation via Prompt Learning

论文地址：<https://arxiv.org/abs/2202.06687 Abstract 本文提出的DAPLDomainAdaptationviaPromptLearning使用了预训练的vis...

Meta-Learning: Learning to Learn Fast

MetaLearning:LearningtoLearnFast 元学习:学习如何学习【译】原文本文与原文基本没有区别，仅供个人学习记录电子笔记本。前言：元学习解决：遇到没有见过的任务，可根据...

Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks Chelsea 论文笔记

前言本文提出了一种元学习算法，它与模型无关并且通用性很强，可以直接应用到各种由梯度下降训练的模型上，并且适用于很多学习问题，包括分类，回归和强化学习。本文提出的算法的关键思想是训练模型的初始化参数，...

《Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks》论文翻译笔记

元学习系列文章 1.optimizationbasedmetalearning 1.《ModelAgnosticMetaLearningforFastAdaptationofDeepNetworks》...

是否确定退出登录?

CAML: FAST CONTEXT ADAPTATION VIA META-LEARNING

模型

监督学习

Conditioning on Context Parameters

Context Parameter初始化

全部评论 (0)

相关文章推荐

CAML: FAST CONTEXT ADAPTATION VIA META-LEARNING

ECCV2020 元学习SR Fast Adaptation to Super-Resolution Networks via Meta-Learning

MAML:Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks

Meta-SSD: Towards Fast Adaptation for Few-ShotObject Detection With Meta-Learning【阅读笔记】

Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks 读后感

论文阅读：Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks

Domain Adaptation via Prompt Learning

Meta-Learning: Learning to Learn Fast

Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks Chelsea 论文笔记

《Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks》 论文翻译笔记

《Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks》论文翻译笔记