【论文阅读】Learning Factored Representations in a Deep Mixture of Experts

阅读量：

一、背景

深度网络在不同任务中展现出卓越的效果。然而这些架构的一个关键问题是必须对所有输入运行整个网络这一事实导致了较高的计算开销从而限制了其规模。为了在不显著增加计算成本的情况下扩大模型容量一种有效的方法是增加模型参数数量以及隐藏层单元的数量这使得模型能够处理更多复杂的任务同时保证较低的运算开销。然而对于每个特定输入仅使用网络的一部分即可随后模型可以在从输入到适当部分的映射中实现较低的计算成本

Mixtures of Experts 融合了多个"专家"网络的输出，在这种架构中, 每个"专家"网络都专注于其所在输入区域的不同部分. 为了实现这一目标, 通常采用的方法是通过训练一个"控制中心"神经元（即门控神经元）来进行划分, 该神经元能够将各个输入样本分配到相应的 experts 网络中.

在该工作中，我们将混合专家扩展至堆叠模型中，并命名为Deep Mixture of Experts（DMoE），该架构具有多组门控机制和可调 expert组件。通过将每个输入与每一层的专家组合关联起来，并显著增加了有效 expert的数量的同时保持了模型规模的适度性。我们在MNIST数据集的随机翻转版本上进行实验发现：DMoE能够自动在第一层发展与位置相关的（"where"） expert，在第二层则发展出与特定类别相关的（"what"） expert。通过将每个输入与这样的一个组合关联起来的方式下，并使模型能够同时利用不同子集单元处理不同的输入信息。因此该架构既具有巨大的容量又达到了高效的性能水平

二、模型结构

为了实现MoE向DMoE的扩展目标，在现有架构的基础上增加了两个包含门控网络的专家模块组，并引入了一层层级结构以优化信息传递路径。其输出结果是由各层级混合成分共同生成的：

除了可以考虑树状结构外 $...$ Hierarchical mixtures of experts and the EM algorithm $...$

我们采用随机梯度下降（SGD）算法进行网络训练，并在门控资源分配上施加额外限制。尽管SGD自身可能导致退化的局部极小值，在前几个示例中表现最佳的专业单元通常会超越其他单元。这种情况的发生源于第一个示例通过增加相关专业单元的门控权重。这种现象将导致这些专业单元进行更多训练，并使它们的门控权重趋向无限增长。

为了应对该问题，在训练阶段我们实施了对每个专家相对门控分配的限定。

对每个专家i，

这表明 Gil(t)G^l_i(t) 的数值较大，在当前步骤中各专家分配到的概率分布情况中发现有某一特定专家所赋权重过高。对此我们将其设为零并对其余 gl(xt)g^l(x_t) 进行重新归一化处理使其总和归一化为1以保证概率分布的有效性

这可以防止专家最初被过度使用，从而可以使得分配平衡。

Once the constraint has been applied during initial training, we release the constraint and proceed with further training in a subsequent fine-tuning stage.

全部评论 (0)

还没有任何评论哟~

【论文阅读】Learning Factored Representations in a Deep Mixture of Experts

一、背景深度网络在各种任务中取得了非常好的性能。然而，这些架构的一个基本限制是必须为所有输入执行整个网络。这种计算负担限制了网络规模。在保持低计算成本的同时扩大这些网络的一种方法是增加参数和隐藏单元...

【推荐算法论文阅读】Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts

一、背景如果做过推荐系统，就会发现在想要达成某些目标的时候，非得多任务一起上不可。就拿给用户推荐视频为例，我们既希望提高用户的点击率，同时也希望提高视频的播放时长，视频点赞、转发等等…这些目标的达成...

【论文阅读】a survey of deep active learning

概念：是从未标记的数据集中选择最有用的样本，并将其交给oracle如专家进行标注，从而在保持性能的同时尽可能降低标注成本。试图通过标记最少量的样本使得模型的性能收益最大化。注意：主动学习无法提...

Mixture of Experts with Attention论文解读

注意这篇论文没有代码，文章所谓的注意力是加性注意力，找scaleddotproduct的伙计可以避坑了，但还是有值得学习的地方。 score是啥？这个score标量怎么计算得到，请假设一下x和z的值...

【论文阅读】OUTRAGEOUSLY LARGE NEURAL NETWORKS: THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER

一、背景神经网络的吸收信息的容量（capacity）受限于参数数目。条件计算（conditionalcomputation）针对于每个样本，激活网络的部分子网络进行计算，它在理论上已证明，可以作为...

【多模态】Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts 论文阅读及代码解析

一、MoE简介 MMoE是在MoE的基础之上，引入多任务而来，关于MoE的相关解读，可以参考我的另一篇博客：【论文阅读】AdaptiveMixturesofLocalExperts 二、MMoE简介 ...

论文阅读-混合专家模型MOE-DAMEX：Dataset-aware Mixture-of-Experts for visual understanding of mixture-of-dataset

目录 Abstract 1\.Introduction contributions 3\.传统的MOE 3.1Routingoftokens 3.2负载均衡损失 1）专家的重要性损失（Importan...

《A survey on deep learning in medical image analysis》论文阅读

GeertLitjens∗,ThijsKooi,BabakEhteshamiBejnordi,ArnaudArindraAdiyosoSetio,FrancescoCiompi,MohsenGhafo...

《Learning Deep Representations of Fine-Grained Visual Descriptions》论文及代码阅读笔记

最近在读这篇文章，顺便记录些东东。。。论文原题目是《LearningDeepRepresentationsofFineGrainedVisualDescriptions》（链接），程序在GitHub...

On The Power of Curriculum Learning in Training Deep Networks 论文阅读

文章目录摘要 1简介相关模型 2.3ScoringFunctions 2.4pacingfunction 3Experiment 4TheoreticalAnalysis 论文题目：OnThePo...

是否确定退出登录?

【论文阅读】Learning Factored Representations in a Deep Mixture of Experts

一、背景

二、模型结构

全部评论 (0)

相关文章推荐

【论文阅读】Learning Factored Representations in a Deep Mixture of Experts

【推荐算法论文阅读】Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts

【论文阅读】a survey of deep active learning

Mixture of Experts with Attention论文解读

【论文阅读】OUTRAGEOUSLY LARGE NEURAL NETWORKS: THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER

【多模态】Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts 论文阅读及代码解析

论文阅读-混合专家模型MOE-DAMEX：Dataset-aware Mixture-of-Experts for visual understanding of mixture-of-dataset

《A survey on deep learning in medical image analysis》论文阅读

《Learning Deep Representations of Fine-Grained Visual Descriptions》论文及代码阅读笔记

On The Power of Curriculum Learning in Training Deep Networks 论文阅读