【论文阅读】Learning Factored Representations in a Deep Mixture of Experts
一、背景
深度网络在不同任务中展现出卓越的效果。然而这些架构的一个关键问题是必须对所有输入运行整个网络这一事实导致了较高的计算开销从而限制了其规模。为了在不显著增加计算成本的情况下扩大模型容量一种有效的方法是增加模型参数数量以及隐藏层单元的数量这使得模型能够处理更多复杂的任务同时保证较低的运算开销。然而对于每个特定输入仅使用网络的一部分即可随后模型可以在从输入到适当部分的映射中实现较低的计算成本
Mixtures of Experts 融合了多个"专家"网络的输出,在这种架构中, 每个"专家"网络都专注于其所在输入区域的不同部分. 为了实现这一目标, 通常采用的方法是通过训练一个"控制中心"神经元(即门控神经元)来进行划分, 该神经元能够将各个输入样本分配到相应的 experts 网络中.
在该工作中,我们将混合专家扩展至堆叠模型中,并命名为Deep Mixture of Experts(DMoE),该架构具有多组门控机制和可调 expert组件。通过将每个输入与每一层的专家组合关联起来,并显著增加了有效 expert的数量的同时保持了模型规模的适度性。我们在MNIST数据集的随机翻转版本上进行实验发现:DMoE能够自动在第一层发展与位置相关的("where") expert,在第二层则发展出与特定类别相关的("what") expert。通过将每个输入与这样的一个组合关联起来的方式下,并使模型能够同时利用不同子集单元处理不同的输入信息。因此该架构既具有巨大的容量又达到了高效的性能水平
二、模型结构

为了实现MoE向DMoE的扩展目标,在现有架构的基础上增加了两个包含门控网络的专家模块组,并引入了一层层级结构以优化信息传递路径。 其输出结果是由各层级混合成分共同生成的:

除了可以考虑树状结构外... Hierarchical mixtures of experts and the EM algorithm...
我们采用随机梯度下降(SGD)算法进行网络训练,并在门控资源分配上施加额外限制。尽管SGD自身可能导致退化的局部极小值,在前几个示例中表现最佳的专业单元通常会超越其他单元。这种情况的发生源于第一个示例通过增加相关专业单元的门控权重。这种现象将导致这些专业单元进行更多训练,并使它们的门控权重趋向无限增长。
为了应对该问题,在训练阶段我们实施了对每个专家相对门控分配的限定。


对每个专家i,

这表明 Gil(t)G^l_i(t) 的数值较大,在当前步骤中各专家分配到的概率分布情况中发现有某一特定专家所赋权重过高。对此我们将其设为零并对其余 gl(xt)g^l(x_t) 进行重新归一化处理 使其总和归一化为1以保证概率分布的有效性
这可以防止专家最初被过度使用,从而可以使得分配平衡。
Once the constraint has been applied during initial training, we release the constraint and proceed with further training in a subsequent fine-tuning stage.
