笔记——论文阅读《highway Network》
这篇论文里的吐槽点在于,连个图都没有?
highway Network 解决的是深度 神经网络的训练问题。
文章的核心如下
普通的前馈神经网络中对输入 x 进行非线性变化后为 y:

本文汲取 LSTM 的长短期记忆机制,并构建以下体系作为本文 highway Network 的架构框架

其中,

T代表了变换门电路而C代表了传递门电路它们都采用了sigmoid激活函数。
简单明了地讲 令C等于1减去T经过转换公式(2)之后得到了以下结果

观察上述公式,在传统前馈神经网络中,输入x会经过非线性变换后再直接传递到下一层。而highway网络则将输入x的一部分(以C作为权重系数)通过carry门直接传递到下一层次;剩下的部分则通过transform门进行非线性处理后再向下一个层次传输。这种设计具有分流功能,在每一层中都设置了两条传输路径:一条是通过transform门进行非线性处理后再传输;另一条则是通过carry门直接传输而不进行任何处理
实验结果

现象很明显,在神经网络层数超过10层时

研究者比较了五十层神经网络的 transform gate 的偏差 b 和输出的结果
当深度增加时(即层数变深),偏差逐渐加剧,在浅层网络中(即b取值为负数的情况), highway network更倾向于激活carry门。
当层数逐渐增加时,transform gate的输出呈现变小的趋势,并表明在多数情况下倾向于选择 carry gate 来直接传递输入信息。
当网络变得较深时,在某些情况下会有部分输入直接传送到下一层神经元,并观察到其训练过程似乎进展得并不顺利。这是否暗示着,在面对深度网络这一现状时,默认的做法可能会导致各层都采取较为松懈的态度?即工作量分配相对较少的状态或许难以完全避免?这种现象或许难以完全避免,并且这种现象或许难以完全避免——这或许是一种难以完全避免的现象?此外,在这些直接传递的部分输入中,在多项式拟合函数的角度来看,则类似于特意保留了一些低阶项的作用——只有通过合理的分布能够使低次幂与高阶幂共同作用于函数近似的稳定性和准确性
