Advertisement

神经网络笔记 - 交叉熵(Cross-Entropy)

阅读量:

如上文所述, 如果我们使用均方误差来考量学习误差

则有

Sigmoid 函数的曲线大致如下图:

这里写图片描述

当神经元输出趋近于数值 01时, 输出曲线较为平缓, 因此导数 \sigma^{'}(z) 的值相对较小。由此导致的学习速率必然降低。为了提升神经网络的学习效率并改善收敛性问题, 我们采用了交叉熵作为损失函数。
交叉熵的定义如下:

从交叉熵的计算公式, 可以发现:

  • ay取值范围为区间[0,1]时,每个单独的部分均为负数;由于前面带有系数-\frac{1}{n},因此可以得出结论:常数项C大于等于零。
    • 当y等于0且a约等于0时(即a\approx 0),计算结果表明C约等于零;同样地,在y等于1且a约接近于边界值(即a\approx 1)的情况下,则可得常数项C同样接近于零。

因此, 交叉熵损失可被视为衡量学习误差的关键指标. 随后探讨模型的学习速率.

继续推导:

因为 sigmoid函数的性质 \sigma^{'}(z)=\sigma(z)(1-\sigma(z)),
所以:

可以看出, 学习速度与学习误差之间呈比例关系, 这正是预期的结果.类似地, 我们也可以通过这种方式进行推导.

Reference

  1. http://neuralnetworksanddeeplearning.com/ 该链接提供了一个高度概述。
  2. https://en.wikipedia.org/wiki/Cross_entropy 该链接介绍了交叉熵方法。

全部评论 (0)

还没有任何评论哟~