信息熵,交叉熵,KL散度(机器学习笔记)
发布时间
阅读量:
阅读量
0 引入
读论文的时候遇到了如下损失函数:

(2)式第一部分为二元交叉熵,第二部分为“类KL散度”(其中λ是人为设置的参数),(3)式为(2)式第二部分具体表达式。
我不是很了解交叉熵的概念,因此我查阅了一些资料,顺便记载下来。
1 信息熵,交叉熵,KL散度
| 记号 | 表达式 | 意义 | |||
|---|---|---|---|---|---|
| 信息熵 | H(p) | ![]() |
信息量的期望值 | ||
| 交叉熵 | H(p,q) | ![]() |
用错误(预测)分布q来表示来自真实分布p的平均编码长度 | ||
| KL散度 | D(p | q) | ![]() |
KL散度=交叉熵-信息熵, 衡量分布p相比分布q的差异 |
2 均方误差、交叉熵、KL散度与机器学习
1、交叉熵代价函数与均方误差代价函数
我们希望在训练神经网络时,预测值与实际值的误差越大,在反向传播训练的过程中,各种参数调整的幅度就应该越大,从而使训练更快收敛。
当我们使用“类sigmoid函数”作为激励函数时,如果使用均方误差作为代价函数的话,代价函数的导函数会含有σ′(z)(sigmoid函数的导数)因子,由于sigmoid函数的性质,会导致反向传播训练步伐很小,造成更新很慢。
而交叉熵代价函数求导之后σ′(z)会被消掉,保证了“当误差大的时候,权重更新就快,当误差小的时候,权重的更新就慢”这个很好的性质。
全部评论 (0)
还没有任何评论哟~



