Advertisement

信息熵,交叉熵,KL散度(机器学习笔记)

阅读量:

0 引入

读论文的时候遇到了如下损失函数:

(2)式第一部分为二元交叉熵,第二部分为“类KL散度”(其中λ是人为设置的参数),(3)式为(2)式第二部分具体表达式。

我不是很了解交叉熵的概念,因此我查阅了一些资料,顺便记载下来。

1 信息熵,交叉熵,KL散度

记号 表达式 意义
信息熵 H(p) 信息量的期望值
交叉熵 H(p,q) 用错误(预测)分布q来表示来自真实分布p的平均编码长度
KL散度 D(p q) KL散度=交叉熵-信息熵, 衡量分布p相比分布q的差异

2 均方误差、交叉熵、KL散度与机器学习

1、交叉熵代价函数与均方误差代价函数

我们希望在训练神经网络时,预测值与实际值的误差越大,在反向传播训练的过程中,各种参数调整的幅度就应该越大,从而使训练更快收敛。

当我们使用“类sigmoid函数”作为激励函数时,如果使用均方误差作为代价函数的话,代价函数的导函数会含有σ′(z)(sigmoid函数的导数)因子,由于sigmoid函数的性质,会导致反向传播训练步伐很小,造成更新很慢。

而交叉熵代价函数求导之后σ′(z)会被消掉,保证了“当误差大的时候,权重更新就快,当误差小的时候,权重的更新就慢”这个很好的性质。

全部评论 (0)

还没有任何评论哟~