交叉熵损失函数
发布时间
阅读量:
阅读量
在理解交叉熵损失函数之前,有必要先来说一下信息熵这个概念
信息熵
信息熵可以理解为信息杂乱程度的量化描述:信息越多,概率越均等则信息熵就越大;反之,信息越单一,概率越偏向其中某一个信息,那么熵值就越小
公式如下:
H(X)=-\sum _ {i=1}^n P(x^{(i)}) logP(x^{(i)})
其中,
-logP(x^{(i)})
表示一个信息的信息量,概率越小,信息量就越大,这很好理解,比如“太阳从西边出来了”,这几乎不可能发生,如果发生了,那对于我们来说其所含的信息量是巨大的
交叉熵损失函数
先给出公式:
L(\hat y,y)=-[ylog\hat y+(1-y)log(1-\hat y)]
其中ŷ为预测值
我们来解释一下这个公式为什么能起作用:
对于损失函数,我们希望它越小越好
当y=1时,L(ŷ,y)=-log ŷ,则ŷ应尽可能接近于1,才能让损失函数尽可能地小
当y=0时,L(ŷ,y)=-(1-y)log(1-ŷ),则ŷ应尽可能接近于0,才能让损失函数尽可能地小
在逻辑回归中,预测值是一个概率,它表示与样本的拟合程度,而该公式既很好地表达了这种关系,也满足了损失函数的定义
全部评论 (0)
还没有任何评论哟~
