Advertisement

交叉熵损失函数

阅读量:

在理解交叉熵损失函数之前,有必要先来说一下信息熵这个概念

信息熵

信息熵可以理解为信息杂乱程度的量化描述:信息越多,概率越均等则信息熵就越大;反之,信息越单一,概率越偏向其中某一个信息,那么熵值就越小

公式如下:

H(X)=-\sum _ {i=1}^n P(x^{(i)}) logP(x^{(i)})

其中,

-logP(x^{(i)})
表示一个信息的信息量,概率越小,信息量就越大,这很好理解,比如“太阳从西边出来了”,这几乎不可能发生,如果发生了,那对于我们来说其所含的信息量是巨大的

交叉熵损失函数

先给出公式:
L(\hat y,y)=-[ylog\hat y+(1-y)log(1-\hat y)]
其中ŷ为预测值

我们来解释一下这个公式为什么能起作用:

对于损失函数,我们希望它越小越好

当y=1时,L(ŷ,y)=-log ŷ,则ŷ应尽可能接近于1,才能让损失函数尽可能地小
当y=0时,L(ŷ,y)=-(1-y)log(1-ŷ),则ŷ应尽可能接近于0,才能让损失函数尽可能地小

在逻辑回归中,预测值是一个概率,它表示与样本的拟合程度,而该公式既很好地表达了这种关系,也满足了损失函数的定义

全部评论 (0)

还没有任何评论哟~