Advertisement

机器学习基础1-熵,相对熵,交叉熵、香农熵

阅读量:

信息量

我们假设X是一个离散型随机变量,其所有可能取值构成的集合是X,并定义其概率质量函数为p(x)=Pr(X=x),其中x∈X。由此可知,我们可以定义事件X=x₀发生所携带的信息量为:I(x₀) = -log p(x₀)。由此可知,发生概率较高的事件所包含的信息越少,而当且仅当p(x₀)=1时,即该事件几乎肯定会发生时,熵将等于零,此时该事件的发生不会带来任何新的信息内容。比如我们可以用以下两个例子进行说明:

例二:**

那么什么是熵呢?还是通过上边的例子来说明,假设小明的考试结果是一个0-1分布x_A只有两个取值{0:不及格,1:及格},在某次考试结果公布前,小明的考试结果有多大的不确定度呢?你肯定会说:十有八九不及格!因为根据先验知识,小明及格的概率仅有0.1,90%的可能都是不及格的。怎么来度量这个不确定度?求期望!不错,我们对所有可能结果带来的额外信息量求取均值(期望),其结果不就能够衡量出小明考试成绩的不确定度了吗。
即:
H_A(x)=-[p(x_A)log(p(x_A) +(1-p(x_A))log(1-p(x_A))]=0.4690

对应小王的信息熵:

这里写图片描述

可以看出,在概率均等的情形下(即p=0.5),信息熵达到最大值(无先验知识的情况下),这一结论可拓展至多于两种取值的情况。从图形中亦可观察到,在p=0∨1时(即X被完全确定),信息量降至零点。

香农熵(shannon entropy)

信息论中的熵(亦称香农熵)衡量了系统状态的无序程度。具体而言,在一个给定的概率空间中,当系统的有序程度提高时(即系统更加确定或可预测),其对应的不确定性或混乱度就会降低;反之,则会增加。

假设随机变量X的概率分布为P(X),其中X={x₁,x₂,…,xₙ}代表所有可能的状态或取值,并且对应的发生概率分别为P(X=xᵢ),则随机变量X的信息论中的条件自信息量定义为其不确定性或混乱度——即所谓的"Shannon entropy"——表示为H(X)=−∑_{i=1}^n P(X=xᵢ) log P(X=xᵢ)

相对熵(又叫K-L散度)

对于两个概率分布p(x)和q(x),其相对熵定义为:D(p||q)=\sum_{i=1} p(x)\cdot \log\frac{p(x)}{q(x)}

交叉熵定义为:H(p,q)=-\sum_x p(x)\log q(x)
在学习过程中,交叉熵与相对 entropy 常被混淆使用。尽管两者之间存在密切联系,在某些情况下容易造成理解上的误差。进一步观察发现,在 p 已知的情况下, 交叉 entropy 与 relative entropy 之间的差异仅体现在常数值上.
通过最小化 cross entropy 的方式也能实现对 KL divergence 的最小化目标. 当且仅当分布 p 与 q 完全相同时 (此时 KL divergence 为零), 这一优化目标达到最佳状态.

全部评论 (0)

还没有任何评论哟~