【机器学习】信息熵、交叉熵、相对熵

阅读量：

信息熵、交叉熵、相对熵（KL散度）

学习资源：一文彻底搞懂信息熵、相对熵、交叉熵和条件熵（配举例题说明）

信息熵

$H(X)=-\sum_{i=1}^N{p(x_i)\log p(x_i)}$

一个系统越是有序，信息熵就越低；反之，一个系统越是混乱，信息熵就越高

交叉熵

$H(X)=-\sum_{i=1}^N{p(x_i)\log q(x_i)}$

主要度量两个概率分布间的差异性信息。

我们常用交叉熵函数来衡量预测值与真实样本之间的差异程度，并将其作为重要的损失函数应用在各种机器学习模型中。同样地，在计算信息论中的相对 entropy（即 KL 散度）时也可以使用它与其他指标结合的方式来进行评估。值得注意的是，在优化模型参数的过程中我们可以直接使用交叉墒来进行目标函数的最小化求解而无需额外计算其他指标如信息墒等从而简化了整个优化过程并降低了计算复杂性

相对熵

Kullback-Leibler散度 $(D_{KL})$ 定义为：

D_{K L}(p \| q)= \sum_{i} p(i) * \log \frac{p(i)}{q(i)}= \sum_{i=1}^{N} p\left(x_i\right) · (\log p\left(x_i\right)-\log q\left(x_i\right))

其中，

D_{K L}(p \| q)= \sum_{x=1}^{N} p(x) · [\ln p(x)-ln q(x)]

这种衡量两个概率分布之间差异的方法被称为相对熵

相对熵 = 交叉熵 - 信息熵

也被用来量化两个概率分布之间的差异性信息。当相对熵数值较小时，则表明q分布在某种程度上更为接近p分布。

相对熵计算示例

例如随机变量X遵循分布P，在取值1、2、3时的概率分别为[...]；同样地，随机变量Y遵循分布Q，在取值1、2、3时的概率分别为[...]. 则计算如下：

$D_{KL}(P||Q)≥0$ ，即非负性 。
$D_{KL}(P||Q)\neq D_{KL}(Q||P)$ ，即不对称性 。

Python代码实现，离散型KL散度可通过SciPy进行计算：

复制代码

    from scipy import stats
    
    P = [0.2, 0.4, 0.4]
    Q = [0.4, 0.2, 0.4]
    stats.entropy(P,Q) # 0.13862943611198905
    
    P = [0.2, 0.4, 0.4]
    Q = [0.5, 0.1, 0.4]
    stats.entropy(P,Q) # 0.3195159298250885
    
    P = [0.2, 0.4, 0.4]
    Q = [0.3, 0.3, 0.4]
    stats.entropy(P,Q) # 0.03533491069691495
    
    
      
      
      
      
      
      
      
      
      
      
      
      
      
    
    AI助手

全部评论 (0)

还没有任何评论哟~

【机器学习】信息熵、交叉熵、相对熵

信息熵、交叉熵、相对熵（KL散度）参考链接：一文彻底搞懂信息熵、相对熵、交叉熵和条件熵（含例子）信息熵 HX=\sumi=1^Npxi\logpxi 一个系统越是有序，信息熵就越低；反之，一个系统...

信息熵、交叉熵、相对熵

主要在此文基础上精简，按自己理解表达下【直观详解】信息熵、交叉熵和相对熵熵，热力学中表征物质状态的参量之一，用符号S表示，其物理意义是体系混乱程度的度量。信息熵，描述信源的不确定度。信息熵越大，...

【机器学习】一文理清信息熵，相对熵，交叉熵

初学者在搞清楚这个三个信息论的大怪兽时，往往会晕头转向。本文将简要的对这三个概念进行理清，文章尽量通俗，有不对的地方恳请斧正。信息熵：香农提出信息熵主要是用来解决对信息的量化度量问题，比如说存在选...

相对熵、信息熵和交叉熵

what：交叉熵是信息论的重要概念；用于度量两个概率分布之间的差异性；其他相关知识： 1.信息量：信息是用来消除随机不确定的东西；信息量的大小与信息发生的概率成反比； Ix=−logPx， p...

机器学习 - 香农信息量，熵，联合熵，条件熵，相对熵，交叉熵，互信息

🎊第二版修订2021.4.24🎊 1\.香农信息量 1.1引子假设我们听到了两件事，分别如下：事件A：我今天收到了乔治城大学的录取。事件B：我今天收到了哈佛的录取。仅凭直觉来说，显而易见事...

理解熵(信息熵,交叉熵,相对熵)

Highlights: 1）信息熵：编码方案完美时，最短平均编码长度的是多少。 2）交叉熵：编码方案不一定完美时（由于对概率分布的估计不一定正确），平均编码长度的是多少。平均编码长度=最短平均编码长...

相对熵与交叉熵_熵、信息量、信息熵、交叉熵-个人小结

熵、信息量、信息熵、交叉熵个人小结一、理解熵 1、首先看到这个词会产疑问，熵是什么？谁定义的？用来干什么的？为什么机器学习会用到熵？有了这些疑问后慢慢的开始探索～复制代码熵，热力学中表征物质状态的...

信息熵、相对熵、交叉熵总结

1、什么是信息熵信息熵是由热力学的中的熵引出的概念，在热力学中，熵通常表示事物的混沌程度，事物越混沌，其熵越大。相应的信息熵表示的是随机变量的不确定性，某个事件发生的概率越小，其信息熵越大。

信息熵，交叉熵，相对熵，KL散度

熵，信息熵在机器学习和深度学习中是十分重要的。那么，信息熵到底是什么呢？首先，信息熵是描述的一个事情的不确定性。比如：我说，太阳从东方升起。那么这个事件发生的概率几乎为1，那么这个事情的反应的信息量...

机器学习基础1-熵，相对熵，交叉熵、香农熵

信息量 \sqrtx假设X是一个离散型随机变量，其取值集合为X，概率分布函数为px=PrX=x,x∈X，我们定义事件X=x0的信息量为：Ix0=logPx0可以理解为，一个事件发生的概率越大，则它所携...

是否确定退出登录?

【机器学习】信息熵、交叉熵、相对熵

信息熵、交叉熵、相对熵（KL散度）

相对熵计算示例

全部评论 (0)

相关文章推荐

【机器学习】信息熵、交叉熵、相对熵

信息熵、交叉熵、相对熵

【机器学习】一文理清信息熵，相对熵，交叉熵

相对熵、信息熵和交叉熵

机器学习 - 香农信息量，熵，联合熵，条件熵，相对熵，交叉熵，互信息

理解熵(信息熵,交叉熵,相对熵)

相对熵与交叉熵_熵、信息量、信息熵、交叉熵-个人小结

信息熵、相对熵、交叉熵总结

信息熵，交叉熵，相对熵，KL散度

机器学习基础1-熵，相对熵，交叉熵、香农熵