详解熵，交叉熵，KL散度，互信息

阅读量：

首先介绍几个信息论中的概念。

熵，表示某个概率分布的不确定度：
$H(x) = - \sum p(x) log p(x)$

联合熵，两个变量联合分布的不确定度：
$H(x,y) = \sum \sum p(x,y) log p(x,y)$

条件熵，在X确定后，Y的不确定度：
$H(Y|X) = \sum p(x_i) H(Y|X=x_i) = \sum \sum p(x,y) log (p(x,y)/p(x))$

相对熵，也称KL散度，衡量两个概率分布的距离。用非真实分布 q(x) 得到的平均码长比真实分布 p(x) 得到的平均码长多出的比特数就是相对熵。
$DL(p||q) = H(p,q) - H(p) = \sum p(x) log p(x) / q(x)$
当 H§ 为常量时（注：在机器学习中，训练数据分布是固定的），最小化相对熵 DKL(p||q) 等价于最小化交叉熵 H(p,q) 也等价于最大化似然估计。

在机器学习中，我们希望在训练数据上模型学到的分布 P(model) 和真实数据的分布 P(real) 越接近越好，所以我们可以使其相对熵最小。但是我们没有真实数据的分布，所以只能希望模型学到的分布 P(model) 和训练数据的分布 P(train) 尽量相同。假设训练数据是从总体中独立同分布采样的，那么我们可以通过最小化训练数据的经验误差来降低模型的泛化误差。

互信息 (mutual information) 用于特征选择，可以从两个角度进行解释：(1)、基于 KL 散度和 (2)、基于信息增益。对于离散型随机变量 X,Y，互信息的计算公式如下：
$I(X;Y) = \sum\limits_{y \in \mathcal{Y}}\sum\limits_{x \in \mathcal{X}} p(x,y) \,\text{log}\left(\frac{p(x,y)}{p(x)p(y)}\right)$
对于连续型变量：
$I(X;Y) = \int_{\mathcal{Y}}\int_{\mathcal{X}} p(x,y) \,\text{log}\left(\frac{p(x,y)}{p(x)p(y)}\right) dxdy$

可以看到连续型变量互信息的需要计算积分比较麻烦，通常先要进行离散化，所以这里主要讨论离散型变量的情况。互信息可以方便地转换为 KL 散度的形式：

$I(X;Y) = \sum\limits_{y \in \mathcal{Y}}\sum\limits_{x \in \mathcal{X}} p(x,y) \,\text{log}\left(\frac{p(x,y)}{p(x)p(y)}\right) = D_{KL}(p(x,y) || p(x)p(y))$
KL 散度可以用来衡量两个概率分布之间的差异，而如果 x 和 y 是相互独立的随机变量，则 p(x,y)=p(x)p(y) ，那么互信息为 0。因此若 I(X;Y) 越大，则表示两个变量相关性越大，于是就可以用互信息来筛选特征。

总结一下，X,Y之间的互信息，为p(x,y)与p(x)p(y)间的KL散度。

而从信息增益的角度来看，互信息表示由于 X 的引入而使 Y 的不确定性减少的量。信息增益越大，意味着特征 X 包含的有助于将 Y 分类的信息越多 (即 Y 的不确定性越小)。决策树就是一个典型的应用例子，其学习的主要过程就是利用信息增益来选择最优划分特征，表示由于特征 A 而使得对数据集 D 的分类不确定性减少的程度，信息增益大的特征具有更强的分类能力。其计算公式为

$I(D\,;A) = H(D) - H(D|A) = H(D) - \sum \limits_{v=1}^\mathcal{V}\frac{|D^v|}{|D|}{H(D^v)}$
类似的，I(X;Y) 可以表示为
$I(X;Y) = H(Y) - H(Y|X)$
(Y) 为熵，表示随机变量 Y 的不确定性。 $H(Y|X)=\sum_xp(x)H(Y|X=x)$ 为条件熵 (conditional entropy)，表示在随机变量 X 已知的情况下随机变量 Y 的不确定性。那么二者的差就表示由于 X 的引入而使 Y 的不确定性减少的量

放在特征选择的语境下，我们希望 Y 的不确定越小越好，这样越有助于分类，那么互信息越大，则特征 X 使得 Y 的不确定性减少地也越多，即 X 中包含的关于 Y 的信息越多。在特征过滤时，计算每个特征与类别的互信息值，排序后去除互信息小的特征。

互信息的一大优点是其能检测出多种变量之间的关系，而相较而言 F 检验只能表示线性相关关系。Scikit-learn 的这个例子 (Comparison of F-test and mutual information) 中显示了这一点，互信息能很好展现 x 和 y 之间的非线性关系：
在这里插入图片描述

网站如下：https://scikit-learn.org/stable/auto_examples/feature_selection/plot_f_test_vs_mi.html#sphx-glr-auto-examples-feature-selection-plot-f-test-vs-mi-py

由上图，F_test对线性相关比较敏感，但对cos相关就表现不太好了，但MI依旧很好，证明可以捕获非线性相关。

参考：
https://www.cnblogs.com/massquantity/p/10486904.html

全部评论 (0)

还没有任何评论哟~

详解熵，交叉熵，KL散度，互信息

首先介绍几个信息论中的概念。熵，表示某个概率分布的不确定度： Hx=\sumpxlogpx 联合熵，两个变量联合分布的不确定度： Hx,y=\sum\sumpx,ylogpx,y 条件熵，在X确定后...

信息熵、交叉熵与KL散度

信息量在信息论与编码中，信息量，也叫自信息（selfinformation），是指一个事件所能够带来信息的多少。一般地，这个事件发生的概率越小，其带来的信息量越大。从编码的角度来看，这个事件发生的概...

ML1 - 熵、信息、交叉熵、KL散度、log-likelihood、互信息

（截图来自英文维基）单一事件的熵：plogp 假设p=1/2，logp=log2；假设q=1/1024，logq=log1024；根据对数公式，有log1024/log2=10；这个运算可以理...

信息熵，交叉熵，相对熵，KL散度

熵，信息熵在机器学习和深度学习中是十分重要的。那么，信息熵到底是什么呢？首先，信息熵是描述的一个事情的不确定性。比如：我说，太阳从东方升起。那么这个事件发生的概率几乎为1，那么这个事情的反应的信息量...

信息论（信息熵、KL散度、交叉熵以及互信息）

信息论是一门用数理统计方法来研究信息的度量、传递和变换规律的科学。它主要是研究通讯和控制系统中普遍存在着信息传递的共同规律以及研究最佳解决信息的获限、度量、变换、储存和传递等问题的基础理论。这似乎...

信息熵、KL散度(相对熵)、交叉熵通俗理解

什么是熵？熵在不同的领域有着不同的含义和应用，但核心思想是相似的，表示一个系统的无序程度。信息熵一个叫香农的美国数学家，将熵引入了信息论，并命名为“信息熵”（香农熵），信息熵用于量化信息的不确定...

信息论知识：互信息、交叉熵、KL散度

信息论的基本想法是一个不太可能的事件居然发生了，要比一个非常可能的事件发生，能提供更多的信息。消息说：‘‘今天早上太阳升起’’信息量是如此之少以至于没有必要发送，但一条消息说：‘‘今天早上有日食’’信...

信息量，熵,联合熵，互信息，条件熵,相对熵（KL散度），交叉熵（cross entropy）

1.信息量含义：对信息的度量。概率越小，信息量越大。公式：hxi=log2pxi 或者hxi=log2\frac1pxi pxi为事件xi发生的概率大小，一般所用底数为2。根据以上公式可以看出，...

自信息、香农熵、互信息、交叉熵、KL散度备忘录

机器学习中相关信息度量的备忘录自信息自信息selfinformation用来衡量单一随机事件发生时所包含的信息量的多寡。香农熵香农熵是随机事件X的所有可能结果的自信息期望值。互信息互信息用...

熵，交叉熵，相对熵（KL散度）

先插入一个链接可视化信息论，简单明了很容易看懂什么是信息熵信息熵是度量随机变量不确定度的指标，信息熵越大意味着随机变量不确定度越高，意味着系统的有序程度越低。

是否确定退出登录?

详解熵， 交叉熵，KL散度，互信息

全部评论 (0)

相关文章推荐

详解熵， 交叉熵，KL散度，互信息

信息熵、交叉熵与KL散度

ML1 - 熵、信息、交叉熵、KL散度、log-likelihood、互信息

信息熵，交叉熵，相对熵，KL散度

信息论（信息熵、KL散度、交叉熵以及互信息）

信息熵、KL散度(相对熵)、交叉熵通俗理解

信息论知识：互信息、交叉熵、KL散度

信息量，熵,联合熵，互信息，条件熵,相对熵（KL散度），交叉熵（cross entropy）

自信息、香农熵、互信息、交叉熵、KL散度备忘录

熵，交叉熵，相对熵（KL散度）

详解熵，交叉熵，KL散度，互信息

详解熵，交叉熵，KL散度，互信息