信息论中熵联合熵条件熵相对熵（KL散度）（交叉熵）互信息（信息增益）的定义及关联

阅读量：

目录标题

熵（Entropy）的理论知识
- 定义
- 例子
- - 1. 均匀分布
  - 2. 非均匀分布
- 联合熵（joint entropy）
- 条件熵（conditional entropy）
- 相对熵（relative entropy）或(Kullback-Leibler)KL散度
- 交叉熵（cross entropy）
- - 分类问题损失函数
- 互信息（mutual entropy）
- 信息增益（information gain）
- 熵之间的关系
- - 链式法则
  - 熵的性质
- 多变量分布熵
- - 条件互信息（conditional mutual information）
  - 条件相对熵（conditional relative entropy）
- 多变量链式法则
- - 熵的链式法则
  - 互信息的链式法则
  - 相对熵的链式法则
- 参考

传送门：信息熵在tensorflow2.*中实现参考博文

熵（Entropy）的理论知识

定义

在信息论中，熵被定义为随机变量的平均不确定度的度量 。也是平均意义上描述随机变量所需的信息量的度量。
设 $X$ 是一个离散型随机变量，其字母表（即概率论中的取值空间）为 $\chi$ 。概率密度函数 $p(x)=Pr(X=x), x\in\chi$ ，则一个离散随机变量 $X$ 的熵 $H(X)$ 定义为
$H(X)=-\sum p(x)\log_{2} p(x)$

表达式中对数函数以2为底，熵的量纲为比特。在平均意义下，熵是为了描述随机变量 $X$ 所需的比特数。
构建这个表达式的优点：对于0-1分布或者伯努利分布而言，p=0.5时，熵值最大，恰好等于1比特。即对事件发生不确定度最大时，恰好熵值最大。
数学期望表达式
如果 $X \sim g(x)$ ，随机变量 $g(x)$ 的期望值可记作：
$E_{p} g(x) =\sum_{x\in\chi}g(x)p(x)$
当 $g(x)=log \frac{1}{p(X)}$ 时， $H(X)$ 可以表示位随机变量 $log \frac{1}{p(X)}$ 的期望值，即
$H(X)=E_{p} log \frac{1}{p(X)}$

例子

1. 均匀分布

一个服从均匀分布且有32种可能结果的随机变量，需要用多长的字符串描述这个随机变量？
首先易得使用二进制需要 $2^5=32$ ，即5字节的长度。
由熵公式可得， $H(X)=-\sum_{x=1}^{32} p(x)log(px)=-\sum_{x=1}^{32} \frac{1}{32}log\frac{1}{32}=5$ 比特，恰好等于描述32的字节长度

2. 非均匀分布

书中举了一个实际的例子，假定一个有8匹马的比赛，8匹马的获胜概率分别位 $(\frac{1}{4}, \frac{1}{8}, \frac{1}{16}, \frac{1}{32}, \frac{1}{64}, \frac{1}{64}, \frac{1}{64},\frac{1}{64})$ 。现在需要在马赛比赛结束的第一时刻把消息传播出去，并使用传播所需的信息最小。
有两种策略：

对所有参赛的马按照相同策略进行编码
此时8匹马需要使用 $2^3=8$ ，即使用常规的二进制编码方式从000到111进行编码。因此，对任何一匹马都选哟3字节长度。
可能性较大的马使用较短的编码
这样对应8匹马分别使用：0，10，110，1110， 111100，111101，111110，111111的一组二元字符串进行表示的话。对每一匹马的编码长度乘以对应概率值求和，刚好等于2，小于方法一中的3字节长度。

策略一中为什么不使用一位和两位的字符？

同时，由求熵公式可得
$H(X)=- \frac{1}{2}log\frac{1}{2}- \frac{1}{4}log\frac{1}{4}- \frac{1}{8}log\frac{1}{8}- \frac{1}{16}log\frac{1}{16}- \frac{1}{32}log\frac{1}{32}- \\ \frac{1}{64}log\frac{1}{64}- \frac{1}{64}log\frac{1}{64}- \frac{1}{64}log\frac{1}{64}- \frac{1}{64}log\frac{1}{64}=2$
可见第二种方式得到的平均比特数正好等于熵
如果大家和我一样还不太理解可以参看信息熵和计算公式介绍视频
关键点需要理解信息和熵的定义

信息	熵
描述一个随机事件所需的字节数	随机事件不确定性的度量（单位字节）
获取有效信息，消除随机事件熵减少	对随机事件进行描述所需要的编码长度

联合熵（joint entropy）

对于服从联合分布为 $p(x,y)$ 的一对离散随机变量 $(X,Y)$ ，其联合熵 $H(X,Y)$ 定义为
$H(X,Y)=-\sum_{x\in\chi}\sum_{y\in y}p(x,y)logp(x,y)$
亦可以表示为
$H(X,Y)=-Elogp(x,y)$

条件熵（conditional entropy）

已知随机变量X的条件下，随机变量 Y 的不确定性
$\begin{aligned} H(Y/X)&=\sum_{x \in \chi}p(x)H(Y|X=x)\\ &=-\sum_{x \in \chi}p(x)\sum_{y \in Y}p(y|x)logp(y|x)\\ &=-\sum_{x \in \chi}\sum_{y \in Y}p(x,y)logp(y|x)\\ &=-Elogp(Y|X) \end{aligned}$

相对熵（relative entropy）或(Kullback-Leibler)KL散度

两个随机分布之间距离的度量。
例如，已知随机变量的真实分布为 $p$ （label，对于分类问题就是一个确定的标签），可以构造平均描述长度为 $H(p)$ 的编码。但是，如果使用针对分布 $q$ 的编码，那么在平均意义上就需要 $H(p)+D(p||q)$ 比特的编码来描述这个随机变量

q的熵一定大于p的意思？
$D(p||q)=\sum_{x \in \chi}p(x)log \frac{p(x)}{q(x)}=E_{p}log \frac{p(x)}{q(x)}$

交叉熵（cross entropy）

两个概率分布间的差异性信息
在深度学习中最常使用交叉熵作为分类问题的损失函数，二分类与多分类的计算存在差异。二分类问题输出神经元可以只有一个，用[0, 1]的概率值表示是否为该类，所以采用sigmoid将输出映射到[0, 1]，而多类别的分类问题则使用softmax将不同神经元的输出归一化到[0, 1]，在计算交叉熵的API中很多会默认进行softmax计算，不用再单独添加。参考二分类多分类输出层网络结构

复制代码

    import torch
    import torch.nn as nn
    import torch.nn.functional as F
    #二值交叉熵，这里输入要经过sigmoid处理
    nn.BCELoss(F.sigmoid(input), target)
    #多分类交叉熵, 用这个 loss 前面不需要加 Softmax 层
    nn.CrossEntropyLoss(input, target)
    
    
    python

但是注意区分多类别分类 与多标签分类 两者的不同，多标签分类最后一步是用sigmoid，参考单类和多分类问题交叉熵，多标签和多分类，别再分不清了

$H(p,q)=-\sum_{x \in \chi}p(x)log(q(x))$
由相对熵的表达式
$\begin{aligned} D(p||q)&=\sum_{x \in \chi}p(x)log \frac{p(x)}{q(x)}\\ &=\sum_{x \in \chi}p(x)log(p(x))-\sum_{x \in \chi}p(x)log(q(x))\\ &=-H(p(X))+H(p,q) \end{aligned}$
可得，交叉熵 $H(p,q)$ 恰好等于 $H(p)+D(p||q)$ 。当 $H(p)=0$ 时，相对熵就等于交叉熵。即两者都可以表示两个随机分布的差异性，交叉熵数值包含一个真实（参考）随机分布p的熵

分类问题损失函数

对于 $Y_{true}$ 由于进行One-hot编码后是一个00 1 000的确定性事件，故 $H(p(X))$ 等于0，即 $D(p||q)=H(p,q)$ 。所以交叉熵就等于KL散度。

为什么不直接用相对熵，而使用交叉熵
交叉熵表达式更为简单（少了 $-\sum_{x \in \chi}p(x)log(q(x))$ 一项），方便求导，且梯度更为稳定；

损失函数 $H(p,q)$ 减少的意义是 $Y_{true}$ 与 $Y_{pred}$ 分布之间的差异性逐渐减少，或距离越来越小，或采用相同的编码方式不需要额外的信息量进行描述。

互信息（mutual entropy）

一个随机变量包含另一个随机变量信息量的度量
给定另一随机变量条件下，原随机变量不确定度的缩减量
互信息 $I(X;Y)$ 等于联合概率密度函数 $p(x,y)$ 和边界概率密度函数 $p(x)p(y)$ 乘积之间的相对熵
$\begin{aligned} I(X;Y)&=\sum_{x \in \chi} \sum_{y \in Y}p(x,y)log\frac{p(x,y)}{p(x)p(y)}\\ &=D((p(x,y)||p(x)p(y)))\\ &=E_{p(x,y)}log\frac{p(X,Y)}{p(X)p(Y)} \end{aligned}$

信息增益（information gain）

表达式与互信息相同，熵减去条件熵。但实际表达意义存在一定差别。
$IG(X;Y)=H(X)-H(X|Y)$
互信息中Y表示事件，信息增益Y表示分类方式
互信息里面的Y，用 $H(Y)$ 表示，可以通过统计测量概率，并用信息熵公式计算。
但是增益里面的Y，由于是一种分类方式，它的熵要是直接计算，信息论里面没有介绍。
信息增益 是描述前后两种不同状态的信息熵变化，即确定性的增加量，分类(决策树)本质就是将一个系统中各种元素之间的分类关系（X,Y,Z,…）确定下来。H(X)表示分类前的熵，H(X|Y)表示分类后的熵

熵之间的关系

链式法则

$H(X,Y)=H(X)+H(Y|X)$
联合熵等于已知条件X的熵加已知X的条件熵。
联合熵与条件熵的差等于已知条件的熵值
$I(X;Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)$
$I(X;Y)=H(X)-H(X|Y)$ 表示在给出Y信息的条件下，X的不确定度的缩减量
将链式法则 $H(X|Y)=H(X,Y)-H(Y)$ 代入可得
$I(X;Y)=H(X)+H(Y)-H(Y,X)$
互信息等于各自熵的和减去联合熵
至此所有两个随机变量之间的熵的关系可由下图表示出来
在这里插入图片描述

熵的性质

$H(X)\geq0$
$H_{b}(x)=(log_{b}a)H_{a}(X)$
$H(X|Y)\le H(X)$ 条件作用使熵减少
$H(X_1,X_2,...,X_n)\le\sum_{i=1}^{n}H(X_i)$
$H(X)\le log|\chi|$
$H(p)$ 关于p是凹函数

多变量分布熵

条件互信息（conditional mutual information）

随机变量X和Y在给定随机变量Z时的条件互信息（conditional mutual information）
$\begin{aligned} I(X;Y|Z)&=H(X|Z)-H(X|Y,Z)\\ &=E_{p(x,y,z)}log\frac{p(X,Y|Z)}{p(X|Z)p(Y|Z)} \end{aligned}$

条件相对熵（conditional relative entropy）

$\begin{aligned} D(p(y|x)||q(y|x))&=\sum_{x}p(x)\sum_{y}p(y|x)log\frac{p(y|x)}{q(y|x)}\\ &=E_{p(x,y)}log\frac{p(Y|X)}{q(Y|X)} \end{aligned}$
在这里插入图片描述

多变量链式法则

熵的链式法则

$H(X,Y)=H(X)+H(Y|X)\\ H(X,Y,Z)=H(X)+H(Y|X)+H(Z|X,Y)=H(X)+H(Y,Z|X)$
一般式：
$H(X_1,X_2,...,X_n)=\sum_{i=1}^{n}H(X_i|X_{i-1},...,X_1)$

互信息的链式法则

$I(X_1,X_2,...,X_n;Y)=\sum_{i=1}^{n}I(X_i;Y|X_{i-1},...,X_1)$

相对熵的链式法则

一对随机变量的两个联合分布之间的相对熵可以展开为相对熵和条件相对熵之和
$D(p(x,y)||q(x,y))=D(p(x)||q(x))+D(p(y|x)||q(y|x))$

参考

《Elements of information Theory》

全部评论 (0)

还没有任何评论哟~

信息论中熵联合熵条件熵相对熵（KL散度）（交叉熵）互信息（信息增益）的定义及关联

目录标题熵（Entropy）的理论知识定义例子 1\.均匀分布 2\.非均匀分布联合熵（jointentropy）条件熵（conditionalentropy）相对熵（relativeen...

信息量，熵,联合熵，互信息，条件熵,相对熵（KL散度），交叉熵（cross entropy）

1.信息量含义：对信息的度量。概率越小，信息量越大。公式：hxi=log2pxi 或者hxi=log2\frac1pxi pxi为事件xi发生的概率大小，一般所用底数为2。根据以上公式可以看出，...

信息熵、交叉熵与相对熵(KL散度)的关系，还介绍了联合信息熵和条件熵、互信息（信息增益）的概念

@关于机器学习的其他[KL散度][信息熵][交叉熵] 1、信息量 2、信息熵 3、交叉熵crossentropy 3.1交叉熵crossentropy在机器学习领域的作用 4、相对熵（KL散度） 4....

熵、联合熵、条件熵、相对熵、交叉熵、互信息

[1]<https://www.cnblogs.com/kyrieng/p/8694705.html 熵 HX=\sumxpxlogpx,它表示的是随机变量X的不确定性，不确定性越大，熵越大。没有条...

自然语言处理（信息论）-信息熵、联合熵、联合熵、条件熵、相对熵、互信息、交叉熵

01.信息熵entropy 如果X是一个离散性随机变量，其概率分布为:Px=PX=xx\inX，X的熵HX为：HX=\sum\limitsx\inXPx\log2Px HX也可以写成Hpbit 熵又称...

信息熵的计算公式_信息熵、条件熵、联合熵、互信息、相对熵、交叉熵

点击上方“机器学习与统计学”，选择“置顶”公众号重磅干货，第一时间送达信息熵、联合熵、条件熵、互信息的关系 1、信息量信息量是通过概率来定义的：如果一件事情的概率很低，那么它的信息量就很大；反之...

信息熵，交叉熵，相对熵，KL散度

熵，信息熵在机器学习和深度学习中是十分重要的。那么，信息熵到底是什么呢？首先，信息熵是描述的一个事情的不确定性。比如：我说，太阳从东方升起。那么这个事件发生的概率几乎为1，那么这个事情的反应的信息量...

Tensorflow2.* 熵相对熵（KL散度）（交叉熵）互信息（信息增益）代码实现

基础的信息熵理论请参考博文目录标题一维随机变量熵相对熵（relativeentropy）或KullbackLeiblerKL散度交叉熵（crossentropy）三者关系二维随机变量熵...

熵，联合熵，条件熵，相对熵，互信息的定义

预备基础概念 X:随机变量 x:随机变量X的具体取值 PX:随机变量X的概率分布 PX,Y:随机变量X,Y的联合概率分布 PYX:已知随机变量X的情况下，随机变量Y的条件概率分布 PX=x=px:随机...

信息测度：信息熵、联合熵、条件熵、互信息、条件互信息、块熵、相对熵、转移熵

1.信息量信息量是指从N个相等可能事件中选出一个事件所需要的信息度量或含量，也就是在辩识N个事件中特定的一个事件的过程中所需要提问是或否的最少次数。在一个系统中，等可能事件的数量越多，事件的发生概...

是否确定退出登录?

信息论中熵 联合熵 条件熵 相对熵（KL散度）（交叉熵） 互信息 （信息增益）的定义 及关联

目录标题

熵（Entropy）的理论知识

定义

例子

1. 均匀分布

2. 非均匀分布

联合熵（joint entropy）

条件熵（conditional entropy）

相对熵（relative entropy）或(Kullback-Leibler)KL散度

交叉熵（cross entropy）

分类问题损失函数

互信息（mutual entropy）

信息增益（information gain）

熵之间的关系

链式法则

熵的性质

多变量分布熵

条件互信息（conditional mutual information）

条件相对熵（conditional relative entropy）

多变量链式法则

熵的链式法则

互信息的链式法则

相对熵的链式法则

参考

全部评论 (0)

相关文章推荐

信息论中熵 联合熵 条件熵 相对熵（KL散度）（交叉熵） 互信息 （信息增益）的定义 及关联

信息量，熵,联合熵，互信息，条件熵,相对熵（KL散度），交叉熵（cross entropy）

信息熵、交叉熵与相对熵(KL散度)的关系，还介绍了联合信息熵和条件熵、互信息（信息增益）的概念

熵、联合熵、条件熵、相对熵、交叉熵、互信息

自然语言处理（信息论）-信息熵、联合熵、联合熵、条件熵、相对熵、互信息、交叉熵

信息熵的计算公式_信息熵、条件熵、联合熵、互信息、相对熵、交叉熵

信息熵，交叉熵，相对熵，KL散度

Tensorflow2.* 熵 相对熵（KL散度）（交叉熵） 互信息 （信息增益）代码实现

熵，联合熵，条件熵，相对熵，互信息的定义

信息测度：信息熵、联合熵、条件熵、互信息、条件互信息、块熵、相对熵、转移熵

信息论中熵联合熵条件熵相对熵（KL散度）（交叉熵）互信息（信息增益）的定义及关联

信息论中熵联合熵条件熵相对熵（KL散度）（交叉熵）互信息（信息增益）的定义及关联

Tensorflow2.* 熵相对熵（KL散度）（交叉熵）互信息（信息增益）代码实现