Advertisement

信息量,熵,联合熵,互信息,条件熵,相对熵(KL散度),交叉熵(cross entropy)

阅读量:

1.信息量

含义:对信息的度量。概率越小,信息量越大。

公式:h(x_i)=-log_2p(x_i)
或者h(x_i)=log_2\frac{1}{p(x_i)}

p(x_i)为事件x_i发生的概率大小,一般所用底数为2。

通过上述公式可以看出,在一个事件中出现的概率越高,则该事件所包含的信息量就越少;反之,在一个事件中出现的概率越少(即该事件为一个少见的、出人意料的事件),则该事件所包含的信息量反而会更多。

2.熵

含义:熵是信息量的期望。反应的是不确定性。概率越小,熵越大。

公式:
H(X) = -\sum_{i=1}^{n} p(x_i)\log_b p(x_i) 或者 H(X) = \sum_{i=1}^{n} p(x_i)\log_b \frac{1}{p(x_i)}
X = \{x_1, x_2, \dots, x_n\}\lim_{p \to 0}\log p = 0
b = 2 时称为比特, b = e 时称为奈特

3.联合熵

所代表的联合概率计算得到的熵。
对于n个随机变量X₁,X₂,…,Xₙ来说:
其联合熵满足以下不等式:
H(X₁,X₂,…,Xₙ) ≥ max{H(X_i)}
并且:
H(X₁,X₂,…,Xₙ) ≤ H(X₁)+H(X₂)+…+H(Xₙ)

在这里插入图片描述

4.互信息(matual information)

I(X;Y)被定义为互信息,相当于衡量变量间相互依赖性的度量工具。上图也展示了联合熵、条件熵与互信息之间的联系。I(X;Y)=-\sum_{i=1}^{n}\sum_{j=1}^{n}p(x_i,y_j)\log_2\frac{p(x_i,y_j)}{p(x_i)p(y_j)}被称为互信息量,它反映了两个变量之间相互独立的程度。

在机器学习中经常采用三种方法:选择特征、进行维度缩减以及分析各项之间的关联程度(feature correlation). 通过公式r=\frac{cov(x,y)}{\sqrt{var(x)\sqrt{var(y)}}}能够度量变量间的线性相关关系. 而互信息则被用来衡量变量间的非线性依赖程度

5.条件熵

H(Y|X) 表示为各 xᵢ 发生概率 P(xᵢ) 对应情况下 Y 的熵之和:

H(Y|X) = \sum_{i=1}^nP(xᵢ)\cdot H(Y | xᵢ)

其中,

-H(Y | xᵢ) = \sum_{j=1}^nP(yⱼ | xᵢ)\cdot \log_2 P(yⱼ | xᵢ)

因此,

H(Y | X) = \mathop{\mathbb{E}}[ - \log P(X, Y)] = - \mathbb{E}\left[\log P(X, Y)\right]

将概率分布的定义代入上式:

H(X, Y ) = - \mathbb{E}\left[ \log P(X, Y ) \right ]

6.相对熵(relative entropy),又叫KL散度。

信息论中用来衡量两个概率分布之间差异的一种指标...可以认为是从分布的角度刻画两个随机变量之间的信息差距。其中包含以下几种主要计算方式:Kullback-Leibler散度...等方法均基于概率分布间差异分析可识别样本间的特征区分

D(p||q)=\sum_{i=1}^{n}{p_i}log_2\frac{p_i}{q_i} 被称为Jensen-Shannon散度的一种形式。
P和Q为概率质量函数(PMF),通常情况下,D(p||q) \ne D(q||p)(即KL散度具有不对称性)。
当散度较大时,则表示两个分布之间的差异显著。
其非负性可以通过Jensen不等式来证明

7.交叉熵(cross entropy)

熵表示为 H(p, q) = -\sum_{i=1}^{n} p_i \log_2 q_i
它被定义为 - \sum_{i=1}^{n} p_i \log_2 p_i + \sum_{i=1}^{n} p_i \log p_i - \sum_{i=1}^{n} p_i \log_2 q_i
因此可以表示为 H(p) + \sum_{i=1}^{n}{p_i \log_2 q_i}
进一步地这等价于 H(p) + D(P||Q)

CNN最常用的目标函数。

8.信息增益(information gain):决策树ID3用到。

全部评论 (0)

还没有任何评论哟~