Advertisement

信息熵、信息增益

阅读量:

随机事件的自信息

定义:
表示随机事件x包含的信息量。

复制代码
    它有两个含义:
表示事件发生的不确定性(事件发生前);
    	2.表示该事件所提供的信息量(事件发生后)。

公式I(x_i)=log\frac {1}{p(x_i)}=-logp(x_i)

信息熵(Information Entropy)

含义:

1.描述信息源X的平均不确定性
2.平均每个信息源符号所携带的信息量

信息熵作为衡量随机变量不确定性程度的重要指标。当熵值越大时,表明该随机变量的不确定性也越大。

公式H(X)=-\sum_{i=1}^np(x_i)log(p(x_i))

单位 :
随着对数的底数不同而变化。

复制代码
    以2为底称为比特(bit);
    以e为底称为纳特(nat);
    以10为底称为哈特(hart);

联合熵

在集合XY的基础上,在其联合空间中被定义出来的自信息平均值则被称为联合熵

条件熵(conditional entropy)

在给定条件下Y的条件概率分布关于X的熵的期望值为:H(Y│X)=\sum_{i=1}^n{p_i}H(Y|X=x_i)=E[I(a_i,b_j)]=-\sum_{i=1}^q\sum_{j=1}^sP(a_ib_j)\log P(a_i|b_j)

熵的性质

1.非负性 — H(x)>= 0

2.确定性 — 确知信源熵为0

3.对称性 — 熵只与随机变量的总体结构有关

4.扩展性 — 极小概率事件对熵几乎无影响

5.熵的链式法则 — H(X,Y) = H(X) + H(Y|X)

6.极值性 — 当且仅当p1=p2=…=pq=1/q时,信息源具有最大熵。

7.熵的独立界 — 条件熵不大于无条件熵(可以理解为条件作用使熵减小)

信息增益(information gain)

定义:信息增益(互信息)衡量了通过知道特征X所能降低类Y不确定性程度的大小。 公式:g(D,A) = H(D) - H(D|A)

ID3算法 就是采用信息增益来作为判断是否用该属性划分数据集的标准。

全部评论 (0)

还没有任何评论哟~