信息熵、信息增益
发布时间
阅读量:
阅读量
随机事件的自信息
定义:
表示随机事件x包含的信息量。
它有两个含义:
表示事件发生的不确定性(事件发生前);
2.表示该事件所提供的信息量(事件发生后)。
公式 :I(x_i)=log\frac {1}{p(x_i)}=-logp(x_i)
信息熵(Information Entropy)
含义:
1.描述信息源X的平均不确定性
2.平均每个信息源符号所携带的信息量
信息熵作为衡量随机变量不确定性程度的重要指标。当熵值越大时,表明该随机变量的不确定性也越大。
公式 :H(X)=-\sum_{i=1}^np(x_i)log(p(x_i))
单位 :
随着对数的底数不同而变化。
以2为底称为比特(bit);
以e为底称为纳特(nat);
以10为底称为哈特(hart);
联合熵
在集合XY的基础上,在其联合空间中被定义出来的自信息平均值则被称为联合熵
条件熵(conditional entropy)
在给定条件下Y的条件概率分布关于X的熵的期望值为:H(Y│X)=\sum_{i=1}^n{p_i}H(Y|X=x_i)=E[I(a_i,b_j)]=-\sum_{i=1}^q\sum_{j=1}^sP(a_ib_j)\log P(a_i|b_j)
熵的性质
1.非负性 — H(x)>= 0
2.确定性 — 确知信源熵为0
3.对称性 — 熵只与随机变量的总体结构有关
4.扩展性 — 极小概率事件对熵几乎无影响
5.熵的链式法则 — H(X,Y) = H(X) + H(Y|X)
6.极值性 — 当且仅当p1=p2=…=pq=1/q时,信息源具有最大熵。
7.熵的独立界 — 条件熵不大于无条件熵(可以理解为条件作用使熵减小)
信息增益(information gain)
定义:信息增益(互信息)衡量了通过知道特征X所能降低类Y不确定性程度的大小。 公式:g(D,A) = H(D) - H(D|A)
ID3算法 就是采用信息增益来作为判断是否用该属性划分数据集的标准。
全部评论 (0)
还没有任何评论哟~
