信息增益,信息增益率,信息熵,互信息,交叉熵,条件熵,gini系数
(一)信息熵

(二)信息增益( ID3算法 )

Gain(A)=I(A) -H(A)
信息增益的理解:对于待划分的数据集D,在使用某属性A进行分割之前,其熵(前)为固定值;而经过分割后的熵(后)则是一个变量。当划分后的熵(后)越小,则说明通过该属性分割所得到的各个子集不确定性越低(即分类越纯净),因此前后的熵差GAIN(A)=I(A)-H(A)越大,则表示使用该属性分割数据集D所带来的分类纯度提升越显著。在构建最优决策树的过程中,则总是倾向于选择那些能够使数据集更快向纯度更高的子集合方向发展的特征。这一策略与优化算法中的梯度下降思想不谋而合:在梯度下降过程中我们沿着负梯度方向逐步逼近函数极小值点;而在决策树构建中则是不断选择带来最大分类纯度提升的属性进行分割操作。
缺点:存在偏向于选择取值范围较大的属性的问题
原因:当属性的取值数目较多时,在利用该属性进行数据分割的过程中更容易导致划分后的子集具有较高的分类纯净度
(三)信息增益率( C4.5算法 )
信息增益率 = 惩罚参数 * 信息增益



信息增益比的本质是在信息增益的基础上乘以一个惩罚参数。当特征数量较多时, 惩罚参数较小;而当特征数量较少时, 惩罚参数较大。缺点在于该指标倾向于选择取值较少的特征。基于以上缺点, 使用信息增益比并非直接选取信息增益率最大的特征, 而是在候选特征中筛选出那些具有高于平均水平的信息增益特征, 最后再从这些特征中选择具有最高信息增益率的那个特征作为最终选择依据。
(四)互信息(Mutual Information)
度量工具:互信息(Mutual Information),缩写为MI,在机器学习领域被广泛应用于评估两个变量之间的依赖关系及其强度。
当 (X, Y) 服从联合概率分布 p(x, y),X 和 Y 之间的互信息 I(X; Y) 定义为:
I(X; Y) = ∑_{x,y} p(x,y) log [p(x,y)/(p(x)p(y))]
其中:
- I(X; Y): 表示 X 和 Y 之间的互信息
- p(x,y): 表示联合概率分布
- p(x): 表示 X 的边缘概率分布
- p(y): 表示 Y 的边缘概率分布
这个度量工具特别适合量化两个变量之间是否存在显著关联以及这种关联的具体程度。

Note that the mutual information I (X; Y) can be positive, negative, or zero.
Mutual information represents a specific instance of the more general concept of relative entropy.

(五)点互信息PMI(Pointwise Mutual Information)
PMI指标用于衡量两个事物之间的相关性(例如两个词)。其原理较为简单,公式如上所示。

在概率论中,在x与y不相关的前提下,则它们的相关性越大也就意味着两者之间的关联程度越高。为了更好地理解这一概念,在给定y的情况下计算x发生的条件概率与x本身发生的概率之比实际上就能够量化两者之间的相关程度。这里所涉及的对数运算源于信息论的基本原理:通过对数值取对数后将一个介于0到1之间的概率值转换为对应的信息量(并乘以-1以确保结果为正数),使用二进制对数则可以直接理解为用多少bits来衡量这个变量所能提供的信息量。(更多信息请参考信息论相关理论)
点互信息PMI实际上是互信息这一概念的发展而来。其本质是对两个随机现象之间相互关联程度的一种度量方式:具体而言是指一个随机变量所包含关于另一个随机变量的信息量。在这里,“随机现象的结果量”指的是按照特定的概率分布进行取值的现象结果,“随机变量”则特指按照特定的概率分布取值的变量(例如一个人被随机选取时的身高就是一个典型的随机变量)。点互信息PMI实际上是对所有可能情况下的权重求和所得的结果,并非仅仅针对某一对具体的情况进行分析。(从这一特性我们可以形象地理解为何称其为点互信息)
(六)相对熵(KL散度)
我们通常称其为KL散度。当我们在分析同一个随机变量X时有两个概率模型P(X)和Q(X),则可通过KL散度(Kullback-Leibler (KL) divergence)来量化这两个模型之间的差异性。

– n为事件的所有可能性。
– D的值越小,表示q分布和p分布越接近
(七)交叉熵
由KL散度计算公式可以得到如下:

等式的前一部分恰巧就是p的熵,等式的后一部分,就是交叉熵:

为了衡量label与predicts之间的差异, 我们特别适合于使用KL散度来计算这种差距, 即D(y||\hat{y}). 其中前一部分- H(y)保持恒定, 因此在优化目标时仅需关注交叉熵损失函数即可实现最优模型训练. 因此, 在实际应用中通常选择交叉熵损失函数来作为优化目标, 并用于模型评估与训练过程中的性能指标分析.
(八)条件熵
度量条件熵?(?|?)表示当已知随机变量?时, 随机变量?的不确定性. 其条件概率分布的熵期望定义为: 当已知该条件下, 随机变量?的概率分布所对应的平均信息量.

条件熵 ?(?|?) 相当于联合熵 ?(?,?) 减去单独的熵 ?(?),即?(?|?)=?(?,?)−?(?),证明如下:

(九)联合熵

(十)gini系数
定义:基尼指数(基尼不纯度)表征从样本集中随机抽取的一个样本出现错误分类的可能性大小。
值得注意的是,在同一数据集内选取任一实例时出现误判的情况发生的概率较小时,则该数据集对应的Gini指标数值较小;
由此可知该数据集的分类纯净程度较高。
即 Gini指标 = 选取实例的概率 × 错误分类概率

说明:
- 在pk中代表选中的样本属于k类别的概率,则该样本被分错的概率即为(1-pk)。
- 样本集合中共有K个类别,在随机选取一个样本时其可能来自这k个类别中的任何一个因为对各类别而言就需要进行加和运算。
- 当问题仅涉及二分类情况时 Gini指数可表示为G(p)=2p(1-p)。
