特征选择,熵,条件熵,信息增益
特征选择,熵,条件熵,信息增益
- 特征选择
- 例子
- 熵
- 条件熵
- 信息增益
-
- 例子
特征选择
特征选择过程旨在筛选出能显著提升分类器学习效率的特征指标。在实践中发现,在理论上无分类能力的特征变量,在经验应用中舍弃这类变量通常不会对最终分类结果产生显著影响。通常情况下而言,在理论研究与实践经验结合下所采用的标准通常是信息增益或信息增益比这两种指标作为主要依据
例子

上表包含15个实例构成的贷款申请训练数据集,在数据中包括贷款申请人4个方面的特征(年龄、有工作的状况、拥有住房的情况以及信贷记录),最后一列标记为类别。在特征选择中涉及决定使用哪一个特征来划分特征空间,并确定哪一个特征作为根节点的可能性。

从直观上看,在选择一个特征时,默认情况下认为该特征具有更强的分类能力,并且通过将训练数据集分割成多个子集后,在这些子集中该特征的表现是最优的。这种情况下,则认为应优先选择该特征;信息增益能够有效地反映出这一准则。
熵
信息论中,熵度量了信息的不确定性程度。定义X为一个取有限个可能值的离散型随机变量,则其概率质量函数定义为P(X = x_i) = p_i(其中i=1, 2, \dots, n)。由此可得熵H(X)的计算公式:H(X) = -\sum_{i=1}^n p_i \log p_i其中当p_i=0时定义其对数为0。根据这一规定可知H(X)的有效取值范围为[0, \log n]
条件熵
考虑随机变量对(X,Y),它们的联合概率分布函数为:
P(X=x_i,Y=y_j)=P_{ij},
其中i,j分别取值于(1,2,…,n)和(1,2,…,m)。
具体而言,在给定随机变量X的前提下计算出的Y的信息量,
即条件熵H(Y|X),
可表示为各状态x_i下的条件熵加权平均值:
H(Y|X) = \sum_{i=1}^n p_i H(Y|X=x_i)
特别地,在统计学习中使用经验数据估计这些概率时,默认定义当某事件的概率估计值为零时的情况处理方式:
即令
0 \cdot \log 0 = 0
信息增益
信息增益表征了特征X相对于类Y的信息不确定性减少的程度。
对于训练数据集D和特征A来说,在决策树学习中,
其信息增益g(D,A)被定义为集合D的经验熵H(D)
与其在给定条件下经验条件熵H(D|A)之间的差异:
g(D,A) = H(D) - H(D|A)
其中,
经验熵与条件熵之差即为互信息。
基于此,
决策树学习中的特征选择依据正是最大化该差异,
也就是最大化类与特征之间的互信息。
具体而言,
根据给定准则选择特征的方法是:
基于训练数据(或其子集)D,
计算每个可能特征相对于该数据集的信息增益,
并比较这些值的大小,
最终选取具有最大信息增益的那个特征作为分割标准。


例子


