特征选择——互信息量

阅读量：

最近做了一个数据比赛，由于对数据背后的业务不太了解，所以特征工程大多采取了“暴力”提取的方式，最终特征过多直接导致模型存在过拟合问题。所以赛后总结在做特征工程的过程中就要考虑特征的取舍问题，主要通过特征与因变量Y之间的相关性分析做出判断。
衡量单变量的相关性指标有很多，比如Pearson相关系数、Pearson卡方检验、Fisher得分、互信息等。

信息量

对于随机离散变量X，假设其概率分布为 $\{P(X=1)=p_1, P(X=2)=p_2,...P(X=n)=p_n\}$ ，则定义“A=i”这一事件包含的信息量 $I(X=i)$ 为：

$I(X=i)=-log_mP(X=i)=log_m{\frac{1}{p_i}}$

当对数的底m取2时，信息量单位为比特(bit)；m取自然常数e时，单位为奈特(nat)。本文后续内容均以比特作为计算单位，并在书写 $log$ 时默认以2为底。

采用对数函数定义的信息量符合以下3点逻辑：
（1）必然事件包含的信息量为0
假如把离散变量A看成是太阳升起的方向，那么X只能是东边，即 $P(X=“东边”)=1$ ，得到“太阳从东边升起”这一事件的信息量为： $I(“太阳从东边升起”)=I(X=“东边”)=-logP(X=“东边”)=0$
（2）可能性越小的事件，其包含的信息越多
在信息量的定义式中，信息量的大小与事件发生的概率成反比，符合这一逻辑：
$0 I(X=2)>0$
（3）两个相互独立事件同时发生时获得的信息量应该等于事件各自发生时获得的信息之和
假设相互独立的事件X和Y，发生的概率分别为 $p_X和p_Y$ ，则有：
$I(X)+I(Y)=-log(p_X)-log(p_Y)=-log(p_X·p_Y)=-log(p_{XY})=I(X,Y)$

信息熵

如果信息量表示的是随机离散变量X取某一特定值时的信息，那么信息熵就可以理解为是随机离散变量X取所有可能值时的期望信息量，所以关于变量X的信息熵 $H(X)$ 定义为：
$H(X)=E(I(X))=\sum_{i=1}^{n}p_i·I(X=i)=-\sum_{i=1}^{n}p_i·log(p_i)$
信息熵另一个比较形象的解释是，表示随机变量X不确定性的度量，我们计算下在什么情况下X的不确定性最大。
$max \quad H(X) \\ s.t. \quad \sum_{i=1}^{n}p_i =1$
引入拉格朗日乘子 $\lambda$ 并改写目标函数 $F$ ：
$F=\lambda(\sum_{i=1}^{n}p_i-1)-\sum_{i=1}^{n}p_i·log(p_i)$
对所有未知数求偏导可得：
$\frac{\partial F}{\partial p_i}=\lambda-1-log(p_i)=0\quad,\quad i=1,2,...,n \\ \frac{\partial F}{\partial \lambda}=\sum_{i=1}^{n}p_i-1=0$
求解以上方程组得：
$\begin{cases} p_i=\frac{1}{n}\quad, \quad i=1,2,...n\\ \lambda = 1-log(n)\\ \end{cases}$
说明X的所有取值都是等概率出现时，随机离散变量X的不确定性(信息熵)达到最大。

信息量和信息熵最大的区别在于对象不同；前者针对的是一件具体的事件，或者说是离散变量X一种可能的取值(分类水平)；而信息熵针对的是离散变量X自身的不确定性，包含了所有的取值。

条件熵

假设两个随机离散变量 $X$ 和 $Y$ 的概率分布分别为：
$P(X=x_i)=p_i ， P(Y=y_j)=p_j ， i=1,2,..,n \quad ， j=1,2,...,m$
条件熵 $H(Y|X)$ 表示在已知随机变量 $X$ 的条件下变量 $Y$ 的不确定性，定义为 $X$ 给定条件下 $Y$ 的条件概率分布的熵对 $X$ 的数学期望：
$H(Y|X)=\sum_{i=1}^{n}p_i·H(Y|X=x_i)$

互信息量

在给出互信息定义前先看下这张关系图：
在这里插入图片描述
有两种说法：
（1）直观上看，互信息度量两个随机变量 $X$ 、 $Y$ 之间共享的信息 ，互信息越大则表明 $X$ 和 $Y$ 的相关性越高；
（2）也可以表示为由于 $X$ 的引入而使 $Y$ 的不确定度减少的量 ，减少的量越大说明 $X$ 更有利于对 $Y$ 的确定.
利用图中 $X$ 、 $Y$ 之间的互信息和信息熵、条件信息熵之间的数值关系给出互信息 $I(X;Y)$ 的计算公式：
$I(X;Y)=H(Y)-H(Y|X) \\ \quad \quad=-\sum_{j=1}^{m}p_j·log(p_j)-\sum_{i=1}^{n}p_i·H(Y|X=x_i) \\ \quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad\quad=-\sum_{j=1}^{m}p_j·log(p_j)+\sum_{i=1}^{n}\sum_{j=1}^{m}p_i·P(Y=y_j|X=x_i)·log(P(Y=y_j|X=x_i)) \\ \quad\quad =-\sum_{j=1}^{m}p_j·log(p_j)+\sum_{i=1}^{n}\sum_{j=1}^{m}p_{ij}·log \left( \frac{p_{ij}}{p_i} \right)$
其中 $p_{ij}=P(X=x_i,Y=y_j)$ ，表示 $X$ 和 $Y$ 联合分布的概率。利用边缘概率和联合概率的关系 $\sum_{i=1}^{n}p_{ij}=p_j$ 简化上述式子得：
$I(X;Y)=\sum_{i=1}^{n}\sum_{j=1}^{m}p_{ij}·log \left( \frac{p_{ij}}{p_i·p_j} \right)$

用于特征选择(Python)

做特征选择时需要根据特征变量 $X$ 和因变量 $Y$ 的类型来选取合适的相关性指标，这里互信息适用于特征和因变量都是分类变量的情况。公式中的概率均用各分类水平出现的频率来替代：
$p_i=\frac{n(X=x_i)}{N}，p_j=\frac{n(Y=y_j)}{N}，p_{ij}=\frac{n(X=x_i,Y=y_j)}{N}$

复制代码

    import pandas as pd
    import numpy as np
    
    def mutual_infor(X, y):
    	'''
    	Mutual Information
    	X and y are both categorical variables.
    
    	Input : {
    	X : one-dimensional array、list or series from Pandas
    	y : one-dimensional array、list or series from Pandas
    	}
    	
    	'''
    	X = np.array(X).reshape(-1)
    	y = np.array(y).reshape(-1)
    
    	if len(X) != len(y):
    		print('Length of X and y are inconsistent !')
    
    	X_level = list(set(X))
    	y_level = list(set(y))
    	N = X.shape[0]
    	I = 0
    
    	for i in X_level:
    		for j in y_level:
    			p_xy = np.sum(X == i) & (y == j) / N
    			p_x = np.sum(X == i) /N
    			p_y = np.sum(y == j) /N
    			I += p_xy * np.log(p_xy / (p_y * p_x))
    
    	return I
    
    
    python
    
    
![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-17/QoYi8ryXZ2tpJ9x5IRPcM6gnDS3s.png)

全部评论 (0)

还没有任何评论哟~

特征选择——互信息量

优质博文：ITBLOGCN 上一期介绍了决策树模型的生成算法，因个人原因，有关决策树的剪枝算法放在下一期文章。本期介绍分类问题中一个常用的指标——互信息。在之前参加的某数据比赛中，由于对数据背后的业...

特征选择——互信息量

最近做了一个数据比赛，由于对数据背后的业务不太了解，所以特征工程大多采取了“暴力”提取的方式，最终特征过多直接导致模型存在过拟合问题。所以赛后总结在做特征工程的过程中就要考虑特征的取舍问题，主要通过特...

【DA】特征选择之互信息

文章目录 1基本概念信息量信息熵条件熵互信息量 2Python实现特征选择过滤器 mutualinfoclassif：离散目标变量的互信息 mutualinforegression：连续目标变...

互信息特征选择python_基于互信息的特征选择算法MATLAB实现 – OmegaXYZ

在概率论和信息论中，两个随机变量的互信息MutualInformation，简称MI或转移信息transinformation是变量间相互依赖性的量度。不同于相关系数，互信息并不局限于实值随机变量，它...

matlab互信息特征选择,基于条件互信息的特征选择方法与流程

本发明属于机器学习、数据挖掘技术领域，具体讲,涉及基于条件互信息的特征选择方法。背景技术：作为维数约简的一种重要方式，特征选择是利用不同的度量标准对特征进行度量，从原始特征中选取效果较显著的特征子...

互信息特征选择python_特征选择：方差选择法、卡方检验、互信息法、递归特征消除、L1范数、树模型...

特征选择主要从两个方面入手：特征是否发散：特征发散说明特征的方差大，能够根据取值的差异化度量目标信息. 特征与目标相关性：优先选取与目标高度相关性的. 对于特征选择，有时候我们需要考虑分类变量和连续...

机器学习特征选择：传统互信息、k-nearest neighbor互信息

目录 1.传统互信息 2.EstimatingMutualInformation中的的两种基于最近邻的互信息 3.MutualInformationbetweenDiscreteandContinuo...

NLP_task3特征选择_点互信息和互信息(求词语关联性)

点互信息和互信息 1.点互信息PMI 机器学习相关文献里面，经常会用到点互信息PMIPointwiseMutualInformation这个指标来衡量两个事物之间的相关性（比如两个词）。

特征工程之特征选择(3)----F检验和互信息法

文章目录前言 F检验法 F检验概述示例互信息法互信息法概述示例前言前面已经讲了方差过滤和卡方过滤，如果这两种方法过滤后的数据还是不能令人满意，就可考虑这篇文章要将的F检验法，和互信息法。

特征选择过滤器 - mutual_info_regression（连续目标变量的互信息）

文章目录函数参数说明函数 sklearn.featureselection.mutualinforegressionX,y,discretefeatures='auto',nneighbors=...

是否确定退出登录?

特征选择——互信息量

目录

信息量

信息熵

条件熵

互信息量

用于特征选择(Python)

全部评论 (0)

相关文章推荐

特征选择——互信息量

特征选择——互信息量

【DA】特征选择之互信息

互信息特征选择python_基于互信息的特征选择算法MATLAB实现 – OmegaXYZ

matlab互信息特征选择,基于条件互信息的特征选择方法与流程

互信息特征选择python_特征选择：方差选择法、卡方检验、互信息法、递归特征消除、L1范数、树模型...

机器学习特征选择：传统互信息、k-nearest neighbor互信息

NLP_task3特征选择_点互信息和互信息(求词语关联性)

特征工程之特征选择(3)----F检验和互信息法

特征选择过滤器 - mutual_info_regression（连续目标变量的互信息）