信息熵的基础

阅读量：

信息熵

克劳德·香农在1948年提出了这一概念。克劳德·香农是一位美国著名科学家和信息论先驱者，在他的研究中提出了“信息熵”的概念，并为现代数字通信技术的发展奠定了理论基础。

理解信息熵

信息熵被用作度量不确定性的重要指标。即用来表示离散随机变量发生概率的数值。直观地说，在情况越来越复杂无序时（即混乱程度增加），其对应的信息熵值越大；反之，则越低。

伟大数学家香农给出了信息熵的计算公式，如下所示：

其中p代表概率的概念，在这种情况下，“X”即为用于计算信息熵的数据集合。在决策树分类算法中，我们可以根据各类别在数据集中的比例（比例越大则类别越纯）来理解这一概念。其中N表示分类问题中的类别总数，并且Pk代表子集中第k类样本所占的比例。理解了这些基本概念之后，请进一步理解信息熵的具体计算方法则相对容易。

信息熵公式计算

让我们来考虑一个简化的案例，在这一信息熵计算公式的应用进行简化说明。具体来说，在二元分类场景中，当所有样本均归类于同一类别时（即某一类别的占节点子集的全部比例），另一类别所占比例则为零；此时的信息熵计算公式如下：

无需阐述对数函数的基本法则；基于2的对数运算中, log₂1的结果必然是零；经计算得出这两个类别对应的信息熵总和等于零；当信息熵值等于零时, 则表明该子集内的分类完全一致且有序；由此可知, 在pk=0.5时达到的信息熵最大值；最后我们根据以上分析绘制了信息熵作为变量变化的趋势图表, 如下所示：

ID3算法—信息增益

通过学习相关知识后可知，在决策树算法中所处理的对象是一个涵盖所有类别的集合，并通过一系列条件判断筛选出纯度较高的子集。那么我们该如何利用信息熵理论从特征集合中提取最优判断标准呢？以下将以 ID3 算法为例展开说明。

ID3（Iterative Dichotomiser 3）算法是决策树算法的一种重要代表，在香农的信息论基础之上实现了这一目标。它遵循奥卡姆剃刀原则——追求简单之美（the simplest possible solution），即用最少的东西实现最多的功能。

将这一理念应用于决策树构建过程中，则形成了 ID3 算法的核心逻辑：最小化模型复杂度的同时最大化预测能力（minimize model complexity, maximize predictive capability）。具体而言，在构建过程中我们会采用信息增益作为选择标准（use information gain as the selection criterion），从而能够提取出最优的关键指标（select the most minimal yet effective decision criteria）。

1) 理解信息增益

简而言之，在分析特征时所依据的信息增益是指某个特定特征的存在或缺失对整个系统或集合产生的影响程度。当考虑某个特定特征时（即该特征的存在与否），它对整个系统或集合的影响程度可以用"信息增益"来衡量。我们知道，在信息论中，在经过一次 if-else 判别后（即进行一次条件判断），原来的类别集合就被分割成了两个子集。我们的目标是在这些子集中尽可能提高某一类别的"纯度"（即同类元素的比例）。如果在分割后的子集中某单一类别的纯度较之前更高，则表明这一次 if-else 划分是有效的。通过比较得到"纯度"最高的那个划分条件，则是我们寻找的最佳划分标准——即最合适的特征维度判别条件。

2) 信息增益公式

那么如何计算信息增益值呢？我们可以通过比较划分前后的集合信息熵差异来进行计算。也就是说进行减法运算：用划分前集合的信息熵减去按特征维度属性划分后的子集对应的信息熵之和（或期望），从而就能得到该特征带来的信息增益值。公式如下所示：

G = H - um_{k=1}^{K}frac{eft | S^{k} ight |}{eft | S ight |}H

G(S,a)表示当集合S采用特征属性t进行分类时所获得的信息增益；而H(x)则表示该集合的信息熵；对于‘减数’这一概念而言，在本节中我们将深入分析其具体的定义及计算方法：

大写字母 k 表示：按特征维度 t 划分后被划分为若干个子集的意思。
- 小写字母 k 表示：划分后的其中一个子集，在划分后共有五个子集的情况下，则 k = 1 表示从第一个子集开始计算求和。
|S| 与 |Sk| 表示：集合 S 中元素的数量（这里的||并不是绝对值符号），而 |Sk| 表示划分后某个特定集合 S_k 的元素数量。
|S| / |Sk| 表示：在原始集合 S 中某个特定集合 Sk 的元素占比，在决策树中该集合的信息熵权重大小取决于其占比比例。占比越大权重越高。
最后，在比较不同特征属性的信息增益时发现, 增益值越大表示该特征属性分割后的纯度更高, 分类的效果也越佳, 因此我们选择效果最佳的特征属性作为 if-else 规则的最佳判别条件。

全部评论 (0)

还没有任何评论哟~

信息论基础——熵、信息熵、互信息

信息论基础写在前面至于为什么在更新《统计学习方法》的时候要插一个信息论相关的内容。主要是考虑到从下一章决策树开始，熵成了一个无法避免的讨论对象。所以就想单独拿出一章来讲一讲熵相关的内容。当然，这...

信息熵的基础

信息熵信息熵这一概念由克劳德·香农于1948年提出。香农是美国著名的数学家、信息论创始人，他提出的“信息熵”的概念，为信息论和数字通信奠定了基础。理解信息熵信息熵是用于衡量不确定性的指标，也就是...

信息论基础——熵

信息论基础——熵一、Jensen不等式定理1设ff为区间II上的凹函数，pi∈[0,1],i=1,2,⋯ ,npi\in[0,1],i=1,2,\cdots,n,且∑i=1np...

信息论基础：信息熵与互信息

1\.背景介绍信息论是应用数学的一个分支，主要研究信息的量化、存储和传递。它由克劳德·香农于1948年创立，对现代通信和数据压缩技术产生了深远的影响。信息论的核心概念之一是信息熵，它衡量消息中包含的...

通信基础 1——熵、条件熵、互信息

目录熵举例：条件熵举例：互信息信息增益信息增益定义信息增益的应用互信息概念性质交叉熵定义熵熵是表示随机变量不确定性的度量，X是一个取有限值的离散随机变量，其概率分布为：则随...

信息熵与压缩编码基础

信息熵与压缩编码基础文章目录信息熵与压缩编码基础一、什么是信息熵二、信息熵的计算与两种编码方式的压缩率计算香农凡诺编码霍夫曼编码 BMP文件内存验证一、什么是信息熵信息熵是消除不确定性...

信息熵与压缩编码基础

一、信息熵信息的定义信息，指音讯、消息、通讯系统传输和处理的对象，泛指人类社会传播的一切内容。人通过获得、识别自然界和社会的不同信息来区别不同事物，得以认识和改造世界。在一切通讯和控制系统中，信息...

信息熵与压缩编码基础

一.信息熵信息是个很抽象的概念。人们常常说信息很多，或者信息较少，但却很难说清楚信息到底有多少。信息熵是通过一组具有任意概率的事件集合来定义的。 1.理论提出信息论之父C.E.Shannon在194...

信息熵与压缩编码基础

信息熵与压缩编码基础信息熵一串消息包含A，B，C，D，E共5类符号，其内容为AABBBBAAAACCCCCCCCCEEEEEEDDDDEEEEEEEEEEEEE，分别对其进行香农编码和霍夫曼编码 ...

信息熵与两种编码基础

文章目录一、信息熵二、香农凡诺编码与霍夫曼编码 1.香农凡诺编码 2.霍夫曼编码三、RGB及BMP图像空间占用一、信息熵信息中排除了冗余后的平均信息量称为“信息熵” 信息熵是消除不确定性所需...

是否确定退出登录?

信息熵的基础

信息熵

理解信息熵

信息熵公式计算

ID3算法—信息增益

全部评论 (0)

相关文章推荐

信息论基础——熵、信息熵、互信息

信息熵的基础

信息论基础——熵

信息论基础：信息熵与互信息

通信基础 1——熵、条件熵、互信息

信息熵与压缩编码基础

信息熵与压缩编码基础

信息熵与压缩编码基础

信息熵与压缩编码基础

信息熵与两种编码基础