Advertisement

信息熵+互信息(信息增益)

阅读量:

文章目录

  • 信息增益

    • 信息量
    • 信息熵
    • 条件熵
    • 信息增益
  • 互信息

    • Part1: 信息增益(information gain)
    • Part2: 互信息(mutual information)
    • 信息增益和互信息的关系
      • Part 1: 信息增益与互信息的关系
      • Part 2: 互信息的定义
      • 两者的联系与推导
      • Part 2 公式的推导
      • 总结
  • 对于等式\sum_{y} p(y) \log p(y) = \sum_{x, y} p(x, y) \log p(y)进行阐述。

  • 第一部分将阐述该等式的含义。

    • 第一部分将阐述该等式所代表的意义。
    • 第一部分将阐述这一关系的核心内容。
    • 第一部分将详细说明该等式的推导过程及其背后的逻辑。
    • 第一部分将深入探讨这一等式在概率论中的应用价值。
    • 第一部分将系统分析这一等式的理论基础及其实际意义。
  • 第二部分将阐述联合分布与边缘分布之间的联系或差异。

    • 第二部分将详细分析联合分布与边缘分布之间的关系及其影响因素。
    • 第二部分将探讨两者在统计学中的不同应用场景及其相互关联性。
    • 第二部分将系统研究联合分布与边缘分布之间的转换规则及其意义。
    • 第二部分将深入探讨联合分布与边缘分布在数据处理中的重要性。
    • 第二部分将全面分析联合分布与边缘分布在概率计算中的应用价值。
  • 第三部分将明确该推导的核心结论并加以验证。

    • 第三部分将明确推导所得出的主要结论并对其有效性进行验证。
    • 第三部分将详细陈述推导结果并分析其实质意义及适用范围。
    • 第三部分 will explicitly state the main conclusion derived from the derivation and validate its reasonableness.

交叉熵->信息熵->KL散度

信息增益

信息量

香农在其理论中指出,“信息减少了随机性或不确定性”。这也就意味着衡量一个系统的信息量时,则需考察其减少不确定性的能力。

太阳每天都会从东方升起

"2018年中国队取得世界杯突破" ,从直观上看这一表述具有较大的信息容量。由于中国队晋级世界杯充满了不确定因素,在此语境下这句话有效消除了这种不确定性,在理论上其信息含量达到了最大值。因此根据定义

从上述可知:信息量的大小与信息发生的概率呈反比关系 。发生可能性越高,则所包含的信息就越少。

定义事件x的概率为P(x),则称其信息量为I(x)。

其中\mathrm{I}(\mathrm{x})表示信息量,这里log ⁡表示以e为底的自然对数。

信息熵

信息熵亦被称为熵这一术语,并被用于衡量所有信息量的期望水平。

使用明天的天气概率来计算其信息熵:

在这里插入图片描述

\mathrm{H}(\mathbf{X})=-(0.5 * \log (0.5)+0.2 * \log (0.2)+0.3 * \log (0.3))\tag{3}

针对服从两点分布的随机变量X而言,在信息论中我们通常假设该随机变量的结果仅有两种可能:发生与不发生。令某一事件发生的概率为\mathrm{P}(x), 则其不发生的概率自然为1 - \mathrm{P}(x). 因此,在处理服从两点分布的随机变量时, 我们可以将熵的计算公式进行简化处理

\begin{array}{c} \mathrm{H}(\mathbf{X})=-\sum_{\mathrm{n}=1}^{\mathrm{n}} \mathrm{P}\left(\mathrm{x}_{\mathrm{i}} \log \left(\mathrm{P}\left(\mathrm{x}_{\mathrm{i}}\right)\right)\right) \\ =-[\mathrm{P}(\mathrm{x}) \log (\mathrm{P}(\mathrm{x}))+(1-\mathrm{P}(\mathrm{x})) \log (1-\mathrm{P}(\mathrm{x}))] \\ =-\mathrm{P}(\mathrm{x}) \log (\mathrm{P}(\mathrm{x}))-(1-\mathrm{P}(\mathrm{x})) \log (1-\mathrm{P}(\mathrm{x}))\tag{4} \end{array}

在信息论和概率统计学中,请阐述熵与条件熵的概念。具体而言,在信息论与概率统计中,熵(entropy)是一个表示随机变量不确定性程度的重要指标。考虑一个离散型随机变量 X ,它具有有限的概率分布,请详细说明其相关性质及其计算方法。

P(X=x_i)=p_i,\quad i=1,2,\cdots,n \tag{5}

则随机变量 X 的熵定义为:

H(X)=-\sum_{i=1}^np_i \log p_i \tag{6}

对于公式(2),当p_i=0时,则定义其对数值为零即满足条件。其中以二进制或自然对数为基础时所计算出的结果分别被称为比特(bit)或纳特(nat)。由此可见该值仅与随机变量X的概率分布有关而与其具体取值无关因此也可以将X的概率熵简记为H(p)即

条件熵

条件熵 H(Y|X) 代表,在已知随机变量 X 的情况下,随机变量 Y 所具有的不确定性程度。当随机变量 X 被给定时,随机变量 Y 的条件熵(conditional entropy) H(Y|X) 被定义为,在给定 X \text{ 的情况下}Y \text{ 的条件概率分布所对应的熵值对 } X \text{ 求取数学期望:}

H(Y|X)=\sum_{i=1}^np_i H(Y|X=x_i)\tag{8}

此处定义 p_i = P(X = x_i) 为变量 X 取值 x_i 的概率,其中 i = 1, 2, \ldots, n。当计算这些概率所生成的系统的总信息量及其条件下系统的总信息量时,则分别被称为经验信息量(empirical information content)与经验条件信息量(empirical conditional information content)。

信息增益

信息增益(information gain)度量得知特征X后类Y信息不确定性减少的程度。
特征X对训练数据集Y的信息增益g(Y,X),等于训练数据集Y的经验熵H(Y)与给定特征X条件下其经验条件熵H(Y|X)之差:

g(Y,X)=H(Y)-H(Y|X)\tag{9}

通常来说,在机器学习中我们衡量两个随机变量之间的依赖程度可以通过计算它们的熵差值来实现。具体而言,在决策树算法中所使用的"信息增益"实际上等价于计算训练数据集中类别与其相关联的特征所包含的互信息量。

决策树学习采用信息增益准则来选择最能区分各目标类别的特征。给定训练数据集Y以及其属性X, 经验熵H(Y)则表示在没有其他知识支持下将实例分配到各类别中的不确定性大小;而经验条件熵H(Y|X)则表示在已知实例属性值X的情况下将实例分配到各类别中的不确定性大小。两者之间的差异即为信息增益,在此过程中它衡量了属性X能够帮助我们减少分类不确定性的能力大小。显然地,在处理同一个数据集时不同属性往往具有不同的信息增益值,并且那些具有较高信息增益值的属性通常意味着它们在分类任务中扮演着更为重要角色的作用

当参数g值越大时,则表明其不确定性越低;由此可知,在已知输入变量X的前提下(即条件为给定输入数据),输出变量Y的信息熵值\ H(Y|X)\ 会随着参数\ g\ 增大而减小;这也就意味着,在输入数据已知的情况下(即条件为给定输入数据),输出变量\ Y\ 的状态更加确定;因此分类系统的预测结果更加准确。
基于信息增益准则的特征选择方法是:对于训练数据集(或子集)\ Y\ ,计算其每个特征对应的信息增益指标, 并通过比较这些指标的大小来筛选出具有最大信息增益的特征。

这一表述源自《统计学习方法》第二版,在公式9中g(Y,X)=H(Y)-H(Y|X)中,Y代表的是一个随机变量,而g(Y,X)应该对应于某个具体实例的值,因此,Y应在特定实例下取具体数值,即为下面介绍互信息的具体计算方式。具体推导可以看下面的内容

互信息

Part1: 信息增益(information gain)

Part1:信息增益量(information gain)表示通过特征X所获得的信息而减少了类Y的信息不确定性程度。
特征X对训练数据集Y的信息增益g(Y,X),即为集合Y的经验熵H(Y)与在给定特征X的情况下Y的经验条件熵H(Y|X)之差,即:

g(Y,X)=H(Y)-H(Y|X)\tag{9}

H(Y|X)=\sum_{i=1}^np_i H(Y|X=x_i)
这里 p_i=P(X=x_i), i=1,2,\cdots, n
H(X)=-\sum_{i=1}^np_i \log p_i

在信息论中,熵H(Y)减去条件熵H(Y|X)定义为互信息(mutual information)。在决策树学习中,信息增益等于计算训练数据集中类与特征之间的互信息。

Part2: 互信息(mutual information)

互信息 I(X; Y) 可以定义为联合分布和边缘分布之间的差异:

I(X; Y) = \mathbb{E}_{p(x, y)} \left[ \log \frac{p(x, y)}{p(x)p(y)} \right]

我们可以致力于确定一种特征表示,在相同分布中采样得到的正样本对(q 和 x^+)具有最大的联合概率,并使负样本对的联合概率保持在最低水平。

信息增益和互信息的关系

part1和part2部分有什么关系?part2的公式是咋由part1推导出来的呢

Part 1 和 Part 2 中所涉及的信息增益与互信息,在表述方式上有所不同,但其基本概念是一致的,并且都是用于评估变量间的信息关联程度。为了深入理解它们之间的联系与区别,请先研究两者的定义来深入分析。

Part 1: 信息增益与互信息的关系

在决策树学习过程中,信息增益即为熵值的降低程度:
g(Y, X) = H(Y) - H(Y|X)
其中,H(Y) 表示分类结果Y 的熵值;而H(Y|X) 则是在基于特征X 的条件熵值。这种度量等价于该特征与该类别之间的关联程度。进一步说明,在机器学习框架下,这一度量指标即为该特征与该类别之间的互信息具体体现。

Part 2: 互信息的定义

在Part Two中进行讨论的是互信息I(X; Y)。它衡量了随机变量X与Y之间的相互关联程度,并且其计算基于概率分布之间的比较关系。数学上可以表示为I(X; Y) = \mathbb{E}_{p(x, y)} [\log p(x, y)] - \mathbb{E}_{p(x)} [\log p(x)] - \mathbb{E}_{p(y)} [\log p(y)]

两者的联系与推导

互信息指标I(X; Y)度量的是变量XY之间的共享信息量。这表明了变量X的观测值降低了对Y
的不确定性。

熵的定义:
H(Y) 是衡量变量 Y 的不确定性:
H(Y) = - \sum_{y} p(y) \log p(y)

条件熵的概念:
其中,H(Y|X) 用来衡量,在已知输入变量 X 的情况下,输出变量 Y 的信息不肯定性:

H(Y|X) = - \sum_{x, y} p(x, y) \log p(y|x)

互信息的推导:
互信息 I(X; Y) 表示 XY 之间的信息共享,可以写作:
I(X; Y) = H(Y) - H(Y|X)

从这个角度看,Part 1 中的信息增益公式实际上就是互信息的一个特例。

Part 2 公式的推导

要推导 Part 2 中的互信息公式,可以从条件熵和联合熵的关系出发:

互信息可以通过对比联合概率分布与边缘概率分布来表示

p(y) 表示变量y的概率分布。
H(Y) 表示随机变量Y的熵。
通过计算得到:

H(Y) = -\sum_{y} p(y)\log p(y)

同样地:

H(Y|X) = -\sum_{x,y} p(x,y)\log p(y|x)

因此:
$$I(X; Y) = H(Y) - H(Y|X)

展开后: $$I(X; Y)= \sum_{x,y} p(x,y)\log \frac{p(y|x)}{p(y)}

进一步简化为:
$$I(X; Y)= \sum_{x,y} p(x,y)\log \frac{p(x,y)}{p(x)p(y)}

根据互信息的定义可知,在概率论中它衡量的是两个随机变量之间的相关性程度

由此可见,在第2部分中引入的公式可视为第1部分信息增益的一种延伸或拓展,这种表达形式特别适合用来衡量两个随机变量之间的信息共享程度。

总结

实际上它们是从同一个概念出发的两个不同表述方式。其中的信息增益可视为一种特定情况下的互信息应用,在决策树学习中被特别关注和应用;而 Part 2 的互信息公式则是一种更为普遍适用的形式,在度量两个随机变量之间相互依存程度方面具有更强的灵活性和适用性

\sum_{y} p(y) \log p(y) = \sum_{x, y} p(x, y) \log p(y)的解释

其核心在于深入掌握联合概率分布 p(x, y) 和边缘概率分布 p(y) 之间的关系

1. 联合分布与边缘分布的关系

根据概率论中的 边缘化 定理,边缘分布 p(y) 可以通过联合分布 p(x, y)x 进行求和得到:

p(y) = \sum_{x} p(x, y)

表明,在给定随机变量 xy 的联合概率分布 p(x, y) 的情况下(当我们在讨论联合分布时),通过求和操作可以获得变量 y 的边缘分布

2. 代入求和

我们从左边的表达式出发:

\sum_{y} p(y) \log p(y)

根据 p(y) = \sum_{x} p(x, y),我们将边缘分布 p(y) 代入该公式:

\sum_{y} p(y) \log p(y) = \sum_{y} \left( \sum_{x} p(x, y) \right) \log p(y)

即:

\sum_{y} p(y) \log p(y) = \sum_{x, y} p(x, y) \log p(y)

我们注意到,在这里 \log p(y) 的值并不依赖于变量 x ,因此我们可以直接将其提取出内层求和符号。这样处理后 ,右边的整体表达式就可以被表示为所有变量联合分布的概率求和的结果 。

3. 结论

由此可见,在信息论中存在如下等式:
\sum_{y} p(y) \log p(y) = \sum_{x, y} p(x, y) \log p(y)
该等式表明将边缘概率 p(y) 求和的过程可被视为联合概率 p(x, y) 的总和

全部评论 (0)

还没有任何评论哟~