香农信息量、信息熵、交叉熵
香农信息量:
仅就连续型随机变量的情况而言,在考虑连续型随机变量的情形下,令p(X)为概率密度函数,并且定义其概率密度函数值p(x)即为对应位置的概率密度值。香农信息量定义为:对于给定的概率分布p(X),其香农信息量H(X)等于积分∫-∞到+∞ p(x)log(1/p(x))dx的结果。

其中使用的对数底数为2,在这种情况下香农信息量被定义为比特单位。香农信息量用于衡量消除随机变量X在特定点x处所携带的信息量大小。例如,“中国足球无法进入世界杯”这一事件所需的信息量较少(例如是否需要更多关于国足表现的数据),就可以基本消除其不确定性。再例如,“抛一枚硬币出现正面”这一结果的发生,则可以通过简单的计算确定其所需的信息量为1比特,并且只有当随机试验的结果明确时才能真正消除其不确定性。
我们可以将不确定性的大小类比为某种度量指标。当某个消息所带来的不确定性较高时,则意味着该消息所携带的信息量较大。举个例子来说,在特定情况下(如x=sun rise in east),该事件的发生概率p(x) = 1,则其携带的信息量可被视为0值。
带来了另一个重要信息:y=明天有一位老师将抽查我的作业。这带来了巨大的不确定性——共有8位老师中的一位将抽查我的作业。这也值得我静下心来思考如何合理推断这一情况。这也意味着较高的不确定性和较高的信息量。
信息熵:
在刚刚的步骤中已经定义了单个点处的香农信息量,在接下来的部分中我们需要探讨如何评估随机变量X(或其整个样本空间)的整体香农信息量呢?下面将介绍随机变量X的信息熵这一重要概念,并将其与概率分布p相结合进行分析。这里所说的H(p),即为被定义为香农信息量-logp(x)的数学期望值的一种指标;它具体表现为所有可能取值x对应的香农信息量之和,并且考虑到每个x出现的概率不同(由概率密度函数值p(x)来度量),因此在计算过程中需要用每个p(x)进行加权求和的操作才能得到准确的结果;其数学表达式如下所示:

交叉熵:
假设q(x)是被用来用于拟合p(x)的概率分布函数,在x属于p分布下的样本空间中定义了交叉熵这一指标;该指标用作衡量q在对p进行概率估计过程中所包含的信息量大小(可视为衡量q实现对p的近似程度),并强调这种信息量并非完全被利用(即充分使用并非意味着能完全达到理论上的最大值),而是指能够有效提取的信息总量;从信息论的角度来看,在交叉熵的定义中,“充分使用”这一表述与信息熵定义中的“所需”有所区别——前者并不意味着能够完全达到理论极限值,“所需”则暗示着理论上可以达到的最大值。
在每个样本点X=x处,我们定义了q所对应的香农信息量为-log q(x)。即为,在该点使用的分布q所能消除与目标分布p相关的不确定性程度定义为-log q(x)(此处理解为衡量q在X=x处为了拟合p所作的努力)。进而可计算出整个样本空间内基于分布q消除与p相关的不确定性总量。其中每个样本点x的概率权重由p(x)决定,则交叉熵H(p,q)即为此处的度量。

