交叉熵与KL散度
KL散度
KL散度(Kullback-Leibler relative entropy)是衡量两个概率分布之间差异的一种指标,在信息论和统计学中具有重要应用。它通常被简称为KLD值。在信息处理系统中这一指标被称为相对熵,在动态数据序列分析中则可视为随机度,在机器学习模型评估过程中则对应于信息增益这一关键指标值。该指标有时也被形象地 referred to as 信息散度
KL散度用于衡量两个概率分布之间的差异性
定义
其中离散随机变量的概率空间中

等价于

基于概率分布P计算得到的概率分布P与Q之间的对数值比的期望值。仅在概率分布P和Q满足归一化条件(即各自总和均为1)且所有i的情况均满足时(即对于任何i),KL散度才有定义。其中可能出现的情况(即式中未明确给出具体数值的情形),其值以0计。
我们可以将其概率分布P和Q的KL散度通过积分方式定义为[[2]]

其中p和q分别表示分布P和Q的密度。
一般情况下,在集合X上考虑两个概率测度P和Q,并假设P相对于Q是绝对连续的,则从概率分布P到Q的KL散度即定义为

其中,假定右侧的表达形式存在,则

对于Q而言,在P方面存在[R-N导数](https://zh.wikipedia.org/wiki/波尼-�� %EA%B3 %BC-E5%B0 %BC-E4%B0 %A3-E5 %AE-9A -E7 %90 %86 [R-N导数])
相应地,在P与Q之间存在绝对连续的关系时,则

即为P关于Q的相对熵。
特性
相对熵的值为非负数:

由吉布斯不等式可知,当且仅当

时

为零。
然而,在直观印象中,KL散度属于度量工具或距离指标, 却并不真正满足这些条件。因为KL散度不具备对称性:具体来说, 从概率分布P到Q的距离通常与从Q到P的距离不相等。

KL散度和其它量的关系
自信息和KL散度

互信息和KL散度

信息熵和KL散度

条件熵和KL散度

交叉熵和KL散度

交叉熵
Within the domain of information theory [链接], considering probability distributions based on identical event measures, the cross entropy (also known as cross-entropy in English) represents the average number of bits required to uniquely identify an event within the event set when encoding using a non-natural (relative to the true distribution) probability distribution. The formula for this is represented as H(p,q), where p and q are the respective probability distributions.
给定两个概率分布和,相对于的交叉熵定义为:

其中涉及的是熵来源与KL散度(也被称作p相对于q的KL散度)。
对于离散分布和,这意味着:

对于连续分布也是类似的。我们假设和在测度 上是绝对连续的(通常 是Lebesgue measure on a Borel σ-algebra)。设和分别为的在测度 上概率密度函数。则

源起
在信息论中, 以直接可解编码模式通过值编码一个信息片段,使其能在所有可能的集合中唯一标识该信息片段,Kraft–McMillan theorem确保这一过程可以被看作一种上的隐式概率分布,从而使得是的编码位长度。 因此, 交叉熵可以看作每个信息片段在错误分布下的期望编码位长度,而信息实际分布为。这就是期望是基于而不是的原因。



估计
通常情况下,在不明确概率分布的情况下计算交叉熵是一项必要的任务。例如,在语言模型这一领域中,我们通过训练数据集构建了一个语言模型,并利用测试集合中的数据来评估该模型的性能。其中,“真实概率分布”指的是语料中词汇的实际出现频率,“预测的概率分布”则是我们通过训练得到的语言模型对词汇出现可能性所作出的估计。“由于真实概率分布是未知的这一事实限制了我们直接计算交叉熵的能力。”

表示测试集的大小,在训练集中估算出的事件发生概率被定义为此变量。基于假设训练数据来自真实分布的前提下,则该方法所得到的结果是对真实交叉熵的一种蒙特卡洛估计。
