Advertisement

熵,交叉熵,相对熵(KL散度)

阅读量:

先添加一个资源可视化信息论,它直观且易于理解地解释了相关概念

什么是信息熵

信息熵是用来衡量随机变量不确定性大小的一个重要指标,在实际应用中具有广泛的意义。具体来说,在这种情况下:
当信息熵值越大时,则表示该随机变量的不确定性程度越高;
这也也就意味着系统的有序性越低。
具体来说,
考虑一个离散型随机变量P
其取值x_i的概率分别为p_i(其中i=1,2,…,n),
则称该随机变量的信息熵(或不确定性)为

H(P) = -\sum_{i=1}^{n} p_i \log p_i

什么是交叉熵

The cross-entropy measure is primarily used to quantify the difference between two probability distributions. For two probability distributions P and Q of a discrete random variable, their cross-entropy is defined as H(P,Q) = -\sum_{x} P(x)\log Q(x).

在机器学习领域中,P表示真实数据的概率分布,Q代表模型预测的概率分布,而交叉熵损失衡量的是这两个概率分布在信息论上的差异程度.当交叉熵损失越小时,模型预测的概率分布Q就越趋近于真实数据的概率分布P.这也是我们采用最小化交叉熵损失函数的核心原因,因为我们希望通过优化模型参数使得预测结果尽可能贴近真实数据的特征.

在其中, (x^{(i)},y^{(i)})被用来表示真实数据及其对应的标签, 而\hat{y}则被用作模型预测的结果. 模型分布中输出\hat{y}=0的概率由下式给出: q(\hat{y}=0|x_i,\theta)=\frac{1}{1+\exp(-\theta^\top x_i)}. 相应地, 输出\hat{y}=1的概率则可表示为q(\hat{y}=1|x_i,\theta)=1-\frac{1}{1+\exp(-\theta^\top x_i)}. 最后, 根据真实标签的分布特性, 我们有p(y^{(i)}=j|x_i)= \mathbf{I}\{y^{(i)}=j\}, 其中j取值范围为n, 这正是我们所要计算的softmax分类损失函数.

什么是相对熵

对一个离散随机变量的两个概率分布P和Q来说,他们的KL散度定义为:

相对熵(relative entropy)也被称作KL散度(Kullback–Leibler divergence; 简称KLD),是一种用于衡量两个概率分布P和Q之间差异的信息论中的指标。由于其不对称性特点,D(P||Q)与D(Q||P)的结果不同。
尽管有些人会将KL散度简单地称为KL距离,但严格来说,它并不符合距离公理的要求,因为:
1)KL散度不具备对称性;
2)它不满足三角不等式这一关键性质。
特别地,D(P||Q)具体指的是当使用概率分布Q去近似真实分布P时所引入的信息损失量,其中P代表真实分布,Q则代表基于模型所使用的拟合分布。
在信息检索以及统计自然语言处理领域中,KL散度具有广泛的应用价值。

三者间的关系

直观上来说,

  • H(P)代表真实的概率分布P所对应的编码所需的平均位数。
  • H(P, Q)指的是使用假设的概率分布Q来近似真实分布P时所需的平均编码位数。
    从信息论的角度来看,
    • H(Q|P)表示在已知P的情况下对事件进行编码所需的额外信息量。
    • I(P; Q)则是衡量两个概率分布之间差异的重要指标。
      这些概念在评估模型性能时非常关键。

全部评论 (0)

还没有任何评论哟~