交叉熵和KL散度

阅读量：

好文推荐：链接
交叉熵（Cross Entropy）与KL散度（Kullback-Leibler Divergence）均为衡量概率分布间差异程度的指标。它们在信息论与机器学习领域具有重要应用。特别地，在深度学习中这些指标通常被广泛应用于损失函数设计以及模型训练过程中

1. 交叉熵（Cross Entropy）：

交叉熵常用于衡量两个概率分布之间的区别程度，并被视为一种指标。其计算方法如下：

对于离散型分布：

$H(p, q) = -\sum_{x} p(x) \log(q(x)) =\sum_{x}p(x)\log(\frac{1}{q(x)})$

对于连续型分布：
$H(p, q) = -\int p(x) \log(q(x)) dx$

其中，在分类问题中，
$p$ 表示真实概率分布（ground truth），
$q$ 表示预测概率分布（predicted probability distribution）。
commonly，
$p$ represents probabilistic distributions representing true class labels，
通常以one-hot编码的形式，
而 $q$ represents the probabilistic distributions predicted by the model.

交叉熵函数具有以下特点：

交叉熵函数始终为非负值，并在两个概率分布完全一致时达到最小值零

在机器学习领域中,交叉熵函数常被用作分类任务中的损失函数,在评估模型预测值与真实标签间差异程度的同时促进模型性能提升

使用 PyTorch 内置函数计算交叉熵的示例：

复制代码

    import torch
    import torch.nn.functional as F
    
    # 定义真实标签和预测概率
    target = torch.tensor([0, 1])  # 真实标签
    output = torch.tensor([[0.6, 0.4], [0.2, 0.8]])  # 预测概率，注意：这里需要是概率值，而不是 logit 或 log-probability
    
    # 计算交叉熵
    cross_entropy = F.cross_entropy(output, target)
    print("Cross Entropy:", cross_entropy.item())
    
    
    python
    
    
![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-18/4Kq8lCPnp7ZHtdjw391BkU5f2mhg.png)

2. KL散度（Kullback-Leibler Divergence）：

KL散度用于衡量两个概率分布间的差异程度, 即前者相对于后者的不确定性差异. 其计算公式如下:
$D_{KL}(p||q) = \sum_{x} p(x) \log \frac{p(x)}{q(x)}$

其中我们定义为 $p$ 和 $q$ 分别代表两个概率分布模型。KL散度则衡量了将 $q$ 用于拟合 $p$ 时所造成的期望信息损失量（或信息增益）。

KL散度函数具有以下特点：

其值始终为非负数，并且仅在两个分布完全相同时达到最小值0。
- 其计算结果表明该散度指标具有不对称性特征。

KL散度常被用来表征两个概率分布之间的差异程度，在信息论领域中被广泛应用于数据压缩和信息传输问题中。然而，在数学上它不具备距离度量的所有性质；例如，在某些情况下它并不满足对称性和三角不等式的条件。

使用 PyTorch 内置函数计算 KL 散度的示例：

复制代码

    import torch
    import torch.nn.functional as F
    
    # 定义真实分布和预测分布
    p = torch.tensor([0.3, 0.7])  # 真实分布
    q = torch.tensor([0.4, 0.6])  # 预测分布
    
    # 计算 KL 散度
    kl_divergence = F.kl_div(q.log(), p, reduction='sum')
    print("KL Divergence:", kl_divergence.item())
    
    
    
    python
    
    
![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-18/rA7SiZK6EDaYsu8eOkz01m3FIlRq.png)

联系和区别：

联系： 交叉熵函数等同于KL散度的一种特殊情况。事实上，在信息论领域中（或上下文中的相关领域），交叉熵等于两个概率分布之间计算出的KL散度再加上一个常数值。在机器学习应用中（或具体应用场景下），交叉熵常被结合使用作为损失函数，在这种情况下它量化了预测概率分布与真实概率分布之间的差距。

区别： * 交叉熵函数作为一种评估工具，在衡量模型预测结果与实际数据差距方面表现出色。

KL散度则用于量化两个概率空间之间的不一致程度，在使用一个空间的概率分布来近似另一个空间时会引入的信息损失。

全部评论 (0)

还没有任何评论哟~

KL散度和交叉熵

KL散度KullbackLeiblerKLdivergence是信息论中的一个重要概念，它可以用来衡量两个随机分布的差异，这篇文章会举一个例子用通俗易懂的方式来解释KL散度和与它密切联系的交叉熵cro...

交叉熵和KL散度

好文推荐：链接交叉熵（CrossEntropy）函数和KL散度（KullbackLeiblerDivergence）函数都是用于度量概率分布之间的相似性或差异性的函数。它们在信息论和机器学习中都有着...

交叉熵与KL散度

WelcomeToMyBlog 老遇到交叉熵作为损失函数的情况,于是总结一下 KL散度交叉熵从KL散度相对熵中引出,KL散度KullbackLeiblerDivergence公式为: KL散度是衡量...

交叉熵与KL散度

KL散度 KL散度（KullbackLeiblerdivergence，简称KLD），在消息系统中称为相对熵（relativeentropy），在连续时间序列中称为随机性（randomness），在统...

熵，交叉熵，相对熵（KL散度）

先插入一个链接可视化信息论，简单明了很容易看懂什么是信息熵信息熵是度量随机变量不确定度的指标，信息熵越大意味着随机变量不确定度越高，意味着系统的有序程度越低。

熵，交叉熵，KL散度，条件熵

参考理解熵与交叉熵\九号的文章知乎 https://zhuanlan.zhihu.com/p/389293738 熵计算公式：Ha=−logpaHa=logpa 就是信息量，对于一个事件A，的一种情...

Entropy（熵）、Cross_Entropy（交叉熵）、KL散度

1\.信息熵（Entropy）获得1bit的信息可以将不确定性减少一半（也可以说不确定性降低了2倍）例子：假设天气情况完全随机，有晴天、雨天两种情况，则是晴天或雨天的概率各为0.5。

信息熵、交叉熵与KL散度

信息量在信息论与编码中，信息量，也叫自信息（selfinformation），是指一个事件所能够带来信息的多少。一般地，这个事件发生的概率越小，其带来的信息量越大。从编码的角度来看，这个事件发生的概...

交叉熵、相对熵（KL散度）、JS散度和Wasserstein距离

1信息量任何事件都会承载着一定的信息量，包括已经发生的事件和未发生的事件，只是它们承载的信息量会有所不同。如昨天下雨这个已知事件，因为已经发生，既定事实，那么它的信息量就为0。如明天会下雨这个事件，...

信息熵，交叉熵，相对熵，KL散度

熵，信息熵在机器学习和深度学习中是十分重要的。那么，信息熵到底是什么呢？首先，信息熵是描述的一个事情的不确定性。比如：我说，太阳从东方升起。那么这个事件发生的概率几乎为1，那么这个事情的反应的信息量...

是否确定退出登录?

交叉熵和KL散度

1. 交叉熵（Cross Entropy）：

2. KL散度（Kullback-Leibler Divergence）：

联系和区别：

全部评论 (0)

相关文章推荐

KL散度和交叉熵

交叉熵和KL散度

交叉熵与KL散度

交叉熵与KL散度

熵，交叉熵，相对熵（KL散度）

熵，交叉熵，KL散度，条件熵

Entropy（熵）、Cross_Entropy（交叉熵）、KL散度

信息熵、交叉熵与KL散度

交叉熵、相对熵（KL散度）、JS散度和Wasserstein距离

信息熵，交叉熵，相对熵，KL散度