神经网络中的交叉熵

阅读量：

[参考《TensorFlow实战Google深度学习框架(第2版)》]

作为分类问题中的损失函数

在神经网络的多分类问题中，常常使用one-hot的方法设置n类输出，比如在手写体识别问题中，如果是数字1，神经网络的输出越接近[0,1,0,0,0,0,0,0,0,0]越好。那么如何衡量神经网络与label的接近程度呢？交叉熵是常用的使用方法。其刻画的是两个概率分布之间的距离 。
交叉熵是信息论中的概念。对于给定的两个概率分布p和q，交叉熵的计算公式是(PyTorch中对数以自然常数e为底)：
$H(p,q)=-\sum_{i}p_i\,ln\, q_i$
在神经网络中常常通过一个Softmax层将原始输出层变成一个概率分布 （神经网络图如下：）：
$y_{output}=softmax(y)_i=\frac{e^{yi}}{\sum_{j=1}^{n}e^{yj}}$

e.g.将神经网络原始输出[1,0,0]转化成概率分布[0.5761, 0.2119, 0.2119]，就可以通过使用交叉熵来计算预测的概率分布和真实概率分布间的距离。
通过观察交叉熵的计算公式: $H(p,q)=-\sum_{i}p_i\,log\, q_i$ ,可以看出 $p$ 和 $q$ 是不对称的，即不可交换。它刻画的是使用概率分布 $q$ 表示概率分布 $p$ 的困难程度。在神经网络中，要的是预测结果描述真实label，所以 $q$ 是预测值，而 $p$ 是真实值。公式中，真实在前 。交叉熵刻画的是两个概率分布的距离，即交叉熵数值越小，两个概率分布越接近。下面给出两个具体样例直观地说明通过交叉熵可以判断预测答案和真实答案之间的距离。假设有一个三分类问题，某个样例的正确答案是（1,0,0）。某模型进过Softmox回归之后的预测答案是（0.5,0.4,0.1），那么这个预测和正确答案之间的交叉熵为：
$H((1,0,0),(0.5,0.4,0.1))=-(1*ln0.5+0*ln0.4+0*ln0.1)\approx0.69$
如果另一个模型的预测是（0.8.0.1,0.1），那么这个预测值和真实值之间的交叉熵是：
$H((1,0,0),(0.8,0.1,0.1))=-(1*ln0.8+0*ln0.1+0*ln0.1)\approx0.22$
从上面可以看出，后面这个模型的预测要好于第一个模型（后者的交叉熵小于前者），这与直观上的感觉一致。

PyTorch中的交叉熵

PyTorch中的交叉熵torch.nn.CrossEntropy将Softmax回归与交叉熵一起使用，即PyTorch将两个功能进行了封装，并提供torch.nn.CrossEntropy的方法(以下代码使用softmox的输出供间接验证CrossEntropy内包含softmax)：

复制代码

    import torch as t
    import numpy as np
    
    criterion = t.nn.CrossEntropyLoss()
    softmax = t.nn.Softmax()
    
    original_output = t.from_numpy(np.array([[1, 0, 0]])).float()  
    softmax_output = softmax(original_output)  # softmax_output:tensor([[0.5761,0.2119,0.2119]])
    output = criterion(t.from_numpy(np.array([[1, 0, 0]], dtype=np.float32)), t.from_numpy(np.array([0], dtype=np.int32)).long())  #output:0.5514
    
    # H([1,0,0], [0.5761,0.2119,0.2119])=-(1*ln0.5761+0*ln0.2119+0*ln0.2119)=0.5514
    
    
      
      
      
      
      
      
      
      
      
      
      
    
    AI写代码

全部评论 (0)

还没有任何评论哟~

神经网络中的交叉熵

[参考《TensorFlow实战Google深度学习框架第2版》] 作为分类问题中的损失函数在神经网络的多分类问题中，常常使用onehot的方法设置n类输出，比如在手写体识别问题中，如果是数字1，神...

神经网络：什么是交叉熵？

在机器学习和深度学习中，交叉熵（CrossEntropy）是一种常见的损失函数，特别适用于分类问题。尽管这个术语听起来可能有点复杂，但通过一个类比，我们可以更直观地理解它的含义和作用。类比场景：寻找...

神经网络的交叉熵损失函数

常见损失函数 01损失函数 LY,fX=\begincases1,&\textY!=fX\\0&\textY=fX\endcases 平方损失函数 LY,fX=YfX^2 绝对损失函数LY,fX=Yf...

神经网络笔记 - 交叉熵(Cross-Entropy)

如上文所述,如果我们使用均方误差来考量学习误差则有 Sigmoid函数的曲线大致如下图: 当神经元的输出接近0或者1的时候,曲线是比较平的,这也就意味着\sigma^'z是一个很小的值,这样的话,学...

神经网络中交叉熵代价函数求导

最近看了几篇神经网络的入门介绍知识，有几篇很浅显的博文介绍了神经网络算法运行的基本原理，首先盗用伯乐在线中的一个11行python代码搞定的神经网络， importnumpyasnp sigmoidf...

神经网络 -- Softmax以及Cross entropy（交叉熵）

softmax和crossentropy都是神经网络中重要的函数。而且都有着广泛的应用。 softmax之所以称为“soft”是由于它不像onehot中的值，只有0或者1。 softmax会将输入的值...

关于神经网络中的代价函数——交叉熵的由来

这段时间一直在看有关于神经网络的教程，在之前看过的其他一些机器学习算法，例如logistics回归等都是用C=y−a2/2函数做costfunction，但是在神经网络算法中，有些教程是使用交叉熵作为...

一文读懂卷积神经网络中softmax，softmaxloss, 交叉熵的理解

softmaxloss,交叉熵损失函数的理解信息量意义公式信息熵意义相对熵（KL散度）交叉熵公式在深度学习模型中的应用 softmaxloss的理解 softmax 后记信息量意...

Softmax与交叉熵：理解神经网络中的重要组成部分

在深度学习中，神经网络是一种广泛应用的模型，用于解决许多复杂的问题，如图像分类、语音识别和自然语言处理等。Softmax函数和交叉熵损失函数是神经网络中的重要组成部分，本文将重点介绍和解释Softma...

基于交叉熵准则(Cross Entropy Criteria)的神经网络训练

基于交叉熵准则CrossEntropyCriteria的神经网络训练 1\.神经网络结构上图为一个三层神经网络结构图。输入层为特征输入，隐层激活函数使用sigmoid函数，输出层激活函数使用sof...

是否确定退出登录?

神经网络中的交叉熵

作为分类问题中的损失函数

PyTorch中的交叉熵

全部评论 (0)

相关文章推荐

神经网络中的交叉熵

神经网络：什么是交叉熵？

神经网络的交叉熵损失函数

神经网络笔记 - 交叉熵(Cross-Entropy)

神经网络中交叉熵代价函数 求导

神经网络 -- Softmax以及Cross entropy（交叉熵）

关于神经网络中的代价函数——交叉熵的由来

一文读懂卷积神经网络中softmax，softmaxloss, 交叉熵的理解

Softmax与交叉熵：理解神经网络中的重要组成部分

基于交叉熵准则(Cross Entropy Criteria)的神经网络训练

神经网络中交叉熵代价函数求导