神经网络的交叉熵损失函数
常见损失函数
-
0-1损失函数
L(Y,f(X))=\begin{cases}1,& \text{Y != f(X)}\\ 0& \text{Y = f(X)}\end{cases} -
平方损失函数
L(Y,f(X))=(Y-f(X))^{2} -
绝对损失函数L(Y,f(X))=|(Y-f(X))|
-
对数损失函数L(Y,P(Y|X))=-logP(Y|X)
常见的损失函数包含以上几个。
平方损失函数
在神经网络中, 数据样本的平方损失函数通常被称为 E_d = \frac{1}{2}\sum_{i}(z_i - y_i)^2。
在训练神经网络的过程中,误差逆传播法会被用来通过梯度下降法来更新每个神经网络中的权重。基于链式求导法则能够推导出权重更新的具体公式。
此时对于输出层,权重更新公式为
sigmoid激活函数
如果神经元使用sigmoid激活函数,即y = \frac{1}{1+e^{-z}}
,函数图如下,

则在使用梯度下降法更新权重时会涉及sigmoid函数的导数其具体形式如图所示

观察到导数两侧的数值大致趋近于零;这表明两侧的斜率相对平缓;这些点在采用梯度下降方法时下探的速度较为迟缓;这可能会影响到整个训练过程的效果。
交叉熵损失函数
针对上述存在的问题, 有两种途径可供采取, 一种是从激活函数的角度出发, 另一个是从损失函数的角度出发. 继续采用sigmoid激活函数, 因此引入了交叉熵损失函数.
这时再看权重更新公式,
此时对于输出层,权重更新公式为
改写说明
以下是** 广告** 和** 相关阅读**
========广告时间========
公众号设有分类菜单项:分布式、机器学习等;或许有几款能满足你的需求。
我的新作《Tomcat内核设计剖析》现已有售于京东平台。对这本书感兴趣的朋友们欢迎选购。
探讨《Tomcat内核设计剖析》的价值
=========================
相关内容: 本文深入探讨了[机器学习]中的[神经网络]技术及其应用前景
欢迎关注:

