Advertisement

神经网络:什么是交叉熵?

阅读量:

在机器学习与深度学习领域中,熵损失(Cross Entropy) 被广泛使用作一种常见的损失函数,在分类问题中表现尤为出色。虽然这一术语听起来可能有些复杂,在实际应用中我们可以通过类比分析来更好地理解其意义和作用。

类比场景:寻找最佳路径的导游

作为一位专业的导游,在前往一片神秘的森林之前,我会向游客展示一张名为"概率地图"的地图。这张地图通过数据标注提供关于不同路径走向目的地的可能性信息,例如,在河流旁的小路附近有70%的可能性通向目标区域,而丛林深处的小径则只有10%的可能性。

与此同时,在这片森林里还有一位经验丰富的探险家。他通晓这片区域的各种路径及其概率分布情况。

你的任务是基于个人的概率地图规划方向,在不断向资深专家学习的过程中,希望所建立的概率模型能够尽可能准确地反映实际分布情况。

核心问题

如何衡量或评估你所构建的概率地图与实际发生的概率之间的差异?这正是交叉熵所要解决的核心问题。

什么是交叉熵?

交叉熵可以看作是用一种方式衡量两种概率分布之间的“距离”。

第一种概率分布 表示你的预测概率分布,并表示你对每条路径通向目的地的可能性的估计。

另一种概率分布是准确的概率分布,在告诉您每条路径通向目的地的真实可能性

利用交叉熵进行计算后,在一定程度上可以帮助你了解‘概率地图’与真实分布之间的差距有多大,并在此基础上不断优化预测结果

数学公式

假设森林中共有

N

条路径,每条路径的编号是

i
p_{i}

表示真实分布中路径

i

的概率。

q_{i}

表示你预测分布中路径

i

的概率。

交叉熵公式为:

H=-um_{i=1}^{N}p_{i}log

这个公式可以分解成两部分:

p_{i}

:真实分布告诉我们哪些路径更重要。

log

:用预测分布告诉我们,你对这些路径的概率估计是否足够准确。

解释公式

经验丰富的探险家给出了他的专业意见。他建议选择路径1的概率为70%,路径2的概率为20%,而路径3的概率仅为10%。

是你自己的判断。假设你认为路径1的概率是60%,路径2是30%,路径3是10%。

经验丰富的探险家会根据你的选择提供反馈意见。如果您的评估与实际值接近(例如路径1),整体评分会较高;相反地,如果您的评估低于实际值或者高于实际值(如路径2),可能会偏低。

为什么负号?

负号是因为

log

变量P为负值(当变量P取值低于1时),取其负值可使交叉熵指标呈现正值,有助于优化计算并提高模型解释性)。

应用场景

分类问题 : 在分类任务中交叉熵被用于衡量模型输出的概率分布(如Softmax函数生成的结果)与其真实类别之间的区别

如果真实标签是“猫”(对应分类编号为1),那么

p_{1}=1

,其余

p_{i}=0

交叉熵会重点考察模型对正确分类的概率预测是否高。

语言模型 : 在自然语言处理领域中,交叉熵被用于衡量语言模型生成某段文字(如单个词或一个句子)与其真实概率分布之间的差距程度。

总结

利用向导与森林的类比关系,我们可以将其视为一种用于评估学习效果的机制——交叉熵。这种指标能够帮助我们基于真实概率分布优化预测结果,在实际应用中使其逐渐贴近目标数据的真实情况。尽管从理论上讲交叉熵的概念可能显得复杂多变,但其本质始终是衡量两者之间差距的一种方法论工具

全部评论 (0)

还没有任何评论哟~