Advertisement

理解熵(信息熵,交叉熵,相对熵)

阅读量:

Highlights:

1)信息熵定义为,在最优编码方案下(假设概率分布准确已知),每个符号所需的平均比特数是多少。
2)交叉熵衡量了在给定真实概率分布下使用基于估计概率分布所设计的编码系统时所获得的平均码长。
3)相对熵表示在最优条件下(即真实概率分布已知),所采用非最优编码系统所带来的额外信息损失量。

信息熵

1、熵的本质是香农信息量 log(1/p) 的期望;(参考了第一个答案)

以下是对原文的内容进行同义改写的版本

交叉熵

1.定义
本质含义:编码不一定完美时,平均编码长度是多少
连续函数:

其中H(p)是p的信息熵,后者是相对熵
离散函数:

在机器学习领域中等价于KL散度(Kullback-Leibler divergence)。其主要作用在于衡量估计概率分布Q与真实分布P之间的差异程度。具体而言,在ML中等效于相对熵(KL散度),因为两者仅相差一个常数项——即数据集对应的真实信息熵。其中P被视为固定的且与训练过程无关,而Q则是被估计的分布。

相对熵

本质含义:由于编码方案不一定完美,导致的平均编码长度的增大值
离线:

连续:

用于评估两组正值函数间的相似程度
当两组完全相同的正值函数相同时,其相对熵为零;当两组间差距越大,则相对熵也随之增大;
在概率分布框架下,无论是定义在离散空间的概率分布,还是连续空间的概率密度范围内,只要数值均为正值,就可以通过相对熵来量化两个随机变量之间的差异大小;
值得注意的是,这种度量关系不具有对称性,即D(f,g)与D(g,f)并不相等,因此不具备交换律。

全部评论 (0)

还没有任何评论哟~