相对熵与交叉熵_熵、信息量、信息熵、交叉熵-个人小结
熵、信息量、信息熵、交叉熵-个人小结
一、理解熵
1、首先看到这个词会产疑问,熵是什么?谁定义的?用来干什么的?为什么机器学习会用到熵?有了这些疑问后慢慢的开始探索~复制代码
热力学中将物质状态进行描述的一个重要参数被称为熵,并以符号S标记;它量化了系统混乱程度的程度。克劳修斯(T.Clausius)于1854年首次提出这一概念;我国物理学家胡刚复教授于1923年根据"热温商"这一概念首次将"entropie"译为"熵"。爱因斯坦(A.Einstein)曾指出:"熵理论对整个科学而言是第一法则"。
为了理解熵,必须讲一点物理学。
19世纪末期,物理学家们逐渐意识到,自然界中的动力源于能量,并因此提出了"能量守恒定律",即系统的总能量始终保持恒定

单摆在两侧摆动时达到势能的最大值,在最低点时动能达到最大值的同时势能降为零;系统中的总能量保持不变。物理学家发现能量转换并非百分之百高效,在蒸汽机中热能不能完全转化为推动机器所需的机械功;其中一部分热量会以散失的形式散失到环境中无法全部被回收利用。

(上图中,能量 E 的转换,总是会导致能量损耗 ∆E。)
最初认为技术水平不高是原因。
然而发现即使技术不断进步也无法使能量损耗降至零点。
于是他们把那些在能量转换过程中被浪费掉且无法再次利用的能量命名为熵。
随后这一理论被归纳为"热力学第二定律":在能量转换过程中总会产生熵,在封闭系统中所有的能量最终都会转化为熵。
熵既然是能量,为什么无法利用?它又是怎么产生的?为什么所有能量最后都会变成熵?复制代码
物理学家们对这一问题有多种解释, 其中一种较为直观的理解方式是, 在能量转换的过程中, 大部分的能量会被转化为预先设定的状态. 例如热能转化为机械能的过程类似于将热量转化为可用的功. 然而, 在这种情况下, 还有一部分的能量并未被转化, 而是以新的形式存在. 这一部分无法有效利用的能量被称为熵. 由于这些新状态的特性, 熵难以被直接利用, 除非通过外部输入新的能量来进行专门处理.

(上图,能量转换过程中,创造出许多新状态。)
总之,能量转换会创造出新的状态,熵就是进入这些状态的能量。
现在请大家思考:状态多意味着什么?复制代码
当系统的可能性较高时(即状态较多),其表现出的情况也较为复杂和无序;反之,在系统可能性较低的状态下(即状态较少),其表现出的情况较为单一和有序)。换言之,在上述结论的基础上还可以表述为:能量转化会导至系统无序程度的提高,并且熵量则反映了系统混乱程度的大小。

(上图中,熵低则混乱度低,熵高则混乱度高。)
转换所需的能量越高,则会产生更多的新状态。因此,在稳定性方面而言, 高能系统反而不及低能系统, 这是因为其熵值较高。另一方面, 任何运行中的系统都不可避免地会发生能量转换, 而这正是热力学第二定律的核心内容: 所有孤立系统的终态都将趋向于最大混乱度的状态, 除非外界提供额外的能量输入.

(上图中,冰块是分子的有序排列,吸收能量后,变成液体水,分子排列变得无序。)熵让我理解了一件事,如果不施加外力影响,事物永远向着更混乱的状态发展。比如,房间如果没人打扫,只会越来越乱,不可能越来越干净。复制代码

(上图中,如果不花费能量打扫,房间总是越来越乱。)
熵的解释是混乱度的度量单位,一个系统的混乱度越高它的熵就越高复制代码
二、理解信息量
熵的概念被最早地起源与物理学领域,在该学科中被用于衡量一个热力学系统中无序的程度。而在信息论领域中,则是将熵这一概念发展为对不确定性的量化评估。
这里有又产生了疑问,熵怎么就合信息论产生了关系?复制代码
我们一直在讨论的领域是信息这一概念。然而该概念仍较为抽象,在百度百科中对之的定义为:将此类内容视为广泛的信息范畴,并将其视为通信系统的传输与处理对象。
1、信息量和事件发生的概率相关,事件发生的概率越低,传递的信息量越大;2、信息量应当是非负的,必然发生的事件的信息量为零;3、两个事件的信息量可以相加,并且两个独立事件的联合信息量应该是他们各自信息量的和;复制代码
用数学表达如下:

三、理解信息熵
但如何量化信息?实际上确实存在这样的方法。这就是所谓的" 信息安全"理论的核心内容之一——" 信息安全"概念可以通过建立完善的制度框架加以实现,从而保障关键业务不受威胁,实现业务连续性运营目标,最终达到提升企业核心竞争力的目的
好了,这里就产生了信息熵!那么怎么解释呢?那信息熵如何计算呢?复制代码
比如吴军在《数学之美》中类似的案例,在足球比赛中同样存在这样的情况:如果假设世界杯决赛圈32强已经确定下来了,请问随机变量'2018年俄罗斯世界杯足球赛32强中谁是冠军'的信息熵是多少?
以香农(Shannon)命名的信息熵公式中,在概率论框架下定义了任意随机变量X的信息熵H(X),其单位为比特(bit)

把最前面的负号放到最后,便成了:

上面两个熵的公式,无论用哪个都行,而且两者等价,一个意思。复制代码
那么上述随机变量(谁获得冠军)的信息量是:

其中p₁、p₂,…、p₃₂分别代表这³²强球队夺冠的概率。 吴军在书中阐述了以下几点:第一点是当这³²强球队夺冠概率相等时,熵值H等于5比特;第二点是当各队夺冠概率不同时(¹),熵值H小于5比特;第三点是无论何种情况下(²),熵值H都不会超过5比特。 对于第一条结论而言(³),这一结果显而易见:由于每个队夺冠的概率均为¹⁄³²,则信息熵H等于-Σ(p_i·log p_i),即-[(¹⁄³²·log(¹⁄³²))׳²] = - log(¹⁄³²) = log ³² = 5 bit。
对于第二个和第三个结论:通过拉格朗日乘子法进行证明过程,请参见《求约束条件下极值的拉格朗日乘子法》一书的具体细节。实际上表明,在系统中各随机事件的概率分布趋于均匀时其信息熵值较大反之则较小
从香农给出的数学公式上可以看出,信息熵其实是一个随机变量信息量的数学期望。复制代码
日常生活中,在交流中我们经常听到某人讲话简洁明了(言简意赅),所传达的信息量却非常大;然而也有一些人善于blahblahblah(妙语连珠),但却铺张浪费(废话连篇),导致信息量微乎其微;而这部电视剧的剧情安排过于冗长拖沓(情节太拖沓),每集看似都快结束了但实际上却没有实质内容可言)。这里的信息量/内容与信息熵有何关联呢?
诸多人将其混淆为同一概念,并得出了诸如“说话的信息量越大,则其对应的信熵也会越高”以及“语言表达越简洁明了,则其信熵更高;相反地,若语言表述冗杂拖沓,则其信熵较低”的误论。
并非所有的这些说法都是正确的;它们可能容易引起误导。
我认为,
这里日常语境中的信息量与其说是信息量本身是否存在问题;
不如说是关于信息质量以及如何高效传递信息的问题。
在这个讨论中是否存在实质性的内容(干货);
是否存在独到的观点;
是否存在深入的思想。
在这个讨论中,
在给定的文字长度或播放时间范围内能否有效地传达出上述内容;
这实际上涉及到了提出者的能力水平;
而与所谓的'信息熵'无关。
四、联合熵、条件熵、交叉熵
联合熵:两个随机变量X,Y的联合分布,可以形成联合熵Joint Entropy,用H(X,Y)表示。条件熵:在随机变量X发生的前提下,随机变量Y发生所新带来的熵定义为Y的条件熵,用H(Y|X)表示,用来衡量在已知随机变量X的条件下随机变量Y的不确定性。复制代码
对于满足以下条件的情况:H(Y|X) = H(X,Y) - H(X),该式子表示当变量X和Y一起发生时所携带的信息量减去仅由变量X单独发生时的信息量。至于其来源,请参见推导过程。


简单解释下上面的推导过程。整个式子共6行,其中第二行推到第三行的依据是边缘分布p(x)等于联合分布p(x,y)的和;第三行推到第四行的依据是把公因子logp(x)乘进去,然后把x,y写在一起;第四行推到第五行的依据是:因为两个sigma都有p(x,y),故提取公因子p(x,y)放到外边,然后把里边的-(logp(x,y)-logp(x))写成- log(p(x,y)/p(x)) ;第五行推到第六行的依据是:条件概率的定义p(x,y) = p(x) * p(y|x),故p(x,y) / p(x) = p(y|x)。复制代码
相对熵:又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度等。设p(x)、q(x)是X中取值的两个概率分布,则p对q的相对熵是:复制代码

在某种程度上说来,在衡量两个随机变量之间的差异程度时, 相对熵不仅具有不对称性这一重要性质, 在计算两者的差异时, D(p || q)与 D(q || p)的结果不同。值得注意的是, D(p || q)始终是非负值
#交叉熵例子

以下是改写后的文本
比如:
x的概率分布为:{1/4 ,1/4,1/4,1/4},现在我们通过机器学习,预测出来二组值:
y1的概率分布为 {1/4 , 1/2 , 1/8 , 1/8}
y2的概率分布为 {1/4 , 1/4 , 1/8 , 3/8}
按照直觉来说,在 y_2 分布中前两项全部准确地被预测出来;相比之下,在 y_1 中仅有第一个项目达到了完美的准确性。因此,在直觉上看来,请通过计算结果验证这一点是否成立:


对比结果显示, 计算得出H(x,y1)的值是9/4, 相比之下,H(x,y2)的值稍低于9/4. 基于之前的阐述, 交叉熵越低意味着这两个分布更为接近. 在机器学习领域中, 通常采用交叉熵作为损失函数(loss function). 参考文献: K码农-http://kmanong.top/kmn/qxw/form/home?top_cate=28
