信息论——熵
前置知识

此公式被视为self-information formula, 其值由所采用对数的基础决定, 当采用二进制情况使用时(即基于2的对数), 其单位被称为bit; 在自然对数情况下, 单位则被称为nats; 当基于10的情况时(即十进制), 则称为harps. 通常情况下, 我们默认使用bit作为基准进行度量.
熵
熵是基于全体数据集的统计特性指标来考虑的;它在整体平均意义上反映了信源的总体特征。
公式如下:

信息熵具有以下两个物理含义:
1.表示信源输出前,信源的平均不确定性。
2.表示信源输出后,每个符号所携带的平均信息量。
熵的单位同样取决于对数所取的底,若以2为底,单位为比特/符号。
自信息量
自信息量I(X)是用来表征信源中各个符号所包含的不确定度的度量,在信源分析中考虑到信源通常由多种不同的符号组成X的情况下P(x)代表每个特定事件x的概率,则单个事件x所包含的信息量即为该事件出现概率p(x)的对数值I(X)= -\log P(x)。因此,在计算整个信源的信息总量时每个符号对应的自信息值相加得到
I = n1I(x=1)+n2(x=2)+...
单个消息中每个符号的平均信息量等于整体消息所包含的信息总量除以消息长度(单位为:比特/符号)。
但是对于该信源中平均每个符号携带的信息量为:

注意: 自信息量不能作为信源的总体信息量。
自信息不是熵。
联合熵与条件熵
对于一个随机变量X的熵的定义为:

对于两个随机变量X,Y的熵的定义为,我们称之为联合熵:

推广至多个随机变量Xi:

当我们有两个随机变量X和Y时,在给定条件下(即在给定Y=yj的情况下),此时X的熵可被称为条件熵。

X关于Y的条件熵定义为:

根据公式我们可以推导出:

H(X):表示信源中每个符号的平均信息量(信源熵)
H(Y):表示信宿中每个符号的平均信息量(信宿熵)
H(X|Y)表示在接收端接收到全部符号Y之后,发送端X剩余的平均不确定性;这一剩余不确定性是由于信道中的干扰所导致的;信道疑义度也被称为损失熵或含糊度
H(Y|X)代表的是,在接收端已知输入符号序列X后所残留的平均不确定性。而信道散布度即为噪声熵。
H(XY):表示整个信息传输系统的平均不确定性(联合熵)
熵之间的相互关系
H(X,Y) = H(X) + H(Y|X)
H(X,Y) = H(Y) + H(X|Y)
H(X) >= H(X|Y)
H(Y) >= H(Y|X)
H(X,Y) <= H(X) + H(Y)
信息熵的基本性质
1.对称性:H(P) 的取值与分量 P1,P2,...,Pq的顺序无关(熵之和总体统计特性有关)
2.确定性:H(1,0)=H(1,0,0)=H(1,0,0,...,0)=0(当一个信源是一个确知信源时,其熵为0)
3.非负性:H(P)>=0 因为 0<Pi<1 所以 log(Pi)<0 -Pi*log(Pi)>0 ,所以熵不为负值
4.扩展性:

可加性:对于两个独立的信息源而言,其联合熵等于各单个信息源熵之和即 H(X,Y) = H(X) + H(Y)
6.叠加性质:对于两个相关联的信息源而言,在已知其中一个信息源的状态时所获得的关于另一个信息源的新信息量即为其联合信息量与各自单一同归一化信息量之差
- 递增特性:当原始信源X中某个特定符号被划分为m个子符号时(其中这m个子符号的概率总和仍等于原有该符号的概率),其余符号的概率保持不变,则新的信源X'的熵值H(X')相较于原始熵值H(X)会有所提升。这种提升量ΔH即为由于划分所导致的信息不确定性程度。

8.上凸性:熵函数H(P)是概率矢量P=(p1,p2, …,pq)的严格∩型凸函数(或称上凸函数)
9.极值性:

极大离散熵定理指出,在离散型通信系统中,当各个符号出现的概率相等时,系统的熵值达到最大
连续性随机变量的熵
信息被划分为两种类型:离散型与连续型;其中离散型指的是数据以不连续的方式呈现;而连续型则描述数据在一定区间内可取任意值的特点;我们对概率统计学的相关知识有一定了解;同时每一种不同的信息都对应着特定类型的熵
有上文我们得知,离散型随机变量对应的熵为:

那么连续型随机变量对应的熵呢?
我们现在假设存在一个连续型随机变量X,在区间 [a, b] 上具有概率密度函数 p(x),从而导出了统计学中的等式:

接着我们根据微分的思想,将 [a,b] 区间分成 n 个等长的小区间,令

= (b-a)/n ,则可以得到一组序列 {

} ,有:

根据中值定理以及概率分布的定义,我们可以求得n个x对应的区间概率:

于是经过上述操作后,我们从而将一个连续型信源信号转换为一个离散型信源信号
转载于:https://www.cnblogs.com/Hikigaya-Hachiman/p/10079438.html
