互信息 java_互信息(Mutual Information)是度量两个事件集合之间的相关性(mutual depe...
该参数用于衡量两个事件集合之间的相互依赖关系
平均互信息量定义:

互信息量I(x_i;x_j)在联合概率空间P(XY)中的平均值。
平均互信息I(X;Y)消除了I(x_i;x_j)的偶然性,
为评估两个变量间依赖关系提供了明确的度量。
平均互信息量的物理含义

- 观察者站在输出端:
H(X/Y) — 该函数代表 信息论中的信道疑义度或损失熵。此函数表征了发送端输入随机变量X与接收端输出随机变量Y之间的信息传递关系中的信息损失程度。此为发送端输入随机变量X与接收端输出随机变量Y之间的信息传递关系中的信息损失程度的一种衡量指标。表示在已知输出随机变量Y的情况下,还存在关于输入随机变量X的不确定性;即通过信道传输过程中所丢失的信息量的一种量化指标
H(X) —X的先验不确定度/无条件熵。
I(X; Y)表示接收到Y前后关于X不确定性减少的数量,并且它代表了从Y中获得关于X的信息量。
2)观察者站在输入端:
H(Y/X)——条件熵(Noise Entropy)。它衡量了在发送随机变量X的情况下对随机变量Y仍存在的平均不确定性程度。若信道中无任何干扰(即无噪声),则发送端与接收端必然具有一一对应关系;当发送X时即可唯一确定对应的Y值。然而现在无法完全确定对应的Y值(即无法唯一识别出正确的接收信息),这种状况显然源于信道中的通信干扰(即存在的信号干扰)。
I(Y;X) —发出X前后关于Y的先验不确定度减少的量.
3)观察者站在通信系统总体立场上:
H(X,Y)为联合熵,在通信过程中, 输入随机变量X通过信道传输至接收端得到输出随机变量Y。即接收端与发送端完成通信后,整个系统的不确定性得以保留。
I(X; Y)表示通信前后整个系统不确定性减少量。在通信之前将X与Y视为完全独立的随机变量,在此情况下系统的信息总量等于各自熵之和;而在通信之后由于信道传递特性的影响,X与Y被看作具有统计关联关系的整体,此时系统的不确定性则由H(X,Y)来衡量。
以上有三种不同的角度阐述: 为了从一个事件中获得另一个事件的平均互信息,需要消除相关的不确定性;一旦消除了不确定性,就获得了信息.
平均互信息量的性质
① 对称性
I(X;Y)= I(Y;X)
由Y所包含的关于X的信息量与从X中所获得的关于Y的信息量是相同的。 I(X;Y)和 I(Y;X)仅反映了观察者的不同视角。
② 非负性
I(X;Y)≥0
平均互信息量并非仅基于两个特定消息, 而是从随机变量X和Y的全局层面进行分析, 并在整体上进行评估问题, 因此平均互信息量不可能为负值
或者说从一个事件中提取关于另一个事件的信息,并且极端情况下其值为0;也就是说知道了其中一个事件后,并不会使得另一个事件的不确定性增加。
③ 极值性
I(X;Y)≤H(X)
I(Y;X)≤H(Y)
从一个事件中获取关于另一个事件的信息量其最大值不超过该事件自身的熵并不超过该事件所包含的信息量
当X与Y之间存在一一映射关系时:I(X; Y) = H(X),此时此时其条件熵H(X|Y)等于零值。若某一事件能够完全获取另一事件相关信息,则整体上说该信源的信息量得以完全传递到接收端。
当随机变量X与Y相互独立时: H(X|Y) = H(X), 其互信息量I(Y;X)为零。 无法从一个事件获取关于另一个事件的信息,这等价于通信信道断开的状态。
④ 凸函数性
平均互信息量是p(xi)和p(yj /xi)的函数,即I(X;Y)=f [p(xi), p(yj /xi)];
若固定信道,调整信源, 则平均互信息量I(X;Y)是p(xi)的函数,即I(X;Y)=f [p(xi)];
若固定信源,调整信道, 则平均互信息量I(X;Y)是p(yj /xi)的函数,即I(X;Y)=f [p (yj /xi)]。
平均互信息量I(X;Y)是输入信源概率分布p(xi)的凹函数
平均互信息量I(X;Y)作为输入转移概率分布p(yj/xi),呈现出一种下凸特性(亦即具有convex性质;或称为convex cup特性能)。
⑤ 数据处理定理
串联信道
在许多实际通信系统中都普遍存在串联信道。例如,在微波中继接力通信系统中也是一种典型的串联系统类型。
信宿接收了数据后才执行了数据处理过程, 而数据处理系统则可被视为一种独立的通信通道, 这一通道与前一个传输系统的通道共同构成了一个串联式的通信结构
数据处理定理:在经过多级处理的过程中,当处理器数量不断增加时,输入信号与输出信号之间的平均互信息量逐渐减少。具体而言,这意味着系统的信息传输效率有所下降。
I(X;Z)≤I(X;Y)
I(X;Z)≤I(Y;Z)
其中假设Y条件下X和Z相互独立。
两个依次连接的信道中,其间的平均互信息量既不会超过第一级信道的该值,也不会超过第二级信道的该值
在经过多层次的信号/数据/消息处理过程中,在每一次操作中都有可能导致部分原始信息丢失;这表明数据经过处理后能够转化为更具价值的形式,并不会创造出全新的信息资源;这也正是所熟知的信息不增原理的核心内容。
当以特定方法获取到变量Y之后,在对其施加任何一种可能的操作时所得到的信息含量都不会超过I(X;Y)
