信息论在生活中的应用_信息论杂谈(一)
信息论的核心内容包括信息的量化、编码、冗余度、压缩、互信息等。信息熵是衡量信息量的基本单位,由香农提出,反映了信息的不确定性。信息编码通过不同方式(如数字、文字)将信息传递,编码系统的等价性决定了其效率。冗余度描述了信息的紧凑性,中文的冗余度较高,而英文较低。信息压缩利用相关性减少冗余,傅里叶变换和离散余弦变换是压缩技术的基础。信息增量原则强调在压缩中保持信息的准确性,压缩比与失真率需平衡。信息正交性和互信息用于衡量信息的相关性,交叉熵用于评估概率分布差异。这些概念共同构成了信息论的理论框架。
1. 信息的量化度量 关于一条信息的"信息量",关键在于确定其具体包含多少信息容量。要准确衡量"信息量",就需要对信息进行量化评估。香农提出了信息论的基本概念,将信息量的单位定义为"比特"。具体而言,如果一个系统中存在A和B两种可能性,并且它们出现的概率相等,那么确定到底是A还是B所需要的信息量就是1比特。这种具有最大不确定性的系统被称为"信息源",其内部的不确定性即为"信息熵",而"信息"则用于消除这种不确定性(即信息熵)。因此,要搞清楚黑盒子里的情况,所需的信息量等于其信息熵。熵这一概念源自热力学,用来描述系统的混乱程度。在状态数量保持不变的情况下,如果各个状态出现的概率相同,系统的不确定性(熵)就越大;相反,如果某些状态更容易发生而其他状态不易发生,系统的不确定性(熵)就越小。信息熵的数学表达式为:H(X) = -\sum p(x) \log p(x)

若假定可能性的数量固定,且仅分为两种情况,分别为A和B,那么信息熵的变化趋势呈现抛物线型:


在信息编码领域,哈夫曼编码是一种高效的不等长编码方法。它通过根据信息出现概率的高低,为出现概率高的信息分配较短的编码,从而实现信息的高效传递。具体而言,编码长度与信息出现概率的对数呈正相关。香农第一定理为哈夫曼编码的理论基础提供了支撑。在编码资源分配上,遵循"信息量越大,编码长度越短"的原则。这种编码方式不仅简化了编码过程,还显著提高了通信效率。信息矢量化技术则是信息数字化的重要手段,它通过将复杂信息映射到多维空间,实现了信息的高效表达与处理。在人类文明的发展历程中,信息的矢量化是信息传递效率提升的关键因素。信息量的增加必然导致编码需求的提升,而这一过程是文明演进中不可避免的自然规律。面对日益繁复的信息编码需求,人类通过不断优化编码系统,实现了信息表达方式的不断进化。信息的矢量化过程,实质上是人类对复杂信息进行系统化、结构化的认知与表达方式的进化过程。在这一过程中,信息的组织与表达方式不断优化,最终形成了我们今天所使用的复杂文字系统。信息矢量化技术不仅推动了人类文明的进步,也为现代信息技术的发展奠定了重要基础。信息的矢量化过程,正是人类对信息本质认识不断深化的体现。

以汉字为例,大多数汉字被映射到两个维度上,即表意的偏旁维度和声调维度,有时候声调维度本身也具有表意功能。汉字的发展过程中,用来表达含义的偏旁已经与传统的图画形态相差较大,而这些偏旁逐渐固定下来并被用作文字的基本单元。在需要创造新字时,可以利用现有的偏旁部首进行重新组合。当前,古体字已逐渐退出主流使用,现代人更倾向于使用常用字来发明新词。无论是象形文字还是拼音文字,都通过多维度的矢量化方法兼顾了读音和意义的关系。然而,如果强行将中文进行拼音化,将会丧失意义传达功能,这违背了信息论的基本原则,因此这种方法不可行。在实际应用中,矢量化方法虽然简化了问题,但也可能导致信息的丢失。因此,在设计这类方法时,需要在便利性和信息完整性之间找到平衡点。信息的冗余度是信息论中的一个重要概念,用于衡量信息的密集程度和稀疏程度。冗余度的定义为:(编码长度 - 单信息信息量) / 编码长度。根据这一定义,中文的冗余度约为1/2,而英文的冗余度约为2/3。由此可见,中文在信息表达上更具优势。需要注意的是,冗余度过低会影响信息传递的速度。在语言学领域,冗余度的优势在于便于理解、消除歧义以及提高信息的容错性。然而,冗余度的缺点在于:
在信息存储和传递过程中会面临的损失。如果在信息中混有干扰,过多的冗余信息必然会导致错误。
7. 等价性:信息是如何被压缩的? 对于具有周期性和波动性的信号,信息压缩的核心原理如下:首先,需要找到这种周期信号的等价信息;其次,对等价信息进行压缩;最后,如果需要恢复原始信号,可以通过压缩后的等价信息进行复原。这些步骤的关键在于准确识别等价信息。对于周期信号,等价信息即为一组正弦(或余弦)波。正弦波是最典型的波动曲线,其特征在于振幅大小和频率高低的差异。19世纪初,傅里叶发现,所有周期性信号都可以由不同频率和振幅的正弦函数叠加而成,这意味着周期信号所包含的信息与这些正弦函数的频率和振幅信息完全等价,这就是傅里叶变换的理论基础。在现代音频、图像和视频压缩技术中,正是利用了这一原理。其中的关键在于准确识别等价信息。由于音频通常具有一定的周期性,通过傅里叶变换对音频进行压缩编码后传输,可以实现约10倍的压缩比。

图像,放大后实际上一个个像素,相邻像素之间颜色和灰度的变化是相对连续的,利用这个特性,人们发明了“离散余弦变换(DCT)”的数学工具,DCT可以认为是傅里叶变换的延伸,它采用了64个基本灰度模板(彩色图片用红绿蓝三原色的彩色模板),任何照片都可以用这些模板组合而成,这样一幅图片就变成了一组数字。JPEG图片的压缩量在10倍左右。 8. 信息增量:信息压缩中的保守主义原则 信息的压缩,视频的压缩比要远远高于图片。这是因为视频压缩时,利用了信息的相关性,能够采用增量编码,可以使压缩比达到1000左右。 所谓利用相关性进行压缩编码,就是如果两个信息很相似,只要保留一个,对另一个只保留它们的差异,然后进行微调就行了。 视频的压缩比可以做到1000,正是因为视频中每一帧的差异其实很小,只需要对主帧进行全画面编码,其后的每一帧只对差异编码。 信息的前后相关性,其实是信息本身固有的特征,或者说,绝大时候,我们这个世界的变化是渐进的,不是完全随机的。 9. 压缩比和失真率 香农第一定律指出,任何编码的长度都不会小于信息熵,也就是说通常是大于等于信息熵,最理想状态是等于信息熵。 如果编码长度太短,小于信息熵,就会出现损失信息的现象。 有两类压缩方式,一种是无损压缩,另一种是有损压缩。在一些情况下,有损压缩也是必要的,重要的是平衡压缩比和失真率之间的关系。 所谓失真率,就是压缩前、压缩后的两串信息的差的平方。 如果信息没有任何失真,失真率是0。如果信息完全消失了,失真率是100%。 实际生活中的大量应用都是有损压缩,在兼顾了失真率的考量后,人们基本感觉不到。 通常失真率和压缩比直接相关,压缩比越大,失真率越高。采用什么样的压缩方法,压缩到何种程度,通常要看具体的应用场景。 在信息处理领域,通常不存在标准答案和最佳答案,只有针对某个场景的好答案。 10. 信息正交性 和能量不同,相同的信息使用两次,并不会产生两倍的效果。 利用多种信息消除不确定性时,所采用的信息是正交的时候,效果才最好。 如何找到正交的信息? 首先,不同的信息要来自不同的信息源,善用不同维度的交叉信息。 其次,避免反复使用相互嵌套或者相互包含的信息。 最后,看问题要可以改变观察的角度,从不同的角度思考问题。 在选取重要且彼此尽可能正交的信息时,常用的方法是不断叠加和不断删除。不断叠加就是利用手上的信息,有效组合、排序和选择;不断删除就是不断叠加的逆向过程。 11. 互信息 相关不是因果,世界上大多数联系都是相关联系,而非因果联系。相关的联系有强有弱,若相关意义不大,我们需要寻找和利用的是强相关。 互信息是用来定量衡量相关程度的大小。 有因果关系的信息,实际上是等价的。比如A=B可以推出B=A。 没有因果关系的信息,它们之间是一种动态的相互关联的关系。比如,如果A和B比关联性比较强,我们知道A的信息后,就可以消除B的不确定性。如果A和B关联性比较弱,那这种联系就没什么意义了。 在使用互信息时,需要注意不要把两件强相关的事情的因果顺序颠倒了。 12. 信息增益 信息增益(Information Gain,IG),在只有两个信息A和B时,IG=信息A和信息B的互信息,IG越大,说明消除的不确定性越大,A和B越具有相关性。再增加第三个信息C,它所带来的IG是在A和B的基础上增加的。以此类推,假设还有N个不同信息,它们所带来的IG,每一个都是在原来所有信息基础上递减的。这说明,率先发现和解决问题所要的信息,是增益最大的信息,越后发现的信息,带来的增益越小。 利用信息增益的概念,我们可以衡量一条信息的价值,也可以衡量一项研究发现的贡献。 13. 置信度 置信度可以简单理解为我们自己有多么确定一件事发生的概率。 在统计学上,我们一般认为,置信度不到95%的结论都是不可靠的。 提高置信度的通常办法是增加所统计样本的数量。

14. 交叉熵 交叉熵(Cross Entropy)是信息论中的核心概念之一,主要用于衡量两个概率分布之间的差异信息。交叉熵则关注于信息误判所导致的损失。
