信息论与编码
编码在信息论里分为两大块,一块是信道编码,一块是信源编码。
(一)**信道编码 **
1. 香农有噪信道编码定理
香农阐述了一项具有革命性意义的重要理论——有噪声信道编码定理。这一发现表明即使在通信渠道受到随机干扰的情况下也能以极低的概率准确传输数据信息从而奠定了现代信息论的基础其也被视为信息论的基本原理之一。为此该理论的核心要素在于通过引入监督机制和检测手段来保证信号的有效传递进而提高了系统的可靠性和抗干扰能力。
此外,在给定的信道中存在一个极限信息率。只有当达到这个信息率时(即能实现任意低错误概率的数据传输),我们才能真正利用这一特性进行通信操作。因此该极限速率即为信道容量C。(其中,在高斯白噪声干扰下的信道中,C=B log2(1+ S/ N) ,这就是香农公式。)香农证明了,在所有可能的输入分布中(特别是使得输入输出互信息最大的情况),这种情况下所使用的分布被称为最佳输入分布
换句话说,在错误概率趋近于零的情况下,则必定存在这样一套编码与解码方案,在满足其传输效率受限于C的同时(即受限于R
另外,在给定时误码率为P_b的情况下,则存在一种编码方案可以让信息传输速率达到一定的水平
C/(1-H2(Pb)),其中H2(Pb)= -[Pb*log2Pb+(1-Pb)*log2(1-Pb)]。
2. 如何以任意小的错误概率传输数据
在信息传输过程中降低错误率可以通过增加冗余度来提升可靠性。例如线性分组码就非常适合作为这类编码方案的代表其基本原理是将k个数据位扩展成n个符号并通过引入监督位元来实现纠错能力。监督位元与数据位元之间存在严格的约束关系因此能够有效发现并纠正错误。其中汉明码是最基本的线性分组码之一而循环码则是其中研究得最为深入的一种编码类型
然而,在提升线性码的检错能力方面存在局限性:必须添加冗余位来增强其检错性能。当冗余位数量增加时,则必然导致编解码设备变得更为复杂。针对这一挑战,在此提出采用卷积编码方案:该方案属于具有记忆特性的编码方法,在信息处理过程中能够充分考虑前后数据的相关特性以实现更高的纠错性能。与传统线性分组编码相比这一新型编码方案弥补了其不足
**(二)信源编码 **
1. 香农信源编码定理
在传输过程中必须实施数据压缩以提升传输速率。香农信源编码定理奠定了数据压缩的能力上限。
香农信源编码定理可用以下方式表达:离散平稳无记忆信息源X输出了一个长度为n的消息序列,在此过程中数据总量达到n比特。\当参数n趋于无限大时,在极低的信息损失风险下可将该消息压缩至容量达到理论极限值。\相反地,在未达到理论极限值的情况下无法恢复原始消息。
2. 码符号的信源编码定理
当我们针对特定的映射码进行分析时,仍然能够阐述相关的信源编码定理:必然存在一种唯一可译的映射码,在此情况下其平均长度下界为H(X)/log2(a),而其上界则为H(X)/log2(a)+1。这正是信息源的最佳编码方案,在此方案下所达到的期望平均长度最低。其中a代表了映射符号集合中元素的数量。
这两个定理,一个指明了最小压缩限度,一个指明了最小码字长度期望。
3 . 无失真信源编码和有失真信源编码
无失真信源编码主要针对信息冗余进行减少处理,并未影响信源的信息熵。在无失真条件下,在编解码函数上实现了严格的一一映射关系。在此基础之上,在满足编解码可逆的前提下寻求使平均码长最短的方法成为首要任务。基于上述条件,在这一领域中香农、费诺和霍夫曼各自提出了不同的编排策略与实现方案,在众多方案中经评估后发现霍夫曼算法表现最优。
而有失真信源编码为了换取更好的压缩率,通常会对信源的熵做出改动。
常见使用的图片格式中,PNG和GIF采用了无损压缩技术即无失真信源编码方法而JPEG、jpeg以及传统的GIF文件则采用了有损压缩方式属于有失真信源编码
(三)总结信息论
信息论属于应用数学、电机工程学以及计算机科学这三个学科领域。它研究如何量化、存储与传输信息。该理论旨在确定信号处理与通信操作的基本理论边界。例如,在数据压缩方面具有重要的理论意义,并且探讨了可靠传输的最大容量问题。此外,在数据安全与传输速率之间的内在联系也是一个重要议题。同时在统计判断理论中,在自然语言处理方面,在密码学领域,在进化论研究中,在热力学原理中,在量子计算领域以及在语言学领域等学科中……都紧密关联于信息论。
无损数据压缩如ZIP文件等无失真格式的数据压缩技术;有失真的数据 compression 则适用于JPEG以及MP3格式等媒体内容;基于Shannon的信息论基础的信道 coding 如DSL技术,则是现代通信领域的重要组成部分。
而这些子领域如信道编码技术、信源编码技术、算法复杂度理论以及在其中占重要地位的信息科学等,在推动人类社会的发展过程中发挥着至关重要的作用。
