信息论的基本概念－金锄头文库

资源描述

《信息论的基本概念》由会员分享，可在线阅读，更多相关《信息论的基本概念（112页珍藏版）》请在金锄头文库上搜索。

1、本章的主要问题,信息如何表示?如何度量?,第二章：信息论的基本概念,2.1 离散随机变量的熵,2.1.1 熵的引入 2.1.2 香农熵与热力学熵的关系 2.1.3 熵可以作为信息的度量（熵的物理意义） 2.1.4 熵函数的性质 2.1.5 联合熵和条件熵,1,信息无处不在，但：信息用什么表示？如何表示？,不确定性携载的信息,可用随机变量的不确定性或随机性作为信息的表示,“信息是事物运动状态或存在方式的不确定性的描述”香农,问题1：,信息是随机的,2.1.1 熵的引入-1,如何度量信息？如何计算消息的信息量？某些消息比另外一些消息传递了更多的信息。类似于火车运输货物多少用“货运量”衡量消息信号传

2、输信息多少用“信息量”衡量概率论知识：事件出现的可能性愈小，概率愈小；该事件是否会出现的不确定性就愈大事件出现的可能性愈大，概率愈大该事件是否会出现的不确定性就愈小信息量与消息出现的概率有关。,问题2：,2.1.1 熵的引入-2,研究思路一：自信息概率空间的平均自信息熵研究思路二：直接定义,2.1.1 熵的引入-3,2,分析信息的特征，信息量（消息）关系式应反映如下规律：（1）信息量是概率的非负函数，即 I=fP(x) （2） P(x)越小， I越大；反之， I越小，且 P(x)1时， I0P(x)0时， I （3）若干个互相独立事件构成的消息，所含信息量等于各独立事

3、件信息量之和，也就是说，信息具有相加性，即 IP(x1)P(x2)=IP(x1)+IP(x2)+,自信息：,研究思路一,信息量的直观定义：收到某消息获得的信息量不确定性减少的量(收到此消息前关于某事件发生的不确定性)(收到此消息后关于某事件发生的不确定性)在无噪声时，通过信道的传输，可以完全不失真地收到所发的消息，收到此消息后关于某事件发生的不确定性完全消除，此项为零。因此得收到某消息获得的信息量收到此消息前关于某事件发生的不确定性信源输出的此消息中所含有的信息量,自信息：,可以用泛函分析方法解得满足条件的函数形式为用概率测度定义信息量：设离散信源X，其概率空间为如果知道事件xi已发生，则

4、该事件所含有的自信息定义为,自信息：,自信息含义,当事件xi发生以前：表示事件xi发生的不确定性。当事件xi发生以后：表示事件xi所含有（或所提供）的信息量。在无噪信道中，事件xi发生后，能正确无误地传输到收信者，所以I(xi)可代表接收到消息xi后所获得的信息量。这是因为消除了I(xi)大小的不确定性，才获得这么大小的信息量。,自信息的测度单位及其换算关系,如果取以2为底，则信息量单位称为比特(binary unit)如果取以e为底，则信息量单位称为奈特(nature unit)如果取以10为底，则信息量单位称为哈特(Hart unit） 1奈特1.44比特1哈特3.32比特,一般都采用以“

5、2”为底的对数，为了书写简洁，有时把底数2略去不写。,信息论中“比特”与计算机术语中“比特”区别,如果p(xi)=1/2，则I(xi)=1比特。所以1比特信息量就是两个互不相容的等可能事件之一发生时所提供的信息量。信息论中“比特”是指抽象的信息量单位；计算机术语中“比特”是代表二元符号（数字）；这两种定义之间的关系是：每个二元符号所能提供的最大平均信息量为1比特。,信源熵平均信息量,自信息是一个随机变量：自信息是指某一信源发出某一消息所含有的信息量。所发出的消息不同，它们所含有的信息量也就不同。平均信息量信源熵：自信息的数学期望。也称为信源的信息熵/信源熵/香农熵/无条件熵/熵函数/

6、熵。信息熵的单位：取决于对数选取的底。一般选用以2为底，其单位为比特/符号。信息熵的意义：信源的信息熵H是从整个信源的统计特性来考虑的。它是从平均意义上来表征信源的总体特性的。对于某特定的信源，其信息熵只有一个。不同的信源因统计特性不同，其熵也不同。,熵（ Entropy）的直接引入,一个离散随机变量X，以不同的取值概率有N个可能取值,信息论关心：X的不确定性不确定性大，获取的信息量多,研究思路二,熵的引入,不确定性分析：随机变量X、Y、Z,问题：1、能否度量？,小,大,2、如何度量？,香农指出：存在熵函数满足先验条件,1、连续性条件：是的连续函数,2、等概时为单调增函数：是N的增

7、函数,3、可加性条件：当随机变量的取值不是通过一次试验而是若干次试验确定取值时，X在各次试验中的不确定性可加。,结论：唯一的形式：,C=常数0，即：,可加性条件进一步说明：当随机变量的取值不是通过一次试验而是若干次试验确定取值时，随机变量在各次试验中的不确定性可加，且其和始终与通过一次试验取得结果的不确定程度相同。,熵的定义,X为一随机变量样本空间Xx1,x2,.xn pi或p(xi)是输出为xi的概率定义为随机变量的熵函数,含义：（1）通过观测随机变量X所获得的平均信息量（2）对随机变量X的“不确定性”、“随机性”的度量,熵的单位,与前面介绍自信息的单位时相同，信息熵的单位也与

8、公式中的对数取底有关。通信与信息中最常用的是以2为底，这时单位为比特（bit）；理论推导中用以e为底较方便，这时单位为奈特（Nat）；工程上用以10为底较方便，这时单位为哈特利（Hartley）。它们之间可以引用对数换底公式进行互换。比如：1 bit = 0.693 Nat = 0.301 Hartley,熵H(X)-通过观测随机变量X所获得的平均信息量,进一步理解：平均统计平均（区别与算术平均）单位抽象的信息单位，无量纲（量纲单位）比特不同于计算机中的“比特”计算机：代表一个二元数字(binary digit)信息：对数取2为底时信息量的单位关系：每一个二元数字所能提供的最大平均信

9、息量为1比特认为：当x0时 xlog(1/x)=0 通信：信息速率单位时间内信息的数量,3,2.1.2 香农熵与热力学中热熵的关系,熵这个名词是香农从物理学中的统计热力学借用过来的，在物理学中称它为热熵，是表示分子混乱程度的一个物理量，这里，香农引用它来描述随机变量的平均不确定性，含义是类似的。但是在热力学中，任何孤立系统的演化，热熵只能增加不能减少；而在信息论中，信息熵正相反，只会减少，不会增加。所以有人称信息熵为负热熵。二者还有一个重大差别：热熵是有量纲的，而香农熵是无量纲的。,2,（不确定性）,2.1.3 熵可以作为信息的量度,对于随机变量而言：试验前试验后,各取值的概率分布,确

10、切取值（0）,（不确定性）,熵的差值,一定的确切性,多次试验后,通过试验消除了不确定性获得了信息,信息量获得的信息的数量,例2.1: 试验前：试验后：,H(x) = log6 = 2.58bits = 1.79nats,H(x1) = 0,H(x) H(x1) = log6,例2.2:,试验前：,H(x) = log8 = 3(bit/符号),1,2,3,1,2,3,4,5,6,7,8,第一次测量后：,X1,P（x1）,1 2 3 4 5 6 7 8,1/4 1/4 1/4 1/4 0 0 0 0,H(x1) = log4 = 2(bit/符号),H(x) H(x1) = 1获得1bit信

11、息量,H(x2) H(x3) =1 获得1bit信息量,第二次测量后：,X2,P(x2),1 2 3 4 5 6 7 8,1/2 1/2 0 0 0 0 0 0,H(x2) = log2 = 1(bit/符号),第三次测量后：,X3,P（x3）,1 2 3 4 5 6 7 8,1 0 0 0 0 0 0 0,H(x3) = log1 = 0(bit/符号),H(x1) H(x2) =1 获得1bit信息量,H(X)表示在获知哪个灯泡是坏的情况前，关于哪个灯泡已损坏的平均不确定性，即要确定哪个灯泡是坏的，至少需要获得3个bit的信息量，才能完全消除不确定性。,熵的物理含义,观察随机变量X、Y、

12、Z,H(X) = -0.01log0.01-0.99log0.99=0.08（比特/符号）,H(Y) = -0.5log0.5-0.5log0.5=1（比特/符号）,H(Z) = 5(-0.2log0.2)=2.32（比特/符号）,熵的物理含义,熵是随机变量的随机性的描述。变量Y、Z等概，随机性大，变量X不等概，则随机性小等概情况下，可取值越多，随机性越大 H（）是描述随机变量所需的比特数熵是随机变量平均不确定性的描述 X试验中发生a1,获得的自信息为-log0.01=6.64(bit) Y试验中发生a1,获得的自信息为-log0.5=2.32(bit) H（）反映的是平均的不确定性,例

13、2.3 设某班学生在一次考试中获优（A）、良（B）、中（C）、及格（D）和不及格（E）的人数相等。当教师通知某甲：“你没有不及格”，甲获得了多少比特信息？为确定自己的成绩，甲还需要多少信息？,H(X) = 5(-0.2log0.2)=2.32（比特）,H(X) =4(-0.25log0.25)=2（比特）,甲获得的信息 = H(X)-H(X)=0.32（比特）,还需要的信息2.32-0.32=2（比特）,2,2.1.4 熵函数的性质,香农熵是概率矢量的非负的上凸函数性质1：非负性性质2：上凸性性质3：唯一性（连续性、可加性、等概单调增）,熵函数的性质非负性,证明一：,因为：,则：,所以：,熵函

14、数的性质非负性,证明二：,有：,或：,所以：,熵函数的性质上凸性,凸性的概念：若对区域D中任意两点和，均有：则称：区域D是凸域。,理解：若两点和在凸域D内，则和之间的线段也整个在区域D内。,在a,b上定义的下凸函数,若在凸域内,在a,b上定义的上凸函数,若在凸域内,Jenson不等式,这一结果被称为Jenson不等式。 Jenson不等式可以根据凸函数和数学归纳法来证明,熵函数的性质上凸性,上凸性：熵函数具有凸性，即H（P）是P的上凸函数。证明：（1）证明概率矢量P=(p1,p2,pN)的集合组成的区域是一个凸域。（2）利用,作业,熵函数的性质,定理2.1极值性对于离散随机变量，当其可能的取值等概分布时，其熵达到最大值。即：,其中：N为X可能取值得个数。,例2.4：二元熵函数是对01分布的随机变量所求的熵：,H(X) = -plogp-(1-p)log(1-p)=H(p),有：,而：,可以证明，p1/2时，H(p)取最大值，为log2=1。而p=0或1时，H(p)0，故二元熵函数的曲线如图所示：,p,二元熵函数曲线,等概时（p=0.5)：随机变量具有最大的不确定性， p=0,1时：随机变量的不确定性消失。,

展开阅读全文

信息论的基本概念

最新文档