《信息论信息的统计度量》由会员分享,可在线阅读,更多相关《信息论信息的统计度量(71页珍藏版)》请在金锄头文库上搜索。
1、第二章 信息的统计度量信息的可度量性是信息论建立的基础;香农的信息论用事件发生概率的对数来描述事物的不确定性,得到消息的信息量,建立熵的概念;熵熵是香农信息论最基本最重要的概念。2.1 自信息量和条件自信息量定义2.1.1 任意随机事件的自信息量定义为该事件发生概率的对数的负值。小概率事件所包含的不确定性大,自信息量大。大概率事件所包含的不确定性小,自信息量小。概率为1的确定性事件,自信息量为零。自信息量I(xi)的性质I(xi)是非负值;当P(xi) =1时, I(xi)=0;当P(xi) =0时, I(xi)= ;I(xi)是P(xi) 的单调递减函数例:袋内红、白球各50个,随意从袋中摸
2、出一球。例:袋内红球1个、白球7个,随意从袋中摸出一球。联合自信息量信源模型(涉及两个随机事件)定义2.1.2 二维联合集XY上的元素(xiyj)的联合自信息量定义为其中p(xiyj)为元素xiyj的二维联合概率密度。xiyjxiyj设在一正方形棋盘上共有64个方格,将方格分别按行和列编号。如果甲将一粒棋子随意地放在棋盘中的某方格且让乙猜测旗子所在位置;由于甲是将一粒旗子随意地放在棋盘中某一方格内,因此,棋子在棋盘中所处位置为二维等概率分布。二维概率分布函数为p(xiyj)=1/64,故在二维联合集XY上的元素xiyj的联合自信息量为定义2.1.3 联合集XY中,对事件xi和yj,事件xi在事
3、件yj给定的条件下的条件自信息量定义为 条件概率对数的负值,在特定条件下(yj已定)随机事件xi发生所带来的信息量联合自信息量和条件自信息量也满足非负和单调递减性。xiyjxiyj设在一正方形棋盘上共有64个方格,将方格分别按行和列编号。如果甲将一粒棋子随意地放在棋盘中的某方格且让乙猜测旗子所在位置;在二维联合集XY上,元素xi相对yj的条件自信息量为甲将棋子所在方格的行告诉乙之后,再令乙猜测棋子所在列的位置。预备知识复习对数知识Log(xy)=logx+logyLog(x/y)=logx-logy概率知识(以猜测棋子位置为例)只考虑第几行(或第几列)的情况,涉及一个随机事件,可用离散随机变量
4、来表示。其中,X代表随机变量,指的是信源整体; 代表随机事件的某一结果或信源的某个元素。既考虑第几行,又考虑第几列的情况,涉及两个随机事件,可用两个离散随机变量来表示。随机变量X,Y分别取值于集合其中,思考题:作业题:互信息量和条件互信息量2.2.1 互信息量定义2.2.1 对两个离散随机事件集X和Y,事件yj的出现给出关于事件xi的信息量,定义为互信息量,其定义式为XY当信宿收到集合Y中的一个消息符号yj后,接收者重新估计关于信源各个消息xi发生的概率就变成条件(后验)概率p(xi|yj),例如p(1/1) 。已知X先验概率互信息量等于自信息量减去条件自信息量。是获得的信息量,或消除的不确定
5、性的度量,等于先验的不确定性减去尚存在的不确定性。例:某地二月份天气构成的信源为 现有人告诉你:“今天不是晴天。”,把这句话作为收到的消息 。当收到消息 后,各种天气发生的概率变成后验概率了。其中计算 与各种天气之间的互信息量由y1分别得到x2、x3、x4各1比特的信息量,也可以理解为y1使x2、x3、x4不确定度各减少1比特2.2.2 互信息的性质互信息量的互易性(证明)由事件yj提供的有关事件xi的信息量等于由事件xi提供的有关事件yj的信息量。当事件xi,yj统计独立时,互信息量为零。(证明)不能从观测yj获得关于另一个事件xi的任何信息。XYXY互信息量可正可负在给定观测数据yj的条件
6、下,事件xi出现的概率p(xi|yj)称为后验概率,p(xi)称为先验概率;当后验概率p(xi|yj)大于先验概率p(xi)时,互信息量I(xi;yj)大于零,为正值;当后验概率p(xi|yj)小于先验概率p(xi)时,互信息量I(xi;yj)小于零,为负值;互信息量为正,意味着事件yj的出现有助于肯定事件xi的出现;反之,则是不利的。造成不利的原因是存在信道干扰。Y=危险X=危险;Y=安全X=安全若信道无干扰Y=安全X=危险;信道干扰(设备故障,人员问题)X任何两个事件之间的互信息量不可能大于其中任一事件的自信息量。(证明)自信息量I(xi)是为了确定事件xi的出现所必须提供的信息量,也是任
7、何其他事件所能提供的最大信息量。XY在接到上午的电话后,A获得关于B的互信息量为在接到两次电话后,A获得关于B的互信息量为事件E,F的出现有助于肯定事件B的出现。例:A某已知其三位朋友B,C,D中必定会有一人晚上到他家,并且这三人来的可能性均相同,其先验概率p(B)=p(C)=p(D)=1/3。但这天上午A接到D的电话,说因故不能来了。下午,A又接到C的电话,说他因晚上要出席一个重要会议不能来A家。若把上午这次电话作为事件E,则p(D/E)=0,p(B/E)=p(C/E) =1/2若把下午这次电话作为事件F,则p(C/EF)= p(D/EF)=0, p(B/EF)=12.2.3 条件互信息量给
8、定条件 下, 与 之间的互信息量,其定义式XZY一对事件yjzk出现后所提供的有关xi的信息量I(xi;yizk),等于事件zk出现后所提供的有关xi的信息量I(xi;zk),加上给定事件zk的条件下再出现事件yj所提供的有关xi的信息量。XZY2.3 离散集的平均自信息量平均自信息量(熵) 一个离散随机变量X,以不同的取值概率有N个可能取值, 是一个随机变量,不能用来作为整个信源的信息测度。定义2.3.1 集X上,随机变量I(xi)的数学期望定义为平均自信息量,又称作集X的信源熵,简称熵。熵函数的自变量是X,表示信源整体。集X的平均自信息量表示集X中事件出现的平均不确定性。即为了在观测之前,
9、确定集X中出现一个事件平均所需的信息量;或在观测之后,集X中每出现一个事件平均给出的信息量。熵熵这个名词是香农从物理学中的统计热力学借用过来的,在物理学中热熵热熵是表示分子混乱程度的一个物理量,这里,香农引用它来描述信源的平均不确定性,含义是类似的。但是在热力学中已知任何孤立系统的演化,热熵只能增加不能减少;而在信息论中,信息熵正相反,只会减少,不会增加。所以有人称信息熵为负热熵负热熵。熵的单位信息熵信息熵的单位与公式中的对数取底底有关。通信与信息中最常用的是以2为底,这时单位为比特比特(bit),H(X);理论推导中用以e为底较方便,这时单位为奈奈特特(nat), He(X) ;工程上用以1
10、0为底较方便,这时单位为哈特哈特(hat), H10(X) 。它们之间可以引用对数换底公式进行互换。 1 bit = 0.693 nat = 0.301 hat例:一个布袋内放100个球,其中80个是红的,20个白的,若随机模取一个,猜测其颜色,求平均模取一次所能获得的自信息量。概率空间随机模取n次后总共所获得的信息量为平均模取1次所获得的信息量为熵是从平均意义上来表征信源的总体特征平均不确定性模1次获得的信息量为电视屏上约有5006003105个点,按每点有10个不同的灰度等级考虑,则共能组成103105个不同的画面。按等概计算,平均每个画面可提供的信息量为另有一篇千字文,每字从万字表中选择
11、,共有不同的千字文N10 0001 000篇104 000篇,仍按等概计算,平均每篇千字文可提供的信息量为500*600的一个画面比1000个字的文章提供的信息量大。作业题:2.3.2 熵函数的数学特性熵函数H(X)只是其概率分布的函数对称性:当概率矢量P=(p1,p2,pq)中的各分量的次序任意变更时,熵值不变。信源的熵仅与信源总体的统计特性有关。不能描述事件本身的具体含义和主观价值。A地天气情况 晴 阴 雨B地天气情况 晴 阴 雨A地人口60非负性 确知信源具有最小熵零。扩展性集中一个事件的概率相对于其他事件的概率很小时,对集合的熵值的贡献可忽略不计。A地晴 阴 雪 雨B地晴 阴 雪 雨
12、雹 对于离散随机变量,当其可能的取值等概分布时,其熵达到最大值。即:极值性结论:等概率分布时熵最大,不确定性最大。故这一定理又被称为离散信源最大熵定理。证明:时等概时等概:随机变量具有最大的不确定性,p=0,1p=0,1时:时:随机变量的不确定性消失。例:二元熵函数XP(x) x1 x2 p 1-pH(X) = -plogp-(1-p)log(1-p)=H(p)1.01.00.50pH(p)/bit二元熵函数曲线确定性(不确定性完全消失)集合X中只要有一个事件为必然事件,则其余事件为不可能事件。此时,集合中每个事件对熵的贡献都为0,因而熵为0。上凸性是概率分布的严格上凸函数对任何 和任何两个概
13、率矢量PQ有1.01.00.50pH(p)/bit二元熵函数曲线可加性如果有两个随机变量X和Y,它们不是相互独立的,则二维随机变量X和Y的联合熵,等于X的无条件熵加上当X已给定时Y的条件概率定义的熵。XY条件熵在已知随机变量Y的条件下,随机变量X的熵称为集X对集Y的条件熵。是联合集XY上条件自信息量的数学期望。是已知一随机变量,对另一个随机变量的不确定性的量度当X表示信源的输出,Y表示信宿的输入时,条件熵H(X/Y)可表示信宿在收到Y后,信源X仍然存在的不确定度。这是传输失真所造成的。求条件熵为什么要用联合概率?求条件熵为什么要用联合概率?例:已知X,Yp(00)=p(11)=1/8,p(01
14、)=p(10)=3/8,计算条件熵H(X/Y)。,XY构成的联合概率为:解: 根据条件熵公式:联合熵(共熵)联合离散符号集合XY上的每个元素对 的联合自信息量的数学期望。是二元随机变量不确定性的度量。2.3.5 各种熵的关系联合熵等于无条件熵加上条件熵。XY证明:XY条件熵小于等于无条件熵,等式成立的条件是集X集Y相互独立。证明:联合熵等于无条件熵加上条件熵。XY条件熵小于等于无条件熵,等式成立的条件是集X集Y相互独立。联合熵小于等于各自熵的和,等式成立的条件是集X集Y相互独立。XY2.3.6 加权熵设有随机变量X,引入事件的重量后,其概率空间为其中,离散无记忆信源的加权熵定义为 互信息量 是
15、定量地研究信息流通问题的重要基础。只能定量地描述输入随机变量发出某个具体消息 ,输出变量出现某一个具体消息 时,流经信道的信息量;是随 和 变化的随机变量。不能从整体上作为信道中信息流通的测度。平均互信息量从整体的角度出发,在平均意义上度量每通过一个符号流经信道的平均信息量。平均互信息量平均条件互信息量在联合集XY上,由yj提供的关于集X的平均条件互信息量,等于由yj所提供的互信息量在整个X中以后验概率加权的平均值。了解Y后,X的不确定度的减少量2.4.2平均互信息量平均条件互信息量I(X;yj)在整个集Y上的概率加权平均值,也就是互信息量I(xi;yj) 在集XY上的概率加权平均值称为集合Y
16、与集合X间的平均互信息量。将已知信源接到下图所示的信道上,求在该信道上传输的平均互信息量I(X;Y)、条件熵H(X/Y)、条件熵H(Y/X)和联合熵H(XY)。解:(1)由求出各联合概率: 0.50.5(2)由得到Y集各消息概率:0.50.5(3)由,得到X的各后验概率:(4 4)平均互信息)平均互信息(5 5)联合熵)联合熵(6 6)条件熵)条件熵2.4.3 平均互信息量的性质非负性互易性(对称性)当集合X,Y相互独立时平均互信息和各类熵的关系XYH(X)H(Y)H(X,Y)H(X|Y)H(Y|X)I(X;Y)最大平均互信息量就是信道容量。极值性凸函数性平均互信息量是信源概率分布的上凸函数。
17、l信息熵是表征随机变量本身统计特性的一个物理量,它是随机变量平均不确定性的度量,是从总体统计特性上对随机变量的一个客观描述。l互信息I(U;V), 一般是针对观测到另一个随机变量时而言的,是指观测者从随机变量V中所获得的关于随机变量U的信息度量。在通信中,互信息是针对接收者而言的,是指接收者收到的关于信源的信息度量,当通信中无干扰时,接受者获得的信息量数量上就等于信源给出的信息熵。l信息论基本概念熵、互信息分别给出了随机变量不确定性的度量以及消除或减少这一不确定性时所获信息的度量。l从统计数学的角度看:l熵是一个系统无序性的度量l互信息是两个随机变量之间统计依存性的度量作业随堂测试已知12个球中有一个球的重量与其他球不同,其他球均等重。求证,用天平称3次即可找出此球。