第1章熵和互信息量复习课程

上传人:yuzo****123 文档编号:137398753 上传时间:2020-07-08 格式:PPT 页数:83 大小:770KB
返回 下载 相关 举报
第1章熵和互信息量复习课程_第1页
第1页 / 共83页
第1章熵和互信息量复习课程_第2页
第2页 / 共83页
第1章熵和互信息量复习课程_第3页
第3页 / 共83页
第1章熵和互信息量复习课程_第4页
第4页 / 共83页
第1章熵和互信息量复习课程_第5页
第5页 / 共83页
点击查看更多>>
资源描述

《第1章熵和互信息量复习课程》由会员分享,可在线阅读,更多相关《第1章熵和互信息量复习课程(83页珍藏版)》请在金锄头文库上搜索。

1、第1章 熵和互信息量,本章介绍 信源的统计特性和数学模型 各类信源的信息测度-熵及其性质 引入信息理论的一些基本概念和重要结论,通信系统模型:,对信息论的学习可从信源开始 消息是信息的载荷者。信息是抽象的,消息是具体的。要研究信息,还得从研究消息入手。 由于信源发送什么消息预先是不可知的,只能用概率空间来描述信源,1.1 信源的数学模型及分类,单符号信源:输出是单个符号(代码)的消息 离散信源 连续信源 平稳随机序列信源:信源输出的消息由一系列符号序列所组成,可用N维随机矢量 X(X1,X2,XN)描述,且随机矢量X 的各维概率分布都与时间起点无关-平稳! 离散平稳信源 连续平稳信源 无记忆(

2、独立)离散平稳信源 有记忆信源 m阶马尔可夫信源 随机波形信源,连续信源,特点:输出是单个符号(代码)的消息,输出消息的符号集A的取值是连续的,可用一维的连续型随机变量X 来描述。 例:语音信号、热噪声信号、遥控系统中有关电压、温度、压力等测得的连续数据等等。 数学模型:连续型的概率空间。即:,或,满足,或,1.2 离散信源的信息熵及其性质,基本的离散信源可用一维随机变量X来描述信源的输出,信源的数学模型可抽象为:,问题:这样的信源能输出多少信息? 每个消息的出现携带多少信息量?,信息的度量,考虑: 信息的度量(信息量)和不确定性消除的程度有关,消除的不确定性获得的信息量; 不确定性就是随机性

3、,可以用概率论和随机过程来测度,概率小不确定性大; 推论: 概率小 信息量大,即信息量是概率的单调递减函数; 信息量应该具有可加性;,信息量的推导,某事件发生所含有的信息量应该是该事件发生的先验概率的函数。即: I (ai) f p(ai) 根据客观事实和人们的习惯概念,函数 f p(ai) 应满足以下条件: (1)它应是先验概率p(ai)的单调递减函数,即当 p (a1) p (a2) 时,有 f p (a1) f p (a2) ; (2)当p (ai) =1时, f p (ai) = 0 (3)当p (ai) =0时, f p (ai) = (4)两个独立事件的联合信息量应等于它们分别的信

4、息量之和。即统计独立信源的信息量等于它们分别的信息量之和。 可以证明对数函数满足上述条件:,一. 自信息,设离散信源X的概率空间为:,I(ai)代表两种含义: (1)当事件ai发生以前,表示事件ai发生的不确定性 (2)当事件ai发生以后,表示事件ai所提供的信息量,称事件ai发生所含有的信息量为 ai 的自信息量。定义为:,一点说明,计算自信息量时要注意有关事件发生概率的计算; 自信息量的单位取决于对数的底; 底为2,单位为“比特(bit, binary unit)”; 底为e,单位为“奈特(nat, nature unit)”; 底为10,单位为“哈特(hat, Hartley)”; 根据

5、换底公式得:,一般计算都采用以“2”为底的对数,为了书写简洁,常把底数“2”略去不写,1 nat = 1.44bit , 1 hat = 3.32 bit;,例 8个串联的灯泡x1,x2,x8,其损坏的可能性是等概率的,现假设其中有一个灯泡已损坏,问每进行一次测量可获得多少信息量?总共需要多少次测量才能获知和确定哪个灯泡已损坏。,解:收到某消息获得的信息量(即收到某消息后获得关于某事件发生的信息量) 不确定性减少的量 (收到此消息前关于某事件发生的不确定性) - (收到此消息后关于某事件发生的不确定性),已知8个灯泡等概率损坏,所以先验概率P (x1)1/8 ,即,第二次测量获得的信息量 =

6、I P (x2) - I P (x3)=1(bit) 第三次测量获得的信息量 = I P (x3) =1(bit) 至少要获得3个比特的信息量就可确切知道哪个灯泡已坏了。,第一次测量获得的信息量 = I P (x1) - I P (x2)=1(bit) 经过二次测量后,剩2个灯泡,等概率损坏,P (x3)1/2,一次测量后,剩4个灯泡,等概率损坏,P (x2)1/4,二. 信息熵,对一个信源发出不同的消息所含有的信息量也不同。所以自信息I(ai)是一个随机变量,不能用它来作为整个信源的信息测度。 定义自信息的数学期望为平均自信息量Hr(X),称为信息熵:,由于这个表达式和统计物理学中热熵的表达

7、式相似,且在概念上也有相似之处,因此借用“熵”这个词,把H(X)称为信息“熵”; 信息熵的单位由自信息量的单位决定,即取决于对数的底。,H(X)的单位:r 进制单位符号 (r1),熵的计算例: 有一布袋内放l00个球,其中80个球是红色的,20个球是白色的。随便摸出一个球,猜测是什么颜色,那么其概率空间为:,如果被告知摸出的是红球,那么获得的信息量是: I (a1) log p(a1) log0.8= 0.32 (比特) 如被告知摸出来的是白球,所获得的信息量应为: I (a2) log p(a2) log0.2 = 2.32 (比特) 平均摸取一次所能获得的信息量为 : H(X)= p(a1

8、) I (a1) + p(a2) I (a2) =0.72(比特/符号),熵的含义,熵是从整个集合的统计特性来考虑的,它从平均意义上来表征信源的总体特征。 在信源输出后,信息熵H(X)表示每个消息提供的平均信息量; 在信源输出前,信息熵H(X) 表示信源的平均不确定性; 信息熵H(X) 表征了变量X的随机性。 例如,有两信源X、Y,其概率空间分别,计算其熵,得:H(X)=0.08( bit /符号) H(Y)=1(bit / 符号) H(Y)H(X),因此信源Y比信源X的平均不确定性要大。,例 设甲地的天气预报为:晴(占48)、阴(占28)、大雨(占18)、小雨(占18)。又设乙地的天气预报为

9、:晴 (占78),小雨(占18)。试求两地天气预报各自提供的平均信息量。若甲地天气预报为两极端情况,一种是晴出现概率为1而其余为0。另一种是晴、阴、小雨、大雨出现的概率都相等为14。试求这两极端情况所提供的平均信息量。又试求乙地出现这两极端情况所提供的平均信息量。,两个信源,解:甲地天气预报构成的信源空间为:,则其提供的平均信息量即信源的信息熵:,乙地天气预报的信源空间为:,结论:甲地天气预报提供的平均信息量大于乙地,因为乙地比甲地的平均不确定性小。,甲地极端情况,极端情况1:晴天概率1,结论:等概率分布时信源的不确定性最大,所以信息熵(平均信息量)最大。,极端情况2:各种天气等概率分布,乙地

10、极端情况,极端情况1:晴天概率1,结论:在极端情况2下,甲地比乙地提供更多的信息量。 因为,甲地可能出现的消息数比乙地可能出现的消息数多。,极端情况2:各种天气等概率分布,信息熵是信源概率空间的一种特殊矩函数。这个矩函数的大小,与信源的符号数及其概率分布有关。 我们用概率矢量P来表示概率分布P(x):,三、信息熵的基本性质,这样,信息熵H(X)是概率矢量P或它的分量p1,p2,pq的q-1元函数(因各分量满足上述条件限制,所以独立变量只有q-1元)。 一般 H(X)可写成:,熵函数,H(P)是概率矢量P的函数,称为熵函数。 用下述表示方法: 用H(x) 表示以离散随机变量x描述的信源的信息熵;

11、 用H(P) 或 H(p1, p2 , , pq )表示概率矢量为 P = (p1, p2 , , pq )的q个符号信源的信息熵。 若当 q =2 时,因为 p1+p2 = 1, 所以将两个符号的熵函数写成H(p1)或H(p2)。 熵函数H(P)是一种特殊函数,具有以下性质。,性质:,1、对称性: H(P) 的取值与分量 p1, p2 , , pq的顺序无关。 说明: 从数学角度: H(P)= pi log pi 中的和式满足交换率; 从随机变量的角度:熵只与随机变量的总体统计特性有关。 例,2、确定性:H(1,0)=H(1,0,0)=H(1,0,0,0)=0 性质说明:从总体来看,信源虽然

12、有不同的输出符号,但它只有一个符号几乎必然出现,而其它符号则是几乎不可能出现,那么,这个信源是一个确知信源,其熵等于零。 3、非负性: H(P) 0 说明: 随机变量X的概率分布满足0pi1,当取对数的底大于1时,log(pi) 0,-pilog(pi ) 0,即得到的熵为正值。只有当随机变量是一确知量时熵才等于零。 这种非负性合适于离散信源的熵,对连续信源来说这一性质并不存在。以后可看到在相对熵的概念下,可能出现负值。,非负性体现信息是非负的。,4、扩展性,性质说明:信源的取值数增多时,若这些取值对应的概率很小(接近于零),则信源的熵不变。,所以,上式成立,因为,5、可加性 统计独立信源X和

13、Y的联合信源的熵等于信源X和Y各自的熵之和。 H(XY) = H(X)+ H(Y),可加性是熵函数的一个重要特性,正因具有可加性,才使熵函数的形式是唯一的。,证明:,例如,甲信源为,它们的联合信源是,可计算得联合信源的联合熵: H(Z) = H(XY) = log (nm) = log m + log n = H(X) + H(Y),乙信源为,6、强可加性 两个互相关联的信源X和Y的联合信源的熵等于信源X的熵加上在X已知条件下信源Y的条件熵。 H(XY)=H(X)+ H(Y/X),H(Y/X)表示信源 X 输出一符号的条件下,信源Y再输出一符号所能提供的平均信息量,称为条件熵。,H(XY)=H

14、(X)+ H(Y/X)的证明:, H(XY)= H(X)+ H(Y/X),7、递增性,若原信源 X 中有一个符号分割成了m个元素(符号),这m个元素的概率之和等于原元素的概率,而其他符号的概率不变,则新信源的熵增加。 熵的增加量等于由分割而产生的不确定性量。,证明可以从熵的定义或强可加性得出:,即得:,递增性的推广,它表示n个元素的信源熵可以递推成(n-1)个二元信源的熵函数的加权和。这样,可使多元信源的熵函数的计算简化成计算若干个二元信源的熵函数。因此,熵函数的递增性又可称为递推性。,8、极值性(定理1.1) 在离散信源情况下,信源各符号等概率分布时,熵值达到最大。,性质表明等概率分布信源的

15、平均不确定性为最大。 这是一个很重要的结论,称为最大离散熵定理。,证明: 因为对数是型凸函数,满足詹森不等式Elog Y log EY,则有:,二进制信源是离散信源的一个特例。 该信源符号只有二个,设为“0”和“1”。符号输出的概率分别为“”和“1- ”,即信源的概率空间为:,H(X) = -log (1-) log(1-) =H(),即信息熵H(x)是的函数。 取值于0,1区间,可画出熵函数H() 的曲线来,如右图所示。,熵函数H(P)是概率矢量P(p1,p2, ,pq)的严格型凸函数(或称上凸函数)。 它表示:对任意概率矢量P1 (p1,p2, ,pq )和P2 (p1,p2, ,pq),

16、和任意的 01,有: H P1十(1- )P2 H(P1)十(1-)H(P2) 因为熵函数具有上凸性,所以熵函数具有极值,其最大值存在。,9、上凸性,当离散平稳无记忆信源发出固定长度的消息序列时,则得到原信源的扩展信源 。 例如在电报系统中,若信源输出的是二个二元数字组成的符号序列,此时可认为是一个新的信源,它由四个符号(00,01,10,11)组成,我们把该信源称为二元无记忆信源的二次扩展信源。 如果把N个二元数字组成一组,则信源等效成一个具有2N个符号的新信源,把它称为二元无记信源的N次扩展信源。,1.3 离散无记忆信源的扩展信源,一般情况下,对一个离散无记忆信源X,其样本空间为a1,a2, ,aq ,对它的输出消息序列,可用一组组长度为N的序列来表示它。这时,它等效成一个新信源。 新信源输出的符号是N维离散随机矢量X =(X1,X2,XN),其中每个分量Xi (i1,2,N)都是随机变量,它们都取值于同一信源符号集,并且分量之间统计独立,则由随机矢量X 组成的新信源称为离散无记忆信源X的N次扩展信源

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件 > 高中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号