第1章熵和互信息量

上传人:ldj****22 文档编号:48869747 上传时间:2018-07-21 格式:PPT 页数:83 大小:588KB
返回 下载 相关 举报
第1章熵和互信息量_第1页
第1页 / 共83页
第1章熵和互信息量_第2页
第2页 / 共83页
第1章熵和互信息量_第3页
第3页 / 共83页
第1章熵和互信息量_第4页
第4页 / 共83页
第1章熵和互信息量_第5页
第5页 / 共83页
点击查看更多>>
资源描述

《第1章熵和互信息量》由会员分享,可在线阅读,更多相关《第1章熵和互信息量(83页珍藏版)》请在金锄头文库上搜索。

1、第第1 1章章 熵和互信息量熵和互信息量u本章介绍信源的统计特性和数学模型各类信源的信息测度-熵及其性质引入信息理论的一些基本概念和重要结论n通信系统模型:n对信息论的学习可从信源开始n消息是信息的载荷者。信息是抽象的,消息是 具体的。要研究信息,还得从研究消息入手。n由于信源发送什么消息预先是不可知的,只能 用概率空间来描述信源1.1 信源的数学模型及分类n单符号信源:输出是单个符号(代码)的消息n离散信源n连续信源n平稳随机序列信源:信源输出的消息由一系列符号序列 所组成,可用N维随机矢量 X(X1,X2,XN)描述,且随机矢 量X X 的各维概率分布都与时间起点无关-平稳!n离散平稳信源

2、n连续平稳信源n无记忆(独立)离散平稳信源n有记忆信源nm阶马尔可夫信源n随机波形信源离散信源(单符号)n特点:输出是单个符号(代码)的消息,符号集 的取值A:a1,a2,aq是有限的或可数的,可用一维 离散型随机变量X来描述。n例:投硬币、书信、电报符号等等。n数学模型:设每个信源符号ai出现的(先验)概率 p(ai) (i=1,2,q) 满足:概率空间能表征离散信源的统计特性,因此也称概率 空间为信源空间。连续信源n特点:输出是单个符号(代码)的消息,输出消 息的符号集A的取值是连续的,可用一维的连续 型随机变量X 来描述。n例:语音信号、热噪声信号、遥控系统中有 关电压、温度、压力等测得

3、的连续数据等等。n数学模型:连续型的概率空间。即: 或或满足满足 或或 1.2 离散信源的信息熵及其性质 n基本的离散信源可用一维随机变量X来描 述信源的输出,信源的数学模型可抽象为:问题问题:这样的信源能输出多少信息:这样的信源能输出多少信息? ?每个消息的出现携带多少信息量每个消息的出现携带多少信息量? ?信息的度量n考虑:n信息的度量(信息量)和不确定性消除的程度有 关,消除的不确定性获得的信息量;n不确定性就是随机性,可以用概率论和随机过程 来测度,概率小不确定性大;n推论:n概率小 信息量大,即信息量是概率的单调递 减函数;n信息量应该具有可加性;信息量的推导n某事件发生所含有的信息

4、量应该是该事件发生的先验概率 的函数。即: I (ai) f p(ai)n根据客观事实和人们的习惯概念,函数 f p(ai) 应满足以 下条件:(1)它应是先验概率p(ai)的单调递减函数,即当p (a1) p (a2) 时,有 f p (a1) 1r1)熵的计算例:有一布袋内放l00个球,其中80个球是红色的, 20个球是白色的。随便摸出一个球,猜测是什么颜 色,那么其概率空间为: 如果被告知摸出的是红球,那么获得的信息量是:如果被告知摸出的是红球,那么获得的信息量是:I (a1) log p(a1) log0.8= 0.32 (比特)比特)如被告知摸出来的是白球,所获得的信息量应为:如被告

5、知摸出来的是白球,所获得的信息量应为:I (a2) log p(a2) log0.2 = 2.32 (比特)比特)平均摸取一次所能获得的信息量为平均摸取一次所能获得的信息量为 : H(X)= p(a1) I (a1) + + p(a2) I (a2) =0.72(比特比特/ /符号)符号)熵的含义n熵是从整个集合的统计特性来考虑的,它从平均意义上来 表征信源的总体特征。n在信源输出后,信息熵H(X)表示每个消息提供的平均信 息量;n在信源输出前,信息熵H(X) 表示信源的平均不确定性;n信息熵H(X) 表征了变量X的随机性。n n例如例如,有两信源有两信源X X、Y Y,其概率空间分别其概率空

6、间分别计算其熵,得:得:H(X)=0.08H(X)=0.08( bit /bit /符号)符号)H(Y)=1H(Y)=1(bit / bit / 符号)符号)H(Y)H(X),因此信源Y比信源X的平均不确定性要大。 例 设甲地的天气预报为:晴(占48)、阴(占28)、大雨( 占18)、小雨(占18)。又设乙地的天气预报为:晴 (占7 8),小雨(占18)。试求两地天气预报各自提供的平均信息量 。若甲地天气预报为两极端情况,一种是晴出现概率为1而其 余为0。另一种是晴、阴、小雨、大雨出现的概率都相等为1 4。试求这两极端情况所提供的平均信息量。又试求乙地出现 这两极端情况所提供的平均信息量。两个

7、信源解:甲地天气预报构成的信源空间为:则其提供的平均信息量即信源的信息熵则其提供的平均信息量即信源的信息熵: :乙地天气预报的信源空间为:n n结论结论:甲地:甲地天气预报提供的平均信息量大于乙地,因为乙地提供的平均信息量大于乙地,因为乙地 比甲地的平均不确定性小。比甲地的平均不确定性小。甲地极端情况n极端情况1:晴天概率1n 结论:等概率分布时信源的不确定性最大, 所以信息熵(平均信息量)最大。n极端情况2:各种天气等概率分布乙地极端情况n极端情况1:晴天概率1n 结论:在极端情况2下,甲地比乙地提供更多的信息量。因为,甲地可能出现的消息数比乙地可能出现的消息数多。n极端情况2:各种天气等概

8、率分布n信息熵是信源概率空间的一种特殊矩函数。这个矩函 数的大小,与信源的符号数及其概率分布有关。n我们用概率矢量P来表示概率分布P(x):三、信息熵的基本性质 这样,信息熵这样,信息熵H(H(X X) )是概率矢量是概率矢量P P或它的分量或它的分量p p1 1,p p2 2,p pq q的的q-1q-1元函数元函数( (因各分量满足上述条件限制,所以独立变量因各分量满足上述条件限制,所以独立变量 只有只有q-1q-1元元) )。一般一般 H(H(X)X)可写成:可写成:熵函数nH(P)是概率矢量P的函数,称为熵函数。n用下述表示方法:n用H(x) 表示以离散随机变量x描述的信源的信息熵;n

9、用H(P) 或 H(p1, p2 , , pq )表示概率矢量为P = (p1, p2 , , pq )的q个符号信源的信息熵。n若当 q =2 时,因为 p1+p2 = 1, 所以将两个符号的熵函 数写成H(p1)或H(p2)。n熵函数H(P)是一种特殊函数,具有以下性质。性质: 1、对称性:H(P) 的取值与分量 p1, p2 , , pq的顺序无关。n说明: 从数学角度: H(P)= pi log pi 中的和式满足交换率;从随机变量的角度:熵只与随机变量的总体统计特性有关。n例2、确定性:H(1,0)=H(1,0,0)=H(1,0,0,0)=0n性质说明:从总体来看,信源虽然有不同的输

10、出符号 ,但它只有一个符号几乎必然出现,而其它符号则是几 乎不可能出现,那么,这个信源是一个确知信源,其熵 等于零。 3、非负性: H(P) 0n说明:n n随机变量随机变量X X的概率分布满足的概率分布满足0 0p pi i1 1,当取对数的底大于当取对数的底大于1 1 时,时,log(log(p pi i) )0 0,- -p pi ilog(log(p pi i ) )0 0,即得到的熵为正值。只即得到的熵为正值。只 有当随机变量是一确知量时熵才等于零。有当随机变量是一确知量时熵才等于零。n n这种非负性合适于离散信源的熵,对连续信源来说这一性这种非负性合适于离散信源的熵,对连续信源来说

11、这一性 质并不存在。以后可看到在相对熵的概念下,可能出现负值质并不存在。以后可看到在相对熵的概念下,可能出现负值 。 vv 非负性体现信息是非负的。非负性体现信息是非负的。4、扩展性n性质说明:信源的取值数增多时,若这些取值对应的概率 很小(接近于零),则信源的熵不变。所以,上式成立因为5、可加性统计独立信源X和Y的联合信源的熵等于信源X 和Y各自的熵之和。H(XY) = H(X)+ H(Y) l可加性是熵函数的一个重要特性,正因具有可加性,才 使熵函数的形式是唯一的。证明:证明:例如,甲信源为例如,甲信源为它们的联合信源是可计算得联合信源的联合熵:H(Z) = H(XY) = log (nm

12、) = log m + log n = H(X) + H(Y)乙信源为乙信源为6、强可加性n两个互相关联的信源X和Y的联合信源的熵等于信 源X的熵加上在X已知条件下信源Y的条件熵。H(XY)=H(X)+ H(Y/X)nH(Y/X)表示信源 X 输出一符号的条件下, 信源Y再输出一符号所能提供的平均信息量,称 为条件熵。H(XY)=H(X)+ H(Y/X)的证明: H(XY)= H(X)+ H(Y/X) 7、递增性若原信源 X 中有一个符号分割成了m个元素(符 号),这m个元素的概率之和等于原元素的概率,而 其他符号的概率不变,则新信源的熵增加。熵的增加量等于由分割而产生的不确定性量。证明可以从

13、熵的定义或强可加性得出:因为因为而当而当inin时时p pij ij=0=0,所以所以即得:即得:递增性的推广n它表示n个元素的信源熵可以递推成(n-1)个二元信源的熵函数的加权和。这样,可使多元信源的熵函 数的计算简化成计算若干个二元信源的熵函数。因此 ,熵函数的递增性又可称为递推性。8、极值性(定理1.1)n在离散信源情况下,信源各符号等概率分布时 ,熵值达到最大。n性质表明等概率分布信源的平均不确定性为最大 。n这是一个很重要的结论,称为最大离散熵定理。 证明: 因为对数是型凸函数,满足詹森不等式 Elog Y log EY,则有:二进制信源是离散信源的一个特例。该信源符号只有二个,设为

14、“0”和“1”。符号输出 的概率分别为“”和“1- ”,即信源的概率空间为:H(X) = -log (1-) log(1-) =H() 即信息熵H(x)是的函数 。 取值于0,1区间,可 画出熵函数H() 的曲线来 ,如右图所示。 n熵函数H(P)是概率矢量P(p1,p2, ,pq)的 严格型凸函数(或称上凸函数)。n它表示:对任意概率矢量P1 (p1,p2, ,pq )和 P2 (p1,p2, ,pq),和任意的 01,有:H P1十(1- )P2 H(P1)十(1-)H(P2)n因为熵函数具有上凸性,所以熵函数具有极值,其 最大值存在。9 9、上凸性、上凸性n当离散平稳无记忆信源发出固定长

15、度的消息序列 时,则得到原信源的扩展信源 。n例如在电报系统中,若信源输出的是二个二元数 字组成的符号序列,此时可认为是一个新的信源, 它由四个符号(00,01,10,11)组成,我们把 该信源称为二元无记忆信源的二次扩展信源。n如果把N个二元数字组成一组,则信源等效成一 个具有2N个符号的新信源,把它称为二元无记信源 的N次扩展信源。1.3 离散无记忆信源的扩展信源n一般情况下,对一个离散无记忆信源X,其样本 空间为a1,a2, ,aq ,对它的输出消息序列,可 用一组组长度为N的序列来表示它。这时,它等效 成一个新信源。n新信源输出的符号是N维离散随机矢量X =(X1, X2,XN),其中

16、每个分量Xi (i1,2,N)都是 随机变量,它们都取值于同一信源符号集,并且分 量之间统计独立,则由随机矢量X 组成的新信源称 为离散无记忆信源X的N次扩展信源。 单符号离散信源X的数学模型:nN次扩展信源与单符号离散信源比较:数学模型相同但输出不 是单个符号,而是一串N个相互独立的符号序列:X(X1,X2, XN) ,联合分布密度P(X)=P(X1X2XN)n把 X 等效为一个新信源,称为X的N次扩展信源,其数学模型 :因为是无记忆的因为是无记忆的( (彼此统计独立彼此统计独立) )则:则: 离散平稳无记忆N次扩展信源的熵H(X ) = H(XN) = NH(X)其中:同理计算式中其余各项,得到:H(

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号