信息论与编码第2章信源与熵

上传人:mg****85 文档编号:55394179 上传时间:2018-09-28 格式:PPT 页数:184 大小:1.58MB
返回 下载 相关 举报
信息论与编码第2章信源与熵_第1页
第1页 / 共184页
信息论与编码第2章信源与熵_第2页
第2页 / 共184页
信息论与编码第2章信源与熵_第3页
第3页 / 共184页
信息论与编码第2章信源与熵_第4页
第4页 / 共184页
信息论与编码第2章信源与熵_第5页
第5页 / 共184页
点击查看更多>>
资源描述

《信息论与编码第2章信源与熵》由会员分享,可在线阅读,更多相关《信息论与编码第2章信源与熵(184页珍藏版)》请在金锄头文库上搜索。

1、1,第2章 信源熵,2.0 信源的数学模型及其分类 2.1 单符号离散信源 2.2 多符号离散平稳信源 2.3 连续信源 2.4 离散无失真信源编码定理(*),2,本节内容,通信的根本问题是将信源的输出信息在接收端尽可能精确地复现出来。 需要讨论:如何描述信源的输出,即如何计算信源输出的信息量。 信源的数学模型 信源的分类,3,什么是信源?,信源信息的发源地,如人、生物、机器等等。 由于信息十分抽象,所以我们通过信息载荷者,即消息来研究信源,并将信源的具体输出称作消息。 消息的形式多样:离散消息(如汉字、符号、字母);连续消息(如模拟图像、语音)。 信源建模:信源消息中的信息是一个时变的不可预

2、知的函数。 描述信源消息或对信源建模,随机过程是一个有效的工具,通过随机过程的特性来描述信源的特性。,4,信源输出的描述,信源发出消息,消息载荷信息,而消息又具有不确定性,所以可用随机变量或随机序列(矢量)来描述信源输出的消息,或者说用概率空间来描述信源。信源的输出被抽象为一个随机变量序列(随机过程)。,5,离散信源和连续信源,用随机变量或随机矢量来描述信源的输出消息,用概率空间来描述信源时,则信源就是一个概率场: 离散信源:信源输出的随机变量取值于某一离散符号集合,消息在时间和幅值上均是离散的,就叫做离散信源。 比如平面图像 X(x,y)和电报、书信、文稿等等 离散信源只涉及一个随机事件,称

3、为单符号离散信源,可用离散随机变量来描述; 若离散信源涉及多个随机事件,称为多符号离散信源,可用离散随机矢量来描述。 连续信源:信源输出的随机变量取值于某一连续区间,为连续信号,消息的个数是无穷值,就叫做连续信源。 比如人发出的语音信号X(t)、模拟的电信号等等,6,离散和连续信源的数学模型,7,单/多符号信源模型,单符号信源:信源输出的是单个消息符号,用一维离散或连续随机变量X及其概率分布P来描述。 多符号信源:信源输出的是多个消息符号,用N维随机矢量,N重离散概率空间的数学模型来描述。 如自然语言信源就是把人类的语言作为信源,以汉字为例,就是随机地发出一串汉字序列。 我们可以把这样信源输出

4、的消息视为时间上或空间上离散的随机变量序列,即随机矢量。 于是,信源的输出可用N维随机矢量(Xk,k=1,2,.,N)来描述,N一般为有限正整数。,8,多符号信源的数学模型 N重离散概率空间,9,信源的分类,主要基于两方面: 1. 信源消息取值的集合以及消息取值时刻的集合 离散信源、连续信源 或数字信源、模拟信源(波形信源) 2. 信源消息的统计特性 由此可分为无记忆信源、有记忆信源、 平稳信源、非平稳信源、 高斯信源、马尔可夫信源等。 实际使用的是二者的组合 如离散无记忆信源等。,10,信源的分类离散平稳信源,如果随机序列中各个变量具有相同的概率分布,则称为离散平稳信源。 如果离散平稳信源的

5、输出序列中各个变量是相互独立的,即前一个符号的出现不影响以后任何一个符号出现的概率,则称为离散无记忆平稳信源,否则称为离散有记忆平稳信源,11,信源的分类无记忆信源,如果信源发出的消息符号间彼此是统计独立的,并且它们具有相同的概率分布,且N维随机矢量的联合概率分布为:我们称之为离散无记忆信源。 同样,若N维随机矢量中X每个变量Xk是连续随机变量,且相互独立,则X的联合概率密度函数为 ,这种信源叫连续型无记忆信源,12,信源的分类有记忆信源,一般情况下,信源发出的符号间是彼此相互依存和关联的(如小说文字),是有记忆信源,通常用联合概率或条件概率来描述这种关联性。 按记忆长度划分有: 有限记忆信源

6、(马尔可夫信源) 有限状态马尔可夫链 无限记忆信源,13,混合信源,按信源输出时间和取值划分: 时间连续,取值连续或随机的,称之为随机波形信源,表示为X(t)。 输出既有连续分量又有离散分量,称之为混合信源。重点研究离散信源产生消息的不确定性,不研究信源的内部结构和消息的如何产生。,14,信源的分类,随机过程x(t):随机波形信源 信源输出的消息是时间(或空间)上 和取值上都是连续的函数,离散无记忆信源的N次扩展信源:输出的 平稳随机序列X中各随机变量统计独立。 每个随机变量xi取值于同一概率空间。 每N个符号构成一组,等效为一个新的信源,随机 变量,离散信源:可能输出的消息数有限,连续信源:

7、可能输出的消息数是无限的或不可数的,非平稳 信源,平稳 信源,连续平稳信源,离散平稳信源:输出的随机序列X中每个随机变量取值是离散的, 并且随机矢量X的各维概率分布不随时间平移而改变,有限记忆信源:输出的平稳随机序列 X中各随机变量之间有 依赖关系,但记忆长度有限,马尔可夫信源:输出的随机序列X中各随机变量之间有依赖关系 ,但记忆长度有限,并满足马尔可夫链的条件式,随机 序列,15,第2章 信源熵,2.0 信源的数学模型及其分类 2.1 单符号离散信源 2.2 多符号离散平稳信源 2.3 连续信源 2.4 离散无失真信源编码定理,16,第2章 信源熵,2.1 单符号离散信源 2.1.1 单符号

8、离散信源的数学模型 2.1.2 自信息和信源熵 2.1.3 信源熵的基本性质和定理 2.1.4 加权熵的概念及基本性质 2.1.5 各种熵之间的关系,17,2.1.1 单符号离散信源的 数学模型,定义:单符号离散无记忆信源的数学模型,18,第2章 信源熵,2.1 单符号离散信源 2.1.1 单符号离散信源的数学模型 2.1.2 自信息和信源熵 2.1.3 信源熵的基本性质和定理 2.1.4 加权熵的概念及基本性质 2.1.5 各种熵之间的关系,19,随机事件与信息量,你的同学告诉你:“昨天中国男子足球队以3:0战胜了巴西队”,你的感觉如何? 如果你的同学又告诉你: “昨天中国男子乒乓球队以3:

9、0战胜了巴西队”,你的感觉又如何? 比较从这两件事情当中你获得信息量的大小?,20,自信息量定义,定义 2.1.1 任意随机事件的自信息量定义为该事件发生概率的对数的负值。自信息量的单位取决于对数选取的底。 单位:比特bit、奈特nat、哈特Hart。 当对数的底取2时,单位为比特bit 当以自然数e为底时,单位为奈特nat 当以10为底时,单位为哈特hart,21,自信息量的单位,在现代数字通信系统中,一般采用二进制的记数方式。在信息量的计算中也多采用以2为底的方式,一般默认以2为底三个信息单位比特bit、奈特nat、哈特Hart之间的转换关系如下:,22,对数及常用公式,23,信息量、不确

10、定度和惊讶度,在事件发生前有不确定度:不确定度与事件发生与否无关,它表征的是事件的特性; 在事件发生时有惊讶度; 在事件发生后带来信息量:因此,当一个概率很低的随机事件发生,我们就会感到非常惊讶,并得到很大的信息量。 如:9.11事件,美国纽约世贸大厦被炸; 彗星撞地球,24,自信息量,从信息源获取信息的过程是信源不确定度缩减的过程。 随机事件包含的信息与其不确定度紧密相关 在统计分析中,使用概率作为衡量不确定性的一种指标。 可以推论出:随机事件包含信息的度量应是其概率的函数。,25,自信息量与不确定度(例),例:有一本n页书,每页200字,作者使用的词汇有1000个字。那么,1000个字每次

11、取200个字构成一页,其总排列组合数也就是一页书总的状态数共有1000200=N1,对于n页书,则不同状态数将增加到N1n ,即Nn= N1n =(1000)200 n = 1000200n 假定每种状态是等概的,则n页书中对应每一种状态的概率为Pn=1/ Nn=1/ N1n = 1/1000200n 用概率倒数的对数来度量其不确定度,则为log(1/Pn)= log(Nn)=nlog(N1) 记1页(n页)书每种状态的不确定度为H1(Hn) 则Hn = log(1/Pn)= log(Nn)=nlog(N1)= nH1 = Hn 也就是说n页书包含的信息量是1页书包含信息量的n倍。,26,自信

12、息量的性质,值得注意的是:,27,自信息量(例),某地二月份天气的概率分布统计如下:这四种气候的自信息量分别为:可见不同天气情况具有不同的自信息量, 自信息量具有随机变量的性质,28,联合自信息量,定义 2.1.2 二维联合集XY上的元素( )的联合自信息量定义为 式中 为积事件; 为元素 的二维联合概率。 当X和Y相互独立时,,29,条件自信息量,定义 2.1.3 联合集XY中,对事件 和 ,事件 在事件 给定的条件下的条件自信息量定义为由于每个随机事件的条件概率都处于0 1范围内,所以条件自信息量均为非负值。,30,几种自信息量之间的关系,自信息量、联合自信息量、条件自信息量都满足非负性和

13、单调递减性 三者都是随机变量,其值随着变量xi,yj的变化而变化。 三者之间有如下关系式:,31,例:联合自信息量,设在一正方形棋盘上共有64个方格,如果甲将一粒棋子随意地放在棋盘中的某方格且让乙猜测棋子所在位置: 将方格按顺序编号,令乙猜测棋子所在方格的顺序号; 解:,x,y,32,例:条件自信息量,设在一正方形棋盘上共有64个方格,将方格按行和列编号,甲将棋子所在方格的行(或列)编号告诉乙之后,再令乙猜测棋子所在列(或行)的位置。 解:,x,y,33,自信息量不能作为信源的 整体信息测度,自信息量 是指某一信源X发出某一信息符号 所含有的信息量。发出的信息符号不同,它们所含有的信息量就不同

14、。 信源发出的信息符号可用随机事件来描述。 自信息量是一个随机变量,它反映了信源发出某一信息符号的不确定性,不能反映整个信源的不确定性。它不能用来作为整个信源的信息测度。,34,信源的概率空间描述,用概率空间来描述信源。 用这个概率空间的可能状态数目及其概率来描述信源的不确定程度:其中: X是信源的状态空间,为一个离散集,表示了随机事件的状态数; P(X)是随机事件各种可能状态的概率分布,且P(x)=1, 各状态是相互独立的。 通常记为X,P(x),35,信源的不确定度举例,分析整个信源的不确定性 有一个布袋,装有100个对手感觉一样的球,但颜色不同,每种颜色球的数量也不同。随意从中拿出一球,

15、猜测球的颜色。 1、90个红球,10个白球 -容易猜测 2、50个红球,50个白球-较难猜测 3、红、白、黑、黄球各25个-更难猜测 容易看出:信源的不确定度与信源所包含的随机事件的可能状态数目和每种状态的概率有关。,36,信源不确定度的几个结论,关于信源不确定度的几个结论: 信源的不确定程度与信源概率空间的状态数及其概率分布有关 如果信源概率空间的状态数确定,概率分布为等概时,不确定程度最大 等概时,不确定程度与信源概率空间的可能状态数(或相应的概率)有关,状态数越多(或相应的概率越小),不确定程度就越大。 信源的不确定程度可以用信源概率空间的概率分布来描述。通常记为H(X)=H(p1, p

16、2,.pN) 对于上面的例子,有 H3(1/4,1/4,1/4,1/4) H2(1/2,1/2) H1(0.90,0.10),37,平均自信息量信息熵,自信息量是随机变量,它反映了信源发出某一信息符号的不确定性,但不能用来作为整个信源的信息测度。因此,我们引入平均自信息量,即信息熵。 定义 2.3.1 集X上,随机变量I(xi)的数学期望定义为平均自信息量集X的平均自信息量又称做是集X的信息熵,简称做熵。含义上信息熵与热熵有相似之处。,38,平均不确定性,集X的平均自信息量表示集X中事件出现的平均不确定性 在观测之前,确定集合X中出现一个事件平均所需的信息量; 观测之后,集合X中每出现一个事件平均给出的信息量。 例:,39,信息熵的单位,离散集合X信息熵的单位取决于对数选取的底。 如果一个离散集合X的概率分布为n个状态等概,选取对数底为n,由信息熵定义可以说此集合X包含了1个n进制单位的信息量,用一个n进制的数就可以表示此集合的信息。 在现代数字通信系统中,一般采用二进制的记数方式。在信息熵的计算中也多采用以2为底的方式,且默认记为H(X)。由对数公式可以得到r进制与二进制之间的关系:,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号