文档详情

第三章:信源、熵率及冗余度杨杰

小**
实名认证
店铺
PPT
515.52KB
约41页
文档ID:45480807
第三章:信源、熵率及冗余度杨杰_第1页
1/41

第三章:信源、熵率及冗余度杨杰信源•信息论对信源研究的内容:l信源的建模:用恰当的随机过程来描述信号l关心角度:信号中携带的信息l信源输出信号中携带信息的效率的计算l熵率、冗余度l信源输出信息的有效表示l信源编码信源•信源的特性与分类•实际信源举例信源特性与分类•信源的统计特性l1)什么是信源?l信源是信息的来源,实际通信中常见的信源有:语音 、文字、图像、数据…在信息论中,信源是产生消 息(符号)、消息(符号)序列以及连续消息的来源 ,数学上,信源是产生随机变量U,随机序列U和随 机过程U(t,ω)的源l2)信源的主要特性l信源的最基本的特性是具有统计不确定性,它可用概 率统计特性来描述信源特性与分类•信源的描述与分类l单消息(符号)信源:l离散信源l连续变量信源l平稳信源l无/有记忆信源l马尔可夫信源l随机波形信源•实际信源信源特性与分类•单消息(符号)信源l它是最简单也是最基本的信源,是组成实际信源 的基本单元它可以用信源取值随机变量的范围 U和对应概率分布P(u)共同组成的二元序对 [U,P(u)]来表示l当信源给定,其相应的概率空间就已给定;反之 ,如果概率空间给定,这就表示相应的信源已给 定。

所以,概率空间能表征这离散信源的统计特 性,因此有时也把这个概率空间称为信源空间 单消息(符号)信源--离散信 源•这些信源可能输出的消息数是有限的或可数的,而 且每次只输出其中一个消息因此,可以用一个离 散型随机变量X来描述这个信源输出的消息这个 随机变量X的样本空间就是符号集A;而X的概率分 布就是各消息出现的先验概率,信源的概率空间必 定是一个完备集•在实际情况中,存在着很多这样的信源例如投硬 币、书信文字、计算机的代码、电报符号、阿拉伯 数字码等等这些信源输出的都是单个符号(或代 码)的消息,它们符号集的取值是有限的或可数的 我们可用一维离散型随机变量X来描述这些信源 的输出它的数学模型就是离散型的概率空间:单消息(符号)信源--离散信 源•对离散信源例:对于二进制数据、数字信源:U={0,1}, 则有单消息(符号)信源--连续变 量信源•有的信源虽输出是单个符号(代码)的消息,但其可 能出现的消息数是不可数的无限值,即输出消息的 符号集A的取值是连续的,或取值是实数集(-∞,∞) 例如,语音信号、热噪声信号某时间的连续取值 数据,遥控系统中有关电压、温度、压力等测得的 连续数据。

这些数据取值是连续的,但又是随机的 我们可用一维的连续型随机变量X来描述这些消 息这种信源称为连续信源,其数学模型是连续型 的概率空间: 单消息(符号)信源--连续变 量信源其中:对于连续变量信源平稳信源•很多实际信源输出的消息往往是由一系列符号序列所组成的可以把这种信源 输出的消息看做时间上或空间上离散的一系列随机变量,即为随机矢量这时 ,信源的输出可用N维随机矢量X=(￿ X1,X2…XN)来描述,其中N可为有限正 整数或可数的无限值这N维随机矢量X有时也称为随机序列•一般来说,信源输出的随机序列的统计特性比较复杂,分析起来也比较困难 为了便于分析,我们假设信源输出的是平稳的随机序列,也就是序列的统计性 质与时间的推移无关很多实际信源也满足这个假设￿•若信源输出的随机序列X=￿ (X1,X2,…,XN￿ )中,每个随机变量Xi (i=1,2,…,N)都是取值离散的离散型随机变量,即每个随机变量Xi的可能取值是 有限的或可数的而且随机矢量X的各维概率分布都与时间起点无关,也就是 在任意两个不同时刻随机矢量X的各维概率分布都相同这样的信源称为离散 平稳信源如中文自然语言文字,离散化平面灰度图像都是这种离散型平稳信 源。

无记忆信源•在某些简单的离散平稳信源情况下,信源先后发出 的一个个符号彼此是统计独立的也就是说信源输 出的随机矢量X=(X1X2…XN)中,各随机变量Xi (i=1,2,…N)之间是无依赖的、统计独立的,则N维 随机矢量的联合概率分布满足P(X)=P1(X1)P2 (X2)…PN(XN)￿•我们称由信源空间[X,P(x)]描述的信源X为离散 无记忆信源这信源在不同时刻发出的符号之间是 无依赖的,彼此统计独立的￿离散无记忆信源X的N次扩展信源•我们把这信源X所输出的随机矢量X所描述的信源 称为离散无记忆信源X的N次扩展信源可见,N次 扩展信源是由离散无记忆信源输出N长的随机序列 构成的信源•离散无记忆信源的N次扩展信源的数学模型是X信 源空间的N重空间有记忆信源• 一般情况下,信源在不同时刻发出的符号之间是 相互依赖的也就是信源输出的平稳随机序列X中 ,各随机变量Xi之间是有依赖的例如,在汉字组 成的中文序列中,只有根据中文的语法、习惯用语 、修辞制约和表达实际意义的制约所构成的中文序 列才是有意义的中文句子或文章所以,在汉字序 列中前后文字的出现是有依赖的,不能认为是彼此 不相关的其他如英文,德文等自然语言都是如此 。

这种信源称为有记忆信源 •我们需在N维随机矢量的联合概率分布中,引入条 件概率分布来说明它们之间的关联马尔可夫信源•表述有记忆信源要比表述无记忆信源困难得多实 际上信源发出的符号往往只与前若干个符号的依赖 关系强,而与更前面的符号依赖关系弱为此,可 以限制随机序列的记忆长度￿•当记忆长度为m+1时,称这种有记忆信源为m阶马 尔可夫信源也就是信源每次发出的符号只与前m 个符号有关,与更前面的符号无关时齐马尔可夫信源•设马尔可夫信源各时刻随机变量Xk的取值为xk, xk∈Xk,k=1,2,…,i-1,i,i+1,…N,则描述随机序列 中各随机变量之间依赖关系的条件概率为 P(xi|…xi+2￿ xi+1￿ xi-1￿ xi-2￿ xi-3￿ …xi-m￿ …x1)￿ =P(xi|…xi-1￿ xi-2￿ x-3￿ …xi-m) (i=1,2,…N)•￿ 如果上述条件概率与时间起点i无关,即信源输出 的符号序列可看成为时齐马尔可夫链,则此信源称 为时齐马尔可信源￿离散序列信源总结随机波形信源•更一般地说,实际信源输出的消息常常是时间和取值都是连续的例如,语音 信号￿ X(t)、热噪声信号n(t)、电视图像信号X(x0,y0,t)等时间连续函数。

同时, 在某一固定时间t0,它们的可能取值又是连续的和随机的对于这种信源输出 的消息,可用随机过程来描述称这类信源为随机波形信源•分析一般随机波形信源比较复杂和困难常见的随机波形信源输出的消息是时 间上或频率上为有限的随机过程根据取样定理,只要是时间上或频率上受限 的随机过程,都可以把随机过程用一系列时间(或频率)域上离散的取样值来表 示,而每个取样值都是连续型随机变量这样,就可把随机过程转换成时间(或 频率)上离散的随机序列来处理甚至在某种条件下可以转换成随机变量间统计 独立的随机序列如果随机过程是平稳的随机过程,时间离散化后可转换成平 稳的随机序列这样,随机波形信源可以转换成连续平稳信源来处理若再对 每个取样值(连续型的)经过分层(量化),就可将连续的取值转换成有限的或可数 的离散值也就可把连续信源转换成离散信源来处理￿ ￿ 实际信源•实际信源在离散情况下是消息序列信源,在 连续情况下是随机过程信源,它们分别代表 数字与模拟信源离散序列信源其中,i=1,2,…n为每个消息(符号)取值的种类数 l=1,2,…L为消息(符号)序列的长度 应注意的是i和l是代表两个不同范畴的变量,表示不同的 概念,切勿混淆。

i=1,2,…nl=1,2,…L离散序列信源信源输出是一组随机序列(矢量):其样值为:对应概率为:由于每个随机变量U={1,2,…n}有n种取值,则 有 种 可能取值离散序列信源•例:最简单L=3的三位PCM信源:这时L=3, n=2, 即i={0,1},则有:连续信源•在实际的连续信源中,可以采用两种方法进 行分析l一类是将连续信源离散化随机序列信源l另一类是仍然采用随机过程来分析•什么样的信源可以进行离散化处理?l实际上,只要满足一个非常宽松的条件,即满足 限时(T)、限频(F)的连续消息信源,即满足物理 可实现条件下,均可离散化为随机序列实际信源举例•1)图像信源 图像信源一般可以引用一个五元的随机场来表 示:(简化) 主要统计特性:初步可以认为是一个近似的平 稳遍历过程实际信源举例•对于数字型图像信号,可以采用马氏链模型而 为相邻像素之间的相关系数实际信源举例•2)语音信源可以近似用一个一维随机过程U(ω, t)表示 严格的讲,它是一个非平稳过程,但是对于 短时段(5-50ms)可认为是平稳的,且某些是 随机噪声(清辅音)而某些时段则呈现周期 性特征(浊音),还有一些短时段是二者的 混合。

熵率•对于离散平稳信源,考察其输出信息量 例:p44例26XP(x)=0 1 211/36 4/9 1/4ajai 012 01/41/180 11/181/31/18 201/187/36ajai 012 09/111/80 12/113/42/9 201/87/9P(ai,aj)P(ai/aj)当信源符号间无依赖性时:当考虑信源符号间的依赖性时:条件熵 :联合熵 :可见:且:考察信源符号间有依赖性时联合信源的平均符号熵:可见:比特/符号比特/符号比特/二个符号比特/符号分析:结论:符号间的相关性使得信源的平均符号熵减少,即每个符号平均携带的信息量减少问题:H2(X)和H(X2|X1)哪一个值更能接近实际二维平稳信源的熵?即:用哪一个值来表示二维平稳信源每个符号平均携带的信息量比特/符号考察:离散平稳有记忆信源符号之间的依赖长度为N的信源XP(x)=a1 a2 … anp1 p2 … pn定义:N长的信源符号序列的平均符号熵即平均每个信源符号所携带的信息量为比特/符号当 时,存在以下性质:•条件熵 随N的增加是非递增的•平均符号熵 随N的增加是非递增的•N给定时,平均符号熵>=条件熵。

即:• 存在,且:结论:对于有限记忆长度的平稳信源可用有限记忆长度的条件熵来对平稳信源进行信息测度熵率•对于离散平稳信源,考察其输出信息量l假设字母序列长度为N,则有限长度的序列可看成随机矢量( )的熵,可用联合熵表示,平均每个字母的熵 可以表示为当 时,若 存在,则:l定义: 为该平稳信源的熵率,又称平稳信源的极限熵或极 限信息量•对于一般的平稳信源,可以证明,极限 一定存在冗余度-1•它表征信源信息率的多余程度,是描述信源客观统计 特性的一个物理量由广义Shannon不等式有:•可见对于有记忆信源,最小单个消息熵应为 ,即 从理论上看,对有记忆信源只需传送 即可•但是这必需要掌握信源全部概率统计特性这显然是 不现实的实际上,往往只能掌握有限的维,这时需 传送 ,那么与理论值 相比,就多传送了 。

冗余度-2• 为了定量描述信源有效性,可定义:信源效率:信源冗余度: (相对 剩余)•或者定义:冗余度=logK-相对冗余度=1- /logK冗余度-3•正由于信源存在着冗余度,即存在着不必要 传送的信息。

下载提示
相似文档
正为您匹配相似的精品文档