1,第三章 Shannon 理论,王 滨 2004年3月7日,2,香农简介,香农(1916-2001),生于美国密执安州的加洛德1940年获得麻省理工学院数学博士学位和电子工程硕士学位1941年他加入了贝尔实验室数学部,在此工作了15年3,香农简介,香农在信息论的领域中钻研了8年之久,终于在1949年在《贝尔系统技术杂志》发表了244页的长篇论著---《保密系统的通信理论》次年,他又在同一杂志上发表了另一篇名著---《噪声下的通信》4,香农理论简介,第一篇文章奠定了香农信息基本理论的基础他在文中用非常简洁的数学公式定义了信息时代的基本概念:熵 “熵”的概念起源于热力学,是度量分子不规则热运动的单位香农的伟大贡献在于,利用概率分布的理论给出“熵”的严格定义 根据香农的定义,确定发生的事件如“太阳从东边升起”与确定不发生的事件如“太阳从西边升起”,其熵都是零只有当发生与不发生 的概率相同时,事件的熵才达到极大5,香农理论简介,在熵的基础上定义的信道容量也是通讯中一个至关重要的概念由此,香农推出了一个公式,明确表达了在不同噪声情况下传输速率与失真的定量关系从这一个公式导出的为达到无失真通讯的传输速 率的极限,现已称为香农极限。
打个比方来说,在周围干扰严重的情 况下,要想使对方听清楚,你就只有慢慢地讲,甚至还要不断重复6,香农理论应用,如今,这两个原理已广泛应用于信息处理和实际通信中只要涉及信息的压缩与传递,就要用到香农的理论 PC机上常用的WinZip (无损压缩算法) 通讯 (有损压缩无损压缩,纠 错) 在因特网上传递多媒体数据 (MP3音乐压缩格式),7,第三章 Shannon保密理论,密码体制的数学模型 随机事件的熵及其性质,8,通信系统,设计目的:在信道有干扰的情况下,使得接收者接 收到的信息无差错或差错尽可能的小9,保密系统,10,保密系统,设计目的:使得窃听者即使完全准确地接 收带了信道上传输的信号也无 法恢复出原始的信息11,密码体制的数学模型,明文(离散信源)空间的统计特性:无记忆和有记忆 密钥源通常是无记忆的,并且满足均匀分布 密文空间的统计特性由明文空间和密钥空间的统计特性决定 假定信道无干扰,假定分析者能够截获密文,且知道所用的密码体制以及明文空间和密钥空间的统计特性,12,§3.2 随机事件的熵及其性质 主要内容: 如何定量刻划一个随机事件包含的信息量 用熵的概念! 熵(entropy)这个数学工具自身的理论.,13,何为信息? 什么能提供信息? 我将你原来不知道的结果告诉你,就是提供了信息! 例1 当我给你一封信时,你就从我这里获得了信息,因为你事先并不知道其中的内容。
例2 设电脑彩票由8个10进制数组成.在开奖之前,我们不知道特等奖号码的信息,因为特等奖的号码是不确定特等奖号码的信息只有在开奖时才获得一旦开奖,就获得了8个十进制数的信息 这就是说,将未知的变成已知的时就获得了信息! 信息寓于不确定之中!,14,信息量,我向你提供的信息量的大小就是你事先不知道结果的程度!也即是信息的不确定度 如果你事先全知道了,说明我提供的信息量等于0; 如果你事先一无所知,说明我提供的信息量最多. 不知道意味着在我告诉你之前你只能猜测! 猜测就是按照每个可能结果的出现概率进行猜测! 因此,你只知道这个事情的每个结果的发生概率! 所以,我提供的信息量就是由你事先知道的每个可能结果的发生概率(即随机事件的概率分布)决定.,15,简单地说,信息就是: (1) 当未知的变成已知的之后获取的信息; (2) 当未知的还没变成已知之前包含的未知信息. 信息寓于不确定之中! 谁的信息! 通常的信息是指: (1) 一个实验提供的信息; (2) 一个随机事件包含的信息; (3) 一个随机变量包含的信息. 其中(1)和(2)的含义相同,它们比(3)的意义更 加广泛.,16,随机事件和随机变量,定义1:设一个实验有 共n个可能的结果,则每个可能结果都称为一个事件。
这个实验也称为一个随机事件 性质1:设X是一个离散随机变量,它有n个可能的取值 ,设每种取值出现的概率为p(xi),则,,17,一、随机事件的熵,一个事件可能发生,也可能不发生!但我们总在每个事件 发生的概率 都已知的条件下分析!,这个实验提供的信息就是: (1) 实验前该实验所包含的未知信息; (2) 实验后这个实验所提供的信息. 如何对信息量的大小进行定量刻划?,再看一下彩票的例子.,18,例3 设电脑彩票由8个10进制数组成,在开奖之前,108个可能号码成为特等奖的概率相同,都是10-8.一旦开奖,我们就知道了特等奖的8个具体号码,因而就获得了8个十进制数的信息 我们获得的信息量与开奖前每个可能号码成为特等奖的概率10-8有何关系? 显然,有 8 = - log10 10-8 信息量的定量刻划:,定义2 设 是一个实验中事件 发生的概率,则称 为事件 包含的自信息量.,19,熵的数学定义,定义3.1(随机事件的熵):设一个实验X有 共n个可能的结果,则称 的数学期望 为实验X的熵(Entropy). 其中约定 0log0 = 0.,,20,因此,一个实验的熵就是该实验的每个可能结果包含的自信息量的平均值! 熵的单位与对数的底有关! 约定对数的底大于1! 当以2为底时,其单位称为比特(bit); 当以10为底时,其单位称为迪特(Det);,21,例5设一个实验有a和b两个可能的结果,且实验结果是a和b的概率分别为1/4和3/4,试计算该实验的熵.,解:,根据熵的定义,有,解毕,22,下面介绍熵的性质.,定义3.4 一个实值函数 f 称为在区间I上是凸 的,,则称 f 称为在区间I上是严格凸的.,23,引理3.1(Jensen不等式),设 f 是区间I上的一个连续的严格凸函数, 并 且 , 则有 且上述等号成立的充要条件是,24,推论1 f (x)=logb x (b1)在区间x 0时是严格 凸的,因而当实数 满足 且 有:,且等号成立的充要条件是诸pi全相等.,证明:注意此推论中条件 与Jensen不等式中 条件 不同,故证明如下。
25,,证明,(记 , ),不妨设 都0,且,显然,当 时等号不成立;,26,定理3.1 设b1,则有,(1),证明,(1) 由 可知,故(1)成立.,(2) 由Jensen不等式的推论1可知(2)成立.,27,(3)充分性:,此时,必要性:,由于诸,设H(X)=0.,若存在t,使,,则,,从而,因而必要性成立.,.矛盾!,28,定理3.1说明: (1) 结果确定的随机事件不提供信息量, 因而提供的信息量最少! (2) 可能结果等可能发生的随机事件提供 的包含的信息量最大! 这与我们的直觉是一致的!,29,现实中的事件都不是孤立的! 很多随机事件之间都有相互的联系和影响!那么,如何刻划和研究多个随机事件相互 提供的信息呢? 这就要引入两个实验的 联合熵 条件熵 互信息 等概念!,30,因此,实验X与实验Y的联合熵(Joint Entropy)就是事件(xi ,yj )的自信息量的数学期望. 它反映了联合分布p(x, y )包含的信息量.,定义3.2(联合熵): 实验X与实验Y的可能结果分别为 和 ,定义X与Y的联合熵 为,31,定义3.3(条件熵): 实验X与实验Y的可能结果分别为 和 .定义X与Y的条件熵为,(1) 称 为在实验Y的结果为 yj的条件下,事件xi的条件自信息量.,为在实验Y的结果为yj的条件下,实验X的条件熵.,(2)称,32,(3) 称,为在实验X关于实验Y的条件熵.,,反映了,Y的结果是yj条件下,实验X包含的信息量.,反映了,Y的结果已知条件下,实验X平均包含的信息量.,33,联合熵与各自的熵的关系,定理3.2,两个实验提供的信息总量一定不超过这两个实验分别提供的信息量之和;当且仅当两个实验独立时,二者才相等.,直观含义:,34,证明,(1) 因,,故有,下证 .,再由,和,得,35,因,,故有,即,现分析等号何时成立?,36,将上述推理过程中出现≤的地方保留,就是,(1) 存在常数c,使对满足 的i, j,都有,第一个≤变成等号的条件是:,因而有,第二个≤变成等号的条件是:,(2) 当 时必有 ,即,37,对所有的i, j 都成立,故有,说明对所有的i, j,都有,即,这就证明了:,X与Y独立,现设 成立,则,X与Y独立,证毕,38,联合熵与条件熵的关系,定理3.3,直观含义:,两个实验提供的信息总量等于第一个信息提供的信息量加上在第一个实验的结果已知条件下,第二个实验提供的信息量.,39,联合熵与条件熵的关系,定理3.3,证明:由于,故有,同理可证,证毕,40,联合熵与熵的关系,故有,定理3.2指出:,定理3.3指出:,推论3.1,41,定义3.3(平均互信息): 称,为实验X与实验Y的平均互信息.,结论:,直观的含义:将X包含的未知信息量减去在实验Y的结果已知条件下,X仍具有的未知信息量.,就是实验Y提供的X的信息了.,42,下节内容,分组密码,。