Log(xy)=logx+logyLog(x/y)=logx-logy中学数学知识2.1 自信息和条件自信息量2.1.12.1.1自信息量自信息量定义定义2.1.12.1.1任意随机事件的字信息量的任意随机事件的字信息量的定义为该事件发生概率的对数的负值定义为该事件发生概率的对数的负值n自信息量自信息量 I(I(x xi i) ) 的含义的含义n当事件当事件 x xi i发生以前,表示事件发生以前,表示事件x xi i发生的不确发生的不确定性;定性;n当事件当事件 x xi i发生以后,表示事件发生以后,表示事件x xi i所提供的信所提供的信息量;息量;对于单个消息随机变量对于单个消息随机变量U U,,出现某个消息,对应概率为出现某个消息,对应概率为 ,这时可获得的信息量为,这时可获得的信息量为 ,则有:,则有:注:注:I I----自信息自信息解释解释::小概率事件,一当出现必然使人感到意外,因此产小概率事件,一当出现必然使人感到意外,因此产生的信息量就大;几乎不可能事件一旦出现,将是一生的信息量就大;几乎不可能事件一旦出现,将是一条爆炸性的新闻,一鸣惊人。
条爆炸性的新闻,一鸣惊人大概率事件,是预料之中的,即使发生,也没什么大概率事件,是预料之中的,即使发生,也没什么信息量,特别是当必然事件发生了,它不会给人以任信息量,特别是当必然事件发生了,它不会给人以任何信息量何信息量n自信息量的单位自信息量的单位n自信息量的单位取决于对数的底;自信息量的单位取决于对数的底;n底为底为2 2,单位为,单位为““比特(比特(bitbit))””;;n底为底为e e,,单位为单位为““奈特(奈特(natnat))””;;n底为底为1010,单位为,单位为““哈特(哈特(hathat))””;;n1 1 natnat = 1.44bit , 1 hat = 3.32 bit = 1.44bit , 1 hat = 3.32 bit;;自信息量自信息量I(I(a ai i) )的性质的性质•I(I(a ai i) )是非负值;是非负值;•当当P(P(a ai i) ) =1=1时,时, I(I(a ai i)=0)=0;;•当当P(P(a ai i) ) =0=0时,时, I(I(a ai i)= ∞ )= ∞ ;;I(I(a ai i) )是是P(P(a ai i) ) 的单调递减函数的单调递减函数n例:从例:从2626个英文字母中,随即选取一个字个英文字母中,随即选取一个字母,则该事件的自信息量为母,则该事件的自信息量为 I = -logI = -log2 2 (1/26) = 4.7 (1/26) = 4.7 比特比特n例:设例:设m m比特的二进制数中的每一个是等概比特的二进制数中的每一个是等概率出现的率出现的( (这样的数共有这样的数共有2 2m m个个) ),则任何一个,则任何一个数出现的自信息为数出现的自信息为: : I = -logI = -log2 2 (1/ 2 (1/ 2m m) = m ) = m 比特比特/ /符号符号计算信息量主要要注意有关事件发生概率的计算计算信息量主要要注意有关事件发生概率的计算联合自信息量联合自信息量定义定义2.1.22.1.2二维联合集二维联合集XYXY上的元素上的元素((xyxy) )的联合自信息量定义为的联合自信息量定义为2.1.22.1.2条件自信息量条件自信息量定义定义2.1.32.1.3联合集联合集XYXY中,对事件中,对事件x xi i和和y yj j,,事件事件x xi i 在事件在事件y yj j给定的条件下的条件自信息量定义为给定的条件下的条件自信息量定义为在特定条件下在特定条件下( ( 已定已定) )随机事件发生所带来的随机事件发生所带来的信息量信息量条件自信息量满足非负和单调递减性。
条件自信息量满足非负和单调递减性例例: :甲在一个甲在一个8*88*8的的 方格盘上随意放入方格盘上随意放入一个一个 棋子,在乙看来是不确定的棋子,在乙看来是不确定的1)(1)在乙看来,棋子落入某方格的不确在乙看来,棋子落入某方格的不确定性为多少?定性为多少?((2 2)若甲告知乙棋子落入方格的行号,)若甲告知乙棋子落入方格的行号,这时,在乙看来棋子落入某方格的不这时,在乙看来棋子落入某方格的不确定性为多少?确定性为多少?联合自信息量和条件自信息量关系联合自信息量和条件自信息量关系当当X X和和Y Y独立时,独立时,2.22.2互信息量和条件互信息量互信息量和条件互信息量2.2.12.2.1互信息量互信息量信源信源信道信道信宿信宿X XY Y信源集合信源集合X X的概率空间的概率空间XP= =x1 x2 …..p(x1) p(x2)…..YP= =y1 y2 …..p(y1) p(y2)…..信宿收到的符号集合信宿收到的符号集合Y Y的概率空间的概率空间定义定义2.2.12.2.1对两个离散随机事件集对两个离散随机事件集X X和和Y Y,事件,事件y yj j的出现给出关于事件的出现给出关于事件x xi i的信息的信息量,定义为互信息量。
量,定义为互信息量用用 表示,即表示,即互信息量等于自信息量减去条件自信息量互信息量等于自信息量减去条件自信息量第三种表达方式:第三种表达方式:2.2.22.2.2互信息量的性质互信息量的性质1 1、互信息量的互易性,即、互信息量的互易性,即I(I(x xi i; ;y yj j)=I)=I( (y yj j; ;x xi i) )2 2、当、当X X和和Y Y相互独立时,互信息为相互独立时,互信息为0 03 3、互信息量可为正值或负值、互信息量可为正值或负值4 4、任何两个事件之间的互信息量不可能、任何两个事件之间的互信息量不可能大于之中任一事件的自信息量大于之中任一事件的自信息量自信息、条件自信息和互信息I(xk)I(yj)I(xk ;yj)2.2.3 2.2.3 条件互信息量条件互信息量定义定义2.2.22.2.2联合集合联合集合XYZXYZ中,给定条件中,给定条件z zk k的的条件下,条件下,x xi i与与y yj j之间的互信息量,其定义之间的互信息量,其定义式式另外,联合集合另外,联合集合XYZXYZ中还存在中还存在x xi i与与y yj jz zk k之间的互信息量,其定义式之间的互信息量,其定义式或将上式进一步表示为或将上式进一步表示为思考下式的证明思考下式的证明上式表明一对事件上式表明一对事件y yj jz zk k出现后提供有关出现后提供有关x xi i的的信息量信息量I I((x xi i; ;y yj jz zk k),),等于事件等于事件y yj j出现后所提出现后所提供的有关供的有关x xi i的信息量的信息量I I((x xi i; ;y yj j) )加上在给定加上在给定时间时间y yj j的条件下再出现事件的条件下再出现事件z zk k所提供的有关所提供的有关x xi i的信息量。
的信息量 一个离散随机变量一个离散随机变量X X,,以不同的取值概率以不同的取值概率有有N N个可能取值个可能取值, , X XP P((x x))==a a1 1 a a2 2 … a aN Np p1 1 p p2 2 … p pN N信息论关心:信息论关心:X X的的不确定性不确定性不确定性--大,获取的信息--多不确定性--大,获取的信息--多2.32.3离散集的平均自信息量离散集的平均自信息量熵的引入熵的引入箱内箱内100100个球摸到红球不确定性分个球摸到红球不确定性分析:随机变量析:随机变量X X、、Y Y、、Z ZX XP P((x x))== a a1 1 a a2 2 0.99 0.01 0.99 0.01Z ZP P((z z))==a a1 1 a a2 2 a a3 3 a a4 4 a a5 50.2 0.2 0.2 0.2 0.20.2 0.2 0.2 0.2 0.2Y YP P((y y))== a a1 1 a a2 2 0.5 0.5 0.5 0.5问题:能否度量、如何度量??问题:能否度量、如何度量??小小大大9999个红球,个红球,1 1个黑球个黑球5050个红球,个红球,5050个黑球个黑球2020个红球,其它个红球,其它4 4种种颜色各颜色各2020个个2.3.12.3.1平均自信息量(熵)平均自信息量(熵)通常研究单独一个事件或单独一个符号的信通常研究单独一个事件或单独一个符号的信息量是不够的,往往需要研究整个事件集合息量是不够的,往往需要研究整个事件集合或符号序列或符号序列( (如信源如信源) )的平均的信息量的平均的信息量( (总体特总体特征征) ),这就需要引入新的概念,这就需要引入新的概念----平均自信息量平均自信息量定义定义2.3.12.3.1集集X X上,随机变量上,随机变量I I((x xi i) )数学数学期望定义为期望定义为平均自信息量平均自信息量由于这个表达式和统计物理学中热熵由于这个表达式和统计物理学中热熵的表达式相似,且在概念上也有相似的表达式相似,且在概念上也有相似之处,因此借用之处,因此借用““熵熵””这个词,把这个词,把H(X)H(X)称为信息称为信息““熵熵””;;熵函数的自变量是熵函数的自变量是X,X,表示信源整体表示信源整体信息熵的单位与公式中的对数取底有关。
通信与信息信息熵的单位与公式中的对数取底有关通信与信息中最常用的是以中最常用的是以2 2为底,这时单位为比特(为底,这时单位为比特(bitbit););理理论推导中用以论推导中用以e e为底较方便,这时单位为奈特(为底较方便,这时单位为奈特(NatNat););工程上用以工程上用以1010为底较方便,这时单位为笛特(为底较方便,这时单位为笛特(DetDet)它们之间可以引用对数换底公式进行互换比如:它们之间可以引用对数换底公式进行互换比如: 1 1 bit = 0.693 Nat = 0.301 bit = 0.693 Nat = 0.301 DetDet熵的计算熵的计算•例:设某信源输出四个符号,其符号集合的例:设某信源输出四个符号,其符号集合的概率分布为:概率分布为: 则其熵为:则其熵为:熵是从整个集合的统计特性来考虑的,它是从熵是从整个集合的统计特性来考虑的,它是从平均意义上来表征集合的总体特征的平均意义上来表征集合的总体特征的 –熵表示事件集合中事件发生后,每个事件熵表示事件集合中事件发生后,每个事件提供的平均信息量;提供的平均信息量;–熵表示事件发生前,集合的平均不确定性;熵表示事件发生前,集合的平均不确定性;例:有例:有2 2个集合,其概率分布分别为:个集合,其概率分布分别为: 分别计算其熵,则:分别计算其熵,则:H(X)=0.08 bit /H(X)=0.08 bit /符号符号, , H(Y)=1bit / H(Y)=1bit / 符号符号2.3.22.3.2熵函数的数学特性熵函数的数学特性3 3、扩展性、扩展性: : 当某事件当某事件E Ek k的概率的概率P Pk k稍微变化时,稍微变化时,H H函数也只作连续的不突变的变化;函数也只作连续的不突变的变化;1 1、对称性、对称性: : 熵函数对每个熵函数对每个P Pk k 对称的。
该性质对称的该性质说明熵只与随机变量的总体结构有关,与事件说明熵只与随机变量的总体结构有关,与事件集合的总体统计特性有关;集合的总体统计特性有关;2 2、非负性、非负性: : H H((P P))=H(p=H(p1 1,p,p2 2,…,,…,p pq q)>=0)>=0;;5 5、、极值性:当所有事件等概率出现时,平均不极值性:当所有事件等概率出现时,平均不确定性最大,从而熵最大,即:确定性最大,从而熵最大,即:4 4、、可加性:如果有两个随机变量可加性:如果有两个随机变量X,Y,他们不他们不是相互独立的,则二维随机变量(是相互独立的,则二维随机变量(X,Y)的熵等的熵等于于X的无条件熵加上当的无条件熵加上当X已给定时已给定时Y的条件概率的条件概率定义的熵统计平均值,即定义的熵统计平均值,即6 6、确定性:、确定性:即即H(1,0)=H(1,0,0)=H(1,0,0…,0)=0H(1,0)=H(1,0,0)=H(1,0,0…,0)=0,,即当即当某一事件为确定事件时,整个事件集合的熵某一事件为确定事件时,整个事件集合的熵为为0 0;;7 7、、上凸性:上凸性:条件熵条件熵2.3.32.3.3条件概率条件概率并且并且当已知特定事件当已知特定事件 y yj j 出现时,下一个出现的是出现时,下一个出现的是 x xi i 的不确定性为:的不确定性为:对集合对集合 X X 中所有元素统计平均,其熵为:中所有元素统计平均,其熵为:上述熵值再对集合上述熵值再对集合Y Y中的元素做统计平均,得条件中的元素做统计平均,得条件熵熵::同理可得:同理可得:定义定义2.3.32.3.3联合集联合集XYXY上,条件自信息量上,条件自信息量I(y|x)I(y|x)的概的概率加权平均值定义为条件熵率加权平均值定义为条件熵。
在已知随机变量在已知随机变量Y Y的的条件下,随机变量条件下,随机变量X X的条件熵定义为:的条件熵定义为:•条件熵是一个确定值,表示信宿在收到条件熵是一个确定值,表示信宿在收到Y Y后,信源后,信源X X仍然存在的不确定度这是传输失真所造成的仍然存在的不确定度这是传输失真所造成的有时称有时称H(X/Y)H(X/Y)为信道疑义度,也称损失熵为信道疑义度,也称损失熵•称条件熵称条件熵H(Y/X)H(Y/X)为噪声熵为噪声熵定义定义2.3.42.3.4联合离散符号集合联合离散符号集合XYXY上的每个元上的每个元素对素对x xi iy yj j的联合自信息量的数学期望是的联合自信息量的数学期望是二元随机变量不确定性的度量二元随机变量不确定性的度量2.3.42.3.4联合熵(共熵)联合熵(共熵)定义式为定义式为2.3.52.3.5各种熵的性质各种熵的性质1 1、、联合熵与信息熵、条件熵的关系联合熵与信息熵、条件熵的关系当当X,YX,Y相互独立时,有:相互独立时,有:于是有:于是有:理解:理解:当随机变量相互独立时,其联合熵等于单当随机变量相互独立时,其联合熵等于单个随机变量的熵之和,而条件熵等于无条件熵个随机变量的熵之和,而条件熵等于无条件熵。
2 2、、共熵与信息熵的关系共熵与信息熵的关系当当X,YX,Y相互独立时等式成立相互独立时等式成立3 3、、条件熵与信息熵的关系条件熵与信息熵的关系2.3.62.3.6加权熵加权熵设有随机变量设有随机变量X,,引入时间的重量后,其引入时间的重量后,其概率空间为概率空间为XPW=x1 x2 …… xnp(x1) p(x2) …… p(xn)W1 W2 …… Wn 定义定义2.3.52.3.5离散无记忆信源离散无记忆信源 [ [X P W]X P W]的加的加权熵定义为权熵定义为加权熵的性质加权熵的性质性质性质1:非负性:非负性HW(X)>=0性质性质2:若权重:若权重W1=W2=…Wn=W则则 HW(X)=WH(X)性质性质3:确定性:确定性若若pj=p(xj)=1,而而pi=p(xi)=0(i=1,2,…,n;;i不等于不等于j),则则HW(X)=0性质性质4:若:若,而而I,J为样本空间,并且为样本空间,并且加权熵为零,即加权熵为零,即HW((X)=02.42.4平均互信息量平均互信息量•互信息量互信息量 是定量地研究信息流通问题的重是定量地研究信息流通问题的重要基础。
但它只能定量地描述输入随机变量发出要基础但它只能定量地描述输入随机变量发出某个具体消息某个具体消息 ,输出变量出现某一个具体消,输出变量出现某一个具体消息息 时,流经信道的信息量;此外时,流经信道的信息量;此外 还是还是 随随 和和 变化而变化的随机变量变化而变化的随机变量•互信息量不能从整体上作为信道中信息流通的测互信息量不能从整体上作为信道中信息流通的测度这种测度应该是从整体的角度出发,在平均度这种测度应该是从整体的角度出发,在平均意义上度量每通过一个符号流经信道的平均信息意义上度量每通过一个符号流经信道的平均信息量•定义互信息量定义互信息量 在联合概率空间在联合概率空间 中的统计平均值为中的统计平均值为Y Y对对X X的平均互信息量,简称平的平均互信息量,简称平均互信息,也称平均交互信息量或交互熵均互信息,也称平均交互信息量或交互熵xiyj信道p(xi): 发送端发送 xi 的概率;P(xi|yj): 接收端收到 yj 后,发送端发送 xi 的概率X, P表示输入端概率空间Y, P表示输出端概率空间XY, P(xy)表示二维联合概率空间当当x xi i, ,y yj j相互独立时相互独立时2.4.22.4.2平均条件互信息量平均条件互信息量定义定义2.4.12.4.1在联合集在联合集XYXY上,由上,由y yj j提供的关于集提供的关于集X X的平均条件互信息量等于由的平均条件互信息量等于由y yj j所提供的互信所提供的互信息量息量I I((x xi i; ;y yj j))在整个在整个X X中以后验概率加权的中以后验概率加权的平均值,其定义式为平均值,其定义式为定理定理2.4.12.4.1在联合集在联合集XYXY上的平均条件互信息量有上的平均条件互信息量有I I((X;X;y yj j))>=0,>=0,当且仅当当且仅当X X集中的各个集中的各个x xi i都与事件都与事件y yj j互相独立时,等号成立。
互相独立时,等号成立定义定义2.4.22.4.2互信息量互信息量I(X;I(X;yjyj) )在整个集在整个集Y Y上的概上的概率加权平均值率加权平均值2.4.22.4.2平均互信息量平均互信息量平均互信息的物理意义:从三种不同角度说明平均互信息的物理意义:从三种不同角度说明从一个事件获得另一个事件的平均互信息需要从一个事件获得另一个事件的平均互信息需要消除不确定度,一旦消除了不确定度,就获得消除不确定度,一旦消除了不确定度,就获得了信息此即了信息此即“信息就是负熵信息就是负熵”2.4.32.4.3平均互信息量的性质平均互信息量的性质1 1、、非负性:非负性:3 3、平均互信息和各类熵的关系:、平均互信息和各类熵的关系:2 2、对称性:、对称性:4 4、极值性:、极值性:5 5、凸函数性、凸函数性–平均互信息量平均互信息量I(X;Y)I(X;Y)是输入信源概率分布是输入信源概率分布p p((x xi i) )的上凸函数,研究信道容量的理论基的上凸函数,研究信道容量的理论基础等概率时)础等概率时)–平均互信息量平均互信息量I(X;Y)I(X;Y)是输道转移概率是输道转移概率p(p(y yj j/ /x xi i) )的下凸函数,研究信源的信息率失的下凸函数,研究信源的信息率失真函数的理论基础。
独立时)真函数的理论基础独立时) 名称名称 符号符号 关关 系系 图图 示示 无无 条条 件件 熵熵 条条 件件 熵熵 条条 件件 熵熵 联联 合合 熵熵 交交 互互 熵熵精品课件精品课件!精品课件精品课件!。