正态分布中的Bayes决策

上传人:资****亨 文档编号:136767172 上传时间:2020-07-02 格式:PPT 页数:61 大小:863.50KB
返回 下载 相关 举报
正态分布中的Bayes决策_第1页
第1页 / 共61页
正态分布中的Bayes决策_第2页
第2页 / 共61页
正态分布中的Bayes决策_第3页
第3页 / 共61页
正态分布中的Bayes决策_第4页
第4页 / 共61页
正态分布中的Bayes决策_第5页
第5页 / 共61页
点击查看更多>>
资源描述

《正态分布中的Bayes决策》由会员分享,可在线阅读,更多相关《正态分布中的Bayes决策(61页珍藏版)》请在金锄头文库上搜索。

1、2.3 正态分布时的统计决策,Bayes决策的三个前提: 类别数确定 各类的先验概率P(i)已知 各类的条件概率密度函数p(x|i)已知 Bayes决策中,类条件概率密度的选择要求: 模型合理性 计算可行性,最常用概率密度模型:正态分布 观测值通常是很多种因素共同作用的结果,根据中心极限定理,它们(近似)服从正态分布。 计算、分析最为简单的模型。,.,一、正态分布判别函数 1、为什么采用正态分布: a、正态分布在物理上是合理的、广泛的。 b、正态分布数学上简单,N(, ) 只有均值和方差两个参数。,2-3.1 正态分布决策理论,.,2、单变量正态分布:,.,从p(x)的图形上可以看出,只要有两

2、个参数m和s2 ,就可以完全确定其曲线。,若服从正态分布的总体中随机抽取样本x,约有95的样本落在(m-2s,m+2s)中。样本的分散程度可以用s来表示 , s越大分散程度越大。,.,正态分布是指一个随机实数度量值在整个实数域上的分布规律。 因此它属于概率密度函数类,不是我们所讨论的先验概率P(i),也不是后验概率P(i|X),而是p(x|i)。,.,3、(多变量)多维正态分布,为d维均值向量也就是:,(1)函数形式:,x=(x1,x2,xd)T为d维随机向量,S是dd维协方差矩阵,S-1是S的逆矩阵,|S|为S的行列式。 协方差矩阵S是对称的,其中有d(d+1)/2个独立元素。,.,由于r(

3、x)可由m和S完全确定,所以实际上r(x)可由d(d+1)/2+d个独立元素来确定。,m、S分别是向量x和矩阵(x-m)(x-m)T的期望。,多元正态分布与单态量正态分布在形式上尽管不同,但有很多相似之处,实际上单变量正态分布只是维数为1的多元分布。,.,当d=1时,只是一个11的矩阵,也就是只有1个元素的矩阵,退化成一个数,|1/2也就是标准差,-1也就是-2,而(X)T(X)也变成(X-)2,,多元正态分布的概率密度函数中的元就是我们前面说得特征向量的分量数,也就是维数。,.,具体说:若xi是x的第i个分量,mi是m的第i个分量,sij2是S的第i、j个元素。,其中r(xi)为边缘分布,,

4、.,协方差矩阵:,是一个对称矩阵,只考虑S为正定矩阵的情况,也就是: |S|所有的子式都大于0,.,同单变量正态分布一样,多元正态分布r(x)可以由m和S完全确定,常记为N(m,S)。,.,(2) 多元正态分布的性质,参数和完全决定分布 等概率密度轨迹为超椭球面 不相关性等价于独立性 边缘分布和条件分布的正态性 线性变换的正态性 线性组合的正态性,.,.参数m和S对分布的决定性,对于d维随机向量x,它的均值向量m也是d维的,协方差矩阵是对称的,其中有d(d+1)/2个独立元素。 r(x)可由m和S完全确定,实际上r(x)可由d(d+1)/2+d个独立元素决定。常记为: r(x)N(m,S),.

5、,.等密度点的轨迹为一超椭球面,由r(x)的定义公式可知,右边指数项为常数时,密度r(x)的值不变,所以等密度点满足:,二维情况下,上式的解是一个椭圆轨迹,其长短轴方向由协方差矩阵的特征向量决定, 三维时是一个椭球面,超过三维则是超椭球面,主轴方向由协方差矩阵S的特征向量决定,各主轴的长度则与相应的特征值成正比。,.,从下图可以看出,从正态分布总体中抽取的样本大部分落在由m 和S所确定的一个区域里,这个区域的中心由均值向量m决定,区域的大小由协方差矩阵决定。,.,在数理统计中,令:,式中g称为x到m的马氏距离(Mahalanobis)距离。,所以等密度点轨迹是x到m的马氏距离g为常数的超椭球面

6、。,.,.不相关性等价于独立性,概率论中,一般来说,两个随机变量xi和xj之间不相关,并不意味着它们一定独立。,如果xi和xj之间不相关,则xixj的数学期望有:,如果xi和xj相互独立,则有:,.,如果xi和xj相互独立,则它们之间一定不相关,反之则不成立。,但是对服从正态分布的两个分量xi和xj,若xi和xj互不相关,则它们之间一定独立。,证明:见书P27,根据独立性的定义:正态分布随机向量的各分量间互不相关性与相互独立等价。,独立性是比不相关更强的条件。 不相关反映了xi和xj的总体性质。,.,.边缘分布与条件分布的正态性,从(3)证明得出的结论r(x)表达式,如果x用xj表示,有:,也

7、就是说,边缘分布r(x1)服从均值为m,方差为s112的正态分布:,同理,,.,二元正态分布协方差矩阵及其逆矩阵-1为,下面以二元正态分布为例进行证明,.,根据边缘分布定义,.,=1,另外,条件分布,给定x1的条件下x2的分布:,证明条件分布仍然是正态分布(作业题),.,.线性变换的正态性,对于多元随机向量的线性变换,仍为多元正态分布的随机向量。,就是:x服从正态分布r(x)N(m,S),对x作线性变换y=Ax,其中A为线性变换矩阵,且|A|0,则y服从正态分布:r(x)N(Am,ASAT),证明:,x经过变换为y,设变换矩阵A为非奇异矩阵,,y=Ax即x=A-1y,.,即 Ex=m,Ey=n

8、,根据雅克比行列式的定义,有|J|=|A|,x的均值向量为m,y的均值向量为n,所以y的概密函数与x的概密函数之间的关系为:,所以: n =A m 即m =A-1n,.,由于:|A|=|AT|=|AA|1/2(对称正定),由上面的结论可以得到:,.,即:,性质5说明了用非奇异阵A对x作线性变换后,原来的正态分布正好变成另一个参数不同的正态分布。,由于是对称阵,根据高等代数知识总可以找到某个A,使得变换后y的协方差矩阵AAT为对称阵,,这就意味着y的各个分量之间是相互独立的,也就是总可以找到一组坐标系,使各随机变量在新的坐标系下是独立的。,.,.线性组合的正态性,若x为多元正态随机向量,则线性组

9、合y=aTx是一维的 正态随机变量:,其中,a与x同维。,证明,利用性质(5),做线性变换y=ATx, 得,.,由性质(5),y是服从均值向量ATm,协方差阵ATA的多元统计分布,由性质(4) , y的边缘分布的正态性,可以得出y=aTx服从正态分布,,其概率密度函数为:,其中A=a,A1为非奇异阵,A1为d(d-1)为矩阵,y=y,Y1 T,.,2.3.2正态分布中的Bayes分类方法,前面,我们已经把基于Bayes公式的几种分类判决规则抽象为相应的判决函数和决策面方程。 这几种方法中Bayes最小错误率判决规则是一种最基本的方法。,如果取01损失函数,最小风险判决规则和最大似然比判决规则均

10、与最小错误判决规则等价。,.,下面以最小错误判决规则为例来研究Bayes分类方法在正态分布中的应用。,由最小错误率判决规则抽象出来的判决函数如下:,如果类概率密度是正态分布的,,.,则r(x|wi)N(mi,Si)。,取对数,得判别函数为,.,下面对几种特殊情况进行讨论。,情况一:,该情况下,每类的协方差矩阵相等,而且类的各特征间相互独立(由上节的性质得知),具有相等的方差s2。,.,因此:,(1)先验概率P(wi)与P(wj)不相等,.,其中:,将上两式代入gi(x):,为x到类wi的均值向量mi的“欧氏距离”的平方。,与类别无关,可以忽略,因此gi(x)可简化为:,.,进一步简化得。,xT

11、x与i无关,可以忽略:,.,是一个线性函数。,因此可以进一步写成,.,(2) P(wi )=P,所有各类概率相等,决策规则:对某个x计算,为线性函数,,其决策面由线性方程,决策面是一个超平面。,.,满足 的x的轨迹是wi 与wj 类间的决策面,当P(wi )=P(wj )时,超平面通过mi 与mj 连线中点并与连线正交,.,两个同心圆是两类概率分布等密度点轨迹, 两个圆心就是两类的均值点。,两类的区分线l与m1-m2垂直,其交点为x0,若P(w1 )P(w2 )时,x0向先验概率较小的那个类型的均值点偏移。,x0一般不是m1-m2的中点,但当P(w1 )=P(w2 )时,x0为m1-m2的中点

12、。,.,情况二:i 相等,即各类协方差相等,从几何上看,相当于各类样本集中于以该类均值点为中心的同样大小和形状的超椭球面内。,.,对于未知的x,如果把x与各类均值相减,即相当于Mahalanobis距离的平方。这时把x归于最近一类。称为最小距离分类器。,与类别无关,可以忽略,,.,gi(x)为线性函数,故决策面是一个超平面。,.,如果决策域R1和R2相邻,则决策面方程应满:,如果各类的先验概率相等,则,.,下面针对1,2二类情况进行讨论,.,情况三: 为任意,各类协方差矩阵不等,这时判别函数为 x 的二次型。,.,如果决策域,R1和R2相邻,则决策面方程应满足,.,.,.,2.4 关于分类器的

13、错误率问题,在分类过程中,任何一种决策规则都有其相应的错误率, 当采用指定的决策规则来对类条件概率密度及先验概率均为已知的问题进行分类时,它的错误率是固定的。 错误率反映了分类问题固有的复杂性的程度。 对同一种问题设计出的多种不同的分类方案,通常总是以错误率大小作为比较方案好坏的标准。 因此,在本书中错误率是非常重要的参数。,.,2.4.0 两类决策的错误率为下式,从上式可以看出当x为多维向量的时候,进行积分运算的工作量比较大。,因此对于实际问题,对错误率的研究一般从下面三点出发:,1、按理论公式研究。2、计算错误率上界 3、实验估计,.,2.4.1 在一些特殊情况下错误率的理论计算,第一种情

14、况-正态分布且等协方差矩阵 S1=S2=S3,下面回顾一下最小错误率贝叶斯决策的负对数似然比函数,很显然,h(x)为随机变量,记它的分布函数为P(h|wi),.,这样贝叶斯决策的最小错误率形式,在实际情况下,我们只考虑正态分布,因此h(x)可以写成如下形式:,.,.,上式表明决策面是x的二次型,如果协方差相等,决策面就变成 x 的线性函数。即,x 是 d 维等协方差正态分布的随机向量,而 h(x) 是一维的随机变量,且是 x 的线性函数,因此上式可看成是对x的各分量做线性组合 aTx, 然后再作平移,其中 aT=(m2-m1)TS-1,.,令,则有,.,同样可以得出p(h/w2)的参数均值h2及方差s22,因此,可以利用p(h/w1)和p(h/w2)计算出P1(e)和P2(e),.,.,2.独立随机变量,当d 维随机向量 x 的分量相互独立时,x 的密度函数课表示为:,因此负对数似然比h(x)为:,.,也就是说随机变量h(x)为d个随机变量h(xl)之和。根据中心极限定理,无论h(xl)的密度函数如何,只要当d大时,h(x)的密度函数总是趋于正态分布。这样我们就可以得到均值h2及方差s22,.,根据独立性假设,上式中第二项必定为零,所以其方差可写为,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号