模式识别第二章 贝叶斯决策理论课件

上传人:我*** 文档编号:143798485 上传时间:2020-09-02 格式:PPT 页数:73 大小:2.74MB
返回 下载 相关 举报
模式识别第二章 贝叶斯决策理论课件_第1页
第1页 / 共73页
模式识别第二章 贝叶斯决策理论课件_第2页
第2页 / 共73页
模式识别第二章 贝叶斯决策理论课件_第3页
第3页 / 共73页
模式识别第二章 贝叶斯决策理论课件_第4页
第4页 / 共73页
模式识别第二章 贝叶斯决策理论课件_第5页
第5页 / 共73页
点击查看更多>>
资源描述

《模式识别第二章 贝叶斯决策理论课件》由会员分享,可在线阅读,更多相关《模式识别第二章 贝叶斯决策理论课件(73页珍藏版)》请在金锄头文库上搜索。

1、第三讲 贝叶斯决策理论,参考书: 中文教材:第二章 p9-34,p42-43 2011-2012学年第二学期,2,第二章 贝叶斯决策理论,2.1 引言 2.2 贝叶斯决策理论 2.3 最小错误率分类 2.4 最小风险决策 2.5 分类器、判别函数及决策面 2.6 正态密度 2.7 正态分布的判别函数 2.8 错误率与积分,第三讲,第四讲,基本模式识别过程,上一过程的数学表达:,4,模式识别,Pattern Recognition Ch. 2 分类器-基于Bayes决策理论,贝叶斯决策理论,例,Then the threshold value is:,Threshold for minimum

2、r,5,模式识别,Pattern Recognition Ch. 2 分类器-基于Bayes决策理论,贝叶斯决策理论,例2-1,Thus moves to the left of (WHY?),Consider the reverse situation when the moves to the right of ?,6,知识点,7,小结,(1)分类器设计时使用什么原则是关键 - 影响到分类器的效果。原则包括: 错分率最小的原理。后验概率 基于最小风险的贝叶斯决策的原理。 (2)“风险”与“损失” 风险系数 损失:对某个样本作第i个决策的风险,(i|j)= (i,j),8,小结,分类所用的计

3、算式:比较所计算数值谁大谁小;称为判别函数gi(X)。 自变量是样本X; 如果 ,则称特征空间的这一点X是第i类的决策域。由gi(X)占主导地位的区域称为第i类的决策域,我们将它表示成Ri 如果第i类决策域Ri与第j类决策域相邻,则它们之间有边界。在边界上有gi(X)=gj(X),该式是一个方程式,称为决策面方程。,9,学习目标,结合一种比较典型的概率分布:正态分布,进一步基于最小错误贝叶斯决策分析分类器的设计。 什么叫正态分布,或高斯分布,是哪一种概率定义的? 定义高斯分布的表达式:均值/协方差矩阵。 将正态分布与基于最小错误率的贝叶斯决策结合 高斯分布是指数函数,因此计算时常用对数使计算简

4、化 不同分类器的定义,正态分布下的Bayes决策,贝叶斯公式中类条件概率和先验概率未知时需要进行概率密度函数(probability density function, pdf)的估计。 什么是正态分布?为何要用正态分布?,11,正态分布,在模式识别及其它信息处理应用系统中,正态分布假设是对各种随机变量使用得最普遍的假设 正态分布在数学上比较简便。数学的简便性便于人们对统计识别方法进行数学分析。在模式识别技术的研究中,用正态分布模型抽取设计样本集与测试样本集在数学上实现起来也比较方便。 物理上的合理性,在许多实际应用场合,如果同一类样本在特征空间内的确较集中地分布在其类均值的附近,远离均值处分

5、布较少,那么一般情况下以正态分布模型近似往往是比较合理的。,13,正态分布概率密度函数的定义与性质,一、单变量正态分布 二、多元正态分布1.多元正态分布的概率密度函数2.多元正态分布的性质,单变量正态分布,单变量正态分布(Normal Distribution),即高斯分布(Gauss Distribution) 正态分布的pdf:,其中, :x的期望(均值),,单变量正态分布,单变量正态分布的形状完全由 和 来确定:,正态分布的样本主要集中分布在其均值附近,其分散程度可用标准差来衡量,愈大分散程度也越大。从正态分布的总体中抽取样本,约有95%的样本都落在区间(2,+2)内。,16,正 态 密

6、 度,17,正 态 密 度 讨论,正态分布是指一个随机实数度量值在整个实数域上的分布规律。因此它属于概率密度函数类,不是先验概率P(i)和后验概率P(i|X),而是p(x|i)。 通用公式, 具体化后的公式:其中i是对的具体化。,18,正 态 密 度 讨论,请思考一下,正态分布(又称高斯分布)以x为横轴,y为纵轴画出来是什么样子?有没有最高点?最高点的x坐标是什么?的大小对你所画的图有什么影响?如果有两种高斯分布1=2,12,你能将它们画在一起吗?两者有什么不同? Matlab实例-正态分布,多元正态分布,多变量正态分布的pdf:,式中: 均值向量, ; 协方差矩阵, 为 的行列式。,与单变量

7、中 相对应, 变量间互不相关时 是对角阵:,20,正 态 密 度,参数的计算: 是向量x的期望 ,Ex=1,2,dT 是矩阵(x-)(x-)t 的期望, =E(x- ) (x- )t 若xi是x的第i个分量, i是的第i个分量, ij2是的第i,j个元素,则:,21,正 态 密 度,协方差矩阵总是对称非负定阵,且可以表示为 其对角线上的元素是xi的方差,非对角线上的元素是xi和xj的协方差。如果各分量独立,则非对角线元素为0,协方差矩阵就成为对角矩阵。,22,正 态 密 度,如果是一个三维向量,它的协方差矩阵是几乘几的矩阵?每个元素又对应什么含义? 是个33矩阵, 协方差矩阵并不只对正态分布有

8、用,它是多元随机变量中一个重要的数学统计表示方法,它描述了一个随机变量样本集中各个分量之间的相关性。,23,正 态 密 度,协方差的性质 它是一个对称矩阵,如果它的第i行第j列元素表示成 ,则应有 。这就是说与第j行第i列的元素是相同的,这就是对称性。 由于它的主对角元素都是各分量的方差,因此一般情况下都是大于零的值。因此协方差矩是正定的,这一点也是十分有用的。,多元正态分布,多元正态分布与单变量正态分布在形式上尽管不同,但有很多相似之处,实际上单变量正态分布就是维数为1的多元分布。 当d=1时,只是一个11的矩阵,也就是只有1个元素的矩阵,退化成一个数,|1/2也就是标准差,-1也就是-2,

9、而(x)T(x)也变成(x-)2。,多元正态分布,多元正态分布要比单变量正态分布复杂得多。 并且多元正态分布具有许多重要的特性。 多元正态分布的概率密度函数中的元,即特征向量的分量数,也就是维数。 为了分析方便我们着重讨论二维向量。 二维随机向量,其中每一个分量都是随机变量,服从正态分布。但是一个二维随机向量不仅要求考虑每个分量单独的分布,还要考虑两个随机变量之间的关系。,两个多元正态分布例子,两个二元正态分布的各个分量是相同的,即它们的期望1和2,方差1和2都相同,但这两个特征向量在空间的分布却不相同。,对右图来说,x1和x2有很大的相关性,而对左图来说,随机变量x1与x2之间的相关性很小。

10、这可以从两者的区别看出来。 对于右图可以看出一个随机变量的x1分量较小时,另一分量x2也必然较小。而当随机变量的x1较大时,则其相应的x2分量也较大。换句话说,如果x1分量小于其均值1,则其相应的分量x2也很可能小于它的均值2。 因此当x1-10时,也常伴有x2-20 ,这说明它们之间有联系,或称相关性,用(x1-1)(x2-2)这两项相乘来看其相关性。,对整个随机变量样本集取期望值,就会使E (x1-1)(x2-2) 有非零值。 反过来看左图中的随机变量分布,就没有这种规律,一个随机变量x1分量小于其均值 ,并不对其相应分量x2与 之间的关系有什么限制。 在此时一个随机变量(x1-1)与(x

11、2-2)的乘积的符号就可正可负,则E (x1-1)(x2-2)就可能接近于零,或等于零。 因此我们可以用E (x1-1)(x2-2)来衡量这种相关性,称为协方差。 协方差是个正数,很可能为零,协方差越大,说明两个变量的相关度越高。,29,正 态 密 度,以下是上两图特征向量分布的协方差矩阵,请问哪个是左图,哪个是右图?,30,多变量正态分布的性质,参数与对分布具有决定性。这一点与单变量时是相似的,记作p(X)N(,)。 等密度点的轨迹为一超椭球面 不相关性等价于独立性 边缘分布和条件分布的正态性 线性变换的正态性 线性组合的正态性,31,多变量正态分布的性质,从正态分布总体中抽取的样本大部分会

12、落在由和所确定的一个区域里,区域的中心由均值向量决定,大小由协方差矩阵决定。 由n个分量组成,由n(n+1)/2元素组成 (考虑到对称性,所以独立元素的个数: n(n+1)/2)。 多维正态分布由n+n(n+1)/2个参数组成。,返回,32,正 态 密 度,返回,33,等密度点的轨迹为一超椭球面,返回,34,正 态 密 度,指数项为常数时,密度值P(x)不变,因此等密度点应是使指数项为常数的点,即应满足: 其解是超椭球面,主轴方向由的特征向量决定,主轴的长度由的特征值决定。称为 x 到 的Mahalanobis距离(马氏距离)的平方。 区域中心由决定,区域形状由决定 多元正态分布的离散程度由参

13、数|决定,这与单变量时由标准差决定是对应一致的。,返回,35,正 态 密 度,返回,36,多元正态分布,是dd维协方差矩阵,而1是的逆矩阵,|是的行列式。 (x)(x) :在二维时表示一个椭圆,在三维表示椭球,在高维是表示超椭球, :,返回,37,多元正态分布,,,返回,38,多元正态分布,,,返回,39,多元正态分布,,,返回,40,多元正态分布,证明:,,,返回,多元正态分布,,,返回,42,边缘分布和条件分布的正态性,多元正态分布的边缘分布和条件分布仍然是正态分布。这就是说多元正态的随机向量,就其每个分量单独的分布而言,也是正态分布的。 另一方面,对某个分量或若干个分量保持常数的条件下样

14、本的分布也仍然是正态的。,返回,43,边缘分布和条件分布的正态性,返回,44,边缘分布和条件分布的正态性,边缘分布p(x1)服从均值为1,方差的为112正态分布,返回,45,边缘分布和条件分布的正态性,返回,46,边缘分布和条件分布的正态性,返回,47,线性变换的正态性,若对x用线性变换矩阵A(A是非奇异(|A|0)作线性变换, y = Ax 则y服从以均值向量为A,协方差矩阵为AAT的多元正态分布。即 p(y)N(A,AAT),返回,线性变换的正态性,随机向量的变换 设随机向量y是另一随机向量x的函数,即,若x、y的函数关系是一一对应的,则其概率密度间满足下面关系,返回,线性变换的正态性,雅

15、克比行列式,J表示变换后体积微元的变化,Yn坐标系中体积微元 dy1dy2dyn=|J|dx1dx2dxn。|J|表示J的绝对值。,返回,线性变换的正态性,当x和y只是线性变换时,返回,线性变换的正态性,此时,J=|A|,|A|表示矩阵A的行列式。从而随机向量y的概率密度函数,|A|表示行列式|A|取绝对值。,返回,线性变换的正态性,设x的均值向量为,协方差矩阵为,则y的均值向量为=E(y)=AE(x)=A,y的协方差阵为 =E(y-)(y-)T) =AE(x-)(x-)TAT=AAT,返回,证明:,y = Ax, 即x=A-1y x的均值向量为,y的均值向量为 =A, 即=A-1 根据雅可比

16、行列式的定义,有 |J|=|A|,返回,证明:,y的概率密度函数与x的概率密度函数之间的关系为,由于,返回,即 p(y)N(A,AAT),返回,根据线性变换的正态性可以说明,用非奇异阵A对x作线性变换后,原来的正态分布正好变成另一参数不同的正态分布。,返回,图中特征空间中的一个线性变换将一个任意正态分布变换成另一个正态分布。 变换A将原分布变成分布N(AT,ATA);另一个线性变换,即由向量a决定的向某条直线的投影P,产生沿该直线方向的N(,2)分布。 尽管这些变换产生一个不同空间中的分布,还是将它们显示在原x1x2空间中。一种白化变换,将产生一个圆周对称的高斯分布。,列向量是的正交本征向量,与本征值对应的对角矩阵,返回,变换后的意义,由于是对称阵,根据线性代数知识总可以找到某个A使得变换后y的协方差阵AAT为对角阵,这就意味着y下的各个分量间是

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号