模式识别_第四章_概率分类法PPT课件

上传人:工**** 文档编号:568700833 上传时间:2024-07-26 格式:PPT 页数:116 大小:3.77MB
返回 下载 相关 举报
模式识别_第四章_概率分类法PPT课件_第1页
第1页 / 共116页
模式识别_第四章_概率分类法PPT课件_第2页
第2页 / 共116页
模式识别_第四章_概率分类法PPT课件_第3页
第3页 / 共116页
模式识别_第四章_概率分类法PPT课件_第4页
第4页 / 共116页
模式识别_第四章_概率分类法PPT课件_第5页
第5页 / 共116页
点击查看更多>>
资源描述

《模式识别_第四章_概率分类法PPT课件》由会员分享,可在线阅读,更多相关《模式识别_第四章_概率分类法PPT课件(116页珍藏版)》请在金锄头文库上搜索。

1、4.1 研究对象及相关概率研究对象及相关概率4.2 贝叶斯决策贝叶斯决策4.3 贝叶斯分类器的错误率贝叶斯分类器的错误率4.4 聂曼聂曼-皮尔逊决策皮尔逊决策4.5 概率密度函数的参数估计概率密度函数的参数估计4.6 概率密度函数的非参数估计概率密度函数的非参数估计4.7 后验概率密度分类的势函数方法后验概率密度分类的势函数方法第第4章章 基于统计决策的概率分类法基于统计决策的概率分类法 获取模式的观察值时,有二种情况:获取模式的观察值时,有二种情况: * 确定性事件:事物间有确定的因果关系。第三章内容。确定性事件:事物间有确定的因果关系。第三章内容。 * 随机事件:事物间没有确定的因果关系,

2、观察到的特征具有随机事件:事物间没有确定的因果关系,观察到的特征具有 统计特性,是一个随机向量。只能利用模式集的统计特性进统计特性,是一个随机向量。只能利用模式集的统计特性进 行分类,使分类器发生分类错误的概率最小。行分类,使分类器发生分类错误的概率最小。1. 两类研究对象两类研究对象2. 相关概率相关概率1)概率的定义)概率的定义 设设是随机试验的是随机试验的基本空间基本空间(所有可能的实验结果或基本(所有可能的实验结果或基本事件的全体构成的集合,也称样本空间),事件的全体构成的集合,也称样本空间),A为随机事件,为随机事件,P(A)为定义在所有随机事件组成的集合上的实函数,若为定义在所有随

3、机事件组成的集合上的实函数,若P(A)满足:满足:4.1 研究对象及相关概率研究对象及相关概率(3)对于两两互斥的事件)对于两两互斥的事件A1,A2,有有(1)对任一事件)对任一事件A有:有:0P(A)1。 (2)P()=1, 事件的全体事件的全体则称函数则称函数P(A)为事件为事件A的概率。的概率。设设A、B是两个随机事件,且是两个随机事件,且P(B)0,则称,则称为事件为事件B发生的条件下事件发生的条件下事件A发生的条件概率。发生的条件概率。3)条件概率定义)条件概率定义(1)不可能事件)不可能事件V的概率为零,即的概率为零,即P(V)=0。2)概率的性质)概率的性质联合概率联合概率P(A

4、B):A,B同时发生的概率同时发生的概率 (4-1)(1)概率乘法公式:如果)概率乘法公式:如果P(B)0,则联合概率,则联合概率 P(AB)= P(B) P(A|B) = P(A) P(B|A) =P(BA)(3)贝叶斯公式:在全概率公式的条件下,若)贝叶斯公式:在全概率公式的条件下,若P(B)0,则将,则将 (4-2),(4-3)式代入式代入(4-1)式中,有:式中,有:(4-4)4)条件概率的三个重要公式:)条件概率的三个重要公式:则对任一事件则对任一事件B有:有:(2)全概率公式:设事件)全概率公式:设事件A1 , A2 , ,An,两两互斥,且,两两互斥,且(4-2)(4-3) 今后

5、的分类中常用到类概率今后的分类中常用到类概率密度密度p(X |i) :i类的条件概类的条件概率密度函数,通常也称为率密度函数,通常也称为i的似然函数的似然函数。 设随机样本向量设随机样本向量X ,相关的三个概率:,相关的三个概率:(2)后验概率)后验概率P(i|X) :相对于先验概率而言。指收到:相对于先验概率而言。指收到数据数据X(一批样本)后,根据这批样本提供的信息统计出的(一批样本)后,根据这批样本提供的信息统计出的i类出现类出现的概率。表示的概率。表示X 属于属于i类的概率。类的概率。5)模式识别中的三个概率)模式识别中的三个概率(1)先验概率)先验概率P(i ) :根据以前的知识和经

6、验得出的:根据以前的知识和经验得出的i类样本类样本 出现的概率,与现在无关。出现的概率,与现在无关。(3)条件概率)条件概率P(X |i) :已知属于:已知属于i类的样本类的样本X,发生某种,发生某种事事件件的概率。例对一批得病患者进行一项化验,结果为阳性的概的概率。例对一批得病患者进行一项化验,结果为阳性的概率为率为95%,1代表得病人群,代表得病人群, 则则X化验为阳性的事件可表示为化验为阳性的事件可表示为P(2| X) 表示试验呈阳性的人中,实际没有病的表示试验呈阳性的人中,实际没有病的 人的概率。人的概率。 若用某种方法检测是否患有某病,假设若用某种方法检测是否患有某病,假设 X 表示

7、表示“试验反试验反应呈阳性应呈阳性”。则:。则:例如:一个例如:一个2类问题,类问题,1诊断为患有某病,诊断为患有某病,2诊断为无病,诊断为无病,P(2)表示表示该地区人无此病的概率。该地区人无此病的概率。则:则: P(1)表示某地区的人患有此病的概率,表示某地区的人患有此病的概率,P(X |2) 表示无病的人群做该试验时反应呈阳性表示无病的人群做该试验时反应呈阳性 (显示有病显示有病)的概率。的概率。值低值低 / 高高值低值低 / 高高P(X |1) 表示患病人群做该试验时反应呈阳性的表示患病人群做该试验时反应呈阳性的 概率。概率。P(1| X) 表示试验呈阳性的人中,实际确实有病的表示试验

8、呈阳性的人中,实际确实有病的 人的概率。人的概率。?通过统计通过统计资料得到资料得到(4)三者关系:根据)三者关系:根据(4-4)贝叶斯公式有贝叶斯公式有 (4-5)M:类别数:类别数2. 决策规则决策规则4.2.1 最小错误率贝叶斯决策最小错误率贝叶斯决策 讨论模式集的分类,目的是确定讨论模式集的分类,目的是确定X属于那一类,所以属于那一类,所以要看要看X来自哪类的概率大。在下列三种概率中:来自哪类的概率大。在下列三种概率中: 先验概率先验概率P(i) 类类(条件条件)概率密度概率密度p(X |i) 后验概率后验概率P(i| X) 采用哪种概率进行分类最合理?采用哪种概率进行分类最合理? 1

9、. 问题分析问题分析后验概率后验概率P(i| X)4.2 贝叶斯决策贝叶斯决策设有设有M类模式,类模式, (4-6) 最小错误率贝叶斯决策规则最小错误率贝叶斯决策规则 虽然后验概率虽然后验概率P(i| X)可以提供有效的分类信息,但先验概可以提供有效的分类信息,但先验概率率P(i)和类概率密度函数和类概率密度函数p(X |i)从统计资料中容易获得,故从统计资料中容易获得,故用用Bayes公式,将后验概率转化为类概率密度函数和先验概率的公式,将后验概率转化为类概率密度函数和先验概率的表示。由:表示。由:可知,分母与可知,分母与i无关,即与分类无关,故分类规则又可表示为:无关,即与分类无关,故分类

10、规则又可表示为: (4-7)几种等价形式:几种等价形式:对两类问题,对两类问题,(4-7)式相当于式相当于若若,则,则若若,则,则可改写为:可改写为:统计学中称统计学中称l12(X)为似然比,为似然比, 为似然比阈值。为似然比阈值。对对(4-8)式取自然对数,有:式取自然对数,有:(4-7),(4-8),(4-9)都是最小错误率贝叶斯决策规则的等价形式。都是最小错误率贝叶斯决策规则的等价形式。 若若,则,则 (4-8)若若,则,则(4-9)例例4.1 假定在细胞识别中,病变细胞的先验概率和正常细胞的假定在细胞识别中,病变细胞的先验概率和正常细胞的先验概率分别为先验概率分别为 。现有一待识别细胞

11、,。现有一待识别细胞,其观察值为其观察值为X,从类条件概率密度发布曲线上查得:,从类条件概率密度发布曲线上查得: 试对细胞试对细胞X进行分类。进行分类。解:解:方法方法1 通过后验概率计算。通过后验概率计算。 方法方法2:利用先验概率和类概率密度计算。:利用先验概率和类概率密度计算。,是正常细胞。,是正常细胞。最小风险贝叶斯决策基本思想:最小风险贝叶斯决策基本思想: 以各种错误分类所造成的以各种错误分类所造成的平均风险平均风险最小为规则最小为规则,进行分类,进行分类决策。决策。4.2.2 最小风险贝叶斯决策最小风险贝叶斯决策1. 风险的概念风险的概念 * 自动灭火系统:自动灭火系统: * 疾病

12、诊断:疾病诊断: 不同的错判造成的损失不同,因此风险不同,两者紧密相连不同的错判造成的损失不同,因此风险不同,两者紧密相连 。 考虑到对某一类的错判要比对另一类的错判更为关键,考虑到对某一类的错判要比对另一类的错判更为关键,把最小错误率的贝叶斯判决做一些修改,提出了把最小错误率的贝叶斯判决做一些修改,提出了“条件平均条件平均风险风险” 的概念。的概念。 对对M类问题,如果观察样本类问题,如果观察样本X被判定属于被判定属于i类,则类,则条件平条件平均风险均风险ri(X)指将指将X判为属于判为属于i类时造成的类时造成的平均平均损失。损失。2. 决策规则决策规则式中,式中,i 分类判决后指定的判别号

13、;分类判决后指定的判别号;j 样本实际属于的类别号;样本实际属于的类别号;Lij将自然属性是将自然属性是j类的样本决策为类的样本决策为i类时的是非代价,类时的是非代价, 即损失函数。即损失函数。自然属性为自然属性为j类的样类的样本,被划分到本,被划分到i类中,类中,在在i类中产生一错误类中产生一错误分类,风险增加。分类,风险增加。Lij对对P作加权平均作加权平均 每个每个X 都按条件平均风险最小决策,则总的条件平均风险也最都按条件平均风险最小决策,则总的条件平均风险也最小。总的条件平均风险称为小。总的条件平均风险称为平均风险。平均风险。条件平均风险与条件平均风险与平均风险的区别平均风险的区别平

14、均风险:对模式总体而言。平均风险:对模式总体而言。条件平均风险:对某个样本而言。条件平均风险:对某个样本而言。1)多类情况)多类情况设有设有M 类,对于任一类,对于任一X 对应对应 M个条件平均风险:个条件平均风险: 对每个对每个X有有M种可能的类别划分,种可能的类别划分,X被判决为每一类的条件平被判决为每一类的条件平均风险分别为均风险分别为r1(X),r2(X) , ,rM(X) 。决策规则:。决策规则:, i=1,2, ,M 用先验概率和条件概率的形式:用先验概率和条件概率的形式: p(X)对所有类别一样,不提供分类信息。对所有类别一样,不提供分类信息。 , i=1,2,M 决策规则为:决

15、策规则为:,则若若2)两类情况:对样本)两类情况:对样本 X当当X 被判为被判为1 1类时:类时:当当X 被判为被判为2类时:类时:(4-15) (4-16) 由(由(4-15)式:式:决策规则:决策规则:令:令:,称似然比;,称似然比;,为阈值。,为阈值。 计算计算 。 计算计算 。 定义损失函数定义损失函数Lij。判别步骤:判别步骤:类概率密度函类概率密度函数数p(X |i) 也称也称i的似然函数的似然函数解:计算解:计算 和和 得:得:例例4.2 在细胞识别中,病变细胞和正常细胞的先验概率在细胞识别中,病变细胞和正常细胞的先验概率 分别为分别为现有一待识别细胞,观察值为现有一待识别细胞,

16、观察值为X, 从类概率密度分布曲线上查得从类概率密度分布曲线上查得损失函数分别为损失函数分别为L11=0,L21=10, L22=0,L12=1。按最小风险贝。按最小风险贝叶斯决策分类。叶斯决策分类。为病变细胞。为病变细胞。 损失函数为特殊情况:损失函数为特殊情况:3. (0-1)损失最小风险贝叶斯决策损失最小风险贝叶斯决策1) 多类情况多类情况(0-1)情况下, 可改写成: , i=1,2,M ,则若一般形式: 最小错误率贝叶斯决策最小错误率贝叶斯决策2) 两类情况两类情况决策规则为决策规则为 (4-20)判别函数判别函数等价形式等价形式:决策规则的等价形式为:决策规则的等价形式为:或从式或

17、从式(4-20) 导出似然比形式:导出似然比形式:式中:式中:决策规则:决策规则:类似地,类似地,Lij(X)的确定:根据的确定:根据错误造成造成损失的失的严重程度,及重程度,及专家家经验确定。确定。 4.2.3 正态分布模式的贝叶斯决策正态分布模式的贝叶斯决策 许多实际的数据集:许多实际的数据集:均值附近分布较多的样本;均值附近分布较多的样本;距均值点越远,样本分布越少。距均值点越远,样本分布越少。此时正态分布(高斯分布)是此时正态分布(高斯分布)是一种合理的近似。一种合理的近似。 正态分布概率模型的优点:正态分布概率模型的优点: * 物理上的合理性。物理上的合理性。 * 数学上的简单性。数

18、学上的简单性。 图中为某大学男大学生的身高数据,红线是拟合的密度曲图中为某大学男大学生的身高数据,红线是拟合的密度曲线。可见,其身高应服从正态分布。线。可见,其身高应服从正态分布。1. 相关知识概述相关知识概述1)二次型)二次型设一向量设一向量,矩阵,矩阵则则称为二次型。称为二次型。二次型中的矩阵二次型中的矩阵A是一个对称矩阵,即是一个对称矩阵,即 。含义:是一个二次齐次多项式,含义:是一个二次齐次多项式,2)正定二次型)正定二次型 对于对于 (即(即X分量不全为零),总有分量不全为零),总有 ,则称,则称此二次型是正定的,而其对应的矩阵称为正定矩阵。此二次型是正定的,而其对应的矩阵称为正定矩

19、阵。3)单变量(一维)的正态分布)单变量(一维)的正态分布密度函数定义为:密度函数定义为:曲线如图示:曲线如图示:= -1,=0.5 ; = 0,=1 ; = 1,=2 .一维正态曲线的性质:一维正态曲线的性质:(2)曲线关于直线)曲线关于直线 x =对称。对称。(3)当)当 x =时,曲线位于最高点。时,曲线位于最高点。(4)当)当x时,曲线上升;当时,曲线上升;当x时,曲线下降时,曲线下降.并且当曲并且当曲线向左、右两边无限延伸时,以线向左、右两边无限延伸时,以x轴为渐近线,向它无限靠近。轴为渐近线,向它无限靠近。(1)曲线在)曲线在 x 轴的上方,与轴的上方,与x轴不相交。轴不相交。(5

20、)一定时,曲线一定时,曲线的形状由的形状由确定。确定。越越大,曲线越大,曲线越“矮胖矮胖”,表,表示总体的分布越分散;示总体的分布越分散;越小。曲线越越小。曲线越“瘦高瘦高”。表示总体的分布越集中。表示总体的分布越集中。 4)3规则规则即:绝大部分样本都落在了即:绝大部分样本都落在了均值均值附近附近3的范围内,的范围内,因此正态密度曲线完全可由因此正态密度曲线完全可由均值和方差来确定,常简记均值和方差来确定,常简记为:为:p(x)5)多变量()多变量(n维)正态随机向量维)正态随机向量密度函数定义为:密度函数定义为:式中:式中: ; ;|C|:协方差矩阵:协方差矩阵C的行列式。的行列式。 多维

21、正态密度函数完全由它的均值多维正态密度函数完全由它的均值 M 和协方差矩阵和协方差矩阵C所所确定,简记为:确定,简记为:p(X)N( M , C )为协方差矩阵,是对称正定矩阵,为协方差矩阵,是对称正定矩阵,独立元素有独立元素有 个;个;以二维正态密度函数为例:以二维正态密度函数为例: 等高线(等密度线)投影到等高线(等密度线)投影到x1ox2面上为椭圆,从原点面上为椭圆,从原点O到到点点M 的向量为均值的向量为均值M。 椭圆的位置:由均值向量椭圆的位置:由均值向量M决定;决定; 椭圆的形状:由协方差矩阵椭圆的形状:由协方差矩阵C决定。决定。协方差矩阵协方差矩阵Ci:反映样本分布区域的形状;:

22、反映样本分布区域的形状;均值向量均值向量Mi:表明了区域中心的位置。表明了区域中心的位置。2. 正态分布的最小错误率贝叶斯决策规则正态分布的最小错误率贝叶斯决策规则1)多类情况)多类情况具有具有M 种模式类别的多变量正态密度函数为:种模式类别的多变量正态密度函数为: 前面介绍的前面介绍的Bayes方法事先必须求出方法事先必须求出p(X|i) , P(i) 。而当。而当 p(X|i)呈正态分布时,只需要知道呈正态分布时,只需要知道 M 和和 C 即可。即可。 每一类模式的分布密度函数都完全被其均值向量每一类模式的分布密度函数都完全被其均值向量Mi和协方和协方差矩阵差矩阵Ci所规定,其定义为:所规

23、定,其定义为:对正态密度函数,为了方便计算,取对数:对正态密度函数,为了方便计算,取对数:对数是单调递增函数,取对数后仍有相对应的分类性能。对数是单调递增函数,取对数后仍有相对应的分类性能。最小错误率最小错误率Bayes决策中,决策中,i类的判别函数为类的判别函数为 ,去掉与去掉与i无关的项,得判别函数:无关的项,得判别函数: 正态分布的最小错误率正态分布的最小错误率Bayes决策的判别函数。决策的判别函数。(4-25) di(X)为超二次曲面。可见对正态分布模式的为超二次曲面。可见对正态分布模式的Bayes分类分类器,两类模式之间用一个二次判别界面分开,就可以求得最器,两类模式之间用一个二次

24、判别界面分开,就可以求得最优的分类效果。优的分类效果。判决规则同前:判决规则同前:2)两类问题)两类问题(1) 当当C1C2时:时: 对应判对应判别函数别函数判别界面判别界面 是是X的二次的二次型方程决定的超曲面。二维判别界型方程决定的超曲面。二维判别界面如图面如图4.3所示。所示。 若若 决策规则:决策规则: 图4.3 C1C2时(2) 当C1=C2=C时:由式(4-25) 有由此导出判别界面为:由此导出判别界面为:为为X的线性函数,是一超平面。当为二维时,判别界面为一直的线性函数,是一超平面。当为二维时,判别界面为一直线,如图线,如图4.4所示。所示。 (4-28)两类相同,抵消两类相同,

25、抵消展开相同,合并展开相同,合并(3) 当时:判别界面如图4.5所示。图4.4 C1=C2=C,图4.5 C1=C2=I且先验概率相等 例4.3 设在三维特征空间里,有两类正态分布模式,每类各有4 个样本,分别为其均值向量和协方差矩阵可用下式估计: (4-30) (4-31)式中, Ni为类别i中模式的数目,Xij代表在第i类中的第j个模式。两类的先验概率 。试确定两类之间的判别界面。解:经计算有因协方差矩阵相等,故(4-28)为其判别式。由于将代入:(4-28)图中画出判别平面的一部分。以上以上排完排完4.3 贝叶斯分类器的错误率贝叶斯分类器的错误率4.3.1 错误率的概念错误率的概念错误率

26、:将应属于某一类的模式错分到其他类中的概率。 是衡量分类器性能优劣的重要参数。 定义为 表示n重积分,即整个n维模式空间上的积分。式中: ; 是X的条件错误概率;平均错误率平均错误率错误率的计算或估计方法: 按理论公式计算;计算错误率上界;实验估计。 设R1为1类的判决区, R2为2类的判决区,分类中可能会发生两种错误: 将来自1类的模式错分到R2中去。 将来自2类的模式错分到R1中去。错误率为两种错误之和:4.3.2 错误率分析错误率分析1两类问题的错误率两类问题的错误率一维情况图示: (4-33)(4-33)两类问题的最小错误率贝叶斯决策规则 :用后验概率密度表示为 用先验概率和类概率密度

27、函数表示为或判别界面为:两类问题最小错误率贝叶斯决策中错误率P(e|X)为:(4-33)样本被划入第2类令 , ,则 在最小错误率最小错误率贝叶斯决策中,判别界面位于两曲线的交点处,即: 可以看出这个错误率是所有错误率错误率中最小的最小的(图中三角形的面积减小到0),但总错误概率不可能为零。 通常需要考虑总错误概率,仅使一类样本的错误概率最小是没有意义的,因为这时另一类的错误概率可能很大。其他情况下的错误率:设共有M类,当判决 时:当 X 判为任何一类时,都存在这样一个可能的错误,故2. 多类情况错误率多类情况错误率总错误率为正确分类概率 则:错误率= 简化计算,假定 。4.3.3 正态分布贝

28、叶斯决策的错误率计算正态分布贝叶斯决策的错误率计算1正态分布的对数似然比正态分布的对数似然比设 对数似然比决策规则: 若则令 ,有 若t,则由正态分布概率密度函数 有 h(X)是X的线性函数,故h(X)是正态分布的一维随机变量。 计算错误率较为方便。 2对数似然比的概率分布对数似然比的概率分布均值:方差:令,有 1和2间的马氏距离平方 图4.9 对数似然比h (X)的概率分布3正态分布最小错误率贝叶斯决策的错误率正态分布最小错误率贝叶斯决策的错误率两类问题最小错误率贝叶斯决策的错误率: 其中, , 令若 ,则计算结果通过查标准正态分布表求得。 图4.10 错误率与马氏距离的关系 P(e)随着

29、的增大而单调递减,只要两类模式的马氏距离足够大,错误率就可以减到足够小。 4.3.4 错误率的估计错误率的估计1已设计好分类器时错误率的估计已设计好分类器时错误率的估计1)先验概率未知随机抽样 N:随机抽取的样本数;k:错分样本数。2)先验概率已知选择性抽样分别从1类和2类中抽取出N1和N2个样本, 用N1+N2 = N个样本对设计好的分类器作分类检验。 设1类被错分的个数为k1,2类错分的个数为k2。k1、k2统计独立,联合概率为 式中,i是i类的真实错误率。总错误率的最大似然估计为2未设计好分类器时错误率的估计未设计好分类器时错误率的估计要求:用收集到的有限的N个样本设计分类器并估计其性能

30、。 错误率的函数形式:(1, 2)。1:用于设计分类器的样本的分布参数;2:用于检验分类器性能的样本的分布参数。设是全部训练样本分布的真实参数集;为全部样本中N个样本分布的参数估计量。有将有限样本划分为设计样本集和检验样本集的两种基本方法: 1)样本划分法 将样本分成两组,其中一组用来设计分类器,另一组用来检验分类器,求其错误率。取不同划分方法的平均值作为错误率的估计。 缺点:需要的样本数N很大。 2)留一法 将N个样本每次留下其中的一个,用其余的(N-1)个设计分类器,用留下的那个样本进行检验,检验完后重新放回样本集。 重复进行N次。注意,每次留下的一个样本应当是不同的样本。 适用于样本数较

31、小的情况。缺点:计算量大。4.4 聂曼聂曼-皮尔逊皮尔逊(Neyman-Person)决策决策适用于P(i)或P(i)和Lij(X)难以确定时。基本思想:限制一个错误概率,追求另一个最小(二类问题)。在两类问题贝叶斯决策的错误率公式中: 1 基本思想基本思想式中, 先验概率通常为常数,故一般也称P1(e)和P2(e)为两类错误率:P1(e):1类模式被误判为2类的错误率;P2(e):2类模式被误判为1类的错误率。 聂曼-皮尔逊决策出发点:在P2(e)等于常数的条件下,使P1(e)为最小,以此确定阈值t。一维情况聂曼-皮尔逊决策示意 例:在“信号检测”中,P2(e)代表虚警概率;P1(e)代表漏

32、报概率=1-PD(检测概率) 此时聂曼-皮尔逊决策含义:在虚警概率P2(e)是一个可以承受的常数值的条件下,使漏报概率为最小。求解问题: 在P2(e)等于常数的条件下,求P1(e)极小值的条件极值问题。P2(e)的值一般很小。 2. 判别式推导判别式推导式中:待定常数; P2(e)常数。求P1(e)最小,即是求Q最小。构造辅助函数要使Q最小,积分项至少应为负值,即在R1区域内,至少应保证(4-57)同理由式(4-57) 有:在R2区域内至少应保证即 (4-58)即 (4-59)得决策规则:若,则(4-57)若,则当时, X为 的函数,可以求出 , 即为两类模式的判别界面。 由于 和 是已知的,

33、所以聂曼-皮尔逊决策最终归结为寻找似然比阈值 。求解值从常数P2(e) 入手,这时由 有即 是P2(e)的函数,通过查标准正态分布表可以求得 的值。 表中末行系函数值: (30)(31)(39) 纵向值:的整数部分和小数点后第一位。 横向值:的小数点后第二位。 表中为 0时,()的值。1标准正态分布表标准正态分布表复习复习2. 正态分布的概率计算正态分布的概率计算 左边阴影部分的面积表示为概率。即分布函数 在任一区间 内取值的概率: 当 时, ;例 利用标准正态分布表,求标准正态分布在下面区间内取值 的概率。(1) (0.5,1.5); (2) (1.96,1.96); (3) (3,3)解:

34、(1)(2)(3)例4.4 一两类问题,模式分布为二维正态,其分布参数 协方差矩阵为C1=C2=I,设P2(e)=0.046,求聂曼-皮尔逊决策规则的似然比阈值和判别界面。i=1,2解:(1) 求类概率密度函数 正态分布的类概率密度函数为已知 , ,又计算得:(2) 求似然比 若,则(3) 求判别式决策规则: 两边取自然对数,有 得判别式 若,则(4-62) (4) 求似然比阈值由 与 的关系有分离积分,向正态分布表的标准形式变换,有令 有:查正态分布数值表,要求P2(e)=0.046。 在表上查 。当 时, 。对应=?对应=1.69,即有计算得由(4-62)式得判别界面: 若,则(4-62)

35、 图4.12 聂曼-皮尔逊决策结果总结分析:研究算法的三种思路 使风险(错误引起的损失)最小: 最小平均风险Bayes决策 (0-1)损失最小风险Bayes决策 使总错误率最小:最小错误率Bayes决策 限制一个错误概率,追求另一个最小: Neyman-Person决策4.5 概率密度函数的参数估计概率密度函数的参数估计4.5.1 最大似然估计最大似然估计两类估计方法: 概率密度函数的形式未知,直接估计概率密度函数的方法。 已知概率密度函数的形式而函数的有关参数未知,通过估计参数来估计概率密度函数的方法。* 参数估计法:* 非参数估计法:两种主要参数估计法:最大似然估计、贝叶斯估计。 设:i类

36、的类概率密度函数具有某种确定的函数形式;是该函数的一个未知参数或参数集。最大似然估计把当作确定的未知量进行估计。 从i类中独立地抽取N个样本:1. 似然函数似然函数称这N个样本的联合概率密度函数 为相对于样本集X N 的的似然函数。 在参数 下观测到的样本集X N 的概率(联合分布)密度2. 最大似然估计最大似然估计 根据已经抽取的N个样本估计这组样本“最可能”来自哪个密度函数。(“最似”哪个密度函数)也即:要找到一个,它能使似然函数 极大化 。由 求得。为一维时的最大似然估计示意图的最大似然估计量 就是使似然函数达到最大的估计量。为便于分析,定义似然函数的对数为 的最大似然估计是下面微分方程

37、的解: 设i类的概率密度函数有p个未知参数,记为p维向量 此时解以上微分方程即可得到的最大似然估计值。 3. 正态分布情况举例正态分布情况举例 设i类:正态分布、一维模式、概率密度函数为待估计参数为,2。(4-69)其中, , , 。若X N表示从i中独立抽取的N个样本,则的似然函数为其中,得可表示为。由以上方程组解得均值和方差的估计量为类似地,多维正态分布情况: 均值向量的最大似然估计是样本的均值;最大似然估计结果: 协方差矩阵的最大似然估计是N个矩阵的算术平均。4.5.2 贝叶斯估计与贝叶斯学习贝叶斯估计与贝叶斯学习贝叶斯估计和贝叶斯学习将未知参数看作随机参数进行考虑。 1贝叶斯估计和贝叶

38、斯学习的概念贝叶斯估计和贝叶斯学习的概念1)贝叶斯估计步骤: 2)贝叶斯学习迭代计算式的推导: (4-72) (4-71) 式中除样本XN以外其余样本的集合 (4-72) (4-73) 将(4-73)式代入(4-72)式得 类似地, (4-74) (4-75) 将(4-75)式代入(4-74)式得(4-76) 参数估计的递推贝叶斯方法,迭代过程即是贝叶斯学习的过程迭代式的使用: * 给出X2,对用X1估计的结果进行修改。2正态分布密度函数的贝叶斯估计和贝叶斯学习正态分布密度函数的贝叶斯估计和贝叶斯学习1)贝叶斯估计* 逐次给出X3,X4,XN,得到 式中, (4-79) 有由于 有 式中, 与

39、最大似然估计形式类似式中,同前2)贝叶斯学习图4.14 均值的贝叶斯学习过程示意图可见:多维正态分布: ,C已知,M未知。则利用贝叶斯估计得到的M的后验概率密度函数为其中, 根据贝叶斯学习得到的类概率密度函数为4.6 概率密度函数的非参数估计概率密度函数的非参数估计4.6.1 基本方法基本方法根据样本直接估计类概率密度函数的方法。1. 出发点:基于事实p(X):类概率密度函数。 随机向量X落入区域R的概率P为 。 设从密度为p(X)的总体中独立抽取的样本X1,X2,XN。若N个样本中有k个落入区域R中的概率最大,则:希望是X落入区域R中概率P的一个很好的估计。 类概率密度函数p(X)的估计:

40、设p(X)连续,区域R足够小且体积为V , p(X)在R中没有变化,X是R中的点。有得 X点概率密度的估计 2. 存在的两个问题(4-91) 1)固定V ,样本数增多,则k/N以概率1收敛。但只能得到在某一体积V中的平均估计。 2)N固定,V趋于零, 或发散到无穷大。没有意义。 必须注意V、k、k/N 随N变化的趋势和极限,保持合理性。3. 估计的步骤: * 构造一串包含X的区域R1,R2,RN,* 对R1采用一个样本估计,对R2采用两个样本, * 假定VN是RN的体积,kN是落入RN内的样本数目, 是 p(X)的第N次估计,有 4. 为保证估计合理性应满足的三个条件 1)2)3)使式右边能以

41、概率1收敛于p(X) (4-92) 落入RN中的样本数始终是总数中的极小部分 能代表X点的密度p(X)。 5. 两种非参数估计法: Parzen窗法、 kN近邻估计法。 4.6.2 Parzen窗法窗法1Parzen窗估计的基本概念窗估计的基本概念设区域RN:d维超立方体,棱长:hN,则以原点为中心的超立方体 当Xi落入以X为中心,体积为VN的超立方体时: 否则落入超立方体内的样本数为(4-95) 代入 得 Parzen窗法基本公式 实质: 窗函数的作用是内插,样本对估计所起的作用取决于它到X的距离。 为密度函数应满足的两个条件: 2窗函数的选择窗函数的选择1)方窗函数2)正态窗函数3)指数窗

42、函数一维形式 满足条件 和 的都可以作为窗函数。 最终估计效果的好坏与样本情况、窗函数以及窗函数参数的选择有关。 定义 有如何选取根据经验折中考虑。限制条件: 1)总体密度函数p(X)在X点连续;2)窗函数满足以下条件:3)窗函数受下列条件的约束:保证密度函数的性质 有保证有界使较快趋于零 随u的增加使体积随N的增大趋于零时,速度低于N增加的速度有估计结果: 解:估计结果 * 具有一般性,适用于单峰、多峰形式。Parzen窗法特点:* 要得到较精确的估计必须抽取大量的样本。 (一般非参数估计法的共同问题 ) 比参数估计法多得多; 样本数目随模式维数一般按指数规律增长。4.6.3 kN -近邻估计法近邻估计法基本思想:使体积为样本密度的函数,而不是样本数N的函数。 限制条件仍然是:例4.5和4.6中,用kN -近邻法估计的p(X) 的结果:, , 。4.7 后验概率密度函数的势函数估计法后验概率密度函数的势函数估计法同 “非线性判别函数”中的类似 势函数的确定方法有两种方法:第i类判别函数的迭代算法:说明说明解: 从图上可看出两类模式不是线性可分的, 选择指数型二维势函数( ):结束结束同学们同学们来学校和回家的路上要注意安全同学们同学们来学校和回家的路上要注意安全

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 幼儿/小学教育 > 小学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号