模式识别大作业.doc

上传人:壹****1 文档编号:560074497 上传时间:2023-11-06 格式:DOC 页数:13 大小:605KB
返回 下载 相关 举报
模式识别大作业.doc_第1页
第1页 / 共13页
模式识别大作业.doc_第2页
第2页 / 共13页
模式识别大作业.doc_第3页
第3页 / 共13页
模式识别大作业.doc_第4页
第4页 / 共13页
模式识别大作业.doc_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《模式识别大作业.doc》由会员分享,可在线阅读,更多相关《模式识别大作业.doc(13页珍藏版)》请在金锄头文库上搜索。

1、模式识别 专业:电子信息工程 班级: 电信*班 学号: * 姓名:艾依河里的鱼一、贝叶斯决策(一)贝叶斯决策理论1.最小错误率贝叶斯决策器在模式识别领域,贝叶斯决策通常利用一些决策规则来判定样本的类别。最常见的决策规则有最大后验概率决策和最小风险决策等。设共有个类别,各类别用符号代表。假设类出现的先验概率以及类条件概率密度是已知的,那么应该把划分到哪一类才合适呢?若采用最大后验概率决策规则,首先计算属于类的后验概率 然后将判决为属于类,其中 若采用最小风险决策,则首先计算将判决为类所带来的风险,再将判决为属于类,其中 可以证明在采用0-1损失函数的前提下,两种决策规则是等价的。贝叶斯决策器在先

2、验概率以及类条件概率密度已知的前提下,利用上述贝叶斯决策规则确定分类面。贝叶斯决策器得到的分类面是最优的,它是最优分类器。但贝叶斯决策器在确定分类面前需要预知与,这在实际运用中往往不可能,因为一般是未知的。因此贝叶斯决策器只是一个理论上的分类器,常用作衡量其它分类器性能的标尺。最小风险贝叶斯决策可按下列步骤进行:(1)在已知,i=1,,c及给出待识别的的情况下,根据贝叶斯公式计算出后验概率:j=1,,x(2)利用计算出的后验概率及决策表,按下面的公式计算出采取,i=1,,a的条件风险,i=1,2,a(3)对(2)中得到的a个条件风险值,i=1,,a进行比较,找出使其条件风险最小的决策,即则就是

3、最小风险贝叶斯决策。3.基于最小风险的Bayes决策在决策论中称采取的决定为决策或行动,所有可能采取的各种决策组成的集合称决策空间或行动空间,以A表示。而每个决策或行动都将带来一定的损失,它通常是决策和自然状态的函数。我们可以用决策表来表示以上的关系。决策表的一般形式如下表。以上概念可用数学符号表示,我们设观察X是n维随机向量X=x1,x2,xnT, 其中x1,x2,xn为一维随机变量。状态空间由m个自然状态(m类)组成, 。决策空间由个决策组成, 。这里与m不同是由于除了对m个类别有m种不同的决策外,还允许采取其他决策,如采取“拒绝”的决策,这时就有。损失函数为表示当真实状态为而所采取的决策

4、为时所带来的损失,这样可以得到一般决策表。在已知先验概率及类条件概率密度的条件下进行讨论。根据贝叶斯公式,后验概率为 其中 由于引入了“损失” 的概念,在考虑错判所造成的损失时,就不能只根据后验概率的大小来作决策,而必须考虑所采取的决策是否使损失最小。对于给定的x,如果我们采取决策,从决策表可见,对应于决策可以在m个值中任取一个,其相应概率为。因此在采取决策情况下的条件期望损失为 在决策论中又把采取决策的条件期望损失称为条件风险。由于x是随机向量的观察值,对于x的不同观察值。采取决策时,其条件风险的大小是不同的。所以,究竟采取哪一种决策将随x的取值而定。这样决策a可以看成随机向量x的函数,记为

5、a(x),它本身也是一个随机向量,我们可以定义期望风险R为 式中dx是n维特征空间的体积元,积分是在整个特征空间进行。 期望风险R反映对整个特征空间上所有X的取值采取相应的决策a(x)所带来的平均风险;而条件风险只是反映了对某一x的取值采取决策所带来的风险。显然我们要求采取的一系列决策行动a(x)使期望风险R最小。在考虑错判带来的损失时,我们希望损失最小。如果在采取每一个决策或行动时,都使条件风险最小,则对所有的x作出决策时,其期望风险也必然最小。这样的决策就是最小风险贝叶斯决策。最小风险贝叶斯决策规则为 对于实际问题,最小风险贝叶斯决策可按下列步骤进行:在已知及给出待识别的x的情况下,根据贝

6、叶斯公式计算出后验概率:利用计算出的后验概率及决策表,按式(4-15)计算出采取的条件风险对(2)中得到的个条件风险值进行比较,找出使条件风险最小的决策,即则就是最小风险贝叶斯决策。对于两类问题,假定损失函数:,。通常作出错误决策总是比作出正确决策所带来的损失要大,即(二)仿真实验利用Classification_toolbox工具箱中提供的工具,用最小错误率贝叶斯决策器对呈正态分布的两类样本XOR.mat进行分类,首先点击界面“Filename”处的下拉式菜单,在文件列表中选择双螺旋样本文件XOR.mat;然后在界面“preprocessing”处下拉式菜单中选择“None”,在界面“Alg

7、orithm”处下拉式菜单中选择“None”,最后点击界面上的“Start”按钮,得到如下图所示的分类结果。(三)实验分析从图中可以看出:训练集错误率(Train set errors):0.46测试集错误率(Test set errors):0.51贝叶斯决策错误率(Bayes errors):0.16二、概率密度函数的估计(一)最大似然估计给定一个概率分布D,假定其概率密度函数(连续分布)或概率聚集函数(离散分布)为fD,以及一个分布参数,我们可以从这个分布中抽出一个具有n个值的采样,通过利用fD,我们就能计算出其概率:但是,我们可能不知道的值,尽管我们知道这些采样数据来自于分布D。那么我

8、们如何才能估计出呢?一个自然的想法是从这个分布中抽出一个具有n个值的采样X1,X2,.,Xn,然后用这些采样数据来估计.一旦我们获得,我们就能从中找到一个关于的估计。最大似然估计会寻找关于的最可能的值(即,在所有可能的取值中,寻找一个值使这个采样的“可能性”最大化)。这种方法正好同一些其他的估计方法不同,如的非偏估计,非偏估计未必会输出一个最可能的值,而是会输出一个既不高估也不低估的值。要在数学上实现最大似然估计法,我们首先要定义似然函数:并且在的所有取值上,使这个函数最大化。这个使可能性最大的值即被称为的最大似然估计。(二)仿真实验利用Classification_toolbox工具箱中提供

9、的工具,用最大似然估计对样本clouds.mat进行分类,首先点击界面“Filename”处的下拉式菜单,在文件列表中选择双螺旋样本文件clouds.mat;然后在界面“preprocessing”处下拉式菜单中选择“None”,在界面“Algorithm”处下拉式菜单中选择“ML”,最后点击界面上的“Start”按钮,得到如下图所示的分类结果。(三)实验分析从图中可以看出:训练集错误率(Train set errors):0.25测试集错误率(Test set errors):0.26贝叶斯决策错误率(Bayes errors):0.1在本例中,误差来源有三部分:贝叶斯误差(不可分性误差)、

10、模型误差和估计误差。其中贝叶斯误差是由问题本身决定的,无法消除。模型误差:用最大似然估计对类条件概率密度进行模型估计,由于是从所抽取的样本中得到结论的,建立的模型不具有普遍性,具有一定的误差。在计算时,具有一定的计算误差。如果要使误差变小,则要增大样本数或选用更适合的样本。三、线性判别函数(一)线性判别函数概念线性判别函数的一般形式样本向量、权向量、阈值权对两类问题,由多类问题的一般表达 令x是样本向量,即样本在d维特征空间中的描述, w是权向量,w0是一个常数(阈值权)两类别决策面决策面方程对应线性判别函数,决策面是超平面决策面上任意两点,有w与超平面H正交,为其法向量决策面正侧、负侧相应的

11、几何表示 g(x)可看作点到超平面距离的一种代数度量点到超平面距离原点到超平面距离w0的正负决定超平面相对原点的位置 图形表示(二)仿真实验用感知准则对两类可分样本进行分类。首先点击界面“Filename”处的下拉式菜单,在文件列表中选择可分样本文件Seperable.mat;然后在界面“preprocessing”处下拉式菜单中选择“None”,在界面“Algorithm”处下拉式菜单中选择“Perceptron”,在界面“Num of iteration”处填入数字“300”,最后点击界面上的“Start”按钮,得到如下图所示的分类结果。(三)实验分析从图中可以看出:训练集错误率(Trai

12、n set errors):0.021测试集错误率(Test set errors):0.02四、近邻法(一)最近邻决策规则假定有c类模式,1,2,c,每类有 个样本,i=1,2,c,总样本数为 。对未知样本 ,找出已知类别的训练样本集中和 最近的一个样本,把 分到与该样本一样的类。最近邻决策算法: 1.存储训练样本;2.对一新的样本x,在训练样本集中按某种距离度量找到x的最近邻(xi,yi),令x的类别y和yi相同。3.使用欧式距离时:4.使用平方距离结果是一样的,免去了开方运算:(二)最近邻法的错误率分析近邻法错误率分析的思想是把它和贝叶斯错误率联系起来最近邻法的错误率分析贝叶斯决策的条件

13、错误率为: 或写成而近邻法和贝叶斯决策的错误率定义为: 经过分析,当样本数相当多时,近邻法的错误率在贝叶斯错误率和两倍的贝叶斯错误率之间。 (三)仿真实验用近邻法对双螺旋样本进行分类。首先点击界面“Filename”处的下拉式菜单,在文件列表中选择双螺旋样本文件Spiral.mat;然后在界面“preprocessing”处下拉式菜单中选择“None”,在界面“Algorithm”处下拉式菜单中选择“Nearest Neighbor”,在界面“Num of nearest neighbor”处填入数字“3”,最后点击界面上的“Start”按钮,得到如下图所示的分类结果。(四)实验分析从图中可以看出:训练集错误率(Train set errors):0.081测试集错误率(Test set errors):0.03512

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号