朴素贝叶斯分类器

上传人:壹****1 文档编号:499520803 上传时间:2024-01-21 格式:DOCX 页数:12 大小:62.12KB
返回 下载 相关 举报
朴素贝叶斯分类器_第1页
第1页 / 共12页
朴素贝叶斯分类器_第2页
第2页 / 共12页
朴素贝叶斯分类器_第3页
第3页 / 共12页
朴素贝叶斯分类器_第4页
第4页 / 共12页
朴素贝叶斯分类器_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《朴素贝叶斯分类器》由会员分享,可在线阅读,更多相关《朴素贝叶斯分类器(12页珍藏版)》请在金锄头文库上搜索。

1、朴素贝叶斯分类器朴素贝叶斯分类方法1 朴素贝叶斯分类方法概述朴素贝叶斯分类方法是在严谨的数学理论作支撑和假设分类项的 各个属性相互独立的情况下基于贝叶斯定理而得出的一类分简单常用 类方法。假设一个属性对给定类的影响独立于其他属性,当条件独立 性假设成立时,朴素贝叶斯分类算法具有最小的误分类率。2 数学知识准备2.1 概率空间定义如果是上的一个实值函数,即对每一个,有一个实函数与之对应, 并且满足一下三点:P(A)0;非负性P (R)二 1;规范性可列可加性若是 R 中的两两不相容的事件,则称是上的一个概率测度, 称为事件 A 的概率, 三元组称为概率空间。R,P)2.2条件概率定义设为一概率空

2、间,,且则P(叫)=JAB尸称为已知A发生时B的条件概率。2.3 全概率公式定义设两两不相容,且Y & 二 0BRt 有 P(B)二 P34)P(4)f=,则对任何事件。2.4 贝叶斯公式F(九 I B)=P(R坷)玖&)叫?|如卩(4)定义设两两不相容,则对于任何满足的B,有:确疋特征属性对每个类别汁篦P何时(刘)3朴素贝叶斯分类方法流程:准备工作阶段获取训练样本对每个郑忻算P(yd对每个1前正嬌性计算 所有划分的条件瞬r1以PxM)卩(y斶大项作为x所厲类别E駆畀障罷Slog (hiip:/leusk.criuIogs.corrt)3.1第一阶段准备阶段:该阶段为朴素贝叶斯分类做必要的准备

3、。主要是依据具体情况确 定特征属性,并且对特征属性进行适当划分。然后就是对一部分待分 类项进行人工划分,以确定训练样本。这一阶段的输入是所有的待分类项,输出时特征属性和训练样本。 分类器的质量很大程度上依赖于特征属性及其划分以及训练样本的质 量。3.2第二阶段分类器训练阶段: 主要工作是计算每个类别在训练样本中出现频率以及每个特征属 性划分对每个类别的条件概率估计。输入是特征属性和训练样本,输 出是分类器。3.3第三阶段应用阶段: 这个阶段的任务是使用分类器对待分类项进行分类,其输入是分 类器和待分类项,输出是待分类项与类别的映射关系。这一阶段也是 机械性阶段,由程序完成。4朴素贝叶斯分类方法

4、详细操作过程: 4.1朴素贝叶斯分类或简单贝叶斯分类的工作过程(1)每个数据样本用一个n维特征向量12,.n X x x x二表示, 分别描述对n个属性A 1,A 2,.A n样本的n个度量。(2 )假定有m 个类C 1,C 2,.C m。给定一个未知的数据样本X (即没有类标号), 分类法将预测X属于具有最高后验概率(条件X下)的类。即是说, 朴素贝叶斯分类将未知的样本分配给类Ci,当且仅当()(),1,i j P C X P C X j m j i /换言之,X被指派到其()()i i P X C P C最大的类C i。5简例及其实验演示:例 使用朴素贝叶斯分类预测类给定属性下的人是否愿意

5、购买电脑RIDAgeIncomeStudentCredit ratingClass: buys computer1=30Hi妙MoFairNo240MediumMoFMYes5LowVesFairYes6LowYesExcellentNo7lowYesExcell eiitYes8=30MediumMoFairHo930LowYesFairYes10二40MediumYesFairVes11=30MediumVesExcellentVes1231,.4OMediumtioExcelleptVes1331,.4DHigliYesFairYes14MediumtioExcellentNo数据样本属

6、,性:Age ,In comeStudent , Credit_rating类别属性:buys computerC1:buys_computer=“Yes”C1:buys_computer=“no” 5.1每个属性的条件进行概率估计 给定与判定树归纳相同的训练数据,我们希望使用朴素贝叶斯分 类预测一个未知样本的类标号。训练数据在表一中。数据样本用属性 age,income,student 和 credit_rating 描述。类标号属性 buys_computer具有两个不同值(即(yes,no )。设C1 对应于类 buys_computer二 “yes”,而 C2对应于类 buys_com

7、puter= “no”。我们希望分类的样本为()30,_X age income medium student yes credit rating fair我们需要最大化()() i iP X P C,i = 1,2。每个类的先验概率P(C i)可以根据训练样本计算:P(buys_computer=”yes”)=9/14=0.643P(buys_computer=”no”)=5/14=0.357为计算()iP X,i = 1,2,我们计算下面的条件概率:P(age=”30”|buys_computer=”yes”) =2/9=0.222P(age=”30”|buys_computer=”no”

8、) =3/5=0.222P(income=”medium”|buys_computer=”yes”) =4/9=0.444P(income=”medium”|buys_computer=”no”)=2/5=0.400P(student=”yes”|buys_computer=”yes”) =6/9=0.667P(student=”yes”|buys_computer=”no”) =1/5=0.200P(credit_rating=”fair”|buys_computer=”yes”) =6/9=0.667P(credit_rating=”fair”|buys_computer=”no”)=2/

9、5=0.400使用以上概率,我们得到:P(X|buys_computer二” yes”)=0.222x0.444x0.667x0.667=0.044P(X|buys_computer二 ”n o”)=0.600x0.400x0.200x0.400=0.019P(X|buys_computer=”yes”)P(buys_computer=”yes”)=0.044x0.643=0.028 P(X|buys_computer=”no”)P(buys_computer=”no”)=0.019x0.357=0.007 因 此 , 对 于 样 本 X , 朴 素 贝 叶 斯 分 类 预 测 buys_co

10、mputer=”yes”。5.2 实验结果训练数据train1.txt内容及格式如下:11 trainl.txt - SS本30 high no fair no40 Lovr yes fair yes40 Low yes BKcellenl: no 30_40 Iouj yes excellent yes犬30 medium no fair no(30 Low yes fair yes40 jnedium yes fair yes4 3no 2no需要分类的数据(预测数据)predict1.txt如下:predictl.txt -彳本交锹鬥漏堀梧式Q)查30 m.e dim yes fair

11、40 high no excellent 30-40 lev no escellen七40 high no fair30 me dim no fail程序执行结果如下:Command Window:ii_LS 二y e $? no? ye sJ? FlO ? nn?5.3实验总结贝叶斯分类的效率在理论上讲,与其它所有分类算法相比较,贝 叶斯分类具有最小的出错率。然而,实践中并非总是如此。这是由于 对其应用的假定(如类条件独立性)的不准确性,以及缺乏可用的概 率数据造成的。然而种种实验研究表明,与决策树和神经网络分类算 法相比,在某些领域,该分类算法可以与之媲美。贝叶斯分类还可以用来为不直接使用贝叶斯定理的其他分类算法 提供理论判定。例如,在某种假定下,可以证明正如朴素贝叶斯分类 一样,许多神经网络和曲线拟合算法输出最大的后验假定。5.4matlab 程

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号