第5讲简单贝叶斯分类

上传人:枫** 文档编号:494930893 上传时间:2022-09-07 格式:DOC 页数:63 大小:576.50KB
返回 下载 相关 举报
第5讲简单贝叶斯分类_第1页
第1页 / 共63页
第5讲简单贝叶斯分类_第2页
第2页 / 共63页
第5讲简单贝叶斯分类_第3页
第3页 / 共63页
第5讲简单贝叶斯分类_第4页
第4页 / 共63页
第5讲简单贝叶斯分类_第5页
第5页 / 共63页
点击查看更多>>
资源描述

《第5讲简单贝叶斯分类》由会员分享,可在线阅读,更多相关《第5讲简单贝叶斯分类(63页珍藏版)》请在金锄头文库上搜索。

1、简单贝叶斯分类简单贝叶斯分类鸚勰溜聽严分类III 简单贝叶斯分类通过训练样本的训练学习有效的处理未来要做分类的数据。例:分类垃圾邮件与非垃圾邮件方法:“点击”、“此处”、“取消订 阅”出现概率,垃圾邮件各位09,正常 邮件各为02,把信息中所有文字的概率即可估概率、先验概率与后验概率概率:概率在实质上就是无知。先验概率:对每种场景的可能性认识就是概率分布P(Ai)。这样的概率就是先验概 率。后验概率:“已知某某事件发生了 ”情况 下某场景的概率,叫做后验概率P(AilY)。贝叶斯定理回顾定义 事件组Ay A2, An(n可为00),称为样 本空间S的一个划分,若满足:n(i)UA=S;i=l贝

2、叶斯定理回顾定理 设A1,,An是S的一个划分,且P(A)0, (i=ln),则对任何事件BwS,有P(Aj I B)=P(Aj)P(BAj) 工 p(4)p(bi4) i=l式子就称为贝叶斯公式。贝叶斯定理回顾这一公式最早发表于1763年,当时贝叶斯已经去世,其结果没有受到应有的重视.后来,人们才逐渐认识到了这个著名概率公式的重要性.现在,贝叶斯公式以及根据它发展起来的贝叶斯统计已成为机器学习、人工智能、 知识发现等领域的重要工具.贝叶斯定理回顾贝叶斯公式给出了 结果事件方已发生的条件 下,原因属于事件如的条件概率.从这个意义上讲,它是一个“执果索因”的条 件概率计算公式.相对于事件方而言,

3、概率论中 把P(Ai)称为先验概率(Prior Probab订ity), 而把P (Ai | B)称为后验概率 (Posterior Probab订ity),这是在已有附加信息(即事件 2已发生)之后对事件发生的可能性做出的重新 认识,体现了已有信息带来的知识更新.分类问题1名称Huma n pytho n salmon whale frog komodo bat pigeo n cat leopard_shark turtle penguin porcupi ne eel salama nder gila_m on ster platypus owl dolphin eagle飞会否否否否否

4、否是是否否否否否否否否否是否是生胎是否否是否否是否是是否否是否否否否否是否水否否是是有否否否否是有有否是有否否否是否有是否否否是是是是是否是是是否是是是是否是类别 哺乳动物IE哺乳动物IE哺乳动物 哺乳动物IE哺乳动物IE哺乳动物 哺乳动物IE哺乳动物 哺乳动物IE哺乳动物 IE哺乳动物 非哺乳动物 哺乳动物IE哺乳动物 IE哺乳动物 IF哺乳动物 哺乳动物IE哺乳动物 哺乳动物IE哺乳动物胎生会飞水中生活有腿类别是否是否9分类问题2税号去年退税婚姻状况可征税收入逃税1是单身125k否2否婚姻中100k否3否单身70k否4是婚姻中120k否5否离婚95k是6否婚姻中60k否7是离婚220k否8

5、否单身85k是9否婚姻中75k否10否单身90k是对于X=(去年退税=否,婚姻状况=婚姻中,可征税收入= 120K)这个人会不会逃税?贝叶斯分类方法把每一个属性(输入)和分类变量(输出) 都看作随机变量对于具有属性值(AB,AJ的观测记录-目标是预测类别C-特别地,我们想找能够最大化P(CIA1,A2,.,An)W C值能否从直接数据中估计P(CIA19A2,.,An)?贝叶斯分类方法方法:-使用贝叶斯定理对于分类变量C的所有值计算后验概率 P(CIApA2,AJ ,P(CAA2.A) =P(AA2.A IC)P(C)p(aa.aj-选择c使得P(CIA1A,最大 -等价于选择C使得P(A1A

6、,AIC)P(C)最大如何估计P(Ap A2,,An I C)?简单贝叶斯假设在给定的类别上属性变量Aj相互独立:-P(ApA2, .,AnIC) = P(A1ICj) P(A2ICp. P(ACj)-对所有的A:和Cj计算巴却印.-如果对某一个q p(q)np(aj Cj)最大,新的数据点就 被分类到C; O贝叶斯分类法:二类别P(CllX = x0) =P(X =x0 Cl)P(Cl)尸(X = x)P(COX =x0) =P(X =xolCO)P(CO)尸(Xf1.输入变量为离散时的贝叶斯分类法问题:在数据集合中,X表示多维离散随机输入向量,co 和Cl是输出变量的两个类别。对于新观测记

7、录 它应该属于哪个类别呢?根据贝叶斯定理,P(X = x0 Cl)P(Cl)P(X = x0 I Cl)P(Cl) + PX = x01 CO)P(CO)P(X = x0 I CO)尸(CO)P(X = x0 I Cl)尸(Cl) + 尸(X = x0 I CO)尸(CO)哪个条件概率更大,这个新观测记录就归到那个类。贝叶斯分类法:二类别(续上页)比较条件概率的方法等价于找Cj使得P(X = I Cj)P(Cj)更大分类问题1名称Huma n pytho n salmon whale frog komodo bat pigeo n cat leopard_shark turtle pengui

8、n porcupi ne eel salama nder gila_m on ster platypus owl dolphin eagle飞会否否否否否否是是否否否否否否否否否是否是生胎是否否是否否是否是是否否是否否否否否是否水否否是是有否否否否是有有否是有否否否是否有是否否否是是是是是否是是是否是是是是否是类别 哺乳动物IE哺乳动物IE哺乳动物 哺乳动物IE哺乳动物IE哺乳动物 哺乳动物IE哺乳动物 哺乳动物IE哺乳动物 IE哺乳动物 非哺乳动物 哺乳动物IE哺乳动物 IE哺乳动物 IF哺乳动物 哺乳动物IE哺乳动物 哺乳动物IE哺乳动物胎生会飞水中生活有腿类别是否是否9分类问题14 (胎

9、生=是,会飞=否,水中生活=是,有腿=否)M哺乳动物N:非哺乳动物P(AIM) = P(胎生二是IM) x P(会飞=否| M) x P(水中生活=是1 M)X P(有腿=否| M)6 6 2 2 _=-X x-x- = 0.067 7 7 7P(AIN) = P(胎生二是IN) xP(会飞=否1 N) x P(水中生活=是1 N) xP(有腿=否12= x x x = 0.004213 13 13 137P(AM)P(M) P(AN)P(N)=哺乳动物P(A IM )P(M) = 0.06 x = 0.0212013P(A I N)P(N) = 0.004 x = 0.002720贝叶斯分类

10、法:二类别2.输入变量为连续时的贝叶斯分类法f0(x)和f】(x)分别是CO和Cl类别上的预测变量(或向量) 的概率密度函数a贝叶斯分类法:二类别P(C0IX=xo) =P(C11X 二兀。)二2.输入变量为连续时的贝叶斯分类法问题:在数据集合中,X表示多维连续随机输入向量,CO 和C1是输出变量的两个类别。对于新观测记录 它应该属于哪个类别呢?根据贝叶斯定理,/o(x)P(CO)tCynCD + AMHCO)/;(x)P(Cl)爪和:1) +人(x)P(C0)哪个条件概率更大,这个新观测记录就归到那个类。贝叶斯分类法:二类别贝叶斯分类法:二类别(续上页)比较条件概率的方法等价于找Cj使得fj

11、g)P(Cj)更大贝叶斯分类法:二类别2.输入变量为连续时的贝叶斯分类法当Xa,观测记录分类到Cl.当Xb,观测记录分类到Cl.分类问题2去年可征税税号退税婚姻状况收入逃税1是单身125k 否2 否婚姻中100k 否3 否单身70k否4 是婚姻中120k 否5 否离婚95k是6 否婚姻中60k否7 是离婚220k 否8 否单身85k是9 否婚姻中75k否10否单身90k是类别:P(Ck) = Nk/N-例如,P(C二否)=7/10,P(C二是)二 3/10-Nk是类别C二Ck.的数量对离散属性:昭丨 Ck) = IAikl/ Nk-IAikl是属性值为A:且属于 Ck的记棗数量-仮i如:P(婚

12、姻状况二婚姻中I否)二4/7P(去年退视二是I是)二0对于x=(去年退税=否,婚姻状况=婚姻中,可征税收入= 120K)对于连续属性:-离散化把属性的范围划分为许多段:每一段设定一个有序值这样会违反独立性假设-估计概率密度:假定属性服从正态分布估计该属性分布的参数(例如,2匀値和标准差)在得到概率密度之后,我们可以使用它估计条件概 率 P(AJc)分类问题2分类问题2去年可征税税号退税婚姻状况收入逃税1是单身125k 否2 否婚姻中100k 否3 否单身70k否4 是婚姻中120k 否5 否离婚95k是6 否婚姻中60k否7 是离婚220k 否8 否单身85k是9 否婚姻中75k否10否单身90k是每一对(A:,cj的正态分布:p(4ic丿二例如对于(收入,逃税二否):-在逃税二否的情况下,可征税收入的样本均值二110样本方差二2975P(收入= 1201否)二(120-110)21 2(2975)厉(54.54)=0.0072分类问题2对于x=(去年退税=否,婚姻状况=婚姻中,可征税收入= 120K) P(XI逃税二否)=P(去年退税二否I逃税二否) xP(婚姻中I逃税二否) xP(收入=120KI逃税二否)=4/7 x 4/7 x 0.0072 = 0.0024 P(XI逃税=是)=P(去年退税=杏1逃税二是) xP(婚姻中I逃税二是) xP(

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号