贝叶斯分类 ppt课件

上传人:飞*** 文档编号:53581170 上传时间:2018-09-03 格式:PPT 页数:56 大小:2.11MB
返回 下载 相关 举报
贝叶斯分类 ppt课件_第1页
第1页 / 共56页
贝叶斯分类 ppt课件_第2页
第2页 / 共56页
贝叶斯分类 ppt课件_第3页
第3页 / 共56页
贝叶斯分类 ppt课件_第4页
第4页 / 共56页
贝叶斯分类 ppt课件_第5页
第5页 / 共56页
点击查看更多>>
资源描述

《贝叶斯分类 ppt课件》由会员分享,可在线阅读,更多相关《贝叶斯分类 ppt课件(56页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘:朴素贝叶斯分类,王成(副教授) 华侨大学计算机科学与技术学院,1.概率论基本知识,确定事件:概念是确定的,发生也是确定的;随机事件:概念是确定的,发生是不确定的;模糊事件:概念本身就不确定。,随机变量,随机变量:随机事件的数量表示;离散随机变量:取值为离散的随机变量 ;连续随机变量:取值为连续的随机变量 ;,频率和概率(概率的频率学派解释),频率:试验在相同的条件下重复N次,其中M次事件A发生,则A发生的频率为:fN(A) = M / N;概率:当N很大时,频率会趋向一个稳定值,称为A的概率:,联合概率和条件概率,联合概率:设A,B是两个随机事件,A和B同时发生的概率称为联合概率,记

2、为:P(A B); 条件概率:在B事件发生的条件下,A事件发生的概率称为条件概率,记为:P(A|B); 乘法定理:P(A|B) = P(AB) / P(B)。,概率密度函数,概率分布函数:设X为连续型随机变量,定义分布函数;F(x) = P(Xx); 概率密度函数:给定X是随机变量,如果存在一个非负函数f(x),使得对任意实数a,b(a P(C2|X),则实例X属于C1,否则属于C2。 简单的说,就是去计算在X出现的情况下,X属于哪种类别的概率更高。,如何计算P(Ci|X)?,朴素贝叶斯分类(Naive Bayes),假设有n个类别C1,C2.Cn,给定一个实例的特征向量w,则此实例属于类Ci

3、的概率为,P(Ci)的计算: 将训练样本中属于类Ci的实例数量除以训练样本数量即P(Ci), 例如动物图片识别中,假设有100个训练实例,其中有15张为猫,则 P(猫) = 15 / 100 = 0.15,P(w)的计算: 因为利用贝叶斯进行分类时,我们只要比较概率的大小即可, 而P(w)对于所有的类别都是一样的,因此无须计算,朴素贝叶斯分类(Naive Bayes),假设有n个类别C1,C2.Cn,给定一个实例的特征向量w,则此实例属于类Ci的概率为,P(w|Ci)的计算: w是特征向量,若将其展开,则可将P(w|Ci)写作 P(w0,w1,w2.wn|Ci),朴素贝叶斯假设实例的各个属性互

4、相独立,互不影响,因此,上式等价于 P(w0|Ci)P(w1|Ci)P(w2|Ci).P(wn|Ci),朴素贝叶斯分类(Naive Bayes),假设有n个类别C1,C2.Cn,给定一个实例的特征向量w,则此实例属于类Ci的概率为,P(w|Ci)的计算:,P(w|Ci) = P(w0|Ci)P(w1|Ci)P(w2|Ci).P(wn|Ci),假设一个实例的特征向量为 (有四条腿, 会飞),即w0=有四条腿,w1为会飞,共有三个类别分别是鸟、狗、鱼,则 P(w0|C0)=P(有四条腿|鸟) = 训练样本中有四条腿的鸟(实例)的数量,除以样本中鸟(实例)的数量 P(w1|C0)=P(会飞|鸟) =

5、 训练样本中会飞的鸟(实例)的数量,除以样本中鸟(实例)的数量 P(w0, w1 |C0)= P(w0|C0)* P(w1|C0)P(有四条腿,会飞|鸟)= P(有四条腿|鸟)* P(会飞|鸟),朴素贝叶斯(Naive Bayes),朴素贝叶斯假设所有属性之间都是互相独立的,这也正是算法名称中“朴素(naive)”一词的由来 但现实中属性之间往往存在依赖,但有意思的是,即使是在朴素贝叶斯算法的独立性假设明显不成立的情况下,它也仍然能得到非常好的分类结果,C4.5,k-Means,SVM,Apriori,EM,PageRank,AdaBoost,kNN,Nave Bayes,CART,十大数据挖

6、掘算法之一,朴素贝叶斯分类举例,共14个训练实例。 共两个类别,“会买电脑”和不会买电脑。 每个训练实例有4个属性。待分类实例: (年龄30, 收入中等,是学生,信用一般),他会买电脑吗?,朴素贝叶斯分类举例,计算P(Ci) 本例中C0为未买电脑,C1为买了电脑,P(未买电脑) =,P(买了电脑) =,5/14 = 0.357,9/14 = 0.643,P(w)不用算,朴素贝叶斯分类举例,计算P(w|未买电脑) w = (年龄30, 收入中等,是学生,信用一般)P(w|Ci) = P(w0|Ci)*P(w1|Ci)*P(w2|Ci)*P(w3|Ci),P(年龄30|未买电脑) =,3/5 =

7、0.600,P(收入中等|未买电脑) =,2/5 = 0.400,P(是学生|未买电脑) =,1/5 = 0.200,P(信用一般|未买电脑) =,2/5 = 0.400,P(w|未买电脑) =,P(w|C0)P(C0) = P(w|未买电脑) * P(未买电脑) = 0.019 * 0.357 = 0.007,0.6 * 0.4 * 0.2 * 0.4 = 0.019,朴素贝叶斯分类举例,计算P(w|买了电脑) w = (年龄30, 收入中等,是学生,信用一般)P(w|Ci) = P(w0|Ci)*P(w1|Ci)*P(w2|Ci)*P(w3|Ci),P(年龄30|买了电脑) =,2/9 =

8、 0.222,P(收入中等|买了电脑) =,4/9 = 0.444,P(是学生|买了电脑) =,6/9 = 0.667,P(信用一般|买了电脑) =,6/9 = 0.667,P(w|买了电脑) =,P(w|C1)*P(C1) = P(w|买了电脑) * P(买了电脑) = 0.044 * 0.643 = 0.028,0.222 * 0.444 * 0.667 * 0.667 = 0.044,朴素贝叶斯分类举例,P(w|C0)*P(C0) = P(w|未买电脑) * P(未买电脑) = 0.019 * 0.357 = 0.007,P(w|C1)*P(C1) = P(w|买了电脑) * P(买了电

9、脑) = 0.044 * 0.643 = 0.028,P(不买电脑|w) = P(C0|w) = P(w| (C0)P(C0) / P(w) = 0.007 / P(w)P(会买电脑|w) = P(C1|w) = P(w| C1)*P(C1) / P(w) = 0.028 / P(w),w = (年龄30, 收入中等,是学生,信用一般),问题1:零概率问题,计算P(w|未买电脑) w = (年龄30, 收入中等,是学生,信用一般),P(年龄30|未买电脑) =,3/5 = 0.600,P(收入中等|未买电脑) =,2/5 = 0.400,P(是学生|未买电脑) =,0/5 = 0,P(信用一般

10、|未买电脑) =,2/5 = 0.400,P(w|未买电脑) =,P(w|C0)P(C0) = P(w|未买电脑) * P(未买电脑) = 0,0.6 * 0.4 * 0 * 0.4 = 0,问题1:零概率问题的解决方案:拉普拉斯校准,校准前,概率可能为0,校准后,概率接近原概率,但不会变成0,其中N为属性值个数,问题1:零概率问题的解决方案:拉普拉斯校准,计算P(w|未买电脑) w = (年龄30, 收入中等,是学生,信用一般),P(年龄30|未买电脑) = 3/5 = 0.600,P(收入中等|未买电脑) = 2/5 = 0.400,P(是学生|未买电脑) = 0/5 = 0,P(信用一般|未买电脑) = 2/5 = 0.400,P(年龄30|未买电脑) = (3+1)/(5+4) = 0.444,P(收入中等|未买电脑) = (2+1)/(5+4) = 0.333,P(是学生|未买电脑) = (0+1)/(5+4) = 0.222,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 其它文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号