贝叶斯分类PPT－金锄头文库

资源描述

《贝叶斯分类PPT》由会员分享，可在线阅读，更多相关《贝叶斯分类PPT（71页珍藏版）》请在金锄头文库上搜索。

1、数据挖掘分类之贝叶斯分类目录贝叶斯网络 2 贝叶斯分类 1 总结 4 基于weka的贝叶斯仿真 3 致谢 5 1.1分类的基本概念 1.2贝叶斯分类概述 1.贝叶斯分类 1.1分类的基本概念背景背景近几十年来，Internet互联网的普及使得人们获得和存储数据的能力得到逐步的提高，数据规模不断壮大。面对“数据丰富而知识匮乏”的挑战，数据挖掘技术应运而生。数据挖掘是一门多学科的交叉领域，涉及统计学，机器学习、神经网络、模式识别、知识库系统、信息检索、高性能计算和可视化等学科。而数据挖掘中的分类技术是一项非常重要的技术。 Q1 什么是分类超市中的物品分类生活中的垃圾分类

2、Q1 什么是分类生活信息的分类由此可见，分类是跟我们的生活息息相关的东西，分类让生活更加有条理，更加精彩. Q1 什么是分类分类就是把一些新的数据项映射到给定类别的中的某一个类别，比如说当我们发表一篇文章的时候，就可以自动的把这篇文章划分到某一个文章类别。分类也称为有监督学习(supervised learning),与之相对于的是无监督学习(unsupervised learning),比如聚类。分类与聚类的最大区别在于，分类数据中的一部分的类别是已知的，而聚类数据的类别未知。分类在数据挖掘中的学术定义分类在数据挖掘中的学术定义分类在数据挖掘中的学术定义分类在数据

3、挖掘中的学术定义 Q2 分类问题名称胎生会飞水中生活有腿类别 Human是否否是哺乳动物 python否否否否非哺乳动物 salmon否否是否非哺乳动物 whale是否是否哺乳动物 frog否否有时是非哺乳动物 komodo否否否是非哺乳动物 bat是是否是哺乳动物 pigeon否是否是非哺乳动物 cat是否否是哺乳动物 leopard_shark 是否是否非哺乳动物 turtle否否有时是非哺乳动物 penguin否否有时是非哺乳动物 porcupine是否否是哺乳动物 eel否否是否非哺乳动物 salamander否否有时是非哺乳动物 gila_monster否否否是非哺乳动物 pl

4、atypus否否否是哺乳动物 owl否是否是非哺乳动物 dolphin是否是否哺乳动物 eagle否是否是非哺乳动物胎生会飞水中生活有腿类别是否是否？ Q2 分类问题税号去年退税婚姻状况可征税收入逃税 1是单身125k否 2否婚姻中100k否 3否单身70k否 4是婚姻中120k否 5否离婚95k是 6否婚姻中60k否 7是离婚220k否 8否单身85k是 9否婚姻中75k否 10否单身90k是 Q2 分类的流程动物种类体型翅膀数量脚的只数是否产蛋是否有毛类别狗中04否是哺乳动物猪大04否是哺乳动物牛大04否是哺乳动物麻雀小22是是鸟类天鹅中22是是鸟类大雁中2

5、2是是鸟类动物A大02是无？动物B中22否是？根据现有的知识，我们得到了一些关于哺乳动物和鸟类的信息，我们能否对新发现的物种，比如动物A，动物B进行分类？动物种类体型翅膀数量脚的只数是否产蛋是否有毛类别狗中04否是哺乳动物猪大04否是哺乳动物牛大04否是哺乳动物麻雀小22是是鸟类天鹅中22是是鸟类大雁中22是是鸟类步骤一：将样本转化为等维的数据特征（特征提取）。所有样本必须具有相同数量的特征兼顾特征的全面性和独立性 Q2 分类的流程动物种类体型翅膀数量脚的只数是否产蛋是否有毛类别狗中04否是哺乳动物猪大04否是哺乳动物牛大04否是哺乳动物麻雀小22是是鸟类

6、天鹅中22是是鸟类大雁中22是是鸟类步骤二：选择与类别相关的特征（特征选择）。比如，绿色代表与类别非常相关，黑色代表部分相关，浅蓝色代表完全无关 Q2 分类的流程步骤三：建立分类模型或分类器（分类）。分类器通常可以看作一个函数，它把特征映射到类的空间上 Q2 分类的流程 Q3 分类的方法对数据挖掘中心的可信技术分类算法的内容及其研究现状进行综述。认为分类算法大体可以分为传统分类算法和基于软件计算的分类法两类，主要包括相似函数，关联规则分类算法，K近邻分类算法，决策树分类算法，贝叶斯分类算法和基于模糊逻辑，遗传算法，粗糙集和神经网络的分类算法。分类的算法有很多种，

7、他们都有各自的优缺点和应用范围，本次我就贝叶斯分类算法展开我的演讲。 1.2 贝叶斯分类概述背景背景贝叶斯分类基于贝叶斯定理，贝叶斯定理是由18世纪概率论和决策论的早起研究者Thomas Bayes发明的，故用其名字命名为贝叶斯定理。分类算法的比较研究发现，一种称为朴素贝叶斯分类法的简单贝叶斯分类法可以与决策树和经过挑选的神经网络分类器相媲美。用于大型数据库，贝叶斯分类法也已表现出高准确率和高速度。目前研究较多的贝叶斯分类器主要有四种，分别是：Naive Bayes、TAN、 BAN和GBN。 Thomas Bayes 贝叶斯定理贝叶斯定理（Bayes theo

8、rem）是概率论中的一个结果，它跟随机变量的条件概率以及边缘概率分布有关。在有些关于概率的解说中，贝叶斯定理能够告知我们如何利用新证据修改已有的看法。通常，事件A在事件B（发生）的条件下的概率，与事件B在事件A的条件下的概率是不一样的；然而，这两者是有确定的关系，贝叶斯定理就是这种关系的陈述。贝叶斯公式提供了从先验概率P(A)、P(B) 和P(B|A)计算后验概率P(A|B)的方法： P(A|B)=P(B|A)*P(A)/P(B) ，P(A|B)随着P(A) 和P(B|A)的增长而增长，随着P(B)的增长而减少，即如果B独立于A时被观察到的可能性越大，那么B对A的支持度越小。

9、贝叶斯公式贝叶斯法则机器学习的任务：在给定训练数据D时，确定假设空间H中的最佳假设。最佳假设：一种方法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设。贝叶斯理论提供了一种计算假设概率的方法，基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身。贝叶斯分类的原理贝叶斯分类器的分类原理是通过某对象的先验概率，利用贝叶斯公式计算出其后验概率，即该对象属于某一类的概率，选择具有最大后验概率的类作为该对象所属的类。也就是说，贝叶斯分类器是最小错误率意义上的优化。根据贝叶斯定理：由于P(X)对于所有类为常数，只需要P(X|H)

10、*P(H) 最大即可。朴素贝叶斯朴素贝叶斯分类是一种十分简单的分类算法，叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素，朴素贝叶斯的思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。通俗来说，就好比这么个道理，你在街上看到一个黑人，我问你你猜这哥们哪里来的，你十有八九猜非洲。为什么呢？因为黑人中非洲人的比率最高，当然人家也可能是美洲人或亚洲人，但在没有其它可用信息下，我们会选择条件概率最大的类别，这就是朴素贝叶斯的思想基础。黑人黑人黑人黑人非洲人非洲人非洲人概率最大第一阶段准备工作阶段，这个阶段

11、的任务是为朴素贝叶斯分类做必要的准备，主要工作是根据具体情况确定特征属性，并对每个特征属性进行适当划分，然后由人工对一部分待分类项进行分类，形成训练样本集合。这一阶段的输入是所有待分类数据，输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段，其质量对整个过程将有重要影响，分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。第二阶段分类器训练阶段，这个阶段的任务就是生成分类器，主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计，并将结果记录。其输入是特征属性和训练样本，输出是分类器。这一阶段是

12、机械性阶段，根据前面讨论的公式可以由程序自动计算完成。第三阶段应用阶段。这个阶段的任务是使用分类器对待分类项进行分类，其输入是分类器和待分类项，输出是待分类项与类别的映射关系。这一阶段也是机械性阶段，由程序完成。朴素贝叶斯分类的流程朴素贝叶斯分类的流程朴素贝叶斯分类的流程朴素贝叶斯分类的流程朴素贝叶斯分类实例检测SNS社区中不真实账号下面讨论一个使用朴素贝叶斯分类解决实际问题的例子。这个问题是这样的，对于SNS社区来说，不真实账号（使用虚假身份或用户的小号）是一个普遍存在的问题，作为SNS社区的运营商，希望可以检测出这些不真实账号，从而在一些运营分析报告中避免这些

13、账号的干扰，亦可以加强对SNS社区的了解与监管。如果通过纯人工检测，需要耗费大量的人力，效率也十分低下，如能引入自动检测机制，必将大大提升工作效率。这个问题说白了，就是要将社区中所有账号在真实账号和不真实账号两个类别上进行分类。下面我们一步一步实现这个过程。是真是假？是真是假？首先设C=0表示真实账号，C=1表示不真实账号。 1、确定特征属性及划分这一步要找出可以帮助我们区分真实账号与不真实账号的特征属性，在实际应用中，特征属性的数量是很多的，划分也会比较细致，但这里为了简单起见，我们用少量的特征属性以及较粗的划分，并对数据做了修改。我们选择三个特征属性：a1：日志

14、数量/注册天数 a2：好友数量/注册天数 a3：是否使用真实头像在SNS社区中这三项都是可以直接从数据库里得到或计算出来的。下面给出划分：a1：a0.2| C = 1) = 0.1 P(a20.8| C = 0) = 0.1 P(a3 = 0|C = 0) = 0.2 P(a3 = 1|C = 0) = 0.8 P(a3 = 0|C = 1) = 0.9 P(a3 = 1|C = 1) = 0.1 5、使用分类器进行鉴别下面我们使用上面训练得到的分类器鉴别一个账号，属性如下 a1:日志数量与注册天数的比率为0.1 a2 :好友数与注册天数的比率为 0.2 a3:不使用真实头像 (a

15、= 0) P(C = 0)P( x|C = 0) = P(C = 0) P(0.05a10.2|C = 0)P(0.1a20.8|C = 0)P(a3=0|C = 0) = 0.89*0.5*0.7*0.2 = 0.0623 P(C = 1)P( x|C = 1) = P(C = 1) P(0.05a10.2|C = 1)P(0.1a20.8|C = 1)P(a3=0|C = 1) = 0.11*0.1*0.2*0.9 = 0.00198 可以看到，虽然这个用户没有使用真实头像，但是通过分类器的鉴别，更倾向于将此账号归入真实账号类别。朴素贝叶斯模型发源于古典数学理论，有着坚实的数学基础，

16、以及稳定的分类效率。同时，NBC模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。理论上，NBC模型与其他分类方法相比具有最小的误差率。但是朴素贝叶斯分类有一个限制条件，就是特征属性必须有条件独立或基本独立（实际上在现实应用中几乎不可能做到完全独立）。当这个条件成立时，朴素贝叶斯分类法的准确率是最高的，但不幸的是，现实中各个特征属性间往往并不条件独立，而是具有较强的相关性，这样就限制了朴素贝叶斯分类的能力。于是诞生了一种更高级、应用范围更广的贝叶斯网络。 2.1贝叶斯网络概述 2.2贝叶斯网络学习 2.贝叶斯网络 2.3贝叶斯网络应用在上一篇文章中我们讨论了朴素贝叶斯分类。这一篇文章中，我们接着上一篇文章的例子，讨论贝叶斯分类中更高级、应用范围更广的一种算法贝叶斯网络（又称贝叶斯信念网络或信念网络）。复杂的网络 2.1贝叶斯网络概述上一篇文章我们使用朴素贝叶斯分类实现了SNS社区中不真实账号的检测。在那个解决

展开阅读全文