贝叶斯分类PPT

上传人:xmg****18 文档编号:115947835 上传时间:2019-11-15 格式:PPT 页数:71 大小:3.10MB
返回 下载 相关 举报
贝叶斯分类PPT_第1页
第1页 / 共71页
贝叶斯分类PPT_第2页
第2页 / 共71页
贝叶斯分类PPT_第3页
第3页 / 共71页
贝叶斯分类PPT_第4页
第4页 / 共71页
贝叶斯分类PPT_第5页
第5页 / 共71页
点击查看更多>>
资源描述

《贝叶斯分类PPT》由会员分享,可在线阅读,更多相关《贝叶斯分类PPT(71页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘分类之 贝叶斯分类 目录 贝叶斯网络 2 贝叶斯分类 1 总结 4 基于weka的贝叶斯仿真 3 致谢 5 1.1分类的基本概念 1.2贝叶斯分类概述 1.贝叶斯分类 1.1分类的基本概念 背景背景 近几十年来,Internet互联网的普及使得人们获得和 存储数据的能力得到逐步的提高,数据规模不断壮大。面 对“数据丰富而知识匮乏”的挑战,数据挖掘技术应运而 生。数据挖掘是一门多学科的交叉领域,涉及统计学,机 器学习、神经网络、模式识别、知识库系统、信息检索、 高性能计算和可视化等学科。而数据挖掘中的分类技术是 一项非常重要的技术。 Q1 什么是分类 超市中的物品分类 生活中的垃圾分类

2、Q1 什么是分类 生活信息的分类 由此可见,分类是跟 我们的生活息息相关 的东西,分类让生活 更加有条理,更加精 彩. Q1 什么是分类 分类就是把一些新的数据项映射到给定类别的中的某 一个类别,比如说当我们发表一篇文章的时候,就可以自 动的把这篇文章划分到某一个文章类别。 分类也称为有监督学习(supervised learning),与之相对 于的是无监督学习(unsupervised learning),比如聚类。 分类与聚类的最大区别在于,分类数据中的一部分的 类别是已知的,而聚类数据的类别未知。 分类在数据挖掘中的学术定义分类在数据挖掘中的学术定义分类在数据挖掘中的学术定义分类在数据

3、挖掘中的学术定义 Q2 分类问题 名称胎生 会飞水中生活有腿类别 Human是否否是哺乳动物 python否否否否非哺乳动物 salmon否否是否非哺乳动物 whale是否是否哺乳动物 frog否否有时是非哺乳动物 komodo否否否是非哺乳动物 bat是是否是哺乳动物 pigeon否是否是非哺乳动物 cat是否否是哺乳动物 leopard_shark 是否是否 非哺乳动物 turtle否否有时是非哺乳动物 penguin否否有时是非哺乳动物 porcupine是否否是哺乳动物 eel否否是否非哺乳动物 salamander否否有时是非哺乳动物 gila_monster否否否是非哺乳动物 pl

4、atypus否否否是哺乳动物 owl否是否是非哺乳动物 dolphin是否是否哺乳动物 eagle否是否是非哺乳动物 胎生会飞水中生活有腿类别 是否是否? Q2 分类问题 税号去年退税婚姻状况可征税收入逃税 1是单身125k否 2否婚姻中100k否 3否单身70k否 4是婚姻中120k否 5否离婚95k是 6否婚姻中60k否 7是离婚220k否 8否单身85k是 9否婚姻中75k否 10否单身90k是 Q2 分类的流程 动物种 类 体型翅膀数 量 脚的只数是否产 蛋 是否有毛类别 狗中04否是哺乳动物 猪大04否是哺乳动物 牛大04否是哺乳动物 麻雀小22是是鸟类 天鹅中22是是鸟类 大雁中2

5、2是是鸟类 动物A大02是无? 动物B中22否是? 根据现有的知识,我们得到了一些关于哺乳动物和鸟类的信息, 我们能否对新发现的物种,比如动物A,动物B进行分类? 动物种类体型翅膀数量脚的只数是否产蛋是否有毛类别 狗中04否是哺乳动物 猪大04否是哺乳动物 牛大04否是哺乳动物 麻雀小22是是鸟类 天鹅中22是是鸟类 大雁中22是是鸟类 步骤一:将样本转化为等维的数据特征(特征提取)。 所有样本必须具有相同数量的特征 兼顾特征的全面性和独立性 Q2 分类的流程 动物种类体型翅膀数量脚的只数是否产蛋是否有毛类别 狗中04否是哺乳动物 猪大04否是哺乳动物 牛大04否是哺乳动物 麻雀小22是是鸟类

6、 天鹅中22是是鸟类 大雁中22是是鸟类 步骤二:选择与类别相关的特征(特征选择)。 比如,绿色代表与类别非常相关,黑色代表部分相关,浅 蓝色代表完全无关 Q2 分类的流程 步骤三:建立分类模型或分类器(分类)。 分类器通常可以看作一个函数,它把特征映射到类的空间 上 Q2 分类的流程 Q3 分类的方法 对数据挖掘中心的可信技术分类算法的内 容及其研究现状进行综述。认为分类算法大体 可以分为传统分类算法和基于软件计算的分类 法两类,主要包括相似函数,关联规则分类算 法,K近邻分类算法,决策树分类算法,贝叶斯 分类算法和基于模糊逻辑,遗传算法,粗糙集 和神经网络的分类算法。 分类的算法有很多种,

7、他们都有各自的优缺 点和应用范围,本次我就贝叶斯分类算法展开 我的演讲。 1.2 贝叶斯分类概述 背景背景 贝叶斯分类基于贝叶斯定理,贝叶 斯定理是由18世纪概率论和决策论的早 起研究者Thomas Bayes发明的,故用其 名字命名为贝叶斯定理。 分类算法的比较研究发现,一种称 为朴素贝叶斯分类法的简单贝叶斯分类 法可以与决策树和经过挑选的神经网络 分类器相媲美。用于大型数据库,贝叶 斯分类法也已表现出高准确率和高速 度。 目前研究较多的贝叶斯分类器主要 有四种,分别是:Naive Bayes、TAN、 BAN和GBN。 Thomas Bayes 贝叶斯定理 贝叶斯定理(Bayes theo

8、rem)是概率论中的一个结果 ,它跟随机变量的条件概率以及边缘概率分布有关。在有 些关于概率的解说中,贝叶斯定理能够告知我们如何利用 新证据修改已有的看法。 通常,事件A在事件B(发生)的条件下的概率,与事 件B在事件A的条件下的概率是不一样的;然而,这两者是 有确定的关系,贝叶斯定理就是这种关系的陈述。 贝叶斯公式提供了从先验概率P(A)、P(B) 和P(B|A)计算后验概率P(A|B)的方法: P(A|B)=P(B|A)*P(A)/P(B) ,P(A|B)随着P(A) 和P(B|A)的增长而增长,随着P(B)的增长而 减少,即如果B独立于A时被观察到的可能性 越大,那么B对A的支持度越小。

9、 贝叶斯公式 贝叶斯法则 机器学习的任务:在给定训练数据D时,确 定假设空间H中的最佳假设。 最佳假设:一种方法是把它定义为在给定数 据D以及H中不同假设的先验概率的有关知识下 的最可能假设。贝叶斯理论提供了一种计算假设 概率的方法,基于假设的先验概率、给定假设下 观察到不同数据的概率以及观察到的数据本身。 贝叶斯分类的原理 贝叶斯分类器的分类原理是通过某对象的先验 概率,利用贝叶斯公式计算出其后验概率,即该对 象属于某一类的概率,选择具有最大后验概率的类 作为该对象所属的类。也就是说,贝叶斯分类器是 最小错误率意义上的优化。 根据贝叶斯定理: 由于P(X)对于所有类为常数,只需要P(X|H)

10、*P(H) 最大即可。 朴素贝叶斯 朴素贝叶斯分类是一种十分简单的分类算法,叫它朴素贝叶斯分类 是因为这种方法的思想真的很朴素,朴素贝叶斯的思想基础是这样的: 对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率, 哪个最大,就认为此待分类项属于哪个类别。 通俗来说,就好比这么个道理,你在街上看到一个黑人,我问你你 猜这哥们哪里来的,你十有八九猜非洲。为什么呢?因为黑人中非洲人 的比率最高,当然人家也可能是美洲人或亚洲人,但在没有其它可用信 息下,我们会选择条件概率最大的类别,这就是朴素贝叶斯的思想基 础。 黑人黑人黑人黑人 非洲人非洲人非洲人 概率最大 第一阶段准备工作阶段,这个阶段

11、的任务是为朴 素贝叶斯分类做必要的准备,主要工作是根据具体情况 确定特征属性,并对每个特征属性进行适当划分,然后 由人工对一部分待分类项进行分类,形成训练样本集 合。这一阶段的输入是所有待分类数据,输出是特征属 性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一 需要人工完成的阶段,其质量对整个过程将有重要影响 ,分类器的质量很大程度上由特征属性、特征属性划分 及训练样本质量决定。 第二阶段分类器训练阶段,这个阶段的任务就是 生成分类器,主要工作是计算每个类别在训练样本中的 出现频率及每个特征属性划分对每个类别的条件概率估 计,并将结果记录。其输入是特征属性和训练样本,输 出是分类器。这一阶段是

12、机械性阶段,根据前面讨论的 公式可以由程序自动计算完成。 第三阶段应用阶段。这个阶段的任务是使用分 类器对待分类项进行分类,其输入是分类器和待分类 项,输出是待分类项与类别的映射关系。这一阶段也 是机械性阶段,由程序完成。 朴素贝叶斯分类的流程朴素贝叶斯分类的流程朴素贝叶斯分类的流程朴素贝叶斯分类的流程 朴素贝叶斯分类实例 检测SNS社区中不真实账号 下面讨论一个使用朴素贝叶斯分类解决实际问 题的例子。 这个问题是这样的,对于SNS社区来说,不真 实账号(使用虚假身份或用户的小号)是一个普遍 存在的问题,作为SNS社区的运营商,希望可以 检测出这些不真实账号,从而在一些运营分析报告 中避免这些

13、账号的干扰,亦可以加强对SNS社区 的了解与监管。 如果通过纯人工检测,需要耗费大量的人力, 效率也十分低下,如能引入自动检测机制,必将大 大提升工作效率。这个问题说白了,就是要将社区 中所有账号在真实账号和不真实账号两个类别上进 行分类。 下面我们一步一步实现这个过程。 是真是假?是真是假? 首先设C=0表示真实账号,C=1表示不真实账号。 1、确定特征属性及划分 这一步要找出可以帮助我们区分真实账号与不真实账号的 特征属性,在实际应用中,特征属性的数量是很多的,划分也 会比较细致,但这里为了简单起见,我们用少量的特征属性以 及较粗的划分,并对数据做了修改。 我们选择三个特征属性:a1:日志

14、数量/注册天数 a2:好友数量/注册天数 a3:是否使用真实头像 在SNS社区中这三项都是可以直接从数据库里得到或计算 出来的。 下面给出划分:a1:a0.2| C = 1) = 0.1 P(a20.8| C = 0) = 0.1 P(a3 = 0|C = 0) = 0.2 P(a3 = 1|C = 0) = 0.8 P(a3 = 0|C = 1) = 0.9 P(a3 = 1|C = 1) = 0.1 5、使用分类器进行鉴别 下面我们使用上面训练得到的分类器鉴别一个账号, 属性如下 a1:日志数量与注册天数的比率为0.1 a2 :好友数与注册天数的比率为 0.2 a3:不使用真实头像 (a

15、= 0) P(C = 0)P( x|C = 0) = P(C = 0) P(0.05a10.2|C = 0)P(0.1a20.8|C = 0)P(a3=0|C = 0) = 0.89*0.5*0.7*0.2 = 0.0623 P(C = 1)P( x|C = 1) = P(C = 1) P(0.05a10.2|C = 1)P(0.1a20.8|C = 1)P(a3=0|C = 1) = 0.11*0.1*0.2*0.9 = 0.00198 可以看到,虽然这个用户没有使用真实头像,但是通过分类器的鉴别 ,更倾向于将此账号归入真实账号类别。 朴素贝叶斯模型发源于古典数学理论,有着坚实的 数学基础,

16、以 及稳定的分类效率。同时,NBC模型所 需估计的参数很少,对缺失数据不太敏感,算法也比较 简单。理论上,NBC模型与其他分类方法相比具有最 小的误差率。但是朴素贝叶斯分类有一个限制条件,就 是特征属性必须有条件独立或基本独立(实际上在现实 应用中几乎不可能做到完全独立)。当这个条件成立时 ,朴素贝叶斯分类法的准确率是最高的,但不幸的是, 现实中各个特征属性间往往并不条件独立,而是具有较 强的相关性,这样就限制了朴素贝叶斯分类的能力。于 是诞生了一种更高级、应用范围更广的贝叶斯网 络。 2.1贝叶斯网络概述 2.2贝叶斯网络学习 2.贝叶斯网络 2.3贝叶斯网络应用 在上一篇文章中我们讨论了朴素贝叶斯分类。 这 一篇文章中,我们接着上一篇文章的例子,讨论贝叶斯 分类中更高级、应用范围更广的一种算法贝叶斯网 络(又称贝叶斯信念网络或信念网络)。 复杂的网络 2.1贝叶斯网络概述 上一篇文章我们使用朴素贝叶斯分类实现了SNS社区中不真实账号的检测。 在那个解决

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号