简单贝叶斯分类－金锄头文库

资源描述

《简单贝叶斯分类》由会员分享，可在线阅读，更多相关《简单贝叶斯分类（43页珍藏版）》请在金锄头文库上搜索。

1、简单贝叶斯分类,监督式的学习方式，因此，在进行分类之前需要先知道分类的类型。通过训练样本的训练学习有效的处理未来要做分类的数据。例：分类垃圾邮件与非垃圾邮件方法：“点击”、“此处”、“取消订阅”出现概率，垃圾邮件各位0.9，正常邮件各为0.2，把信息中所有文字的概率相乘，再利用贝叶斯统计原理，即可估计出该信息为垃圾邮件的概率。,概率：概率在实质上就是无知。先验概率：对每种场景的可能性认识就是概率分布P (Ai) 。这样的概率就是先验概率。后验概率：“已知某某事件发生了”情况下某场景的概率，叫做后验概率P (Ai|Y) 。,概率、先验概率与后验概率,定义事件组A1，A2，An (n可

2、为)，称为样本空间S的一个划分，若满足：,A1,A2,An,B,贝叶斯定理回顾,定理设A1，, An是S的一个划分，且P(Ai) 0，(i1，n)，则对任何事件BS，有,式子就称为贝叶斯公式。,贝叶斯定理回顾,这一公式最早发表于1763年，当时贝叶斯已经去世，其结果没有受到应有的重视. 后来，人们才逐渐认识到了这个著名概率公式的重要性. 现在，贝叶斯公式以及根据它发展起来的贝叶斯统计已成为机器学习、人工智能、知识发现等领域的重要工具.,贝叶斯定理回顾,贝叶斯公式给出了结果事件B已发生的条件下，原因属于事件Ai的条件概率. 从这个意义上讲，它是一个“执果索因”的条件概率计算公式.相对于事件B而

3、言，概率论中把P(Ai)称为先验概率（Prior Probability），而把P(Ai|B)称为后验概率（Posterior Probability），这是在已有附加信息（即事件B已发生）之后对事件发生的可能性做出的重新认识，体现了已有信息带来的知识更新.,贝叶斯定理回顾,分类问题1,分类问题2,这个人会不会逃税?,贝叶斯分类方法,把每一个属性（输入）和分类变量（输出）都看作随机变量对于具有属性值(A1, A2,An)的观测记录目标是预测类别C 特别地, 我们想找能够最大化P(C| A1, A2,An )的 C 值能否从直接数据中估计P(C| A1, A2,An )?,贝叶斯分类

6、乳动物 N：非哺乳动物,P(A|M)P(M) P(A|N)P(N) = 哺乳动物,2. 输入变量为连续时的贝叶斯分类法,f0(x) 和f1(x) 分别是C0 和 C1类别上的预测变量（或向量）的概率密度函数,a,贝叶斯分类法：二类别,问题: 在数据集合中，X 表示多维连续随机输入向量，C0 和 C1是输出变量的两个类别。对于新观测记录 , 它应该属于哪个类别呢? 根据贝叶斯定理，,2. 输入变量为连续时的贝叶斯分类法,贝叶斯分类法：二类别,哪个条件概率更大，这个新观测记录就归到那个类。,贝叶斯分类法：二类别,更大,（续上页）,比较条件概率的方法等价于找 Cj 使得,a,a b,若 P(C0

7、)=2P(C1),若 P(C0)=P(C1)=0.5,当 Xa, 观测记录分类到C1.,当 Xb, 观测记录分类到C1.,2. 输入变量为连续时的贝叶斯分类法,贝叶斯分类法：二类别,分类问题2,类别: P(Ck) = Nk/N 例如, P(C=否) = 7/10, P(C=是) = 3/10 Nk 是类别C=Ck.的数量对离散属性: P(Ai | Ck) = |Aik|/ Nk |Aik| 是属性值为Ai 且属于Ck的记录数量例如: P(婚姻状况=婚姻中|否) = 4/7 P(去年退税=是|是)=0,对于连续属性: 离散化把属性的范围划分为许多段：每一段设定一个有序值这样会违反独立性

9、= 1 0 1.2 10-9 = 0 因为： P(X|否)P(否) P(X|是)P(是) 所以： P(否|X) P(是|X) = 逃税 = 否,分类问题2,错误分类率的精度,定义随机变量Xi 如果第个记录被错误分类，Xi=1 ；否则Xi= 0. 假定 Xi 独立同分布，且 P(Xi =1)=p, P(Xi =0)=q. 如果我们认为真正的错误分类率可能在0.05 左右，我们希望有99%的信心误差在真实错误分类率的正负0.01以内，我们需要的记录数为：,关于简单贝叶斯,尽管有大量的独立假设，总的来说分类效果还可以。在某些领域的应用上，其分类效果优于类神经网络和决策树。实验表明在一些标准数据集

10、合上其效果和其它分类法差不多。即使独立假设不成立，且概率估计不精确，还是可以找到最大概率的类别。,Microsoft Naive Bayes 算法,Microsoft Naive Bayes 算法是 Microsoft SQL Server 2005 Analysis Services (SSAS) 提供的一种分类算法，用于预测性建模。该算法在假定列互不相关的前提下计算输入列和可预测列之间的条件概率。该算法的名称 Naive Bayes 即由这一无关性假定而来，因为基于这种理想化的假定，该算法未将可能存在的依赖关系考虑在内。,与其他 Microsoft 算法相比，该算法所需的运算量小，因而能

11、够快速生成挖掘模型，以发现输入列和可预测列之间的关系。可以使用该算法进行初始数据探测，然后根据该算法的结果使用其他运算量较大、更加精确的算法创建其他挖掘模型。,实验五贝叶斯分类,实验内容：生成目标邮件方案，Adventure Works 的市场部希望通过向特定客户发送邮件的方式来提高销售量。公司希望通过调查已知客户的特性来找到可应用于潜在客户的模式。公司希望使用已发现的模式来预测哪些潜在客户最有可能购买自己的产品。公司的数据库 Adventure Works DW 包含一个现有客户列表和一个潜在的新客户列表。创建一个目标邮件方案，包含决策树和贝叶斯分类挖掘模型，这些模型能够提供潜在客户列

12、表中最有可能购买产品的客户的建议。,决策树模型 (Decision Tree),ID3方法基本思想,当前国际上最有影响的示例学习方法首推J.R.Quinlan的ID3（Interative Dicmiser versions3）. 原理：首先找出最有判别力的特征，把数据分成多个子集，每个子集又选择最有判别力的特征进行划分，一直进行到所有子集仅包含同一类型的数据为止。最后得到一棵决策树。 J.R.Quinlan的工作主要是引进了信息论中的互信息，他将其称为信息增益（information gain），作为特征判别能力的度量，并且将建树的方法嵌在一个迭代的外壳之中。,平均互信息 I（U,V） =

13、 H（U） H（U|V） I（U,V）称为U和V之间的平均互信息.它代表接收到符号集V后获得的关于U的信息量。对输入端U只有U1，U2两类，互信息的计算公式为:,ID3决策树,某天早晨气候描述为: 天气：多云气温：冷湿度：正常风：无风它属于哪类气候呢?,实例计算,对于气候分类问题进行具体计算有：信息熵的计算信息熵：类别出现概率： |S|表示例子集S的总数，|ui|表示类别ui的例子数。对9个正例和5个反例有： P（u1）=9/14 P（u2）=5/14 H（U）=（9/14）log（14/9）+（5/14）log（14/5）=0.94bit, 条件熵计算条件熵：属性A1

14、取值vj时，类别ui的条件概率： A1=天气取值 v1=晴，v2=多云，v3=雨在A1处取值晴的例子5个，取值多云的例子4 个，取值雨的例子5 个，故： P（v1）=5/14 P（v2）=4/14 P（v3）=5/14 取值为晴的5 个例子中有2 个正例、3个反例，故： P（u1/v1）=2/5， P（u2/v1）=3/5 同理有：P（u1/v2）=4/4， P（u2/v2）=0 P（u1/v3）=2/5， P（u2/v3）=3/5 H(U/V)=(5/14)(2/5)log(5/2)+(3/5)log(5/3)+(4/14)(4/4)log(4/4) +0)+(5/14)(2/5)log

15、(5/2)+(3/5)log(5/3) = 0.694bit, 互信息计算对 A1=天气处有： I（天气）=H（U）- H（U|V）= 0.94 - 0.694 = 0.246 bit 类似可得： I（气温）=0.029 bit I（湿度）=0.151 bit I（风）=0.048 bit 建决策树的树根和分枝 ID3算法将选择互信息最大的特征天气作为树根，在14个例子中对天气的3个取值进行分枝，3 个分枝对应3 个子集，分别是: F1=1，2，8，9，11，F2=3，7，12，13，F3=4，5，6，10，14 其中F2中的例子全属于P类，因此对应分枝标记为P，其余两个子集既含有正例又含有反例，将递归调用建树算法。, 递归建树分别对F1和F3子集利用ID3算法，在每个子集中对各特征（仍为四个特征）求互信息. （1）F1中的天气全取晴值，则H（U）=H（U|V），有I（U|V）=0，在余下三个特征中求出湿度互信息最大，以它为该分枝的根结点，再向下分枝。湿度取高的例子全为N类，该分枝标记N。取值正常的例子全为P类，该分枝标记P。（2）在F3中，对四个特征求互信息，得到风特征互信息最大，则以它为该分枝根结点。再向下分枝，风取有风时全为N类，该分枝标记N。取无风时全为P类，该分枝标记P。这样就得到下图的决策树。,ID3决策树,C4.5算法

展开阅读全文

简单贝叶斯分类

最新文档