朴素贝叶斯分类器的应用

资源描述

《朴素贝叶斯分类器的应用》由会员分享，可在线阅读，更多相关《朴素贝叶斯分类器的应用（21页珍藏版）》请在金锄头文库上搜索。

1、朴素贝叶斯分类器的应用作者：阮一峰日期：2013年12月16日生活中很多场合需要用到分类，比如新闻分类、病人分类等等。本文介绍朴素贝叶斯分类器(Naive Bayes classifier)，它是一种简单有效的常用分类算法。一、病人分类的例子让我从一个例子开始讲起，你会看到贝叶斯分类器很好懂，一点都不难。某个医院早上收了六个门诊病人，如下表。症状职业疾病打喷嚏护士感冒打喷嚏农夫过敏头痛建筑工人脑震荡头痛建筑工人感冒打喷嚏教师感冒头痛教师脑震荡现在又来了第七个病人，是一个打喷嚏的建筑工人。请问他患上感冒的概率有多大?根据贝叶斯定理P(A|B) = P(B|A) P(A) / P(B)可得P

2、（感冒|打喷嚏x建筑工人）=P（打喷嚏x建筑工人I感冒）x P（感冒）/ P（打喷嚏X建筑工人）假定打喷嚏和建筑工人这两个特征是独立的，因此，上面的等式就变成了P（感冒I打喷嚏X建筑工人）=P（打喷嚏I感冒）X P（建筑工人I感冒）X P（感冒）/ P（打喷嚏）X P（建筑工人）这是可以计算的。P（感冒I打喷嚏X建筑工人）=0.66 X 0.33 X 0.5 / 0.5 X 0.33=0.66因此，这个打喷嚏的建筑工人，有66%的概率是得了感冒。同理，可以计算这个病人患上过敏或脑震荡的概率。比较这几个概率，就可以知道他最可能得什么病。这就是贝叶斯分类器的基本方法:在统计资料的基础上，依据某些

3、特征，计算各个类别的概率，从而实现分类。二、朴素贝叶斯分类器的公式假设某个体有n项特征（Feature），分别为F2、Fn。现有m个类别（Category），分别为q、C2、cm。贝叶斯分类器就是计算出概率最大的那个分类，也就是求下面这个算式的最大值：P（CF1F2.Fn）=P（F1F2.FnC）P（C） / P（F1F2.Fn）由于P（FiF2.Fn）对于所有的类别都是相同的，可以省略，问题就变成了求P（F1F2.FnC）P（C）的最大值。朴素贝叶斯分类器则是更进一步，假设所有特征都彼此独立，因此P(F1F2.Fn|C)P(C)=P(F1|C)P(F2|C) . P(Fn|C)P(C)

4、上式等号右边的每一项，都可以从统计资料中得到，由此就可以计算出每个类别对应的概率, 从而找出最大概率的那个类。虽然所有特征彼此独立这个假设，在现实中不太可能成立，但是它可以大大简化计算，而且有研究表明对分类结果的准确性影响不大。下面再通过两个例子，来看如何使用朴素贝叶斯分类器。三、账号分类的例子本例摘自张洋的算法杂货铺分类算法之朴素贝叶斯分类。根据某社区网站的抽样统计，该站10000个账号中有89%为真实账号(设为C。)，11%为虚假账号(设为q)。C0 = 0.89C1 = 0.11接下来，就要用统计资料判断一个账号的真实性。假定某一个账号有以下三个特征：F1：日志数量/注册天数F2：

5、好友数量/注册天数F3：是否使用真实头像(真实头像为1,非真实头像为0)F1 = 0.1F2 = 0.2F3 = 0请问该账号是真实账号还是虚假账号？方法是使用朴素贝叶斯分类器，计算下面这个计算式的值。P(F1|C)P(F2|C)P(F3|C)P(C)虽然上面这些值可以从统计资料得到，但是这里有一个问题：F1和F2是连续变量，不适宜按照某个特定值计算概率。一个技巧是将连续值变为离散值，计算区间的概率。比如将Fi分解成o, 0.05、(0.05, 0.2)、 0.2, +8三个区间，然后计算每个区间的概率。在我们这个例子中Fi等于0.1,落在第二个区间，所以计算的时候，就使用第二个区间的发生

6、概率。根据统计资料，可得：P(F1|C0) = 0.5, P(F1|C1) = 0.1P(F2|C0) = 0.7, P(F2|C1) = 0.2P(F3|C0) = 0.2, P(F3|C1) = 0.9因此，P(F1|C0) P(F2|C0) P(F3|C0) P(C0)=0.5 x 0.7 x 0.2 x 0.89=0.0623P(F1|C1) P(F2|C1) P(F3|C1) P(C1)=0.1 x 0.2 x 0.9 x 0.11=0.00198可以看到，虽然这个用户没有使用真实头像，但是他是真实账号的概率，比虚假账号高出 30多倍，因此判断这个账号为真。四、性别分类的例子本例摘自

7、维基百科，关于处理连续变量的另一种方法。下面是一组人类身体特征的统计资料。性别身高(英尺)体重(磅) 脚掌(英寸)男618012男5.9219011男5.5817012男5.9216510女51006女5.51508女5.42女5.75130150已知某人身高6英尺、体重130磅，脚掌8英寸，请问该人是男是女？根据朴素贝叶斯分类器，计算下面这个式子的值。P（身高I性别）x P（体重|性别）x P（脚掌|性别）x P（性别）这里的困难在于，由于身高、体重、脚掌都是连续变量，不能采用离散变量的方法计算概率。而且由于样本太少，所以也无法分成区间计算。怎么办？这时，可以假设男性和女性的身高、体重、

8、脚掌都是正态分布，通过样本计算出均值和方差，也就是得到正态分布的密度函数。有了密度函数，就可以把值代入，算出某一点的密度函数的值。比如，男性的身高是均值5.855、方差0.035的正态分布。所以，男性的身高为6英尺的概率的相对值等于1.5789（大于1并没有关系，因为这里是密度函数的值，只用来反映各个值的相对可能性）。“所以，男性的身高为6英尺的概率等于1.5789 （大于1并没有关系，因为这里是密度函数的值）”一一我理解是不是因为最终只是比较相对大小，做一个判定，所以直接采用密度函数的值作为概率值？因为理论上连续变量取某一个具体值的概率都是无穷小。w 1.5789有了这些数据以

9、后，就可以计算性别的分类了。P（身高=6|男）x P（体重=130|男）x P（脚掌=8|男）x P（男）=6.1984 x e-9P（身高=6|女）x P（体重=130|女）x P（脚掌=8|女）x P（女）=5.3778 x e-4可以看到，女性的概率比男性要高出将近10000倍，所以判断该人为女性。（完）#a耳锻克-国或wnaX*吓券皿乂昭異圖应用-” x+O *3ww,rfJruaoyifengtciomii，blQg/20L3IQ2/iniiivt-_bfl),c5_cla-5.sificT!htrTilF 一- ” S 展aFflt run.K.亠壬 B.K 书 RiejFSM f

10、t f； IS Slackboarc中51 田ftK厕匸豆 HJ乎 -IIV_.： 7 启朋 g屈.tT町一|i.: . - : f很据朴录贝叶斯分粪器rsrra这式子的值.P曲菖卜：讪X P（#f性别）X P脚爷 V ） X P唯别）Q SOBS -碗 nan.sDXt补療口l?t禅细空应用K+C t）vrtvw, ruanyifeng .com -blog/ZOl/LSAnarve-bayes-C Id55 ifieRhtml甲.i金百iQi HS-T：. t=SFW Q ML - JI乎.UT：.?i：-:.由=；mjF 电11-.；.小沂 t-il：于：l M规也无法讨成区间i+蕨岳

11、_：门I 町品.月 ”：C-卩.芒三、 .为一“,.g.iiigi-亠斗；.：/. -：；.T.：-：. -L 密度函甑就可以把ig 1 . Mttl 匸m：门一.比如，男性的身高是均值5蜀5、方差6035的正态分布删.男性的身言为無尺的橇李的相对值等于殆冋（丈于讲役有关嬴因为这里是密姬毅的直只用来削t召个值的粕对可能性）.p（ |1诞1吐| nuiki）=iK|）有了谊些鹽据氏后就可氏计算性别的饌了.P（身备创男】K Pfcl=13创男）X P（P=I|男）x P（男）-6. J9S4 jc =9Pf身高=创女k P体童=1阳|打 PffipM=8|S-） x P（女）=5.377E

12、z e1I.H ： - . I ： ;r-ly :/?：.：. I/1W0D-. r.：/J. I.朴素贝叶斯编辑本词条缺少名片图，补充相关内容使词条更完整，还能快速升级，赶紧来编辑吧！最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model, NBM)。中文名朴素贝叶斯外文名Naive Bayesian Model简称NBM属于广泛的分类模型之一1定义2详细内容3应用4模型定义编辑学过概率的同学一定都知道贝叶斯定理：这个在250多年前发明的算法，在信息领域内有着无与伦比的地位。贝叶斯分类是一系列分类算法的总称，这

13、类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。朴素贝叶斯算法(Naive Bayesian)是其中应用最为广泛的分类算法之一。朴素贝叶斯分类器基于一个简单的假定：给定目标值时属性之间相互条件独立。通过以上定理和“朴素”的假定，我们知道:P( Category | Document) = P ( Document | Category ) * P( Category) /P(Docume nt)1详细内容编辑分类是将一个未知样本分到几个预先已知类的过程数据分类问题的解决是一个两步过程：第一步,建立一个模型，描述预先的数据集或概念集。通过分析由属性描述的样本(或实例，对象等)来构造模型。假

14、定每一个样本都有一个预先定义的类，由一个被称为类标签的属性确定。为建立模型而被分析的数据元组形成训练数据集，该步也称作有指导的学习。在众多的分类模型中，应用最为广泛的两种分类模型是决策树模型(Decision TreeModel)和朴素贝叶斯模型(Naive Bayesian Model，NBC)。决策树模型通过构造树来解决分类问题。首先利用训练数据集来构造一棵决策树，一旦树建立起来，它就可为未知样本产生一个分类。在分类问题中使用决策树模型有很多的优点，决策树便于使用，而且高效; 根据决策树可以很容易地构造出规则，而规则通常易于解释和理解；决策树可很好地扩展到大型数据库中，同时它的大小独立于数据库的大小；决策树模型的另外一大优点就是可以对有许多属性的数据集构造决策树。决策树模型也有一些缺点，比如处理缺失数据时的困难, 过度拟合问题的出现，以及忽略数据集中属性之间的相关性等。应用编辑和决策树模型相比，朴素贝叶斯分类器(Naive Bayes Classifier咸NBC)发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。同时，NBC模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。

展开阅读全文