数据挖掘_贝叶斯定理(第三章) (1)

上传人:mg****85 文档编号:55379887 上传时间:2018-09-28 格式:PPT 页数:18 大小:332.50KB
返回 下载 相关 举报
数据挖掘_贝叶斯定理(第三章) (1)_第1页
第1页 / 共18页
数据挖掘_贝叶斯定理(第三章) (1)_第2页
第2页 / 共18页
数据挖掘_贝叶斯定理(第三章) (1)_第3页
第3页 / 共18页
数据挖掘_贝叶斯定理(第三章) (1)_第4页
第4页 / 共18页
数据挖掘_贝叶斯定理(第三章) (1)_第5页
第5页 / 共18页
点击查看更多>>
资源描述

《数据挖掘_贝叶斯定理(第三章) (1)》由会员分享,可在线阅读,更多相关《数据挖掘_贝叶斯定理(第三章) (1)(18页珍藏版)》请在金锄头文库上搜索。

1、贝叶斯分类,不难想象,数据并不是总体或系统建模是唯一可利用的信息资源。贝叶斯方法提供了一套将外部客观信息融入数据分析过程中的原理方法。这个分析过程是先给出一个待分析数据集的概率分布。因为这个分布是没有考虑任何数据而给出的,所以称为先验分布。这个新的数据集将先验分布修正后得到后验分布。贝叶斯定理就是在知道新的信息后修正数据集概率分布的基本工具。,贝叶斯定理为解决归纳-推理分类问题的统计方法提供了理论背景。我们首先介绍贝叶斯定理中的基本概念,然后在运用这个定理说明朴素贝叶斯分类过程和简单贝叶斯分类。,设X是一个未知类标号的数据样本,设H为某种假定: 数据样本X属于某特定的类C。我们希望确定 ,即给

2、定观测数据样本X后假定H成立的概率。它是表示给出数据集X后我们对假定的信任度的后验概率。相反,不管数据样本看上去如何,对于任何样本来说 都是先验概率。后验概率 比先验概率 基于更多的信息。,数据样本是数据挖掘过程的基本组成部分,贝叶斯定理提供了一种由概率 、 和 来计算后验概率的方法,其基本关系是:,现在假定有一组m个元素的样本S= (训练数据集),其中每一个样本代表了一个n维向量 。 值分别和样本属性 相对应。并且有k个样本类 ,每一个样本属于其中一个类。另外给出一个数据样本X(它的类是未知的),可以用最高的条件概率 来预测X的类,这里i=1,k。这是朴素贝叶斯分类的基本思想。,可以通过贝叶

3、斯定理计算这些概率:,因为 对所有的类别都是个常量,仅要求乘积 的最大值。我们用下面的式子计算一个类别的先验概率。= 类别 的训练样本数量/m(m是训练样本的总数).因为 的计算是极其复杂的,特别是对大量的数据集来说,所以要给出零假设:样本各属性之间条件独立。利用这个假设,我们用一个乘积来表示 .= 其中 是样本X的属性值,能够通过训练数据集来计算 .,例如:一个销售的顾客数据库(训练样本集合),对购买计算机的人员进行分类: 字段为(年龄(取值:40);收入(高,中,低);学生否(Y,N);信用(一般,很好);购买计算机否(Y,N) 记录为14个,具体数据如下:X1=(40, 中, N, 一般

4、,Y); X5=(40,低, Y, 一般,Y); X6=(40, 低, Y, 很好,N); X7=(3040,低, Y,很好,Y); X8=(40,中, Y,一般,Y); X11=(40,中,N,很好,N);利用贝叶斯法则预测,符合下列条件的人员购买计算机的可能性 X=(年龄30,收入=中,学生否=Y,信用=一般),本例只有两个类别,即C1=购买计算机,C2=不购买计算机,P(Ci)为每个事件的事前概,P(C1)=9/14=0.643, P (C2)=5/14=0.357,为了计算P(X|Ci)(i=1,2),先进行以下运算:P(年龄30|C)=2/9, P(年龄P(X|C2)*P(C2)所以

5、根据贝叶斯分类方法可知,数据对象属于购买计算机类,即1分母相同只需比较分子的大小即可。,应用例2 表2-1身高分类样本数据,表3-2 对应于属性的概率,利用训练数据可以估计出先验概率P(矮)=4/15=0.267, P(中)=8/15=0.533 , P(高)=3/15=0.2 利用上述数值对一个新元组进行分类。例如,希望对t=(Adam,男,1.95m)进行分类。由上述数值及对应于性别和身高的相应概率,可得到下列估计P(t|矮)=1/4*0=0 P(t|中)=2/8*1/8=0.031P(t|高)=3/3*1/3=0.333 进而可得 P(t|矮) P(矮)=0*0.267=0P(中) P(t|中)= 0.031*0.533=0.0166P(高) P(t|高)= 0.333*0.2=0.0666 由于t 可能为矮、中、高三者之一,所以三个单个的似然值加起来,即可得到P(t)的估计,即P(t)=0+0.0166+0.0666=0.0832,最后,可得到每个事件的实际概率为:P(矮|t)=0*0.267/0.0832=0P(中|t)=0.031*0.533/0.0832=0.2P(高|t)=0.333*0.2/0.0832=0.8 因此基于这些概率,可以将新元组分配到身高为高的类别中,这是因为它具有最高的概率。 怎样可视化?,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号