C贝叶斯分类实用教案

资源描述

《C贝叶斯分类实用教案》由会员分享，可在线阅读，更多相关《C贝叶斯分类实用教案（16页珍藏版）》请在金锄头文库上搜索。

1、2024/7/301先验概率先验概率(gil)和后验概率和后验概率(gil)用P(h)表示在没有训练数据前假设h拥有的初始概率。P(h)被称为h的先验概率。先验概率反映了关于h是一正确假设的机会的背景知识如果没有这一先验知识，可以简单地将每一候选假设赋予相同(xintn)的先验概率类似地，P(D)表示训练数据D的先验概率，P(D|h)表示假设h成立时D的概率在分类中，我们关心的是P(h|D)，即给定D时h的成立的概率，称为h的后验概率第2页/共15页第1页/共15页第一页，共16页。2024/7/302贝叶斯公式贝叶斯公式(gngsh)贝叶斯公式提供了从先验概率P(h)、P(D)和P(D|h)

3、叶斯网络(wnglu)与联合概率分布与联合概率分布第5页/共15页第4页/共15页第四页，共16页。2024/7/305贝叶斯网络贝叶斯网络(wnglu)分类器分类器设每个实例(shl)x可由属性值的合取描述，而目标函数f(x)从某有限集合V中取值。应用贝叶斯网络方法的新实例(shl)分类目标是在给定描述实例(shl)的属性值下，得到最可能的目标值vMAP使用贝叶斯公式变化上式第6页/共15页第5页/共15页第五页，共16页。2024/7/306最优贝叶斯网络最优贝叶斯网络(wnglu)分类器分类器第7页/共15页第6页/共15页第六页，共16页。2024/7/307贝叶斯网络贝叶斯网络(wn

4、glu)分类器的困难分类器的困难基于训练数据估计上面式子中的两个数据项的值估计P(vj)虽然很容易：计算每个目标值vj出现在训练数据中的频率(pnl)。估计P(a1,.an|vj)却非常困难，除非有一个非常大的训练数据集，否则无法获得可靠的估计。第8页/共15页第7页/共15页第七页，共16页。2024/7/308属性属性(shxng)条件独立假设条件独立假设为避免估计P(a1,.an|vj)遇到的困难，朴素贝叶斯网络分类器引入了一个简单的假定：在给定目标值时，属性值之间相互条件独立。这个假设被广泛(gungfn)第称作属性条件独立假设。所以有成立。第9页/共15页第8页/共15页第八页，共1

5、6页。2024/7/309朴素朴素(ps)贝叶斯分类器贝叶斯分类器朴素贝叶斯网络分类器的计算公式如下：显然，从训练数据中估计不同P(ai|vj)项的计算量比要估计P(a1,.,an|vj)项所需的计算量小得多。朴素贝叶斯网络分类器没有明确地搜索可能假设空间的过程(guchng)，只需简单地计算训练样例中不同数据组合的出现频率。第10页/共15页第9页/共15页第九页，共16页。2024/7/3010NB图图第11页/共15页第10页/共15页第十页，共16页。2024/7/3011朴素朴素(ps)贝叶斯网络分类的例子贝叶斯网络分类的例子已知PlayTennis数据库中的14个训练样例，则给新实

7、器固然简单，但其不现实的属性条件独立假设严重影响了它的分类性能。所以学习最优的BN分类器引起了广大研究者的兴趣，遗憾的是，这是一个NP难问题。因此，学习改进的NB分类器才是真正可行(kxng)的，最近的研究成果几乎都是这样产生的。第13页/共15页第12页/共15页第十二页，共16页。2024/7/3013NB算法算法(sunf)的不足及改进（续）的不足及改进（续）改进的方法当然就是最大限度地释放朴素(p s)贝叶斯网络的属性条件独立假设。具体方法分三类： 1）选择属性子集，如SBC、WRAP和ENB等； 2）拓展朴素(p s)贝叶斯网络的结构，用有向边来表达属性之间的依赖关系，如TAN、SP

8、-TAN和ODANB等； 3）利用局部学习的原理，在整个训练实例的局部构建朴素(p s)贝叶斯网络分类器，如NBTree、LWNB和SNNB等。第14页/共15页第13页/共15页第十三页，共16页。2024/7/3014概率概率(gil)估计估计概率估计我们通过在全部事件基础上观察某事件出现的比例来估计概率当样本很小时，采用平滑技术LaplaceestimationM-estimationm是一称为等效样本大小的常量，如1、2、等。p是将要确定的概率的先验估计，在缺少其他信息时，选择p的一种典型的方法是均匀概率，比如某属性有k个可能值，那么(nme)p=1/kM-estimation可被解

9、释为将n个实际的观察扩大，加上m个按p分布的虚拟样本。当m=1/p时，M-estimation为Laplaceestimation。第15页/共15页第14页/共15页第十四页，共16页。2024/7/3015感谢您的欣赏(xnshng)！第15页/共15页第十五页，共16页。内容(nirng)总结2021/11/10。用P(h)表示在没有训练数据前假设h拥有的初始(ch sh)概率。估计P(vj)虽然很容易：计算每个目标值vj出现在训练数据中的频率。这个假设被广泛第称作属性条件独立假设。P(yes)=9/14=0.64。P(no)=5/14=0.36。P(strong|yes)=3/9=0.33。P(strong|no)=3/5=0.60。我们通过在全部事件基础上观察某事件出现的比例来估计概率。感谢您的欣赏第十六页，共16页。

展开阅读全文

C贝叶斯分类实用教案

最新文档