[精品]高级人工智能－金锄头文库

资源描述

《[精品]高级人工智能》由会员分享，可在线阅读，更多相关《[精品]高级人工智能（103页珍藏版）》请在金锄头文库上搜索。

1、10/20/2018,史忠植高级人工智能,1,高级人工智能,第六章概率推理史忠植中国科学院计算技术所,6.1概述 6.2贝叶斯概率基础 6.3贝叶斯学习理论 6.4简单贝叶斯学习模型 6.5贝叶斯网络的建造 6.6主动贝叶斯网络 6.7贝叶斯潜在语义模型 6.8贝叶斯网络的证据推理,内容提要,10/20/2018,史忠植高级人工智能,3,贝叶斯网络是什么,贝叶斯网络是用来表示变量间连接概率的图形模式，它提供了一种自然的表示因果信息的方法，用来发现数据间的潜在关系。在这个网络中，用节点表示变量，有向边表示变量间的依赖关系。贝叶斯方法正在以其独特的不确定性知识表达形式、丰富的概率表达能力、

2、综合先验知识的增量学习特性等成为当前数据挖掘众多方法中最为引人注目的焦点之一。,10/20/2018,史忠植高级人工智能,4,贝叶斯网络是什么,贝叶斯（Reverend Thomas Bayes 1702-1761）学派奠基性的工作是贝叶斯的论文“关于几率性问题求解的评论”。或许是他自己感觉到它的学说还有不完善的地方，这一论文在他生前并没有发表，而是在他死后，由他的朋友发表的。著名的数学家拉普拉斯（Laplace P. S.）用贝叶斯的方法导出了重要的“相继律”，贝叶斯的方法和理论逐渐被人理解和重视起来。但由于当时贝叶斯方法在理论和实际应用中还存在很多不完善的地方，因而在十九世纪并未被普遍接

3、受。,10/20/2018,史忠植高级人工智能,5,贝叶斯网络是什么,二十世纪初，意大利的菲纳特（B. de Finetti）以及英国的杰弗莱（Jeffreys H.）都对贝叶斯学派的理论作出重要的贡献。第二次世界大战后，瓦尔德（Wald A.）提出了统计的决策理论，在这一理论中，贝叶斯解占有重要的地位；信息论的发展也对贝叶斯学派做出了新的贡献。1958年英国最悠久的统计杂志Biometrika全文重新刊登了贝叶斯的论文，20世纪50年代，以罗宾斯（Robbins H.）为代表，提出了经验贝叶斯方法和经典方法相结合，引起统计界的广泛注意，这一方法很快就显示出它的优点，成为很活跃的一个方向。,

4、10/20/2018,史忠植高级人工智能,6,贝叶斯网络是什么,随着人工智能的发展，尤其是机器学习、数据挖掘等兴起，为贝叶斯理论的发展和应用提供了更为广阔的空间。贝叶斯理论的内涵也比以前有了很大的变化。80年代贝叶斯网络用于专家系统的知识表示，90年代进一步研究可学习的贝叶斯网络，用于数据采掘和机器学年来，贝叶斯学习理论方面的文章更是层出不穷，内容涵盖了人工智能的大部分领域，包括因果推理、不确定性知识表达、模式识别和聚类分析等。并且出现了专门研究贝叶斯理论的组织和学术刊物ISBA,10/20/2018,史忠植高级人工智能,7,贝叶斯网络的应用领域,辅助智能决策数据融合模式识别医疗诊断

5、文本理解数据挖掘,10/20/2018,史忠植高级人工智能,8,统计概率,统计概率:若在大量重复试验中，事件A发生的频率稳定地接近于一个固定的常数p，它表明事件A出现的可能性大小，则称此常数p为事件A发生的概率，记为P(A), 即pP(A) 可见概率就是频率的稳定中心。任何事件A的概率为不大于1的非负实数，即0P(A)1,10/20/2018,史忠植高级人工智能,9,条件概率,条件概率:我们把事件B已经出现的条件下，事件A发生的概率记做为P(A|B)。并称之为在B出现的条件下A出现的条件概率，而称P(A)为无条件概率。若事件A与B中的任一个出现，并不影响另一事件出现的概率，即当P(A)

6、P(AB)或P(B)P(BA)时，则称A与B是相互独立的事件。,10/20/2018,史忠植高级人工智能,10,加法定理,两个不相容(互斥)事件之和的概率,等于两个事件概率之和,即P(A+B) P(A)P(B)若A、B为两任意事件，则：P(A+B)P(A)P(B)P(AB),10/20/2018,史忠植高级人工智能,11,乘法定理,设A、B为两个任意的非零事件，则其乘积的概率等于A(或B)的概率与在A(或B)出现的条件下B(或A)出现的条件概率的乘积。P(AB)P(A)P(B|A) 或 P(AB)P(B)P(A|B),10/20/2018,史忠植高级人工智能,12,贝叶斯网络定义,贝叶斯

7、网络是表示变量间概率依赖关系的有向无环图，这里每个节点表示领域变量，每条边表示变量间的概率依赖关系，同时对每个节点都对应着一个条件概率分布表(CPT) ，指明了该变量与父节点之间概率依赖的数量关系。,10/20/2018,史忠植高级人工智能,13,贝叶斯网的表示方法,= P(A) P(S) P(T|A) P(L|S) P(B|S) P(C|T,L) P(D|T,L,B),P(A, S, T, L, B, C, D),贝叶斯网络是表示变量间概率依赖关系的有向无环图,10/20/2018,史忠植高级人工智能,14,先验概率,先验概率是指根据历史的资料或主观判断所确定的各事件发生的概率，该类概率

8、没能经过实验证实，属于检验前的概率，所以称之为先验概率。先验概率一般分为两类，一是客观先验概率，是指利用过去的历史资料计算得到的概率；二是主观先验概率，是指在无历史资料或历史资料不全的时候，只能凭借人们的主观经验来判断取得的概率。,10/20/2018,史忠植高级人工智能,15,后验概率,后验概率一般是指利用贝叶斯公式，结合调查等方式获取了新的附加信息，对先验概率进行修正后得到的更符合实际的概率。,10/20/2018,史忠植高级人工智能,16,联合概率,联合概率也叫乘法公式，是指两个任意事件的乘积的概率，或称之为交事件的概率。,10/20/2018,史忠植高级人工智能,17,设A1,A

9、2,An是两两互斥的事件，且P(Ai)0， i =1,2,n, A1+A2+,+An=,全概率公式,A1,A2,A3,An,B,另有一事件B,= BA1+BA2+,+BAn,称满足上述条件的 A1,A2,An为完备事件组.,10/20/2018,史忠植高级人工智能,18,全概率,例:某汽车公司下属有两个汽车制造厂,全部产品的40%由甲厂生产,60%由乙厂生产.而甲乙二厂生产的汽车的不合格率分别为1%,2%.求从公司生产的汽车中随机抽取一辆为不合品的概率. 解:设A1,A2分别表示甲厂汽车乙厂汽车,B表示不合格品P(A1)=0.4, P(A2)=0.6P(B/A1)=0.01, P(B/A2

10、)=0.02A1A2= P(B)=P(A1B+A2B) =P(A1B)+P(A2B)=P(A1)P(B/A1)+P(A2)P(B/A2)=0.40.01+0.60.02=0.016,10/20/2018,史忠植高级人工智能,19,由此可以形象地把全概率公式看成为 “由原因推结果”，每个原因对结果的发生有一定的“作用”，即结果发生的可能性与各种原因的“作用”大小有关. 全概率公式表达了它们之间的关系 .,诸Ai是原因 B是结果,A1,A2,A3,A4,A5,A6,A7,A8,B,全概率,10/20/2018,史忠植高级人工智能,20,该公式于1763年由贝叶斯(Bayes)给出. 它是在观察

11、到事件B已发生的条件下，寻找导致B发生的每个原因的概率.,贝叶斯公式,设A1,A2,An是样本空间中的完备事件组且P(Ai)0，i=1,2,n, 另有一事件B，则有,10/20/2018,史忠植高级人工智能,21,贝叶斯规则,基于条件概率的定义 p(Ai|E) 是在给定证据下的后验概率 p(Ai) 是先验概率 P(E|Ai) 是在给定Ai下的证据似然 p(E) 是证据的预定义后验概率,A1,A2,A3,A4,A5,A6,E,10/20/2018,史忠植高级人工智能,22,贝叶斯网络的概率解释,任何完整的概率模型必须具有表示（直接或间接）该领域变量联合分布的能力。完全的枚举需要指数级的规模（

12、相对于领域变量个数）贝叶斯网络提供了这种联合概率分布的紧凑表示：分解联合分布为几个局部分布的乘积：从公式可以看出，需要的参数个数随网络中节点个数呈线性增长，而联合分布的计算呈指数增长。网络中变量间独立性的指定是实现紧凑表示的关键。这种独立性关系在通过人类专家构造贝叶斯网中特别有效。,10/20/2018,史忠植高级人工智能,23,简单贝叶斯学习模型,简单贝叶斯学习模型（Simple Bayes 或 Nave Bayes ）将训练实例I分解成特征向量X和决策类别变量C。简单贝叶斯模型假定特征向量的各分量间相对于决策变量是相对独立的，也就是说各分量独立地作用于决策变量。尽管这一假定一定程度上

13、限制了简单贝叶斯模型的适用范围，然而在实际应用中，不仅以指数级降低了贝叶斯网络构建的复杂性，而且在许多领域，在违背这种假定的条件下，简单贝叶斯也表现出相当的健壮性和高效性111，它已经成功地应用到分类、聚类及模型选择等数据挖掘的任务中。目前，许多研究人员正致力于改善特征变量间独立性的限制54，以使它适用于更大的范围。,10/20/2018,史忠植高级人工智能,24,简单贝叶斯 Nave Bayesian,结构简单只有两层结构推理复杂性与网络节点个数呈线性关系,10/20/2018,史忠植高级人工智能,25,设样本A表示成属性向量，如果属性对于给定的类别独立，那么P(A|Ci)可以分解成几个

14、分量的积：,ai是样本A的第i个属性,简单贝叶斯学习模型,10/20/2018,史忠植高级人工智能,26,简单贝叶斯分类模型,这个过程称之为简单贝叶斯分类 (SBC: Simple Bayesian Classifier)。一般认为，只有在独立性假定成立的时候，SBC才能获得精度最优的分类效率；或者在属性相关性较小的情况下，能获得近似最优的分类效果。,简单贝叶斯学习模型,10/20/2018,史忠植高级人工智能,27,基于Boosting简单贝叶斯模型。,提升方法（Boosting）总的思想是学习一系列分类器，在这个序列中每一个分类器对它前一个分类器导致的错误分类例子给与更大的重视。尤其是

15、，在学习完分类器Hk之后，增加了由Hk导致分类错误的训练例子的权值，并且通过重新对训练例子计算权值，再学习下一个分类器Hk+1。这个过程重复T次。最终的分类器从这一系列的分类器中综合得出。,简单贝叶斯模型的提升,10/20/2018,史忠植高级人工智能,28,Boosting背景,来源于:PAC-Learning Model Valiant 1984 -11 提出问题: 强学习算法: 准确率很高的学习算法弱学习算法: 准确率不高,仅比随机猜测略好是否可以将弱学习算法提升为强学习算法,10/20/2018,史忠植高级人工智能,29,Boosting背景,最初的boosting算法Scha

16、pire 1989 AdaBoost算法Freund and Schapire 1995,10/20/2018,史忠植高级人工智能,30,Boosting,基本思想：每个样本都赋予一个权重 T次迭代，每次迭代后，对分类错误的样本加大权重，使得下一次的迭代更加关注这些样本。 Boosting也要求“不稳定”的分类方法,10/20/2018,史忠植高级人工智能,31,Boosting,过程: 在一定的权重条件下训练数据，得出分类法Ct 根据Ct的错误率调整权重,Set of weighted instances,Classifier Ct,train classifier,adjust weights,10/20/2018,史忠植高级人工智能,

展开阅读全文