哈工大人工智能幻灯片chpt5(4)

资源描述

《哈工大人工智能幻灯片chpt5(4)》由会员分享，可在线阅读，更多相关《哈工大人工智能幻灯片chpt5(4)（95页珍藏版）》请在金锄头文库上搜索。

1、人工智能原理第5章不精确推理,本章内容 5.1 不精确推理的必要性 5.2 不确定性的表示 5.3 贝叶斯网络 5.4 可信度方法 5.5 模糊推理参考书目附录似然比与贝叶斯概率推理,第7章不精确推理,5.1 不精确推理的必要性不精确推理的原因 / 方法,第7章不精确推理,4,为什么要不精确推理,推理所需的信息不完备：竞争双方不知道对方信息背景知识不足：疑难病症的机理多种原因导致同一结果：疾病的诊断信息描述模糊：目击者对嫌疑犯的描述信息中含有噪声：做假帐，虚假统计报表，采集数据当中的噪声（雷达、声纳/化验）等规则是模糊的：定性描述，如“如果刑事犯罪猖獗，就应加大打击力

2、度”等推理能力不足：天气预报的计算解决方案不唯一：多个方案如何选优的问题,第7章不精确推理,5,不确定性与不精确推理,从智能体角度看，他不得不在不确定的环境下行动现实的不确定性需要不精确推理：将数值计算引入推理过程继续使用逻辑联结词真假值概率化，以表示某种可靠程度在推理的前提和结论之间建立概率公式应用：专家系统中的推理网络 PROSPECTOR系统 MYCIN系统,第7章不精确推理,5.2 不确定性的表示 5.2.1 概率及其公理 5.2.2 概率推理,第7章不精确推理,7,主观Bayes主义(概率从何而来),主观Bayes主义：现实世界的一些因果关系可以形成一种信念，它

3、并非在所有场合下都正确，可称为部分信念表示这种信念的最好方法是概率方法对概率的解释有若干种，其中一种称为主观Bayes主义 / 要点：概率是个人的一种合理置信度，每个人的估计(概率)虽然各不相同，但应该满足概率的基本规律和其他某些客观规律，因而是合理的,第7章不精确推理,8,5.2.1 概率及其公理,随机变量布尔随机变量定义域= 离散随机变量定义域=可数域连续随机变量定义域=实数集合原子事件世界的所有随机变量的特定赋值组合 / 构成无法确定的世界状态的完整详细描述如X的世界由weather=和今天是否喝酒drink_today=组成则有4*2种不同原子事件,第7章不精确推理,

4、9,原子事件的性质,(1)原子事件是互斥的：sunnydrink_today 和sunnydringk_today不能同时成立 (2)由所有原子事件组成的集合是穷尽的至少有一个原子事件一定成立 / 所有原子事件的逻辑析取=T (3)任何特定的原子事件与每个命题(简单或者复合命题)的真或假一一对应任何一个表示所在世界状态的命题都可以用原子事件的逻辑联结表示，任何一个命题逻辑上都等价于所有蕴涵该命题真值的原子事件的析取 sunny等价于sunny drink_today sunny drink_today,第7章不精确推理,10,先验概率的表示,先验概率：没有任何其它信息存在情况下关于某个命题的

5、信度用向量表示随机变量的先验概率分布 P(weather)= 对于组成世界的离散随机变量全集，使用诸如： P(weather, drink_today)来表示涵盖全集的随机变量集的值的全部组合的概率：全联合概率分布,第7章不精确推理,11,先验概率的表示,全联合概率分布用概率表表示 P用4*2表格表示,第7章不精确推理,12,条件概率的表示,条件概率定义由此有乘法定理 P(ab)=P(a|b)P(b)=P(b|a)P(a) 如果a和b相互独立，则 P(a|b)=P(a) P(b|a)=P(b) P(ab)=P(a)P(b),第7章不精确推理,13,概率公理,Bayes概率服从如下公理

6、(Kolmogorov公理)： (1)0P(a)1 (2)P(T)=1 / P(F)=0 (3)P(ab)=P(a)+P(b)-P(ab) 当a/b互斥有P(ab)=P(a)+P(b) 此为加法定理互斥性也就是独立性这样的概率公理是不能违反的,第7章不精确推理,14,全概率公式,原子事件的性质：任何命题a等价于所有a在其中成立的原子事件的析取事件集合记为e(a) 由所有原子事件是互斥的，得到如下全联合概率分布一个命题的概率等于所有它在其中成立的原子事件的概率和 / 满足独立性和完全性,第7章不精确推理,15,5.2.2 使用全联合概率分布进行推理,全联合概率分布是知识库，从中可得到所

7、有概率的计算命题在其中成立的所有原子事件的概率和 P(cavitytoothache)=0.108+0.012+0.072+0.008+ 0.016+0.064=0.28 P(catch)=0.108+0.016+0.072+0.144=0.34,第7章不精确推理,16,边缘化,上述全概率公式从另一个角度可以视为通用化边缘规则： P(A)=zP(A,z)=zP(z)P(A|z) 将某个随机变量的分布抽取出来，求和从而得到该变量的无条件概率(或称为边缘概率) / 其过程称为边缘化或求和消元(summing out) 用于从多个变量的全概率分布中求取某个变量的概率，进行推理,第7章不精确推理,

8、17,归一化,大多数情况下我们对计算某个变量的条件概率感兴趣： 1/P(toothache)保持不变，可把它看成是保证其所包含的概率相加为1的常数。引入归一化常数=1/p(a)+p(a) 一般公式：P(X|e)=P(X,e)=yP(X,e,y)（根据全概率公式）解释为：e固定条件下X/Y遍历所有值，构成此时的所有原子事件,第7章不精确推理,18,Bayes公式,Bayes公式(也称逆概率公式) 从条件概率公式可得在某些场合下引入一个证据e以后，得更通用的Bayes公式,第7章不精确推理,19,逆概率公式的例子,逆概率公式不仅是条件概率公式的一个简单变形，实际上很有用处如果某个条件概率

9、不便计算，则可以先计算其逆概率，而后算出所要的条件概率例子：求P(肺炎|咳嗽)可能比较困难，但统计P(咳嗽|肺炎)可能比较容易(因为要上医院)/ 假设P(肺炎)=1/10000，而P(咳嗽)=1/10，90%的肺炎患者都咳嗽，则 P(肺炎|咳嗽)=,第7章不精确推理,20,修正因子(1),可以将前面的逆概率公式写成这说明先验概率P(H)可以通过方括号部分(作为修正因子)修正为后验概率P(H|E) (证据E为真时H的后验概率) 在上面的例子中，医生认为一个人得肺炎的可能性为万分之一，一旦发现患者咳嗽，就将调整为万分之九,第7章不精确推理,21,修正因子(2),将E看作证据，先验概率P(E

10、)越小，且H为真时E的条件概率P(E|H)越大，则修正因子所起作用越大在上例中，如果 P(咳嗽)=0.0001 / P(咳嗽|肺炎)=0.9999 / P(肺炎)不变则P(肺炎|咳嗽)=0.9999，远远超过原来的万分之九,第7章不精确推理,22,后验概率递推公式,当有n个互相独立的证据，则有公式上式可以写成递推公式形式：上式说明：随着新证据的不断获得，从证据少时的后验概率推出证据多时的后验概率，且每一步都是把上一步的后验概率视为新证据到来时的先验概率,第7章不精确推理,23,独立性条件下的推理,使用全联合分布表，可以进行查询(推理) / 但只适用于变量少的情况 N个可能证据变量，

12、(Toothache|Cavity) P(Catch|Cavity) 和 P(Toothache,Cavity,Catch)=P(To,Cat|Cav)P(Cav) =P(To|Cav)P(Cat|Cav)P(Cav),第7章不精确推理,25,条件独立性的结果,条件概率表(CPT)的分解原概率表有7个彼此独立的数值(23-1) 新概率表有5个独立数值(2+2+1) n个变量彼此独立后，表示的规模从O(2n)变为O(n) 条件独立性允许概率系统进行规模的扩展；条件独立性比绝对独立性更容易获得此结论导致了朴素贝叶斯模型 P(Cause,Effect1,Effectn)=(P(Ei|C)P(C

13、),第7章不精确推理,5.3 贝叶斯网络 5.3.1 贝叶斯网络的表示 5.3.2 贝叶斯网络中的精确推理 5.3.3 贝叶斯网络的近似推理,第7章不精确推理,27,贝叶斯网络的由来,全联合概率计算复杂性十分巨大朴素贝叶斯太过简单现实需要一种自然、有效的方式来捕捉和推理不确定性知识变量之间的独立性和条件独立性可大大减少为了定义全联合概率分布所需的概率数目,28,贝叶斯网络定义,贝叶斯网络(Bayesian network)是一个有向图，其中每个节点都标注了定量概率信息 (1)一个随机变量集合组成网络节点，变量可以是离散的或者连续的 (2)一个连接节点对的有向边或者箭头的集合，如果存在

14、从节点X指向节点Y的有向边，则称X是Y的一个父节点 (3)每个节点都存在一个条件概率分布P(Xi|Parent(Xi)，量化父节点对该节点的影响 (4)图中不存在有向环(是有向无环图DAG),第7章不精确推理,29,5.3.1 贝叶斯网络的表示,从一个例子(防盗网)开始,第7章不精确推理,30,条件概率表,每个节点旁的条件概率表(简称CPT)中的值对应一个条件事件的概率如P(A)=0.94=P(A|BurglaryEarthquake) 条件事件是父节点取值的一个可能组合每行的概率之和应该为1(表中只给出了为真的情况，为假的概率应为1-p) 一个具有k个布尔父节点的布尔变量的条件概率表

15、中有2k个独立的可指定的概率(注意概率值是独立的) 没有父节点的节点的概率只有1行 / 为先验概率,第7章不精确推理,31,贝叶斯网络语义：全联合概率分布,全联合概率分布的每个条目都可以通过贝叶斯网络的信息计算出来：联合分布中的某项是对每个变量赋予一个特定值情况下的合取概率就是条件概率表中适当元素的乘积,第7章不精确推理,32,链式法则,初始的合取概率化为更小的条件概率和更小的合取式 P(Xi|Xi-1,X1)=P(Xi|Parent(Xi)如果父节点包含于条件Xi-1,X1之中父子节点的关系使得贝叶斯网络具有局部结构化的特性，即每个节点只和数量有限的其它部分产生直接的相互作用 P(

16、MaryCall|JohnCall,Alarm,Earthquake,Burglary)=P(MaryCall|Alarm),第7章不精确推理,33,贝叶斯网络的语义公式计算示例：,试计算：报警器响了，但既没有盗贼闯入，也没有发生地震，同时John和Mary都给你打电话的概率。解： P(j,m,a,b,e) = P(j|a)P(m|a)P(a|b,e) P(b) P(e) = 0.90.70.0010.9990.998 = 0.00062 = 0.062%,34,贝叶斯网络的特性：,作为对域的一种完备而无冗余的表示，贝叶斯网络比全联合概率分布紧凑得多 BN的紧凑性是局部结构化(Locally structured, 也称稀疏, Sparse)系统一个非常普遍特性的实例 BN中每个节点只与数量有限的其它节点发生直接的相互作用假设节点数n=30, 每节点有5个父节点，则BN需30x25=960个数据，而全联合概率分布需要230= 10亿个！,35,贝叶

展开阅读全文