从贝叶斯理论到贝叶斯网络

上传人:飞*** 文档编号:37424965 上传时间:2018-04-16 格式:DOC 页数:26 大小:1.27MB
返回 下载 相关 举报
从贝叶斯理论到贝叶斯网络_第1页
第1页 / 共26页
从贝叶斯理论到贝叶斯网络_第2页
第2页 / 共26页
从贝叶斯理论到贝叶斯网络_第3页
第3页 / 共26页
从贝叶斯理论到贝叶斯网络_第4页
第4页 / 共26页
从贝叶斯理论到贝叶斯网络_第5页
第5页 / 共26页
点击查看更多>>
资源描述

《从贝叶斯理论到贝叶斯网络》由会员分享,可在线阅读,更多相关《从贝叶斯理论到贝叶斯网络(26页珍藏版)》请在金锄头文库上搜索。

1、从贝叶斯方法谈到贝叶斯网络从贝叶斯方法谈到贝叶斯网络0 引言事实上,介绍贝叶斯定理、贝叶斯方法、贝叶斯推断的资料、书籍不少,比如数理统计学简史,以及统计决策论及贝叶斯分析 James O.Berger 著等等,然介绍贝叶斯网络的中文资料则非常少,中文书籍总共也没几本,有的多是英文资料,但初学者一上来就扔给他一堆英文论文,因无基础和语言的障碍而读得异常吃力导致无法继续读下去则是非常可惜的(当然,有了一定的基础后,便可阅读更多的英文资料)。11 月 9 日上午,机器学习班第 9 次课,邹博讲贝叶斯网络,其帮助大家提炼了贝叶斯网络的几个关键点:贝叶斯网络的定义、3 种结构形式、因子图、以及 Summ

2、ary-Product 算法等等,知道了贝叶斯网络是啥,怎么做,目标是啥之后,相信看英文论文也更好看懂了。故本文结合邹博第 9 次课贝叶斯网络的 PPT 及相关参考资料写就,从贝叶斯方法讲起,重点阐述贝叶斯网络,依然可以定义为一篇读书笔记或学习笔记,有任何问题,欢迎随时不吝指出,thanks。1 贝叶斯方法长久以来,人们对一件事情发生或不发生的概率 ,只有固定的 0 和 1,即要么发生,要么不发生,从来不会去考虑某件事情发生的概率有多大,不发生的概率又是多大。而且概率 虽然未知,但最起码是一个确定的值。比如如果问那时的人们一个问题:“有一个袋子,里面装着若干个白球和黑球,请问从袋子中取得白球的

3、概率 是多少?”他们会想都不用想,会立马告诉你,取出白球的概率 就是 1/2,要么取到白球,要么取不到白球,即 只能有一个值,而且不论你取了多少次,取得白球的概率 始终都是 1/2,即不随观察结果 X 的变化而变化。这种频率派的观点长期统治着人们的观念,直到后来一个名叫 Thomas Bayes 的人物出现。1.1 贝叶斯方法的提出贝叶斯方法的提出托马斯贝叶斯 Thomas Bayes(1702-1763)在世时,并不为当时的人们所熟知,很少发表论文或出版著作,与当时学术界的人沟通交流也很少,用现在的话来说,贝叶斯就是活生生一民间学术“屌丝”,可这个“屌丝”最终发表了一篇名为“An essay

4、 towards solving a problem in the doctrine of chances”,翻译过来则是:机遇理论中一个问题的解。你可能觉得我要说:这篇论文的发表随机产生轰动效应,从而奠定贝叶斯在学术史上的地位。事实上,上篇论文发表后,在当时并未产生多少影响,在 20 世纪后,这篇论文才逐渐被人们所重视。对此,与梵高何其类似,画的画生前一文不值,死后价值连城。回到上面的例子:“有一个袋子,里面装着若干个白球和黑球,请问从袋子中取得白球的概率 是多少?”贝叶斯认为取得白球的概率 是个不确定的值,因为其中含有机遇的成分。比如,一个朋友创业,你明明知道创业的结果就两种,即要么成功要

5、么失败,但你依然会忍不住去估计他创业成功的几率有多大?你如果对他为人比较了解,而且有方法、思路清晰、有毅力、且能团结周围的人,你会不由自主的估计他创业成功的几率可能在 80%以上。这种不同于最开始的“非黑即白、非 0 即 1”的思考方式,便是贝叶斯式的思考方式。继续深入讲解贝叶斯方法之前,先简单总结下频率派与贝叶斯派各自不同的思考方式:频率派把需要推断的参数 看做是固定的未知常数,即概率 虽然是未知的,但最起码是确定的一个值,同时,样本 X 是随机的,所以频率派重点研究样本空间,大部分的概率计算都是针对样本 X 的分布;而贝叶斯派的观点则截然相反,他们认为参数 是随机变量,而样本 X 是固定的

6、,由于样本是固定的,所以他们重点研究的是参数 的分布。相对来说,频率派的观点容易理解,所以下文重点阐述贝叶斯派的观点。贝叶斯派既然把 看做是一个随机变量,所以要计算 的分布,便得事先知道 的无条件分布,即在有样本之前(或观察到 X 之前), 有着怎样的分布呢?比如往台球桌上扔一个球,这个球落会落在何处呢?如果是不偏不倚的把球抛出去,那么此球落在台球桌上的任一位置都有着相同的机会,即球落在台球桌上某一位置的概率服从均匀分布。这种在实验之前定下的属于基本前提性质的分布称为先验分布,或 的无条件分布。至此,贝叶斯及贝叶斯派提出了一个思考问题的固定模式:先验分布先验分布 + 样本信息样本信息 后验分布

7、后验分布上述思考模式意味着,新观察到的样本信息将修正人们以前对事物的认知。换言之,在得到新的样本信息之前,人们对 的认知是先验分布,在得到新的样本信息 后,人们对 的认知为。其中,先验信息一般来源于经验跟历史资料。比如林丹跟某选手对决,解说一般会根据林丹历次比赛的成绩对此次比赛的胜负做个大致的判断。再比如,某工厂每天都要对产品进行质检,以评估产品的不合格率 ,经过一段时间后便会积累大量的历史资料,这些历史资料便是先验知识,有了这些先验知识,便在决定对一个产品是否需要每天质检时便有了依据,如果以往的历史资料显示,某产品的不合格率只有 0.01%,便可视为信得过产品或免检产品,只每月抽检一两次,从

8、而省去大量的人力物力。而后验分布一般也认为是在给定样本 的情况下 的条件分布,而使达到最大的值称为最大后验估计,类似于经典统计学中的极大似然估计。综合起来看,则好比是人类刚开始时对大自然只有少得可怜的先验知识,但随着不断是观察、实验获得更多的样本、结果,使得人们对自然界的规律摸得越来越透彻。所以,贝叶斯方法既符合人们日常生活的思考方式,也符合人们认识自然的规律,经过不断的发展,最终占据统计学领域的半壁江山,与经典统计学分庭抗礼。此外,贝叶斯除了提出上述思考模式之外,还特别提出了举世闻名的贝叶斯定理。1.2 贝叶斯定理贝叶斯定理在引出贝叶斯定理之前,先学习几个定义:条件概率条件概率(又称后验概率

9、)就是事件 A 在另外一个事件 B 已经发生条件下的发生概率。条件概率表示为 P(A|B),读作“在 B 条件下 A 的概率”。比如,在同一个样本空间 中的事件或者子集 A 与 B,如果随机从 中选出的一个元素属于 B,那么这个随机选择的元素还属于 A 的概率就定义为在 B 的前提下 A 的条件概率,所以:P(A|B)= |AB|/|B|,接着分子、分母都除以|得到联合概率联合概率表示两个事件共同发生的概率。A 与 B 的联合概率表示为或者。边缘概率边缘概率(又称先验概率)是某个事件发生的概率。边缘概率是这样得到的:在联合概率中,把最终结果中那些不需要的事件通过合并成它们的全概率,而消去它们(

10、对离散随机变量用求和得全概率,对连续随机变量用积分得全概率) ,这称为边缘化(marginalization) ,比如 A 的边缘概率表示为 P(A),B 的边缘概率表示为P(B)。 接着,考虑一个问题:P(A|B)是在 B 发生的情况下 A 发生的可能性。1.首先,事件 B 发生之前,我们对事件 A 的发生有一个基本的概率判断,称为 A 的先验概率,用P(A)表示;2.其次,事件 B 发生之后,我们对事件 A 的发生概率重新评估,称为 A 的后验概率,用 P(A|B)表示;3.类似的,事件 A 发生之前,我们对事件 B 的发生有一个基本的概率判断,称为 B 的先验概率,用 P(B)表示;4.

11、同样,事件 A 发生之后,我们对事件 B 的发生概率重新评估,称为 B 的后验概率,用 P(B|A)表示。贝叶斯定理便是基于下述贝叶斯公式:上述公式的推导其实非常简单,就是从条件概率推出。根据条件概率的定义,在事件 B 发生的条件下事件 A 发生的概率是同样地,在事件 A 发生的条件下事件 B 发生的概率整理与合并上述两个方程式,便可以得到:接着,上式两边同除以 P(B),若 P(B)是非零的,我们便可以得到贝叶斯定理贝叶斯定理的公式表达式:所以,贝叶斯公式可以直接根据条件概率的定义直接推出。即因为 P(A,B) = P(A)P(B|A) = P(B)P(A|B),所以 P(A|B) = P(

12、A)P(B|A) / P(B)。1.3 应用:拼写检查应用:拼写检查经常在网上搜索东西的朋友知道,当你不小心输入一个不存在的单词时,搜索引擎会提示你是不是要输入某一个正确的单词,比如当你在 Google 中输入“Julw”时,系统会猜测你的意图:是不是要搜索“July”,如下图所示:这叫做拼写检查。根据谷歌一员工写的文章显示,Google 的拼写检查基于贝叶斯方法。下面我们就来看看,怎么利用贝叶斯方法,实现“拼写检查“的功能。用户输入一个单词时,可能拼写正确,也可能拼写错误。如果把拼写正确的情况记做c(代表 correct),拼写错误的情况记做 w(代表 wrong),那么“拼写检查“要做的事

13、情就是:在发生 w 的情况下,试图推断出 c。换言之:已知 w,然后在若干个备选方案中,找出可能性最大的那个 c,也就是求的最大值。而根据贝叶斯定理,有:由于对于所有备选的 c 来说,对应的都是同一个 w,所以它们的 P(w)是相同的,因此我们只要最大化即可。其中:P(c)表示某个正确的词的出现“概率“,它可以用“频率“代替。如果我们有一个足够大的文本库,那么这个文本库中每个单词的出现频率,就相当于它的发生概率。某个词的出现频率越高,P(c)就越大。比如在你输入一个错误的词“Julw”时,系统更倾向于去猜测你可能想输入的词是“July”,而不是“Jult”,因为“July”更常见。P(w|c)

14、表示在试图拼写 c 的情况下,出现拼写错误 w 的概率。为了简化问题,假定两个单词在字形上越接近,就有越可能拼错,P(w|c)就越大。举例来说,相差一个字母的拼法,就比相差两个字母的拼法,发生概率更高。你想拼写单词 July,那么错误拼成 Julw(相差一个字母)的可能性,就比拼成 Jullw 高(相差两个字母) 。值得一提的是,一般把这种问题称为“编辑距离”,参见博客中的这篇文章。所以,我们比较所有拼写相近的词在文本库中的出现频率,再从中挑出出现频率最高的一个,即是用户最想输入的那个词。具体的计算过程及此方法的缺陷请参见这里。2 贝叶斯网络2.1 贝叶斯网络的定义贝叶斯网络的定义贝叶斯网络(

15、Bayesian network),又称信念网络(Belief Network),或有向无环图模型(directed acyclic graphical model),是一种概率图模型,于 1985 年由 Judea Pearl 首先提出。它是一种模拟人类推理过程中因果关系的不确定性处理模型,其网络拓朴结构是一个有向无环图(DAG)。 贝叶斯网络的有向无环图中的节点表示随机变量,它们可以是可观察到的变量,或隐变量、未知参数等。认为有因果关系(或非条件独立)的变量或命题则用箭头来连接。若两个节点间以一个单箭头连接在一起,表示其中一个节点是“因(parents)”,另一个是“果(children)

16、”,两节点就会产生一个条件概率值。总而言之,连接两个节点的箭头代表此两个随机变量是具有因果关系,或非条件独立连接两个节点的箭头代表此两个随机变量是具有因果关系,或非条件独立。例如,假设节点 E 直接影响到节点 H,即 EH,则用从 E 指向 H 的箭头建立结点 E到结点 H 的有向弧(E,H),权值(即连接强度)用条件概率 P(H|E)来表示,如下图所示:简言之,把某个研究系统中涉及的随机变量,根据是否条件独立绘制在一个有向图中,就形成了贝叶斯网络。其主要用来描述随机变量之间的条件依赖,用圈表示随机变量(random variables),用箭头表示条件依赖(conditional dependencies)。令 G = (I,E)表示一个有向无环图(DAG),其中 I 代表图形中所有的节点的集合,而 E代表有向连接线段的集合,且令 X = (Xi)i I 为其有向无环图中的某一节点 i 所代表的随机变量,若节点 X 的联合概率可以表示成:则称 X 为相对于一有向无环图 G 的贝叶斯网络,其中,表示节点 i 之“因”,或

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 企业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号