《第6章统计决策与贝叶斯推断课件》由会员分享,可在线阅读,更多相关《第6章统计决策与贝叶斯推断课件(44页珍藏版)》请在金锄头文库上搜索。
1、 统计学家瓦尔德统计学家瓦尔德(A.Wald)(A.Wald)把关于假设检验把关于假设检验和参数估计的经典统计理论加以概括,将不确定和参数估计的经典统计理论加以概括,将不确定意义下的决策科学也包括在统计学范围之内,于意义下的决策科学也包括在统计学范围之内,于19391939年创立了统计决策理论,该理论弥补了过去年创立了统计决策理论,该理论弥补了过去统计理论的缺陷。统计理论的缺陷。统计决策的显著特点是:统计决策的显著特点是: 统计决策建立在统计分析和统计预测的基础统计决策建立在统计分析和统计预测的基础 上,是一种上,是一种定量决策定量决策 。 统计决策是在不确定情况下,应用概率来进统计决策是在不
2、确定情况下,应用概率来进行决策的计算和分析,是一种行决策的计算和分析,是一种概率决策概率决策。 6.1 6.1 统计决策统计决策决策问题的决策问题的三个基本要素三个基本要素状态集状态集行动集行动集行动空间行动空间损失函数损失函数依统计决策论的观点,对决策有用的信息依统计决策论的观点,对决策有用的信息先验信息先验信息样本信息样本信息决策问题的分类决策问题的分类无数据无数据(无样本信息)(无样本信息)决策问题决策问题统计决策问题统计决策问题贝叶斯贝叶斯决策问题决策问题一、基本概念一、基本概念1 1、损失函数、损失函数描述当未知量处于状态描述当未知量处于状态 而采取行动而采取行动 时所引时所引起的损
3、失,记为起的损失,记为线性损失函数线性损失函数一、基本概念一、基本概念2 2、决策函数、决策函数由样本空间由样本空间 到行动空间到行动空间 的可测映射的可测映射 称称为决策函数。为决策函数。3 3、风险函数、风险函数称为决策函数称为决策函数 的风险函数。的风险函数。设设 是一个决策函数,则损失函数是一个决策函数,则损失函数 关于样本分布关于样本分布 的数学期望的数学期望平均损失愈小,决策函数愈好。平均损失愈小,决策函数愈好。风险函数风险函数 描述在未知量处于状态描述在未知量处于状态 而采取决策而采取决策 时所蒙受的平均损失。时所蒙受的平均损失。二、常用的决策准则二、常用的决策准则1、一致最优决
4、策准则、一致最优决策准则则称则称 为决策函数类为决策函数类 的一致最小风险的一致最小风险决策函数,或称为一致最优决策函数。决策函数,或称为一致最优决策函数。 定义定义 设设 表示定义在样本空间表示定义在样本空间 上上取值于行取值于行 动空间动空间 的某一决策函数类,若存在一个的某一决策函数类,若存在一个决决 策函数策函数 ,使得对任意,使得对任意 ,都有,都有2、最小最大(、最小最大(Minimax)决策准则)决策准则则称则称 为该统计决策问题的最小最大决策函数,为该统计决策问题的最小最大决策函数,相应的风险称为最小最大风险。相应的风险称为最小最大风险。定义定义 对于一个统计决策问题,设对于一
5、个统计决策问题,设 表示表示定义定义 在样本空间在样本空间 上取值于行动空间上取值于行动空间 的某一决的某一决策策 函数类。若有决策函数函数类。若有决策函数 ,使得,使得3、贝叶斯决策准则、贝叶斯决策准则 先验信息与先验分布先验信息与先验分布 无论是在统计决策问题还是在统计推断问题中总无论是在统计决策问题还是在统计推断问题中总会包含未知量会包含未知量 。为了对。为了对 作统计决策或者作作统计决策或者作统计推断,样本信息是必不可少的,因为它包含统计推断,样本信息是必不可少的,因为它包含 的最新信息。除此之外,一些非样本信息也可用于的最新信息。除此之外,一些非样本信息也可用于统计决策和统计推断。这
6、些非样本信息主要来源于统计决策和统计推断。这些非样本信息主要来源于经验或历史资料。由于此类经验或历史资料大多存经验或历史资料。由于此类经验或历史资料大多存在于(获取样本的)试验之前,故称这些非样本信在于(获取样本的)试验之前,故称这些非样本信息为先验信息。息为先验信息。 统计学中有两个主要学派:经典(频率)学派与统计学中有两个主要学派:经典(频率)学派与贝叶斯学派。经典学派认为贝叶斯学派。经典学派认为 是未知参数;贝叶是未知参数;贝叶斯学派认为斯学派认为 是随机变量,应该用一个概率分布是随机变量,应该用一个概率分布去描述去描述 的未知状况。这个概率分布在抽样之前的未知状况。这个概率分布在抽样之
7、前就已存在,它是关于就已存在,它是关于 的先验信息的概率陈述。的先验信息的概率陈述。这个概率分布就称为先验分布,用这个概率分布就称为先验分布,用 来表示。来表示。 贝叶斯公式与后验分布贝叶斯公式与后验分布称称 为为 的后验分的后验分布。布。先验风险准则与后验风险准则先验风险准则与后验风险准则定义定义1: 在给定的统计决策问题中,设在给定的统计决策问题中,设 为为决策函数决策函数 的风险函数,的风险函数, 为为 的先验分布,的先验分布,则平均风险则平均风险称为决策称为决策 的贝叶斯风险。若在决策函数类的贝叶斯风险。若在决策函数类 中存在中存在 ,使得,使得则称则称 为决策函数类为决策函数类 在贝
8、叶斯(先验)风险在贝叶斯(先验)风险准则下的最优决策函数,简称贝叶斯决策函数或贝准则下的最优决策函数,简称贝叶斯决策函数或贝叶斯解。叶斯解。定义定义2: 在给定的统计决策问题中,设在给定的统计决策问题中,设 为决策函数为决策函数 的损失函数,的损失函数, 为为 的后验的后验分布,则条件期望风险分布,则条件期望风险称为决策函数称为决策函数 的贝叶斯后验风险。若在决策函的贝叶斯后验风险。若在决策函数类数类 中存在中存在 ,使得,使得则称则称 为决策函数类为决策函数类 在贝叶斯后验风险准则下在贝叶斯后验风险准则下的最优决策函数,或称其为贝叶斯后验型决策函数。的最优决策函数,或称其为贝叶斯后验型决策函
9、数。 例6.1 一位收藏家拟收购一幅名画,这幅画标价为5000元。若这幅画是真品,则值10000元;若是赝品,则一文不值。此外,买下一幅假画或者没有买下一幅真画都会损害这位收藏家的名誉,其收益情况如下表 采取的行动画的状态 买 不 买 真 品+5000-3000 赝 品-60000现在,这位收藏家需要决定是买还是不买这幅画?(1) 如果收藏家有以下三种决策可供选择: :以概率0.5买下这幅画; :请一位鉴赏家进行鉴定(已知该鉴赏家以概率0.95 识别一幅真画,以概率0.7识别一幅假画),如果鉴赏家鉴定为真品就买下这幅画; :肯定不买那么,什么是这位收藏家的最小最大决策?(2)如果根据卖画者以往
10、的资料得知, 发生的概率为0.75, 发生的概率为0.25,那么这位收藏家是否应买下这幅画呢? (3)在(2)的条件下,这位收藏家为稳妥起见,聘请一位鉴赏家做鉴定。已知鉴赏家以概率0.95识别一幅真画,以概率0.7识别一幅假画。如果鉴赏家说这幅画是真品,那么这位收藏家是否应买下这幅画呢?这是一个决策问题,状态集 , 为真品,为赝品,行动集 表示“买”, 表示“不买”,损失函数 用矩阵可表示为 统计决策中所说的损失可以理解为统计决策中所说的损失可以理解为“该赚到而没有赚到的该赚到而没有赚到的钱钱”,“不该亏而亏损的钱不该亏而亏损的钱”或者或者“不该支付而支付的钱不该支付而支付的钱”。采用收益函数
11、时,损失函数时,损失函数采用支付函数解:(1)对 ,对 ,对 , 计算结果表明,收藏家的最小最大决策为 ,即如果鉴赏家鉴定为真品就买下这幅画,这一决策的最小最大风险为1800元。 根据先验分布 ,可分别算出行动 , 的平均损失,亦即,行动 , 的平均风险,因为这是无数据决策问题,所以对比上述结果可知,采取行动 为上策,即,收藏家应该买下这幅画。(2)由题意知, 的先验分布 为:(3) 引入随机变量 由题意知: 的先验分布 为 , 由贝叶斯公式可得 的后验分布 这样样本空间 ,行动空间 ,所以决策函数只有以下4个这样本值 时,这些决策函数的贝叶斯后验风险分别是:在 时,这些决策函数的贝叶斯后风险
12、分别是: 可见在贝叶斯风险准则下, 是最优决策函数,换言之,当鉴定家说这幅画是真品时,这位收藏家应买下这幅画。 下面计算(3)中那些决策函数的贝叶斯风险, 先算 的边缘分布:从而, 由此可见,在贝叶斯风险准则下的最优决策函数仍是 ,在两种不同风险准则下得出相同的最优决策函数,其理论依据是定理6.1.1. 定理定理6.1.1 对给定的统计决策问题(含给定的先对给定的统计决策问题(含给定的先验分布)和决策函数类验分布)和决策函数类 ,若贝叶斯风险满足条,若贝叶斯风险满足条件件则贝叶斯决策函数则贝叶斯决策函数 与贝叶斯后验型决策函数与贝叶斯后验型决策函数 等价。等价。6.2 6.2 贝叶斯推断贝叶斯
13、推断在经典统计学中,总体 的分布函数用 表示,其中 表示未知参数, 表示参数空间。 改写为 经典统计学并不产生任经典统计学并不产生任何实质上的影响,仅仅何实质上的影响,仅仅是记号的变更。是记号的变更。BayesBayes统计中意义就不同了,统计中意义就不同了,其表示条件分布。其表示条件分布。定义定义6.16.1 若函数若函数 和和 相比仅差一相比仅差一个常数因子,则称个常数因子,则称 为为 的核,记为的核,记为例如例如 贝叶斯学派认为, 的后验分布 集先验信息和样本信息于一身,包含了 的所有可供利用的信息,所以有关 的点估计,区间估计和假设检验等统计推断都要基于后验分布来进行。 样本分布 其中
14、 为总体 的条件概率密度。一、贝叶斯估计一、贝叶斯估计1、点估计、点估计贝叶斯估计量就是贝叶斯决策函数(贝叶斯解)贝叶斯估计量就是贝叶斯决策函数(贝叶斯解) 则称则称 为为 的贝叶斯估计量的贝叶斯估计量 定义定义 设总体设总体 的分布函数为的分布函数为 ,其中,其中参数参数 为具有先验分布为具有先验分布 的随机变量,的随机变量,又设又设 为来自总体的样本。若在决为来自总体的样本。若在决策函数类策函数类 中有一个中有一个 ,使得,使得 定理定理 若损失函数为若损失函数为 ,且,且 , 则则 的贝叶斯估计为的贝叶斯估计为 其中其中 为为 的后验概率密度。的后验概率密度。 注:由定理可知,当使用平方
15、损失函数注:由定理可知,当使用平方损失函数 时,时, 的贝叶斯估计为的贝叶斯估计为 (或(或 ),即),即 的后验分布的期望,故称这种估计为后验期望的后验分布的期望,故称这种估计为后验期望 估计。估计。例例1 设总体设总体 的分布为的分布为 ,其中,其中未知量未知量 为随机变量,且为随机变量,且 , 为来自为来自 总体总体 的样本值,求的样本值,求 的贝叶斯估计。的贝叶斯估计。 解:解: 因为因为 的后验概率密度的核是的后验概率密度的核是 所以,所以, 的贝叶斯估计为的贝叶斯估计为 可见,在样本可见,在样本 的条件下,的条件下, 的条件分布为的条件分布为 条件(条件(1 1)、()、(2 2)
16、表明,)表明,D D集中了后验概率密度取值集中了后验概率密度取值尽可能大的点,因此尽可能大的点,因此 的最大后验密度可信区间就是在的最大后验密度可信区间就是在同一可信概率下长度最短的区间。同一可信概率下长度最短的区间。2、区间估计、区间估计定义定义 设参数设参数 的后验分布为的后验分布为 ,对给定的,对给定的样本样本 和概率和概率 ,若存在区域,若存在区域D满满足下列条件:足下列条件: (1)(2) 任给任给 ,总有,总有则称则称D是是 的可信水平为的可信水平为 的最大后验的最大后验密度可信域。当密度可信域。当 是一维的且是一维的且D是一个区间是一个区间时,称时,称D为为 的的 最大后验密度可
17、信区最大后验密度可信区间。间。例例2 设设 为来自正态分布为来自正态分布 的样本,其中的样本,其中 已知。又设已知。又设 的先验分布为正态分布的先验分布为正态分布 , 其中其中 为已知,求为已知,求 的的 可可信区间。信区间。 解:因为解:因为 的后验概率密的后验概率密度度其中其中 可见可见 是正态分布是正态分布 ,因此对给定,因此对给定的的 ,查得标准正态分布,查得标准正态分布 的上侧分位的上侧分位数数 ,使,使 于是,于是, 的的 最大后验可信区间是最大后验可信区间是 。 利用后验分布利用后验分布 ,分别计算假设,分别计算假设 与与 的的后验概率。后验概率。 3、贝叶斯假设检验、贝叶斯假设
18、检验 当后验概率比当后验概率比 时接受时接受 ;当;当 时拒绝时拒绝 ;当;当 时,则不宜匆忙做判时,则不宜匆忙做判断,需进一步抽样或搜集更多的先验信息。断,需进一步抽样或搜集更多的先验信息。 例例3 设从正态总体设从正态总体 中随机地抽取了一个容量中随机地抽取了一个容量为为10的样本的样本 ,算得样本均值,算得样本均值 ,又设,又设 的先验分布为正态分布的先验分布为正态分布 ,现在检验如下假,现在检验如下假设设 解解 由例由例2可知,可知, 的后验分布仍为正态分布,且的后验分布仍为正态分布,且 其中其中 因而假设因而假设 与与 的后验概率分别为的后验概率分别为 两后验概率之比两后验概率之比
19、故拒绝故拒绝 ,即认为正态均值大于,即认为正态均值大于1。 贝叶斯检验的特点:贝叶斯检验的特点: (1)简单易行,无需选择检验统计量,确定抽)简单易行,无需选择检验统计量,确定抽样分布;样分布; (2)无需事先给定显著水平,确定检验问题的)无需事先给定显著水平,确定检验问题的拒绝域;拒绝域; (3)容易推广到多重假设检验场合。)容易推广到多重假设检验场合。二、先验分布的选取二、先验分布的选取 从前面的介绍可以看到,贝叶斯推断是基于后从前面的介绍可以看到,贝叶斯推断是基于后验分布的推断,而根据贝叶斯公式,后验分布又验分布的推断,而根据贝叶斯公式,后验分布又有赖于先验分布的选取,选择不同的分布作为
20、有赖于先验分布的选取,选择不同的分布作为 的先验分布将会影响的先验分布将会影响 的后验分布,从而将影响的后验分布,从而将影响到贝叶斯推断的结果,所以先验分布的选取对于到贝叶斯推断的结果,所以先验分布的选取对于贝叶斯推断是至关重要的。贝叶斯推断是至关重要的。 1、贝叶斯假设、贝叶斯假设 贝叶斯学派认为,如果没有以往的任何信息贝叶斯学派认为,如果没有以往的任何信息来确定未知量来确定未知量 的先验分布,那么就用均匀分的先验分布,那么就用均匀分布作为它的先验分布,这种确定先验分布的原则布作为它的先验分布,这种确定先验分布的原则称为贝叶斯假设。按此原则选取的先验分布也称称为贝叶斯假设。按此原则选取的先验
21、分布也称为无信息先验分布。为无信息先验分布。 2、共轭先验分布、共轭先验分布 后验分布在贝叶斯推断中起着重要作用,但后验分布在贝叶斯推断中起着重要作用,但有时计算后验分布是一件比较复杂的事情。为了有时计算后验分布是一件比较复杂的事情。为了能够简便地计算未知量能够简便地计算未知量 的后验分布,引入共的后验分布,引入共轭先验分布的概念。轭先验分布的概念。 定义定义 设总体设总体 的分布函数为的分布函数为 ,样本,样本 对对 的条件分布为的条件分布为 ,即样本分布,即样本分布 , 的先验分布为的先验分布为 ,若由,若由 和和 决定的后验分布决定的后验分布 与与 是同一个类型,则称先验分布是同一个类型,则称先验分布 为为 的共轭先验分布。的共轭先验分布。寻找共轭先验分布的步骤:寻找共轭先验分布的步骤:(1)先写出样本分布)先写出样本分布 似然,似然,(2)选取与)选取与 具有相同核的分布作为先验分布,具有相同核的分布作为先验分布,这个分布往往就是共轭先验分布。这个分布往往就是共轭先验分布。Thanks!