贝叶斯模型平均法的基本原理及其在logistic回归中的应用实例

上传人:kms****20 文档编号:46595314 上传时间:2018-06-27 格式:PDF 页数:5 大小:228.49KB
返回 下载 相关 举报
贝叶斯模型平均法的基本原理及其在logistic回归中的应用实例_第1页
第1页 / 共5页
贝叶斯模型平均法的基本原理及其在logistic回归中的应用实例_第2页
第2页 / 共5页
贝叶斯模型平均法的基本原理及其在logistic回归中的应用实例_第3页
第3页 / 共5页
贝叶斯模型平均法的基本原理及其在logistic回归中的应用实例_第4页
第4页 / 共5页
贝叶斯模型平均法的基本原理及其在logistic回归中的应用实例_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《贝叶斯模型平均法的基本原理及其在logistic回归中的应用实例》由会员分享,可在线阅读,更多相关《贝叶斯模型平均法的基本原理及其在logistic回归中的应用实例(5页珍藏版)》请在金锄头文库上搜索。

1、3 国家自然科学基金重大项目(30590374) ,“十五” 国家科技攻关项目(2004BA718B04)通讯作者:姜庆五,qwjiang ,021 - 54237435.贝叶斯模型平均法的基本原理及其在 logistic回归中的应用实例3复旦大学公共卫生学院流行病学教研室(200032) 张志杰 彭文祥 周艺彪 庄建林 姜庆五【提 要】 目的 介绍Bayesian模型平均法的基本原理,并对实际资料进行分析,指出该方法的优越性。方法 以 Hosmer和Lemeshow研究低出生体重婴儿影响因素的队列研究为例,分别以Bayesian模型平均法和逐步logistic回归法选 择最佳模型,并分析比

2、较二者的差异及原因。结果 Bayesian模型平均法确定的10个后验概率最大的模型的累积后验概 率仅为0159 ,模型本身的不确定性是很大的,而逐步logistic回归法确定的最佳模型的后验概率(P(k0|D) 01032)要 远低于Bayesian模型平均法确定的最佳模型的后验概率(P(k0|D)= 0112)。从回归系数的估计值、 标准误和P值比 较两种方法的结果发现,Bayesian模型平均法估计的精度较高,而逐步logistic回归法由于没有考虑模型本身的不确定性, 偏向于高估结果。结论 Bayesian模型平均法考虑了模型本身的不确定性,其分析结果更可靠,在统计建模中具有较好的 应用

3、前景。 【关键词】 logistic回归模型;Bayesian模型平均法;模型不确定性;后验概率通常的数据分析一般是先描述资料的基本特征, 然后指定某一个模型(如:logistic回归模型) ,通过两阶段变量筛选法(two - stage method)1或逐步回归法2确定最佳模型,并在此基础上进行参数检验和可 信区间的计算及预测,然而由于数据的部分信息被用 于人为地指定某个特定模型而导致所建立模型的效能 与预测能力均减弱3 ,4,这是频率统计(即我们通常所说的经典统计学)建立模型的一个弱点,其主要的原因 是未考虑模型本身的不确定性(model uncertainty)。 当用回归模型或广义线

4、性模型对所收集的数据建立模 型时,模型本身的不确定性可能很大5,忽略模型本 身的不确定性而仅仅以单一模型的结果进行 “感兴趣量(quantities of interest)” 的推断,一方面会低估 “感兴 趣量” 的不确定性,高估结果,导致结果的适用范围 (coverge)要比研究中指定的范围(stated coverage lev2el)要窄6 ,7,另一方面会比正常情况下更趋向于拒绝 无效假设产生误导性结果8。本文以二值应变量为例介绍考虑了模型本身不确定性的具有较高预测能力 的Bayesian模型平均法(Bayesian model averaging ,简 称BMA) ,然后对实际资料

5、进行了分析,阐明了其优越 性。原理与方法11Bayesian模型平均法的基本原理 对于应变量为0/ 1变量的资料,通常是使用logis2tic回归模型进行分析。logistic回归模型通常可以表示为:log(P( Y= 1) P( Y= 0)=0+ni= 1iXi, Y是0/1变量, Xi( i= 1,2, n)是自变量,i( i= 1,2, n)是回归系 数,exp(i)即OR值。 频率统计中logistic回归模型建模方法(如:向前 变量筛选法,向后变量筛选法,逐步变量筛选法等)都忽略了模型本身的不确定性,而Bayesian模型平均法 则是一种基于Bayesian基本原理的将模型本身的不确

6、 定性考虑在内的统计分析方法6 ,9 ,10,它综合考虑了 模型及参数的先验信息和样本提供的信息,其分析更 具有科学性。 假设是我们研究感兴趣的量,本文指的是OR 值或, D是我们调查所得的数据, M= M1, Mn 代表所有可能的模型组成的模型空间,而哪一个模型 是最佳模型事先并不知道,即模型本身的不确定性。 通常情况下,可以考虑的模型数量是很大的,例如:lo2gistic回归模型中如果有p个自变量,那么在不考虑 交互作用的情况下可以考虑的模型数量为2p。根据Bayesian模型平均法的理论,的后验分布为:P(| D) =ni =1P(| Mi, D) P( Mi| D)( i =1,2,3

7、,n)(1)其中, P(| Mi, D)是在给定数据D和模型Mi的条 件下 的后验分布; P( Mi/ D)是在给定数据D的情 况下Mi为最优模型的概率。 从方程(1)可以看出,的后验分布实际上是以后验模型概率P( Mi/ D)为权 重,对所有模型的后验分布进行加权的一个平均值。 在(1)中,假定Mi为最优模型的情况下,的预 测分布为:P(|Mi, D)=P(|, Mi, D) P(|Mi,D) d,= (0,1,n) ,为模型Mi回归系数的向量。764 中国卫生统计2007年10月第24卷第5期在(1)中,根据Bayesian原理知模型的后验概率P( Mi|D)为:P( Mi| D) =Pl

8、( D | Mi) P( Mi) nk =1Pl( D | Mk) P( Mk)= Pl( D |Mi) P( Mi)(2)其中, P( Mi)是模型Mi为最优模型的先验概率; Pl( D|Mi)是模型Mi的边际似然(marginal likelihood ofmodel Mi) ,它是通过对未知参数的积分来获得:Pl( D | Mi) =Pl( D |, Mi) Pd(| Mi) d(3)= (0,1,n)为模型Mi回归 系数的向量在(3)中,是模型Mi的参数向量, Pd(| Mi)是给定模型Mi的条件下的先验密度(prior density)即参数的先验信息, Pl( D |, Mi)是给

9、定模型Mi和参数向量的条件下数据D的似然。通过(1)、(2)和(3)的计算即可得到(本文指OR值)的后验分布,然后进行相应的假设检验、 点估计以及可信区间等的计算。21Bayesian模型平均法的实现Bayesian模型平均法的真正实现涉及了模型空间中所有模型的和式计算(1)和积分运算(3)。模型空间中所有模型的数量是相当大的,如:自变量个数为15个,那么即使在不考虑交互作用的情况下其模型的数量可达215= 32 768。本文采用Occam窗10的方法来适当缩减模型的数量:当一个模型的后验概率小于最佳模型后验概率的5 %时则从模型空间中去掉该模型,该方法经验证与全模型空间的运算具有相似的效能,

10、具体算法见文献10。积分运算(3)由于常常不能得到可分析形式的表达式导致其计算通常无法实现,本文采用Laplace近似法来得到其近似值4 ,10:log( Pl( D | Mi) ) =log( Pl( D | , Mi) ) -pilogn+ O (1)(4)其中, 是模型Mk的参数向量的后验均数, pk是模型Mk中的参数个数, n是样本量,这就是所谓的Bayesian信息准则(BIC)4 ,10。Bayesian模型平均法还需要指定模型先验概率和参数的先验信息。为了不对模型的优劣性加入主观色彩,本文指定相等的模型先验概率即均匀分布的模型空间,对于参数的先验信息,我们指定单位信息先验(uni

11、t information prior) ,如:多变量正态先验,以最大似然法估计其均数,以观察值的期望信息矩阵作为方差的估计,这种先验信息的指定方法由Raftery4 ,10提出并证明了其合理性,它可以看作是一种包含了与原始观察值等量信息的一种先验分布,通过R软件实现5Bayesian模型平均法。31Bayesian模型平均法的统计推断像经典统计分析一样,(1)的后验概率提供了一种 在考虑了模型不确定性的基础上对校正的OR值进行假设检验,点估计以及可信区间的计算方法11。从Bayesian的观点看Bayesian模型平均法的假设检验,其对应的备择假设H1为: Xk为某疾病的危险因素的后验概率有

12、多大,即k(即logORk)不等于0的后验概率有多大? Bayesian模型平均法以包含Xk的所有模型的后验概率的和作为k不等于0的后验概率的估计:P(k0| D) = MiAP( Mi| D) Ii(k0)(5)其中, A表示经Occam窗方法缩减后的模型空间; Ii为0/1指示变量,当k在模型Mi中时, Ii=1,当k不在 模型Mi中时, Ii=0。本文以P(k0|D)表示Bayesian模型平均法的 k的后验概率,其与频率统计的P值推断方法不同,对于Bayesian模型平均法后验概率推断的一般规则12为:P(k0|D) 015表示没有证据表明Xk是某疾病的危险因素;015P(k0|D)

13、0175表示有弱的证据表明Xk是某疾病的危险因素;0175P(k0|D) 0195表示有强的证据表明Xk是某疾病的危险因素;P(k0|D)0195表示有非常强的证据表明Xk是某疾病的危险因素;如果认为Xk是某疾病的危险因素,那么就需要对其效应的大小进行相应的估计,Bayesian模型平均法中Xk的点估计的后验均值和后验方差13 ,14分别为:E(k| D) =ni=1kP( Mi| D)(6)Var(k| D)=ni =1 (Var(k|Mi, D) + 2 k) P( Mi|D) -E(k| D)2(7)其中,k= E(k| Mi, D) 关于k即Xk效应估计的推断(如:假设检验,点估计和区

14、间估计)都来源于(5)、(6)和(7)的计算,对于 某一特定协变量效应大小的估计类似于对经典统计的方法,Bayesian模型平均法采用的是参数的后验均数,不同的是它考虑了模型本身的不确定性,所有的计算 结果可以在R中自动获取,具体操作见参考文献5。本文之所以要引进Bayesian模型平均法的模型选 择方法,主要是因为Bayesian模型平均法的两个很重要的特性:(1)考虑了模型本身的不确定性,因此在模型的预测能力上要优于任何一个频率统计所选择的单一模型9,而很多资料的分析往往需要预测能力较高864Chinese Journal of Health Statistics ,Oct 2007 ,V

15、ol. 24 ,No. 5的模型;(2)统计推断得到了很好地校正:如:可信区间 和值15都考虑了模型的不确定性,使得结果精度更 高,统计推断的风险性更低。实例分析我们对Hosmer和Lemeshow队列研究的数据进 行了再分析,比较了Bayesian模型平均法与逐步logis2tic回归模型在分析结果中的差异,指出Bayesian模型 平均法的优越性。11 数据集简介Hosmer和Lemeshow16研究了低出生体重婴儿 的危险因素并希望对低出生体重婴儿的概率进行预 测,他们收集了美国医院189名孕妇及其新出生的婴 儿资料,共收集了9个变量的信息。Venables和Ripley17对该数据集通

16、过逐步logis2tic回归模型进行了再分析,为了与其结果比较,以上 数据与Venables和Ripley的分析数据集保持一致,同 时按照Venables和Ripley的分析方法将孕妇种族和 孕妇前三个月体检次数分别转变成2个哑变量孕妇种 族1、 孕妇种族2和孕妇前三个月体检次数1、 孕妇前三个月体检次数2 ,增加了3个一阶交互作用项作为 新的变量:孕妇年龄与体检次数1的交互作用、 孕妇年 龄与体检次数2的交互作用及孕妇怀孕期间的吸烟史和子宫过敏的交互作用,相当于数据集中共13个自变 量,变量的处理方法同文献17 。Bayesian模型平均 法首先考虑自变量所有可能的组合,产生初始的213=8 192个模型的模

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号