Poisson回归-冯国双.ppt

上传人:汽*** 文档编号:578543411 上传时间:2024-08-24 格式:PPT 页数:62 大小:4.34MB
返回 下载 相关 举报
Poisson回归-冯国双.ppt_第1页
第1页 / 共62页
Poisson回归-冯国双.ppt_第2页
第2页 / 共62页
Poisson回归-冯国双.ppt_第3页
第3页 / 共62页
Poisson回归-冯国双.ppt_第4页
第4页 / 共62页
Poisson回归-冯国双.ppt_第5页
第5页 / 共62页
点击查看更多>>
资源描述

《Poisson回归-冯国双.ppt》由会员分享,可在线阅读,更多相关《Poisson回归-冯国双.ppt(62页珍藏版)》请在金锄头文库上搜索。

1、Poisson回归回归冯国双冯国双主要内容主要内容p一、二项分布与一、二项分布与Poisson分布分布p二、广义线性模型二、广义线性模型p三、三、Poisson回归回归p四四、Poisson回归的回归的SAS分析分析p五、五、Poisson回归需注意的统计问题回归需注意的统计问题二项分布二项分布p指指在只会产生两种可能在只会产生两种可能结果(如结果(如“阳性阳性”或或“阴阴性性”)的)的n次独立试验中,当每次试验的次独立试验中,当每次试验的“阳性阳性”概率保持不变时,概率保持不变时,出现出现“阳性阳性”的次数的次数 X=0,1,2, ,n的一种概率分布的一种概率分布。pn为试验次数,为试验次数

2、, 为为“阳性阳性”概率概率。表示从表示从n个不同元素中每次取出个不同元素中每次取出x个不同元素的组合个不同元素的组合二项分布二项分布二项分布的条件:二项分布的条件:1.每次每次试验只会发生两种对立的结果之一,两种互试验只会发生两种对立的结果之一,两种互斥结果的概率之和恒等于斥结果的概率之和恒等于1;2.每次试验产生某种结果(如每次试验产生某种结果(如“阳性阳性”)的概率)的概率固固定不变;定不变;3.各次试验是互相独立的,即任何一次试验结果的各次试验是互相独立的,即任何一次试验结果的出现不会影响其它试验结果出现的概率。出现不会影响其它试验结果出现的概率。二项分布二项分布二项分布举例:二项分布

3、举例:p假定某疫苗的不良事件发生率是假定某疫苗的不良事件发生率是10%,现在有,现在有3个个人接种了该疫苗,可能会出现的各种结局的概率人接种了该疫苗,可能会出现的各种结局的概率是多少?是多少?二项分布二项分布3个人中,个人中,k个人出现不良事件的概率为个人出现不良事件的概率为:二项分布二项分布p二项分布的概率分布:二项分布的概率分布:p在在n次独立试验中,令次独立试验中,令x表示事件表示事件A发生的次数,发生的次数,则随机变量则随机变量x所有可能的取值为所有可能的取值为0、1、2、,其概率函数为:其概率函数为:p两个参数:两个参数:pn为试验次数,为试验次数, 为事件发生为事件发生率率。二项分

4、布二项分布p二项分布的性质:二项分布的性质:p平均数平均数 p = np标准差标准差二项分布二项分布Poisson分布分布pPoisson分布主要用于描述单位时间、面积、体积分布主要用于描述单位时间、面积、体积等单位内稀有事件个数的相对频率。等单位内稀有事件个数的相对频率。pPoisson随机变量随机变量x的分布是:的分布是:p一个参数一个参数p0,是一常数,是一常数Poisson分布分布Poisson分布分布的条件:的条件:1.试验是在给定的时间、面积、体积等单位内发生试验是在给定的时间、面积、体积等单位内发生的事件次数;的事件次数;2.事件发生在给定的时间事件发生在给定的时间、面积、面积、

5、体积等单位内的体积等单位内的概率对每一单位都是相同的;概率对每一单位都是相同的;3.发生在一个时间、面积、体积等单位的事件与发发生在一个时间、面积、体积等单位的事件与发生在其它单位的事件是互相独立的生在其它单位的事件是互相独立的Poisson分布分布Poisson分布的分布的条件示意图:条件示意图:Poisson分布分布pPoisson分布举例:分布举例:p为监测饮用水的污染情况,某疾控中心对一社区为监测饮用水的污染情况,某疾控中心对一社区的饮用水进行检测,下面是每毫升饮用水的细菌的饮用水进行检测,下面是每毫升饮用水的细菌数,试分析该结果是否服从数,试分析该结果是否服从Poisson分布分布P

6、oisson分布分布datadata aa;input x f;cards;0 2431 1202 313 6;procproc meansmeans mean var;freq f;var x;runrun;Poisson分布分布p计算计算Poisson分布分布 =1 =2 =3 =4Poisson分布分布 =5 =6负二项分布负二项分布负二项分布负二项分布Negative Binominal Distribution (NB):p负二项分布常用于度量某事件发生前所需要的时负二项分布常用于度量某事件发生前所需要的时间长度间长度p如顾客一直排队直到得到服务的时间,设备到失如顾客一直排队直到得到

7、服务的时间,设备到失效的时间等效的时间等p其结果与二项分布一样,为两类:发生和不发生其结果与二项分布一样,为两类:发生和不发生但描述的不是发生的次数,而是直至发生时实验但描述的不是发生的次数,而是直至发生时实验的次数的次数负二项分布负二项分布p负二项分布的性质:负二项分布的性质:p均值均值p方差方差p很明显看出,负二项分布的均值小于方差很明显看出,负二项分布的均值小于方差负二项分布负二项分布p负二项分布与负二项分布与Poisson分布的关系:分布的关系:pPoisson分布中,设定分布中,设定是常数,当是常数,当不是常数,而不是常数,而是一个随机变量,且服从是一个随机变量,且服从分布时,分布时

8、,此时复合此时复合Poisson分布就是负二项分布分布就是负二项分布p负二项分布中的负二项分布中的是变化的,换句话说,个体事件是变化的,换句话说,个体事件发生的概率不等,有的出现的概率大,有的出现发生的概率不等,有的出现的概率大,有的出现概率小,从而导致方差变大。概率小,从而导致方差变大。p实际意义也就是说,不同地区、时间等发生的概实际意义也就是说,不同地区、时间等发生的概率不等,有的发生概率高,有的发生概率低,可率不等,有的发生概率高,有的发生概率低,可能存在一定的聚集性。能存在一定的聚集性。负二项分布负二项分布p负二项分布常用于:负二项分布常用于:p描述生物的聚集性,如钉螺在土壤的分布、昆

9、虫描述生物的聚集性,如钉螺在土壤的分布、昆虫的空间分布等;医学上描述传染性疾病的分布和的空间分布等;医学上描述传染性疾病的分布和致病生物的分布。致病生物的分布。p需要注意:需要注意:p描述的事件发生率应比较低,其描述的事件发生率应比较低,其“单位单位”应足够应足够大大负二项分布负二项分布p离散参数(离散参数(dispersion parameter):pNB分布的均数与方差:分布的均数与方差:p令令 ,则,则px的均数为:的均数为:p方差为:方差为:p将将k-1称为离散参数,当称为离散参数,当k-1趋于趋于0时,负二项分布时,负二项分布退化为退化为Poisson分布分布负二项分布负二项分布广义

10、线性模型广义线性模型p广义线性模型广义线性模型“广广”在什么在什么地方?地方?p主要主要是是“广广”在因变量上在因变量上。p广义线性模型广义线性模型是一般线性模型的推广,一般线性模型中的是一般线性模型的推广,一般线性模型中的因变量只能是定量因变量只能是定量变量变量p广义线性模型广义线性模型则拓宽了这一范围,因变量不再仅限于定量则拓宽了这一范围,因变量不再仅限于定量变量,还可以是诸如二项分布、变量,还可以是诸如二项分布、Poisson分布、负二项分布分布、负二项分布等非定量变量。等非定量变量。广义线性模型广义线性模型p广义线性模型(广义线性模型(Generalized Linear Model)

11、p其中,等式右边是自变量其中,等式右边是自变量x1,x2,xm,可以是一,可以是一个,也可以是多个,形式可以是分类的,也可以是定个,也可以是多个,形式可以是分类的,也可以是定量的量的。p等式等式左边是一个联接函数,通过指定联接函数及数据左边是一个联接函数,通过指定联接函数及数据分布,广义线性模型可转化成相应的具体模型分布,广义线性模型可转化成相应的具体模型。广义线性模型广义线性模型p常用的联接函数常用的联接函数分布分布联接函数联接函数数学表达式数学表达式模型模型正态分布恒等函数g()= 线性回归模型二项分布Logit 函数g()= ln(/1-) logistic 回归模型Poisson分布对

12、数g()= ln()Poisson 回归模型广义线性模型广义线性模型p当指定分布为正态(当指定分布为正态(normal)分布,且联接函数直接就是)分布,且联接函数直接就是时,广义线性模型就成了多重线性回归模型。时,广义线性模型就成了多重线性回归模型。p当指定分布为二项(当指定分布为二项(binomial)分布,指定联接函数为)分布,指定联接函数为logit()即即 时,广义线性模型就是时,广义线性模型就是logistic回归模型。回归模型。p当指定分布为当指定分布为Poisson分布,联接函数为分布,联接函数为log()时,广义线时,广义线性模型就转化成性模型就转化成Poisson回归模型。回

13、归模型。p当指定分布为负二项(当指定分布为负二项(negative binomial)分布,联接函)分布,联接函数为数为log()时,广义线性模型就转化为负二项回归。时,广义线性模型就转化为负二项回归。p广义线性模型更进一步地将多重线性回归、广义线性模型更进一步地将多重线性回归、logistic回归、回归、Poisson回归、负二项回归等统一回归、负二项回归等统一起来起来Poisson回归回归模型模型pPoisson回归常用于单位时间或单位空间内某稀有事件发生回归常用于单位时间或单位空间内某稀有事件发生数的影响因素数的影响因素分析分析p医学医学中有不少现象均符合这种条件,尤其在肿瘤队列研究中有

14、不少现象均符合这种条件,尤其在肿瘤队列研究中中,如如对浅表性胃炎病人长期随访一段时间后的胃癌发生对浅表性胃炎病人长期随访一段时间后的胃癌发生数数。p这种数据也这种数据也称之为事件数资料(称之为事件数资料(count data)。其特征就)。其特征就是发生数能够一个一个地清点(是发生数能够一个一个地清点(counting),不能有小数),不能有小数点。点。Poisson回归回归模型模型pPoisson回归模型的表达形式为:回归模型的表达形式为:p系数系数i表示表示xi每每增加一个单位,增加一个单位,log()的变动的变动p或者说或者说xi每增加一个单位每增加一个单位, 对对产生产生ei的效应的效

15、应Poisson回归回归模型模型pPoisson回归的应用条件:回归的应用条件:p线性:因变量的对数与自变量呈线性关系线性:因变量的对数与自变量呈线性关系p独立性:各观测之间相互独立独立性:各观测之间相互独立p方差等于均值:各自变量水平上的因变量的方差方差等于均值:各自变量水平上的因变量的方差与均值相等与均值相等Poisson回归回归模型模型Poisson回归回归模型模型p参数检验:参数检验:(1)Wald检验检验: 检验回归系数检验回归系数是否为是否为零零 。 其其其其检验假设为:检验假设为:检验假设为:检验假设为:HH0 0: : j j = = 0 0 HH1 1: : j j 0 0

16、Poisson回归回归模型模型p参数检验:参数检验:(2)似然比检验)似然比检验(likelihood ratio test)p比较比较两个嵌套模型的对数似然值两个嵌套模型的对数似然值p似然比统计量服从似然比统计量服从2分布,其自由度为两个模型分布,其自由度为两个模型自变量数的差值,根据自变量数的差值,根据2值和相应的自由度可计值和相应的自由度可计算出算出P值值Poisson回归回归模型模型p模型评价:模型评价:pPearson 2 比较期望值比较期望值和观测值的和观测值的差别差别pyi表示不同自变量组合水平下的观测数,表示不同自变量组合水平下的观测数, i表示期表示期望数,望数,V (i)表

17、示方差表示方差Poisson回归回归模型模型p模型评价:模型评价:pDeviance比较饱和模型和现有模型的差别比较饱和模型和现有模型的差别pLs表示现有模型,表示现有模型,Lf表示饱和模型表示饱和模型p饱和模型解释了模型系统部分的所有变动,反映饱和模型解释了模型系统部分的所有变动,反映一种一种理想状态。理想状态。pDeviance值越小,现有模型与饱和模型的偏差越小,值越小,现有模型与饱和模型的偏差越小,拟合效果越好。拟合效果越好。Poisson回归回归模型模型Poisson回归回归模型模型p模型诊断:模型诊断:p多重共线性多重共线性(multi-collinearity)p容忍容忍度度(t

18、olerance):小于:小于0.1时,可能存在共线性时,可能存在共线性p方差扩大因子方差扩大因子(variance inflation factor, VIF):大于:大于10时,可能存在共线时,可能存在共线性性p分类分类资料最好不用条件指数资料最好不用条件指数Poisson回归回归模型模型p模型诊断:模型诊断:p异常点诊断异常点诊断p离离群点群点(outliers):因变量预测值与实际值差别较大。:因变量预测值与实际值差别较大。 诊断指标:诊断指标:Pearson残差、残差、Deviance残差残差p杠杆点杠杆点(high leverage points):自变量远离其它值。:自变量远离其

19、它值。 诊断指标:杠杆值诊断指标:杠杆值hip强影响点强影响点(influential points):对模型估计影响较大。:对模型估计影响较大。 诊断指标:诊断指标:DFBETA,Cook距离(距离(Cooks Distance)Poisson回归回归模型模型Poisson回归回归模型模型p广义线性模型在广义线性模型在SAS中可通过中可通过proc genmod命令实现。其命令实现。其常用语句有:常用语句有:pProc genmod ;pClass 分类变量分类变量;pModel 因变量因变量=自变量自变量;pWeight 变量变量:pRun;Poisson回归回归模型模型pModel语句常

20、用的选项有:语句常用的选项有:指定分布和联接函数的选项指定分布和联接函数的选项Dist=该该选选项项指指定定数数据据分分布布,常常用用的的分分布布有有:binomial(二二项项分分布布,默默认认联联接接为为logit)、poisson(Poisson分分布布,默默认认联联接接为为log)、negbin(负负二二项项分分布布,默默认认联联接接为为log)、normal( 正正 态态 分分 布布 , 默默 认认 联联 接接 为为 identity) 、multinomial(多多项项分分布布,默默认认联联接接为为cumlogit,即即累累积积logit)Link=该该选选项项指指定定与与分分布布

21、对对应应的的联联接接函函数数,常常用用的的有有:logit(对对应应二二项项分分布布)、log(对对应应Poisson分分布布和和负负二二项项分分布布)、identity(对对应应正正态态分分布布)、cumlogit(对对应应多多项项分分布布,用用于多分类于多分类logit模型)模型)Poisson回归回归模型模型pModel语句常用的语句常用的选项:选项:结果输出选项结果输出选项Type1给给出出似似然然比比的的1型型分分析析结结果果,1型型分分析析结结果果跟跟各各变变量量进进入入模模型型的的顺顺序序有有关关。模模型型中中每每一一个个自自变变量量的的结结果果仅仅仅仅校校正正了了在在它它之之前

22、前进进入入模模型型的的变变量量,而而在在它它之之后后进入模型的变量则没有校正进入模型的变量则没有校正Type3给给出出似似然然比比的的3型型分分析析结结果果,3型型分分析析结结果果跟跟各各变变量量进进入入模模型型的的顺顺序序无无关关。模模型型中中每每一一个个自自变变量量的的结结果果都都是是校校正正了了所所有有其其它它变变量量的的结结果果,不不管管是是在在它它之之前前进入模型还是在它之后进入模型进入模型还是在它之后进入模型Poisson回归回归模型模型pModel语句常用的语句常用的选项:选项:结果输出选项结果输出选项Pred输出预测值输出预测值Residuals输输出出各各种种残残差差,包包括

23、括Pearson残残差差、Deviance残残差等差等diagnostics输出杠杆值、强影响点诊断等结果输出杠杆值、强影响点诊断等结果Offset指指定定一一个个位位移移变变量量,该该选选项项在在Poisson回回归归中中比比较较有有用用,它它类类似似于于指指定定一一个个分分母母(即即观观察察的的总总人人数数或或总总人人年年)。由由于于Poisson回回归归的的因因变变量量是是log形形式式,因因此此位位移移变变量量通通常常指指定定总总人人数数或或总总人人年的对数年的对数。Poisson回归回归模型模型pClass语句与语句与logistic回归中的回归中的class语句相似,也可以通过语句

24、相似,也可以通过param=和和ref=这两个选项产生虚拟变量,并根据这两个选项产生虚拟变量,并根据ref=的指的指定确定参照组。定确定参照组。Param=指指 定定 分分 类类 变变 量量 的的 参参 数数 估估 计计 方方 法法 , 一一 般般 指指 定定param=referenceRef=可可指指定定ref=first、ref=last或或ref=“某某类类别别赋赋值值”,以以指指定参照组定参照组Poisson回归回归模型模型p例例1: 某某肿瘤医院为探索幽门螺杆菌及不同胃黏膜病变对胃癌的影响,肿瘤医院为探索幽门螺杆菌及不同胃黏膜病变对胃癌的影响,在某地随机抽取了在某地随机抽取了340

25、0名居民,检测他们的幽门螺杆菌感染状况以及名居民,检测他们的幽门螺杆菌感染状况以及胃黏膜病变情况,并对他们的胃癌发病情况进行随访。随访胃黏膜病变情况,并对他们的胃癌发病情况进行随访。随访7年后,年后,共发现共发现59例胃癌,欲分析幽门螺杆菌、基础胃黏膜病变对胃癌发生的例胃癌,欲分析幽门螺杆菌、基础胃黏膜病变对胃癌发生的影响。影响。病变幽门螺杆菌阴性幽门螺杆菌阳性人数发病数发病率(%)人数发病数发病率(%)Sg/Cag98110.102101060.594Im23052.174604203.311Dys9766.186287217.317合计1308120.9171901472.472Poiss

26、on回归回归模型模型pDATA example10_2;pINPUT hp path c n;pln=log(n); /*产生一个新变量产生一个新变量ln,其值为例数,其值为例数n的对数,作为后面的对数,作为后面model语句中的语句中的位移变量位移变量*/pCARDS;p011981p025230p03697p1161010p1220604p1321287p;pPROC GENMOD;pCLASS path(param=ref ref=first);pMODEL c=hp path/dist=poisson link=log offset=ln type1 type3 ;p/*dist指定分

27、布为指定分布为Poisson分布,分布,link指定联接函数为指定联接函数为log,type1和和type3输出似然比的输出似然比的1型型和和3型结果。型结果。Offset选项非常关键,它起到一个分母的作用,因为因变量只是指定了胃选项非常关键,它起到一个分母的作用,因为因变量只是指定了胃癌发生数癌发生数c,因此通过,因此通过offset选项设定一个位移变量。由于指定的联接函数为对数形式,选项设定一个位移变量。由于指定的联接函数为对数形式,因此位移变量不是直接用总例数,而是总例数的对数因此位移变量不是直接用总例数,而是总例数的对数*/pRUN;Poisson回归回归模型模型pDeviance和和

28、Pearson 2值分别为值分别为1.1535和和1.0455,我们可根,我们可根据相应的自由度据相应的自由度DF求得对应的求得对应的P值分别为值分别为0.5617和和0.5929,远远大于,远远大于0.05,提示模型拟合较好。,提示模型拟合较好。Poisson回归回归模型模型pSAS 9.3结果中增加了结果中增加了AIC、AICC、BIC等模型评价指标等模型评价指标Poisson回归回归模型模型pWald检验检验结果,结果,hp的影响无统计学意义(的影响无统计学意义(P=0.1370),),path的影响有统计学意义。的影响有统计学意义。Poisson回归回归模型模型p似然比检验,似然比检验

29、,分别给出了分别给出了型和型和型的结果型的结果。p型和型和型的型的结果结果不同,说明了什么?不同,说明了什么?Poisson回归回归中的过离散问题中的过离散问题p例例2:某研究观察马蹄蟹壳宽(:某研究观察马蹄蟹壳宽(wcat)与居住周围同伴数)与居住周围同伴数(satell)的关系,将壳宽从)的关系,将壳宽从23-30cm分了分了8组,每组例数如下:组,每组例数如下:Poisson回归回归中的过离散问题中的过离散问题pPROC GENMOD;pCLASS wcat(param=ref ref=first);pMODEL satell=wcat/dist=poisson link=log;pRU

30、N;p该该语句没有加语句没有加offset选项,为什么?选项,为什么?Poisson回归回归中的过离散问题中的过离散问题p偏差和偏差和Pearson卡方大于卡方大于1,提示可能存在过离散,提示可能存在过离散Log likelihood是校正是校正了了scale指定值的结果,指定值的结果,full log likelihood没有没有校正校正scale指定值指定值Poisson回归回归中的过离散问题中的过离散问题p参数估计结果参数估计结果Poisson回归回归中的过离散问题中的过离散问题p计算均值和方差:计算均值和方差:Poisson回归回归中的过离散问题中的过离散问题p方法一:利用过方法一:利

31、用过离散因子离散因子进行校正进行校正pPROC GENMOD;pCLASS path(param=ref ref=first);pMODEL c=hp path/dist=poisson link=log scale=pearson;pRUN;Poisson回归回归中的过离散问题中的过离散问题p参数估计结果参数估计结果Poisson回归回归中的过离散问题中的过离散问题p方法二:利用负二项回归方法二:利用负二项回归进行拟合进行拟合pPROC GENMOD;pCLASS wcat(param=ref ref=first);pMODEL satell=wcat/dist=negbin link=log;pRUN;Poisson回归回归中的过离散问题中的过离散问题p负二项回归负二项回归拟合效果拟合效果Poisson回归回归中的过离散问题中的过离散问题p负二项回归的参数估计负二项回归的参数估计Poisson回归回归中的过离散问题中的过离散问题p负二项回归与负二项回归与Poisson回归的比较回归的比较p(1)离散度)离散度1.0875与与0的比较的比较p(2)负二项回归与)负二项回归与Poisson回归的模型拟合优度回归的模型拟合优度指标比较指标比较作者:冯国双作者:冯国双

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号