多水平统计模型

上传人:ni****g 文档编号:569270541 上传时间:2024-07-28 格式:PPT 页数:106 大小:626.50KB
返回 下载 相关 举报
多水平统计模型_第1页
第1页 / 共106页
多水平统计模型_第2页
第2页 / 共106页
多水平统计模型_第3页
第3页 / 共106页
多水平统计模型_第4页
第4页 / 共106页
多水平统计模型_第5页
第5页 / 共106页
点击查看更多>>
资源描述

《多水平统计模型》由会员分享,可在线阅读,更多相关《多水平统计模型(106页珍藏版)》请在金锄头文库上搜索。

1、多水平统计模型简介多水平统计模型简介A Brief Introduction toMultilevel Statistical Models多水平统计模型n n概述概述n n层次结构数据的普遍性层次结构数据的普遍性n n经典方法及其局限性经典方法及其局限性n n基本多水平模型基本多水平模型n n多水平模型的应用多水平模型的应用多水平统计模型概概概概 述述述述 80 年年代代中中后后期期,英英、美美等等国国教教育育统统计计学学家家开开始始探探讨讨分分析析层层次次结结构构数数据据(hierarchically structured data)的的统统计计方方法法,并并相相继继提提出出不不同同的的模

2、模型型理理论论和和算算法。法。 多多水水平平模模型型(multilevel models)最最先先应应用用于于教教育育学学领领域域,后后用用于于心心理理学学、社社会会学学、经经济济学学、组组织织行行为为与与管管理理科科学学等等领领域域,逐逐步步应应用用到到医医学学及及公公共共卫卫生生等领域。等领域。多水平统计模型Harvey Goldstein, UK, University of London, Institute of EducationMultilevel Models in Educational and Social Research1987多水平统计模型Anthony Bryk,

3、University of ChicagoStephen Raudenbush, Michigan State University , Department of Educational PsychologyHierarchical Linear Models: Applications and Data Analysis Methods1992多水平统计模型Nicholas Longford, Princeton University, Education Testing ServiceRandom Coefficient Models1993 多水平统计模型n多水平主成分分析n多水平因子

4、分析n多水平判别分析n多水平logistic回归n多水平Cox模型n多水平Poisson回归n多水平时间序列分析n多元多水平模型n多水平结构方程模型多水平统计模型 ML3 (1994) / MLN (1996) / MLwiN (1999) HLM (Hierarchical Linear Model) SAS (Mixed) SPSS STATA多水平统计模型 两水平两水平层次次结构数据构数据水平2 水平1 层次结构数据的普遍性层次结构数据的普遍性多水平统计模型“水水平平” (level) :指指数数据据层层次次结结构构中中的的某某一一层层次次。例例如如,子子女女为为低低水水平平即即水水平平

5、 1 ,家家庭庭为为高高水水平即水平平即水平 2 。“单单位位” (unit) :指指数数据据层层次次结结构构中中某某水水平平上上的的一一个个实实体体。例例如如,每每个个子子女女是是一一个个水水平平 1 单单位位,每个家庭是一个水平每个家庭是一个水平 2 单位。单位。多水平统计模型n 临床试验和动物实验的重复测量临床试验和动物实验的重复测量n 多中心临床试验研究多中心临床试验研究n 纵向观测如儿童生长发育研究纵向观测如儿童生长发育研究n 流行病学现场调查如整群抽样调查流行病学现场调查如整群抽样调查n 遗传学家系调查资料遗传学家系调查资料n meta 分析资料分析资料多水平统计模型 层层次次结结

6、构构数数据据为为一一种种非非独独立立数数据据,即即某某观观察察值值在在观观察察单单位位间间或或同同一一观观察察单单位位的的各各次次观观察察间间不不独独立立或或不不完完全全独独立立,其其大大小小常常用用组组内内相相关关(intra-class correlation,ICC)度量。度量。 例例如如,来来自自同同一一家家庭庭的的子子女女,其其生生理理和和心心理理特特征征较较从从一一般般总总体体中中随随机机抽抽取取的的个个体体趋趋向向于于更更为为相相似似,即即子子女女特特征征在在家家庭庭中中具具有有相相似似性性或或聚聚集集性性(clustering),数据是非独立的,数据是非独立的(non inde

7、pendent)。多水平统计模型 非非独独立立数数据据不不满满足足经经典典方方法法的的独独立立性性条条件件,采采用用经经典典方方法法可可能能失失去去参参数数估估计计的的有有效效性性并并导导致致不合理的推断结论。不合理的推断结论。 但但非非独独立立数数据据的的组组内内相相关关结结构构各各异异,理理论论上上,不不同同的的结结构构应应采采用用相相应应的的统统计计方方法法。如如纵纵向向观观测测数数据据常常用用广广义义估估计计方方程程(GEE),但但有有两两个个局局限限性性:一一是是对对误误差差方方差差的的分分解解仅仅局局限限于于2水水平平的的情情形形,二二是是没没有有考考虑虑解解释释变变量量对对误误差

8、差方方差差的的影影响响。当当应应变变量量的的协协差差阵阵为为分分块块对对角角阵阵时时,一一般般采采用用多多水水平平模型。模型。多水平统计模型经典方法框架下的分析策略经典方法框架下的分析策略 经经典典的的线线性性模模型型只只对对某某一一层层数数据据的的问问题题进进行行分分析析,而而不不能能将将涉涉及及两两层层或或多多层层数数据据的的问问题题进进行行综合分析。综合分析。 但但有有时时某某个个现现象象既既受受到到水水平平1变变量量的的影影响响,又又受受到到水水平平2变变量量的的影影响响,还还受受到到两两个个水水平平变变量量的交互影响的交互影响(cross-level interaction)。多水平

9、统计模型 个个体体的的某某事事件件既既受受到到其其自自身身特特征征的的影影响响,也也受受到到其其生生活活环环境境的的影影响响,即即既既有有个个体体效效应应,也也有有环境或背景效应环境或背景效应(context effect)。 例例如如,个个体体发发生生某某种种牙牙病病的的危危险险可可能能与与个个体体的的遗遗传传倾倾向向、个个体体所所属属的的社社会会阶阶层层(如如饮饮食食文文化化和和口口腔腔卫卫生生习习惯惯)、环环境境因因素素(如如饮饮水水中中氟氟浓浓度度)等等有有关。关。多水平统计模型n分解分解(disaggregation)n聚合聚合(aggregation)多水平统计模型 分分解解:不不

10、满满足足模模型型独独立立性性假假定定,回回归归系系数数及及其其标标准准误误的的估估计计无无效效,且且未未能能有有效效区区分分个个体体效效应应与与背背景景效效应应。另另一一种种分分析析策策略略是是用用哑哑变变量量拟拟合合高高水平单位的固定效应。水平单位的固定效应。 聚聚合合:损损失失大大量量水水平平1单单位位的的信信息息,更更严严重重的的是可能导致是可能导致“生态学谬误生态学谬误”(ecological fallacy)。多水平统计模型 多多水水平平分分析析的的概概念念为为人人们们提提供供了了这这样样一一个个框框架架,即即可可将将个个体体的的结结局局联联系系到到个个体体特特征征以以及及个个体体所

11、所在在环环境境或或背背景景特特征征进进行行分分析析,从从而而实实现现研研究究的的事事物物与与其其所所在在背背景景的的统一。统一。多水平统计模型经经典典模模型型的的基基本本假假定定是是单单一一水水平平和和单单一一的的随随机机误误差差项项,并并假假定定随随机机误误差差项项独独立立、服服从从方方差差为为常常量量的的正正态态分分布布,代代表表不不能能用用模模型型解解释释的的残残留留的的随机成份。随机成份。 基本的多水平模型基本的多水平模型 多水平统计模型当当数数据据存存在在层层次次结结构构时时,随随机机误误差差项项则则不不满满足足独独立立常常方方差差的的假假定定。模模型型的的误误差差项项不不仅仅包包含

12、含了了模模型型不不能能解解释释的的应应变变量量的的残残差差成成份份,也也包包含含了了高高水水平平单单位自身对应变量的效应成份。位自身对应变量的效应成份。 多水平统计模型多多水水平平模模型型将将单单一一的的随随机机误误差差项项分分解解到到与与数数据据层层次次结结构构相相应应的的各各水水平平上上,具具有有多多个个随随机机误误差差项项并并估估计计相相应应的的残残差差方方差差及及协协方方差差。构构建建与与数数据据层层次次结结构构相相适适应应的的复复杂杂误误差差结结构构,这这是是多多水水平平模模型区别于经典模型的根本特征。型区别于经典模型的根本特征。 多水平统计模型 多多水水平平模模型型由由固固定定与与

13、随随机机两两部部分分构构成成,与与一一般般的的混混合合效效应应模模型型的的不不同同之之处处在在于于,其其随随机机部部分分可可以以包包含含解解释释变变量量,故故又又称称为为随随机机系系数数模模型型(random coefficient model),其其组组内内相相关关也也可可为为解解释释变变量量的的函函数数。换换言言之之,多多水水平平模模型型可可对对不不同同水平上的误差方差进行深入和精细的分析。水平上的误差方差进行深入和精细的分析。多水平统计模型1. 方差成份模型方差成份模型 (Variance Component Model) 假假定定一一个个两两水水平平的的层层次次结结构构数数据据,医医院

14、院为为水水平平 2 单单位位,患患者者为为水水平平 1 单单位位,医医院院为为相相应应总总体体的随机样本,模型中仅有一个解释变量的随机样本,模型中仅有一个解释变量 x 。多水平统计模型 和和 分别为第分别为第 j 个医院中第个医院中第 i 个患者应变个患者应变量观测值和解释变量观测值,量观测值和解释变量观测值, 和和 为参数估为参数估计计, 为通常的随机误差项。为通常的随机误差项。示水平示水平 2 单位单位示水平示水平 1 单位单位多水平统计模型与与经经典典模模型型的的区区别别在在于于 。经经典典模模型型中中的的估估计计为为 ,仅仅一一个个估估计计值值,表表示示固固定定的的截截距距,而而在在方

15、方差差成成份份模模型型中中 表表示示 j 个个截截距距值值,即即当当 x 取取 0 时,第时,第 j 个医院在基线水平时个医院在基线水平时 y 的平均估计值。的平均估计值。多水平统计模型为为平平均均截截距距,反反映映 与与 的的平平均均关关系系,即当即当 x 取取 0 时,所有时,所有 y 的总平均估计值。的总平均估计值。 为为随随机机变变量量,表表示示第第 j 个个医医院院 y 之之平平均均估估计计值值与与总总均均数数的的离离差差值值,反反映映了了第第 j 个个医医院院对对 y 的的随机效应。随机效应。多水平统计模型 表表示示协协变变量量 x 的的固固定定效效应应估估计计值值。即即 y 与与

16、协协变变量量 x 的的关关系系在在各各医医院院间间是是相相同同的的,换换言言之之,医院间医院间 y 的变异与协变量的变异与协变量 x 的变化无关。的变化无关。多水平统计模型 方方差差成成份份模模型型拟拟合合 j 条条平平行行的的回回归归线线,截截距不同距不同( ),斜率相同,斜率相同( )。 多水平统计模型对医院水平残差的假定对医院水平残差的假定对患者水平残差的假定与传统模型一致对患者水平残差的假定与传统模型一致 水平水平 1 上的残差与水平上的残差与水平 2 上的残差相互独立上的残差相互独立,多水平统计模型 反反应应变变量量可可表表达达为为固固定定部部分分 与与随随机机部部分分 之之和和。模

17、模型型具具有有两两个个残残差差项项,这是多水平模型区别于经典模型的关键部分。这是多水平模型区别于经典模型的关键部分。 即即水水平平2残残差差,随随机机效效应应、又又称称潜潜变变量量(latent variable)多水平统计模型此此模模型型需需估估计计4个个参参数数,除除两两个个固固定定系系数数 和和 ,还还需需估估计计两两个个随随机机参参数数 和和 。其其中中 即即为为医院水平的方差成份,医院水平的方差成份, 为患者水平的方差成份。为患者水平的方差成份。多水平统计模型组内相关的度量组内相关的度量方差成份模型中,应变量方差为方差成份模型中,应变量方差为多水平统计模型 此即水平此即水平 2 和水

18、平和水平 1 方差之和。方差之和。 同同一一医医院院中中两两个个患患者者(用用i1,i2 表表示示)间间的的协协方方差差为:为:多水平统计模型组内相关组内相关(intra-class correlation, ICC)多水平统计模型 测测量量了了医医院院间间方方差差占占总总方方差差的的比比例例,实实际际上上它它反反映映了了医医院院内内个个体体间间相相关关,即即水水平平 1 单单位位(患患者者)在在水水平平 2 单单位位(医医院院)中中的的聚聚集集性性或或相似性。相似性。多水平统计模型 由由于于模模型型不不止止一一个个残残差差项项,就就产产生生了了非非零零的的组组内内相相关关。若若 为为 0,表

19、表明明数数据据不不具具层层次次结结构构,可可忽忽略略医医院院的的存存在在,即即简简化化为为传传统统的的单单水水平平模模型型;反反之之,若若存存在在非非零零的的 ,则不能忽略医院的存在。,则不能忽略医院的存在。多水平统计模型 水水平平 2 单单位位中中的的水水平平 1 单单位位间间存存在在相相关关,通通常常的的“普普通通最最小小二二乘乘法法”(Ordinary Least Squares OLS)进行参数估计是不适宜的。进行参数估计是不适宜的。多水平统计模型 进进一一步步,如如数数据据具具有有三三个个水水平平的的层层次次结结构构,如如医医院院、医医生生和和患患者者三三个个水水平平,则则将将有有两

20、两个个这这样样的的相相关关系系数数,即即医医院院内内相相关关和医生内相关。和医生内相关。多水平统计模型随随机机系系数数模模型型是是指指协协变变量量的的系系数数估估计计不不是是固固定定的的而而是是随随机机的的,即即协协变变量量对对反反应应变变量量的效应在不同的水平的效应在不同的水平 2 单位间是不同的。单位间是不同的。仍仍以以医医院院与与患患者者两两水水平平数数据据结结构构说说明明随随机系数模型基本结构与假设。机系数模型基本结构与假设。随机系数模型随机系数模型(Random Coefficient Model)多水平统计模型与方差成份模型的区别在于与方差成份模型的区别在于 。多水平统计模型 方差

21、成份模型中协变量方差成份模型中协变量 的系数估计为的系数估计为固定的固定的 ,示协变量,示协变量 对反应变量的效应对反应变量的效应是固定不变的。在随机系数模型中协变量是固定不变的。在随机系数模型中协变量 的系数估计为的系数估计为 ,示每个医院都有其自身的,示每个医院都有其自身的斜率估计,表明协变量斜率估计,表明协变量 对反应变量的效应对反应变量的效应在各个医院间是不同的。在各个医院间是不同的。多水平统计模型 的假定及其含义与方差成份模型一的假定及其含义与方差成份模型一致。现致。现 为随机变量,假定:为随机变量,假定:多水平统计模型 表表示示第第 j 个个医医院院的的 y 随随 x 变变化化的的

22、斜斜率率; 表表示示全全部部医医院院的的 y 随随 x 变变化化的的斜斜率率的平均值的平均值(平均斜率平均斜率)。 是是指指各各医医院院的的 y 随随 x 变变化化的的斜斜率率 的方差。的方差。多水平统计模型 示示第第 j 个个医医院院的的斜斜率率与与平平均均斜斜率率的的离离差差值值, 指指上上述述截截距距离离差差值值与与斜斜率率离离差差值值的的协方差,反映了它们之间的相关关系。协方差,反映了它们之间的相关关系。多水平统计模型 即即表表达达为为固固定定部部分分与与随随机机部部分分之之和和。其其中中,固固定定效效应应用用均均数数描描述述,它它决决定定了了全全部部医医院院的的平平均均回回归归线线,

23、这这条条直直线线的的截截距距即即平平均均截截距距 ,直直线线的的斜斜率率即即平平均均斜斜率率 。 为为随机系数。随机系数。将模型改记为:将模型改记为:多水平统计模型 随随机机效效应应用用方方差差描描述述,它它反反映映了了各各医医院院之之间间 y 的的变变异异与与协协变变量量 x 的的关关系系。模模型型随随机机部部分分具具多多个个残残差差项项,需需估估计计4个个随随机机参参数数,即即方方差差 、 和和 以以及及协方差协方差 。多水平统计模型模型的反应变量方差为:模型的反应变量方差为: 表表明明各各医医院院间间 y 的的变变异异与与协协变变量量 x 有有关关,即即每每条条回回归归线线不不仅仅截截距

24、距不不同同,且且斜斜率率也也不不同同。当当 x 取取 0 时时每每个个医医院院 y 的的平平均均估估计计值值 不不同同,且每个医院且每个医院 y 随随 x 变化的斜率变化的斜率 不同。不同。多水平统计模型组内相关与解释变量有关多水平统计模型 值值得得指指出出,模模型型随随机机部部分分的的解解释释变变量量常常为为其其固固定定部部分分的的一一个个子子集集,但但亦亦可可以以不不是是。换换言言之之,可可以以在在模模型型的的固固定定部部分分或或随随机机部部分分纳入任何水平上测量的解释变量。纳入任何水平上测量的解释变量。多水平统计模型 反反应变量向量的量向量的协方差方差结构构 从从最最基基本本的的两两水水

25、平平数数据据结结构构来来考考察察反反应应变变量量向向量量的的协协方方差差结结构构,即即只只包包括括随随机机参参数数 和和 。对对应应于于方方差差成成份份模模型型,反应变量方差为水平反应变量方差为水平 1 和水平和水平 2 方差之和:方差之和:多水平统计模型 同一个医院所诊疗的两个患者同一个医院所诊疗的两个患者(用用 , 表示表示)间的协方差为:间的协方差为:多水平统计模型因此,同一医院所诊疗的三名患者的协因此,同一医院所诊疗的三名患者的协差阵为差阵为多水平统计模型 对对两两个个医医院院而而言言,若若一一个个医医院院诊诊疗疗了了三三名名患患者者,另另一一个个医医院院诊诊疗疗了了两两个个患患者者,

26、则则具具有有 2 个个水水平平 2 单单位位的的反反应应变变量量向向量量 Y 总总的的协协差阵可表达为:差阵可表达为:多水平统计模型 矩矩阵阵的的这这种种分分块块对对角角结结构构表表达达了了不不同同医医院院所所诊诊疗疗的的患患者者间间的的协协方方差差为为 0 ,它它可可进进一一步步扩扩展展到到任任意意多多的的医医院院数数。将将上上述述矩矩阵阵表表达达为为另另一一种种更更简简略的形式略的形式:多水平统计模型 为为 维维的的 1 矩矩阵阵, 为为 维维的的单单位位阵阵, 的的下下标标 2 表表明明为为两两水水平平模模型型, 的的维维数数即即水水平平2单单位位数数,主主对对角角线线块块的的维维数数即

27、即水水平平1单单位位数数,它它们们均均为为方方阵阵。在在传传统统 OLS 估估计计中中, 为为 0 ,则则该该协差阵退化为标准形式的协差阵退化为标准形式的 , 即残差方差。即残差方差。多水平统计模型考察包括随机系数的一般形式的两水平模型考察包括随机系数的一般形式的两水平模型或简记为或简记为多水平统计模型 对对于于具具有有随随机机截截距距与与斜斜率率的的两两水水平平模模型型,其反应变量协差阵具有以下典型的分块结构:其反应变量协差阵具有以下典型的分块结构:多水平统计模型 矩矩阵阵 为为水水平平 2 的的随随机机截截距距与与斜斜率率的的协协差差阵阵,即即随随机机系系数数协协差差阵阵,矩矩阵阵 为为水

28、水平平 1 的随机系数协差阵。的随机系数协差阵。 这这里里,水水平平 1 只只有有一一个个单单一一的的方方差差项项,可可进进一一步步采采用用 表表示示这这些些协协差差阵阵集集。 将上述矩阵展开得到:将上述矩阵展开得到:多水平统计模型 这这是是具具有有分分块块结结构构的的一一个个具具有有 2 个个水水平平 1 单单位位的的水水平平 2 单单位位的的反反应应变变量量协协差差阵阵。此此即即构构造造反反应应变变量量协协差差阵阵的的一一般般模模式式,它它同同时时也概括了拟合水平也概括了拟合水平 1 复杂变异的可能性。复杂变异的可能性。多水平统计模型固定与随机参数估固定与随机参数估计 固固定定和和随随机机

29、参参数数的的估估计计方方法法一一般般采采用用“迭迭代代广广义义最最小小二二乘乘算算法法”(Iterative Generalized Least Squares,IGLS) (Goldstein,1986)或或“限限制制性性迭迭代代广广 义义 最最 小小 二二 乘乘 法法 ”(Restricted Iterative Generalized Least Squares,RIGLS) (Goldstein,1989)。多水平统计模型现现以以最最基基本本的的两两水水平平方方差差成成份份模模型型来来阐阐明固定与随机参数估计的基本思想和步骤。明固定与随机参数估计的基本思想和步骤。 多水平统计模型 假假

30、定定已已知知方方差差 的的值值,则则可可直直接接构构造造分分块块对对角角阵阵 ,简简记记为为 。直直接接采采用用通通常常的的广广义义最最小小二二乘乘法法(Generalized Least Squares GLS)可获得固定系数的估计:可获得固定系数的估计: 多水平统计模型 在在初初始始阶阶段段,假假定定 为为 0 ,即即假假定定数数据据不不具具有有系系统统结结构构,则则给给出出固固定定系系数数通通常常的的 OLS 估计估计 ,得到粗残差:,得到粗残差: 多水平统计模型将粗残差向量记为:将粗残差向量记为:将将粗粗残残差差向向量量形形成成交交叉叉乘乘积积矩矩阵阵 ,然然后后再再形形成成交交叉叉乘

31、乘积积矩矩阵阵 的的向向量量化化算算子子,记记为为 。相相应应的的,也也可可以以形形成成反反应应变变量协方差阵量协方差阵 向量化算子,记为向量化算子,记为 。多水平统计模型对应于对应于 2 个医院,一个诊疗个医院,一个诊疗 3 名患者,另名患者,另一个诊疗一个诊疗 2 名患者,则名患者,则 和和 均均具有具有 32+22=13 个元素。因为个元素。因为 的期望为的期望为 可将这些向量间关系表达为以下线性模型可将这些向量间关系表达为以下线性模型多水平统计模型=+R=+R多水平统计模型这这里里, 为为一一个个残残差差向向量量。将将粗粗残残差差作作为为模模型型的的反反应应变变量量向向量量,模模型型右

32、右边边包包含含两两个个已已知知的的解解释释变变量量,其其系系数数即即待待估估计计的的随随机机参参数数 和和 。通通过过 GLS 方方法法获获得得 和和 的的估估计计,回回到到初初始始模模型型则则获获得得固固定定系系数数新新的的估估计计,在在随随机机与与固固定定参参数数估估计计间间反反复复迭迭代代直直至收敛,此即至收敛,此即 IGLS 算法的基础。算法的基础。多水平统计模型1. 重复测量数据的多水平模型重复测量数据的多水平模型当当同同一一研研究究对对象象被被重重复复测测量量多多次次时时,测测量量点点即即为为水水平平 1 单单位位,测测量量点点又又嵌嵌套套(nested)进进作作为为水水平平 2

33、单单位位的的个个体体,这这种种数数据据结结构构具具有有典典型型的的层层次次结结构构特特征。征。 多水平模型的多水平模型的应用用多水平统计模型在在临临床床试试验验和和动动物物实实验验中中,常常需需对对患患者者或或动动物物的的某某些些指指标标进进行行重重复复测测量量,以以了了解解不不同同时时间间观观测测指指标标的的变变化化以以及及处处理理因因素素与与观观测测指指标标的的关关系系随随时时间间的的变变化化;在在生生长长发发育育研研究究中中,也也需需对对个个体体生生长或发育指标作多时点的重复测量。长或发育指标作多时点的重复测量。多水平统计模型常常规规使使用用的的重重复复测测量量数数据据统统计计方方法法,

34、一一般般要要求求资资料料是是平平衡衡的的,即即每每一一个个体体有有相相同同次次数数的的重重复复测测量量值值,这这对对于于实实验验研研究究是是可可行行的的,但但在在生生长长发发育育研研究究中中,测测量量常常常常是是不不规规则则的的,这这就就出出现现了了个个体体测测量量时时点点多多少少不不一一、时时间间间间隔隔不不等等以以及及观观测测值值缺缺失失等等问问题题,它它增增加加了了传传统统统统计计方方法法拟拟合合个个体体生生长长曲曲线线的的难难度度,并并引引起起估估计计结果不同程度的偏差。结果不同程度的偏差。多水平统计模型 多多水水平平模模型型技技术术可可有有效效和和方方便便地地处处理理此此类类测测量量

35、模模式式的的数数据据,提提供供统统计计上上有有效效的的参参数数估估计计,并并具具有有如下几个特点:如下几个特点:多水平统计模型(1) 考考虑虑了了分分布布于于不不同同层层次次的的测测量量误误差差,并并给给出出相相应应的误差估计值;的误差估计值;(2) 拟拟合合个个体体生生长长曲曲线线时时不不要要求求相相等等的的时时间间间间隔隔,在在拟拟合合个个体体生生长长曲曲线线的的同同时时也也估估计计全全部部样样本本的的平平均均曲线;曲线;多水平统计模型(3) 不不要要求求每每个个个个体体都都有有同同样样多多的的测测量量点点,即即缺缺失测量点并不增加拟合生长曲线的难度;失测量点并不增加拟合生长曲线的难度;(

36、4) 便便于于在在生生长长曲曲线线中中引引入入其其它它解解释释变变量量,如如性性别、营养状况等,分析其对生长过程的影响。别、营养状况等,分析其对生长过程的影响。多水平统计模型2. Meta分分析析是是指指对对具具有有相相同同研研究究假假设设的的多多项项独独立立研研究究结结果果所所进进行行的的合合并并分分析析,在在合合并并不不同同来来源源的的研研 究究 资资 料料 时时 可可 能能 引引 入入 异异 杂杂 方方 差差 (heterogeneous variance),因因此此,其其数数据据可可看看成成具具有有两两个个水水平平的的层层次结构,即研究水平与个体水平。次结构,即研究水平与个体水平。多水

37、平统计模型Meta分分析析的的主主要要目目的的是是为为了了得得到到比比单单一一研研究究更更精精确确的的结结果果估估计计,进进一一步步的的目目的的则则是是分分析析影影响响研研究究结结果果间差异的因素。间差异的因素。目目前前,Meta分分析析主主要要根根据据“效效应应尺尺度度”的的同同质质性性检检验验结结果果,而而决决定定采采用用固固定定效效应应模模型型或或随随机机效效应应模模型型来来合合并并每每项项研研究究的的“效效应应尺尺度度”。采采用用多多水水平平模模型型可可较较为为方方便便地地分分析析影影响响研研究究结结果果间间差差异异的的因因素素如如研研究究水水平上的有关协变量包括样本含量、设计类型等。

38、平上的有关协变量包括样本含量、设计类型等。多水平统计模型 3. 离散数据的多水平模型离散数据的多水平模型 在在流流行行病病学学现现场场调调查查研研究究中中,常常对对发发病病率率、患患病病率率或或死死亡亡率率以以及及它它们们在在地地区区之之间间的的变变异异感感兴兴趣趣。这这里里的两水平结构是,个体为水平的两水平结构是,个体为水平 1,地区为水平,地区为水平 2。多水平统计模型此此类类研研究究常常常常拥拥有有若若干干地地区区某某时时期期的的死死亡亡记记录录和和死死者者个个人人特特征征以以及及地地区区特特征征如如人人口口构构成成或或社社会会经经济济特特征征等等。研研究究者者可可以以分分析析这这些些解

39、解释释变变量量是是否否能能够够解解释释死死亡亡率率在在地地区区之之间间的的变变异异,也也可可以以分分析析死死亡亡率率的差别的差别(比如男性和女性之间比如男性和女性之间)是否在地区之间不同等。是否在地区之间不同等。多水平统计模型4. 多变量多水平模型:多变量多水平模型:在在医医学学研研究究中中,研研究究者者常常对对个个体体作作几几种种测测量量(即即测测量量几几个个指指标标),如如收收缩缩压压、舒舒张张压压和和心心率率,如如果果将将它它们们作作为为反反应应变变量量一一起起进进行行分分析析,就就可可以以设设置置多多变变量量模模型型,分分析析解解释释变变量量诸诸如如年年龄龄、性性别别、是是否否锻锻炼炼

40、、是是否否吸吸烟烟等等与与这这三三个个反反应应变变量量的的关关系系。此此时时,是是将将其其作作为为一一个个两两水水平平模模型型,每每一一个个体体作作为为一一个个水水平平2单单位位,3种测量组成水平种测量组成水平1单位。单位。多水平统计模型5. 混合反应变量多水平模型混合反应变量多水平模型例例如如,测测定定人人们们的的吸吸烟烟行行为为,可可以以测测量量某某人人是是否否吸吸烟烟以以及及吸吸烟烟程程度度如如何何,我我们们可可将将其其考考虑虑为为一一个个混混合合双双变变量量模模型型,将将有有关关吸吸烟烟的的影影响响因因素素作作为模型中的解释变量进行分析。为模型中的解释变量进行分析。多水平统计模型多水平

41、分析的主要优点:多水平分析的主要优点:1. 获得回归系数及其标准误的有效估计。获得回归系数及其标准误的有效估计。多水平统计模型2. 可可在在模模型型固固定定或或随随机机部部分分引引入入任任何何水水平平上上所所测测量量的的协协变变量量,能能够够探探讨讨各各水水平平单单位位的的特特征征对对反反应应变变量量的的影影响响,以以及及对对反反应应变变量量在在高高水水平平单单位位甚甚至至是是低低水水平平单单位位之之间间变变异异的的影影响响,即即这这些些特特征是否可以解释这些变异。征是否可以解释这些变异。多水平统计模型3. 在在调调整整了了低低水水平平单单位位甚甚至至高高水水平平单单位位的的各各种种特特征征后

42、后,可可对对高高水水平平单单位位的的残残差差估估计计进进行行排排序序和和比比较较,用于识别极端的高水平单位。用于识别极端的高水平单位。 例例如如,比比较较若若干干医医院院某某病病治治愈愈率率的的高高低低,在在调调整整了了患患者者、医医护护人人员员的的各各种种特特征征之之后后,通通过过对对医医院院水水平平残残差差估估计计的的考考察察,可可以以发发现现某某些些极极端端的的医院。医院。多水平统计模型 若若将将其其选选出出作作进进一一步步深深入入的的个个案案调调查查,则则形形成成定定量量的的多多水水平平分分析析和和定定性性调调查查相相结结合合的的研研究究,有有助助于于探探讨讨更更详详细细的的因因果果机

43、机制制。这这是是多多水水平平分分析析的另一个重要特点。的另一个重要特点。多水平统计模型应用前景用前景自自然然界界与与人人类类社社会会广广泛泛存存在在着着层层次次结结构构现现象象,生生物物系系统统具具有有自自然然的的等等级级或或组组群群结结构构,人人类类社社会会被被组织成高度复杂的系统结构。组织成高度复杂的系统结构。多水平统计模型医医学学和和公公共共卫卫生生领领域域研研究究的的一一个个重重要要方方面面是是探探索索疾疾病病发发生生、发发展展及及其其变变化化的的规规律律性性。疾疾病病总总是是在在某某种种特特定定的的环环境境中中产产生生和和发发展展的的,即即个个体体的的结局是由个体和所在环境的特征联合

44、决定的。结局是由个体和所在环境的特征联合决定的。无无论论是是观观察察性性研研究究还还是是实实验验性性研研究究,从从时时空空两个维度均可形成数据的层次结构。两个维度均可形成数据的层次结构。多水平统计模型 多多水水平平模模型型复复杂杂的的误误差差结结构构适适应应并并反反映映了了数数据据相相应应的的层层次次结结构构,这这是是多多水水平平分分析析区区别别于于经经典典统计模型的最重要特征。统计模型的最重要特征。多水平统计模型n1.运行空模型:n空模型的结果可以说明总结局测量变异中多大程度是由组内变异引起,多大程度是由组间变异引起。微观和宏观来源的结局测量变异可以用来计算组内相关系数(ICC)。建立多水平

45、模型的步骤多水平统计模型n 计算组内相关系数(Intra-class correlation coefficient,ICC):多水平统计模型 测测量量了了医医院院间间方方差差占占总总方方差差的的比比例例,实实际际上上它它反反映映了了医医院院内内个个体体间间相相关关,即即水水平平 1 单单位位(患患者者)在在水水平平 2 单单位位(医医院院)中中的的聚聚集集性性或或相似性。相似性。多水平统计模型 由由于于模模型型不不止止一一个个残残差差项项,就就产产生生了了非非零零的的组组内内相相关关。若若 为为 0,表表明明数数据据不不具具层层次次结结构构,可可忽忽略略医医院院的的存存在在,即即简简化化为为

46、传传统统的的单单水水平平模模型型;反反之之,若若存存在在非非零零的的 ,则不能忽略医院的存在。,则不能忽略医院的存在。多水平统计模型n2.将水平2解释变量纳入空模型n 此时,模型称为带宏观解释变量主效应的随机截距模型。与空模型比较,该模型具有相同的随机成分,但固定效应不同。多水平统计模型n3.将水平1解释变量纳入截距模型n 该模型称为随机截距模型。与带宏观解释变量主效应的随机截距模型相比,有相同的随机效应,但是固定效应不同。多水平统计模型n4.检验水平1随机斜率n 多层模型中,不仅结局测量组均数会跨组变化,而且水平1解释变量与结局测量之间的关系也会随组群的变化而变化。多水平统计模型n检验跨层交

47、互作用n Cross-level interaction:如果某个场景变量对水平1随机系数有显著效应,表示水平1解释变量与应变量之间的关系依赖于组水平的解释变量,或受场景变量的影响和调节。多水平统计模型n例:n多水平模型及其对肝癌患者住院费用影响因素的分析多水平统计模型资料来源n资料来源于广州市某三甲医院信息系统( 广东省统计病案管理系统) 的病历资料, 本研究采用ICD- 10 编码, 选取编码为C22. 001( 原发性肝癌) 的病例, 收集该医院2003-2008年的住院患者共1659 例( 男1440 例, 女219 例) 。主要摘录患者的一般情况( 病案号, 性别, 年龄, 婚姻状况

48、) , 入院情况, 疗效, 付款方式, 抢救情况, 手术情况, 住院天数, 住院费用( 总费用) 等。多水平统计模型n根据医院科室功能和患者例数情况, 归纳为21 个科室。住院费用、住院天数都是非正态分布的资料, 经对数变换后进行分析。肝癌患者的平均年龄为52 岁, 为了使模型截距有意义, 对年龄进行总体均数中心化, 即将年龄减去总体均数。X 表示第一水平解释变量, W 表示第二水平解释变量。多水平统计模型多水平统计模型 结果与分析n (1)拟合空模型截距项方差截距项方差残差项方差残差项方差多水平统计模型多水平统计模型n(2)空模型纳入第二水平解释变量截距项截距项科室分区科室分区残差残差多水平统计模型多水平统计模型n(3) 第一水平模型纳入第一水平解释变量多水平统计模型多水平统计模型考虑随机效应解释变量的多水平模型n以上是把第一水平的解释变量全部假设为固定效应变量, 即认为解释变量对结局变量的效应在组间是无差异的, 但是在实际中有些解释变量对结局变量的影响是会随着组单位的不同而变化的, 即还需要确定第一水平解释变量是否有随机效应。结果显示手术情况( X 8 ) 、住院天数( X 9 ) 为随机效应, 并且各随机效应之间无相关关系多水平统计模型多水平统计模型

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号