多层统计分析模型演示文稿

资源描述

《多层统计分析模型演示文稿》由会员分享，可在线阅读，更多相关《多层统计分析模型演示文稿（69页珍藏版）》请在金锄头文库上搜索。

1、多层统计分析模型演示(ynsh)文稿1页，共69页，星期一。多层统计(tngj)分析模型2页，共69页，星期一。绪论(xln)3页，共69页，星期一。青蛙(qngw)与池塘（“Frog-pond theory”）n青蛙学生个体；n池塘学校(xuxio)环境；n学生的成绩好坏不仅受到个体本身的影响，也受到学校环境的影响！4页，共69页，星期一。多层数据(shj)n低一层（低水平）单位（个体）低一层（低水平）单位（个体）的数据的数据(shj)嵌套（嵌套（nested）于于高一层（高水平）的单高一层（高水平）的单位（组群）位（组群）之中。之中。n结局变量，个体解释变量，结局变量，个体解释变量，场景变

2、量场景变量（contextual variables）5页，共69页，星期一。组内观察(gunch)相关（within-group observation dependence）n同一组内的个体，较不同组的个体而言，在观念、行为等很多方面更为接近或相似；即便不是刻意分组，也是如此。n组内同质(tn zh)（within-group homogeneity），组间异质（between-group heterogeneity）n很小的相关将导致很大的I类错误。6页，共69页，星期一。多层数据的常见(chn jin)来源n复杂抽样(chu yn)；n多中心临床试验；n纵向研究（longitudina

3、l studies）与重复测量（repeated measures）；n“高低搭配”；nMeta分析；n7页，共69页，星期一。多层统计模型(mxng)的研究内容n哪些个体解释变量会影响结局(jij)变量；n哪些场景变量会影响结局变量；n个体解释变量对结局变量的影响是否会受到场景变量的影响。8页，共69页，星期一。多层统计模型出现前对多层数据进行分析(fnx)的探索9页，共69页，星期一。探索(tn su)（1）分别估计n在个体水平和组群水平分别进行分析(fnx)；n试图用单一的个体水平模型的分析结果来推论另一水平的统计结果。10页，共69页，星期一。探索(tn su)（2）传统回归n用传统的

4、固定效应回归模型中一般(ybn)的交互项理解多层数据中的跨层（cross-level）交互作用。11页，共69页，星期一。探索(tn su)（3）两步模型（two-stage model）n第一步模型，对各组分别进行同一回归(hugu)模型估计，获得一系列的系数；n对这些系数的恒定性进行检验；n如果不恒定，则进行第二步模型，以组变量为因变量，系数为自变量进行回归。12页，共69页，星期一。探索(tn su)（3）两步模型的问题n无论哪一步(y b)均使用OLS，并不适用；n当组群过多，则十分麻烦；n某些组内样本量很少时，进行回归不稳定；n将每个组群认为是不相关的，忽略了其为从一大样本中抽取的事

5、实。13页，共69页，星期一。多层统计模型(mxng)的出现n研究的学者很多；n系统的主要为两；n研究的理论没有根本上的分歧；n双方研究成果的发布时间基本相同（上世纪80年代末90年代初）；n分别有各自分析的成熟的软件(run jin)；n目前，大家基本上接受两组人分别独立开发出同一模型的结果。14页，共69页，星期一。S. Raudenbush与A. Brykn模型(mxng)称为：hierarchical linear model；n软件为：HLM15页，共69页，星期一。H. Goldsteinn模型称为：multilevel models；n软件为：MLwiN（早期(zoq)版本称ML

6、3，MLn）16页，共69页，星期一。多层统计(tngj)模型的名称nmultilevel modelsnhierarchical linear modelnrandom-effect modelnrandom coefficient modelnvarious component modelnmixed-effect modelnempirical Bayes model17页，共69页，星期一。多层统计模型(mxng)的优点n同时分析组效应和个体效应；n不需有独立性假设；n对稀疏（sparse）数据，即每组样本很少的数据，特别有效(yuxio)；n特别适合对发展模型（GM）的分析。18页，

7、共69页，星期一。多层统计(tngj)模型的局限性（1）n模型复杂，不够简约；n需较大样本(yngbn)以保证稳定性；n组群数量较少，会出现偏倚；n高水平单位并非严格抽样获得；n某些场景变量通常是各组个体的聚集性测量，而不是总体内个体的聚集性测量；19页，共69页，星期一。多层统计(tngj)模型的局限性（2）n研究对象一般具有流动性，即受到群组影响的程度不同(b tn)，虽可用出入时间进行控制，但此信息一般不可知；n依然存在自变量带有测量误差的问题，必需借助于结构方程模型（SEM）；n完全嵌套假设，即每一个低水平单位嵌套、且仅嵌套于一个高水平单位。20页，共69页，星期一。用于多层统计(tn

8、gj)模型的软件n专门(zhunmn)软件：HLM；MLwiN；SuperMIX；aML；EGRET；LISREL；Mplus等。n通用统计学软件：SAS；SPSS；stata；S-plus/R等。21页，共69页，星期一。线性多层统计(tngj)模型基础知识22页，共69页，星期一。组内相关系数（Intra-Class Correlation Coefficient, ICC）n组间方差占总方差的比例。n可使用对“空模型”的拟合(n h)获得；n值域在0到1之间，越接近1，说明相关越明显；n对ICC的检验是是否选择多层模型的依据。23页，共69页，星期一。两水平模型的公式(gngsh)表达2

9、4页，共69页，星期一。空模型(mxng)（又称截距模型(mxng)）25页，共69页，星期一。两个(lin )水平1自变量、一个水平2自变量26页，共69页，星期一。一般(ybn)模型27页，共69页，星期一。SAS中的公式(gngsh)表达28页，共69页，星期一。模型(mxng)假设29页，共69页，星期一。模型(mxng)假设SAS的表达30页，共69页，星期一。固定(gdng)和随机回归系数31页，共69页，星期一。模型(mxng)估计方法32页，共69页，星期一。最大似然法（ML）n包括(boku)普通最大似然法（ML）和限制性最大似然法（REML）；n两者用于估计的残差基础不同，

10、后者的残差包括所有的随机变异；nREML是SAS的MIXED过程和HLM的默认算法；nREML通常用于组数量较少的模型；nML可以用于模型比较，而REML不行；nREML估计较优，而ML较快。33页，共69页，星期一。最小二乘法(chngf)（LS）n包括迭代广义(gungy)最小二乘法（IGLS）和限制性迭代广义最小二乘法（RIGLS）n都以普通最小二乘估计（OLS）为初始值进行迭代；n地位及相对关系大致等同于ML和REML；n是MLwiN使用的算法。34页，共69页，星期一。经验(jngyn)Bayes方法（EB）n“收缩估计（shrinkage estimator）”n以可靠性权重确定(

11、qudng)最后的估计值；n对于某些样本量很小的组，则更多的使用总样本的信息，进行“借力（borrow strength）”35页，共69页，星期一。空模型(mxng)的可靠性权重36页，共69页，星期一。对模型拟合(n h)的评价nSAS给出：-2LL，AIC，AICC，BIC等统计(tngj)量，其值越小越好；n但只在比较模型时有用；n模型收敛的速度可以说明拟合的好坏。37页，共69页，星期一。假设检验n全局检验：F检验；n局部(jb)检验：对方差-协方差估计使用Wald Z检验；对系数使用t检验；n单测检验，P值需除2；n其它可使用LR等。38页，共69页，星期一。模型(mxng)比较n

12、对于嵌套模型，使用LR检验；n对于非嵌套模型，使用AIC，AICC和BIC检验；n无论何种，均需使用ML进行(jnxng)估计。39页，共69页，星期一。对变异(biny)的解释程度（RB）40页，共69页，星期一。对变异(biny)的解释程度（SB）41页，共69页，星期一。示例(shl)与SAS实现42页，共69页，星期一。例1：对医生(yshng)满意度调查nPatid：病人编号；nPhys：医生编号；nAge：病人年龄；nSat：满意度分数；nPractice：执业(zh y)时间；43页，共69页，星期一。空模型(mxng)44页，共69页，星期一。空模型(mxng)n2步迭代完成；

13、n所有随机系数的检验均高于检验水准(shuzhn)；nICC=0.00292/（0.00292+1.291）=0.23%n不用进一步拟合多水平模型45页，共69页，星期一。例2：SNA角度(jiod)测量值nid：观察对象(duxing)编号；nocca：每次观察编号；nAge：病人年龄；nSNA：角度；nagg：场景变量；46页，共69页，星期一。空模型(mxng)n3步迭代完成；n所有随机系数的检验部分低于检验水准；nICC=0.4296/（0.4296+0.5629）=43.28%n应进一步拟合(n h)多水平模型47页，共69页，星期一。空模型加入(jir)场景变量48页，共69页，星

14、期一。空模型(mxng)加入场景变量n3步迭代完成(wn chng)，随机截距有意义；n所有随机系数的检验部分低于检验水准；n该模型-2LL=345.8，空模型-2LL=352.2，则LR2=6.4，p=0.0114；nRB=1-0.3330/0.4296=0.2248;49页，共69页，星期一。加入水平(shupng)1变量（固定效应）50页，共69页，星期一。加入(jir)水平1变量（固定效应）n3步迭代(di di)完成，随机截距有意义；n所有随机系数的检验部分低于检验水准；n该模型-2LL=199.1，前模型-2LL=345.8，则LR2=146.7，p=0.000；51页，共69页，

15、星期一。检验(jinyn)水平1的随机性52页，共69页，星期一。检验(jinyn)水平1的随机性n4步迭代完成，2个随机系数(xsh)均有意义；n所有随机系数的检验部分低于检验水准；n该模型-2LL=185.6，前模型-2LL=199.1，则LR2=3.5，p=0.1738；53页，共69页，星期一。跨层交互作用评估(pn )54页，共69页，星期一。跨层交互作用评估(pn )n5步迭代完成，随机截距有意义，但交互(jioh)项没意义；n-2LL等都对前模型有所增加；n跨层交互作用不显著。55页，共69页，星期一。建模一般(ybn)步骤n运行空模型以获得ICC，判断(pndun)是否进行多层

16、模型拟合；n加入水平2解释变量；n加入水平1解释变量；n检验水平1随机斜率；n检验跨水平交互作用（全模型）。56页，共69页，星期一。发展(fzhn)模型57页，共69页，星期一。传统(chuntng)纵向数据分析方法的局限性n重复测量的方差分析；n假设残差方差(fn ch)在各时间点上相等；n或，假设任何时点之间的残差方差的差异相等（即所谓“球面（sphericity）”假设或称“环形（circularity）”假设）；n要求完整均衡数据，即等时距，无缺失。58页，共69页，星期一。发展模型(mxng)的优点n可处理缺失和不完整(wnzhng)数据；n可处理不等时距问题；n不要求对象内独立即其它的限制性假设；n可以容易的加入时间依赖自变量。59页，共69页，星期一。发展模型与一般(ybn)多层模型的区别60页，共69页，星期一。SAS程序(chngx)nproc mixed covtest ic;nclass id timec;nmodel y=trt | time / s ddfm=KR notest;nrandom int time / subject=id G type=UN;

展开阅读全文