文档详情

多层线性模型

工****
实名认证
店铺
PPT
726.50KB
约88页
文档ID:585729712
多层线性模型_第1页
1/88

多层线性模型简介多层线性模型简介Hierarchical Linear Model (HLM)2021/7/11 主要内容v一、多层线性模型简介v二、多层线性模型基本原理v三、多层线性模型HLM软件的应用2021/7/12 多层线性模型简介v1、多层数据结构的普遍性v多层(多水平)数据指的是观测数据在单位上具有嵌套的关系v(1)教育研究领域vEG:学生镶嵌于班级,班级镶嵌于学校,或者学生简单地镶嵌于学校,这时学生代表了数据结构的第一层,而班级或学校代表的是数据结构的第二层;如果数据是学生镶嵌于班级,而班级又是镶嵌于学校,那么就是三层数据结构2021/7/13 多层线性模型简介v(2)组织心理学研究领域vEg:雇员镶嵌于不同的组织、工厂v(3)发展心理学领域vEg:纵向研究、重复研究v在一段时间内对儿童进行多次观察,那么不同时间的观测数据形成了数据结构的第一层,而儿童之间的个体差异则形成了数据结构的第二层这样,就可以探索个体在其发展趋势或发展曲线上的差异2021/7/14 两水平层次结构数据两水平层次结构数据水平2 水平1 层次结构数据的普遍性层次结构数据的普遍性2021/7/15 层次次结构构数数据据为一一种种非非独独立立数数据据,,即即某某观察察值在在观察察单位位间((或或同同一一观察察单位位的的各各次次观察察间))不不独独立立或或不不完完全全独独立立,,其其大大小小常常用用组内内相相关关(intra-class correlation,,ICC)度量。

度量 例例如如,,来来自自同同一一家家庭庭的的子子女女,,其其生生理理和和心心理理特特征征较从从一一般般总体体中中随随机机抽抽取取的的个个体体趋向向于于更更为相相似似,,即即子子女女特特征征在在家家庭庭中中具具有有相相似似性性,,数数据据是是非独立的非独立的2021/7/16 违背了传统回归(OLS)中关于残差相互独立的假设采用经典方法可能失去参数估计的有效性并导致不合理的推断结论 2021/7/17 经典方法框架下的分析策略典方法框架下的分析策略 经典典的的线性性模模型型只只对某某一一层数数据据的的问题进行行分分析析,,而而不不能能将将涉涉及及两两层或或多多层数数据据的的问题进行行综合分析 但但有有时某某个个现象象既既受受到到水水平平1变量量的的影影响响,,又又受受到到水水平平2变量量的的影影响响,,还受受到到两两个个水水平平变量量的交互影响的交互影响(cross-level interaction)2021/7/18 个个体体的的某某事事件件既既受受到到其其自自身身特特征征的的影影响响,,也也受受到到其其生生活活环境境的的影影响响,,即即既既有有个个体体效效应,,也也有有环境或背景效境或背景效应(context effect)。

例例如如,,学学生生((个个体体))的的学学习成成绩与与学学生生的勤的勤奋程度有关,程度有关,还与学校的与学校的师资配配备有关企企业的的创新新能能力力与与企企业自自身身的的创新新投投入入、、学学习能力有关,能力有关,还与企与企业所属所属产业的的R&D强度有关2021/7/19 多层线性模型简介v2、多层数据的传统分析方法v个体的行为既受个体自身特征的影响,也受到其所处环境的影响,所以研究者一直试图将个体效应个体效应与组效应组效应(背景效应或环境效应)区分开来v个体效应:由个体自身特征所造成的变异v组效应:由个体所处环境所造成的变异2021/7/110 多层线性模型简介v(1)只关注个体效应,而忽视组效应v只在个体这一层数据上考虑变量间的关系,那么导致所观测到的效应既包含个体效应,又包含组效应,从而增大了犯一类错误的概率,夸大了变量间的关系v(2)在组水平上进行分析v把数据集中起来,使其仅在第二层的组间发挥作用,从而丢失了重要的个体信息2021/7/111 多层线性模型简介v(3)组内分析组间分析v对相同的数据进行三次计算:v一是在组内的个体层上进行的分析,称为组内效应v二是通过平均或整合第一层中的个体数据,得到第二层的组间数据,称为组间效应v三是忽视组的特性而对所有的数据进行分析,称为总效应。

v在此基础上,计算组内效应和组间效应在总效应的比例,从而确定变异来自于组间还是组内v组内分析组间分析的方法较前两种方法更多地考虑到了第一层数据及第二层数据对变异产生的影响,但无法对组内效应和组间效应做出具体的解释,也就无法解释为什么在不同的组变量间的关系存在差异2021/7/112 HLM数学模型v例如:对73个学校1905名学生进行调查,目的是考虑其刚上高中时的入学成绩与三年后高考成绩之间的关系 考虑方法:(1)如果用传统的线性回归分析,直接在学生水平上进行分析,得出入学学业成绩对高考成绩之间的一条回归直线,如下图1所示,从图1的结果可以看出,传统回归分析没有区分不同的学校之间的差异 2021/7/113 图1:不考虑学校之间差异的回归直线 2021/7/114 HLM数学模型v(2)如果将数据进行简单合并,用每个学校学生的平均成绩代替这个学校的成绩,直接在学校水平上估计入学成绩对高考成绩的影响,得到一条回归直线,如图2所示,这种方法忽略了不同学生(个体)之间的差异;2021/7/115 图2:只考虑学校差异忽略学生差异回归直线 2021/7/116 HLM数学模型v(3)如果假设不同学校入学成绩对高考成绩的回归直线截距不同,斜率相同(平均学习成绩之间存在差异),得到如图3的结果,从图中结果可以看出,不同学校学生平均高考成绩之间存在差异。

2021/7/117 图3:考虑不同学校平均成绩差异的回归直线2021/7/118 HLM数学模型v(4)对73所学校分别做回归分析,得到如图4的结果,如图4所示,从图中结果可以看出,不同学校回归直线的截距和斜率均不同,即:不同学校学生平均高考成绩之间存在差异,入学学业成绩对高考成绩的影响强度不同2021/7/119 图4:考虑不同学校平均成绩差异 和入学对毕业成绩影响程度差异的回归直线2021/7/120 v在许多研究中,取样往往来自不同层级和单位,这种数据带来了很多跨级(多层)的研究问题,解决这些问题的一种新的数据分析方法——多层模型分析技术v这一方法的开创及发展的主要贡献者之一是英国伦敦大学的Harvey Goldstein教授及研究者把这种方法称作“多层分析”另一主要开拓者美国密歇根大学的Stephen W.Raudenbush教授和同行把它称为“分层线性模型结构”在此,我们按照张雷等人的叫法称其为“多层线性模型”或“多层模型” 2021/7/121 多层线性模型简介v3、多层线性模型分析方法v回归的回归方法vEg:学生成绩(X) 学习动机(Y)v v 班级教师教学水平(W)v(1)求各个班级学生成绩对学习动机的回归2021/7/122 多层线性模型简介v(2)求教师教学水平对β0j和 β1j 的回归方程2021/7/123 多层线性模型简介v4、多层线性模型的优点v(1)使用收缩收缩估计的参数估计方法,使得估计结果更为稳定、精确v收缩估计:使用两个估计的加权综合作为最后的估计。

其一是来自第一层数据的OLS估计,另一个是来自第二层数据的加权最小二乘法估计,最后的估计是对以上两个估计的加权v(2)可以处理样本不等的数据veg:当某些第二层单位在第一层的取样甚少时,可以借助于其他二层单位和二层预测变量,对取样较少的一层单位进行回归分析第一层单位3个及以上2021/7/124 多层线性模型简介v5、多层线性模型的应用范围v(1)组织和管理研究v(2)对个体进行追踪、多次观测的发展研究v(3)教育研究v(4)元分析研究2021/7/125 多层线性模型基本原理v1、多层线性模型的基本形式v水平1(如:学生) v水平2(如:学校) jju0000+=Yij---第j个学校的第i个学生jju1101+=指固定成分随机成分2021/7/126 多层线性模型基本原理v 为固定成分,指第二层单位间β0j 和β1j 的平均值v 为随机成分,指第二层单位β0j 和β1j 的变异2021/7/127 多层线性模型基本原理v把第一层和第二层方程整合如下:v误差项间是相关的:同一第二层单位的个体有相同的v误差项间方差不等:相同第二层单位内的个体间相似性比不同单位内个体相似性高v误差项与自变量有关:残差项包含残差项2021/7/128 多层线性模型基本原理v因此,多层数据并不满足传统OLS回归分析关于残差项的诸多假设。

而多层线性模型将残差项进行了分解,更符合实际情况,所以对于多层数据使用多层线性模型进行分析更为合理2021/7/129 多层线性模型基本模型v2、多层线性模型的基本模型v零模型(The Null Model)v第一层和第二层均没有预测变量,只是将方程分解为由个体差异造成的部分及由组差异造成的部分,这种方法为方差成分分析2021/7/130 多层线性模型——零模型v第一层:v第二层:v合并模型:ijojijeuY++=002021/7/131 多层线性模型——零模型v 指第j个二层单位Y的平均值 v 指第j个二层单位Y的变异v 指所有二层单位的Y的总体平均数v 指第二层方程的残差(随机项)v跨级相关:指Y的总体变异中有多大比例是由第二层的变异引起的v 2021/7/132 多层线性模型——完整模型v完整模型(The Full Model)v既包含了第一层的预测变量,又包含了第二层的预测变量,可通过理论建构来说明解释Y的总体变异是怎样受第一层和第二层因素的影响v第一层:2021/7/133 多层线性模型——完整模型v第二层:jjjuW001000++=2021/7/134 多层线性模型——完整模型v在第一层方程中,0代表截距,1代表斜率v在第二层方程中,第一个下标代表第一层参数的类型;第二个下标代表第二层参数的类型。

vβ0j和β1j的预测变量可以相同,也可以不同2021/7/135 多层线性模型——协方差模型v在零模型与完整模型之间,可通过向各层方程中增加不同的变量,设定不同的随机成分与固定成分来建构各种分析模型v协方差模型(ANCOVA Model)v第一层:v第二层:2021/7/136 多层线性模型——协方差模型v第一层方程中,预测变量采用总体平均数为参照的离差,与传统协方差分析的区别是β0j被进一步分解为 和vβ1j没有随机项,反映了协方差分析的一个重要前提,协变量对因变量的回归系数的组间一致性检验这种假设的方法是把 纳入到方程中,并检验 是否成立2021/7/137 多层线性模型——随机效应回归模型v随机效应回归模型(Radom Eeffect Regression Model)v第一层:v第二层:jju0000+=jju1101+=2021/7/138 多层线性模型——随机效应回归模型v此模型与完整模型的区别在于第二层没有预测变量;与传统OLS回归区别在于第一层的β0j和β1j是随机的而非固定的,其目的是寻找第一层的截距、斜率在第二层单位上的变异。

2021/7/139 多层线性模型——发展模型v发展模型v发展模型是把多次观测结果作为时间的某种数学函数来建构模型它多用于发展研究、纵向研究或者追踪研究v在这种模型中,第一层数据为不同时间的观察结果,第二层数据为个体的特征2021/7/140 多层线性模型——发展模型v第一层:线性发展模型vTime:一般用编码的形式来反映增量vEg: 0、1、2、3、4、5v -5、-4、-3、-2、-1、0v线性发展模型的第一层方程并不一定为线性方程,也可以为非线性方程vEg:2021/7/141 多层线性模型——发展模型v“确定发展变异”的第二层:jju0000+=jju1101+=时间变量编码为0时Y的总体平均数线性发展斜率的总体平均值指个体j与平均发展斜率的离差指个体j与平均截距的离差2021/7/142 多层线性模型——发展模型v“预测发展变异”的第二层:jjjuW001000++=考虑第二层的预测变量W后第一层的截距和第一层的斜率在第二层单位间的残差方差代表第二层的变量W对第一层截距的效应2021/7/143 多层线性模型——三层模型v三层模型是二层模型的直接扩展,我们也可以根据需要选择零模型与完整模型之间的任何模型。

v模型1:零模型v第一层:v第二层:v第三层:2021/7/144 多层线性模型——三层模型v第一个下标表示第一层方程中的参数;第二个下标表示第二层方程中的参数;第三个下标表示第三层方程中的参数v 表示第二层单位之间的变异, 表示第三层单位之间的变异v跨级相关:v第一层的方差和总方差之比:v第二层的方差和总方差之比:v第三层的方差和总方差之比:2021/7/145 多层线性模型——三层模型v模型2:完整模型v第一层:v第二层:2021/7/146 多层线性模型——三层模型v第三层:2021/7/147 HLM应用举例vhsb1.sav和hsb2.sav 在水平一的数据文件hsb1.sav中,有7185个观测样本和四个第一水平的变量(不包含第二水平指标变量:学校编号ID),这四个变量所表示的含义如下: minority,学生的种族(1=少数民族,0=其他) female:学生性别(1=女,0=男) ses:学生的社经地位,由学生父母受教育程度、职业和收入合成,变量已被标准化 mathach:学生的数学学业成绩 2021/7/148 HLM应用举例v数据文件hsb2.sav中包含有160个学校,每个学校测量了六个学校水平的变量(不包含学校指标变量ID)。

v·size:学校招生人数v·sector:学校类型(1=天主教教会学校,0=公立学校)v·pracad:从事学术研究的学生的比例v·disclim:学校纪律环境,由量表测量得到v·himnty:学校招生少数民族学生比例描述(1=超过40%少数民族学生,0=其他)v·meanses:包含在水平1数据中,每个学校学生的平均社经地位 2021/7/149 层层1数据数据2021/7/150 层层2数据数据2021/7/151 HLM应用举例 目的:分析影响学生数学成绩的学生水平变量和学校水平变量2021/7/152 2021/7/153 2021/7/154 2021/7/155 2021/7/156 2021/7/157 指定层1变量2021/7/158 指定层2变量2021/7/159 v保存MDM模板v生成MDM文件v查看MDM的统计量2021/7/160 MDM的描述统计量2021/7/161 2021/7/162 选择层选择层1的结果变量的结果变量2021/7/163 无条件模型无条件模型2021/7/164 无条件模型参数估计结果Final estimation of variance components: ----------------------------------------------------------------------------- Random Effect Standard Variance df Chi-square P-value Deviation Component ----------------------------------------------------------------------------- INTRCPT1, 2.93501 8.61431 159 1660.23259 0.000 level-1, R 6.25686 39.14831 -----------------------------------------------------------------------------2021/7/165 填加层填加层1解释变量解释变量2021/7/166 含有第一水平预测变量的HLM模型(随机系数模型)2021/7/167 随机系数模型参数估计结果Final estimation of fixed effects (with robust standard errors) ---------------------------------------------------------------------------- Standard Approx. Fixed Effect Coefficient Error T-ratio d.f. P-value ---------------------------------------------------------------------------- For INTRCPT1, B0 INTRCPT2, G00 12.664935 0.189251 66.921 159 0.000 For SES slope, B1 INTRCPT2, G10 2.393878 0.117697 20.339 159 0.000 ----------------------------------------------------------------------------2021/7/168 Final estimation of variance components: ----------------------------------------------------------------------------- Random Effect Standard Variance df Chi-square P-value Deviation Component ----------------------------------------------------------------------------- INTRCPT1, U0 2.19768 4.82978 159 905.26472 0.000 SES slope, U1 0.64675 0.41828 159 216.21178 0.002 level-1, R 6.06864 36.82835 -----------------------------------------------------------------------------2021/7/169 含有第二水平预测变量的模型2021/7/170 The outcome variable is MATHACH Final estimation of fixed effects (with robust standard errors) ---------------------------------------------------------------------------- Standard Approx. Fixed Effect Coefficient Error T-ratio d.f. P-value ---------------------------------------------------------------------------- For INTRCPT1, B0 INTRCPT2, G00 12.658410 0.173263 73.059 158 0.000 DISCLIM, G01 -1.128519 0.160735 -7.021 158 0.000 For SES slope, B1 INTRCPT2, G10 2.409288 0.112194 21.474 158 0.000 DISCLIM, G11 0.570615 0.123906 4.605 158 0.000 ----------------------------------------------------------------------------2021/7/171 Final estimation of variance components: ----------------------------------------------------------------------------- Random Effect Standard Variance df Chi-square P-value Deviation Component ----------------------------------------------------------------------------- INTRCPT1, U0 1.93467 3.74295 158 730.83940 0.000 SES slope, U1 0.45491 0.20694 158 189.39572 0.045 level-1, R 6.06501 36.78432 -----------------------------------------------------------------------------2021/7/172 vIn the level-2 model, both the intercept and SES slope are to be modeled as dependent on the school's mean social class (MEANSES) and school sector (SECTOR). 2021/7/173 填加层填加层2的解释变量的解释变量2021/7/174 2021/7/175 混合模型混合模型2021/7/176 Using level subscripts2021/7/177 指定层指定层1系数为随机的或非随机的系数为随机的或非随机的2021/7/178 结果分析结果分析2021/7/179 个体水平模型Yij = 0j + 1jX1ij + 2jX2ij + … + KjXKij + rij第 j 组第 i 个个体因变量的观测值第 j个组的截距第j 组 X1 对应的斜率第j 组 X2 对应的斜率第j 组 XK 对应的斜率2021/7/180 背景(Contextual)模型 Yij = 0j + 1jX1ij + 2jX2ij + … + KjXKij + rij0j = 00 1j = 10 2j = 20 …Kj = K0在传统回归(OLS)模型中,截距和斜率都是固定的,即对不同的第二水平单元均相同2021/7/181 背景(Contextual)影响问题v第二水平不同单元(如不同学校),截距是否相同?v能否用第二水平的协变量预测截距之间的差异?v斜率是否存在第二水平的变异?v能否用第二水平的预测变量解释斜率之间的差异?2021/7/182 截距是否存在第二水平的变异? Yij = 0j + 1jX1ij + 2jX2ij + … + KjXKij + rij0j = 00 + u0j1j = 10 2j = 20 …Kj = K0In the random effects model, the intercept varies around some grand mean intercept (00), and the slopes are fixed – they are the same in all unitsTest H0: Var(u0j) = 02021/7/183 可否用第二水平的预测变量解释截距之间的差异?Yij = 0j + 1jX1ij + 2jX2ij + … + KjXKij + rij0j = 00 + 01Z1 + 02Z2 + … + 0MZM + u0j 1j = 10 2j = 20 …Kj = K0Here, the Zm’s predict the intercept.Test H0: 0m = 02021/7/184 斜率是否存在第二水平的变异?Yij = 0j + 1jX1ij + 2jX2ij + … + KjXKij + rij0j = 00 + u0j1j = 10 + u1j2j = 20 + u2j…Kj = K0 + uKjThe intercept and each of the slopes varies around their grand means (the k0’s)Test H0: Var(ukj) = 02021/7/185 能否用第二水平的预测变量解释斜率间的差异?Yij = 0j + 1jX1ij + 2jX2ij + … + KjXKij + rij0j = 00 + 01Z1 + 02Z2 + … + 0MZM + u0j1j = 10 + 11Z1 + 12Z2 + … + 1MZM + u1j2j = 20 + 21Z1 + 22Z2 + … + 2MZM + u2j…Kj = K0 + K1Z1 + K2Z2 + … + KMZM + uKjHere, the Zm’s predict the slopes.Test H0: km = 02021/7/186 应该注意的问题v低水平预测变量的中心化v高水平样本容量v变量之间共线性问题2021/7/187 结束语结束语若有不当之处,请指正,谢谢!若有不当之处,请指正,谢谢! 。

下载提示
相似文档
正为您匹配相似的精品文档