多层线性模型学习报告

上传人:第*** 文档编号:55927559 上传时间:2018-10-08 格式:PDF 页数:12 大小:271.27KB
返回 下载 相关 举报
多层线性模型学习报告_第1页
第1页 / 共12页
多层线性模型学习报告_第2页
第2页 / 共12页
多层线性模型学习报告_第3页
第3页 / 共12页
多层线性模型学习报告_第4页
第4页 / 共12页
多层线性模型学习报告_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《多层线性模型学习报告》由会员分享,可在线阅读,更多相关《多层线性模型学习报告(12页珍藏版)》请在金锄头文库上搜索。

1、多层线性模型(MLM)学习报告报告人:王婧工商 一、多层线性模型的引入 在许多研究中,取样往往来自不同层级和单位,例如学生嵌套于班级或学校,员工嵌套 于公司或行业中,或者个人嵌套于家庭,家庭嵌套于社区(村庄)等,因而搜集的数据具有 分层嵌套的特点,这种数据带来了很多跨级(多层)的研究问题。 多层数据:多层(多水平)数据指的是观测数据在单位上具有嵌套的关系。引入多层数 据后,我们可以发现之前我们常用的传统线性回归模型已不再适用。原因如下: 传统回归线性回归模型基本假设是:变量总体上服从正态分布,方差齐性(同方差) , 个体间随机误差相互独立。 在多层数据中,数据是取自于不同单位的。第一个假设容易

2、保 证, 但是方差齐性特别是随机误差相互独立在多层线性数据中就很难实现。 以学生嵌套于班 级为例,同一个班级内部同学之间差异的方差大致相同(满足方差齐性) ,但是不同班级学 生个体之间差异的方差就很难一致,因为它们会受不同班级自身特征的影响(如:学生老师 比率) ,第二个假设无法满足。同理,不同班级的学生可以假设相互独立,但是同一班级的 学生由于受相同班级变量的影响,很难保证相互独立。第三个假设无法满足。 因此在分析具有层次结构特点的数据时, 应将传统回归分析中的误差分解为两部分, 一 部分是第一水平个体间差异带来的误差, 另一部分是第二水平班级的差异带来的误差。 可以 假设第一水平个体间的测

3、量误差同方差且相互独立, 第二水平班级带来的误差在不同班级之 间同方差且相互独立。这就是我们建立多层线性模型的原理和基本思想。二、多层线性模型的适用范围 1、横向研究: (1)教育研究领域:正如上文中所举的例子,传统的线性回归模型只能对涉及一层 数据的研究问题进行分析。 按照传统建模的做法, 要么将所有的更高一层的变量都看做是第 一水平的变量,直接在学生个体水平上对数据进行分析。这样做存在的问题是,班级变量对 同一个班级内的学生有相同的影响, 不同班级学生对应不同的班级变量, 而不区分班级对学 生的影响, 假设同一班级的学生间相互独立是不合理的, 同样对不同班级的学生和相同班级 的学生作同一假

4、设也是不合理的。 要么将第一水平的观测直接合并为第二水平的观测, 然 后直接对班级作分析, 这样做的主要问题是丢失了班级内学生个体间的差异的信息, 而在实 际中,这一部分的变异有可能占总变异中很大的一部分。 既然以上两种传统建模方法都行 不通,那么就有必要进行多层线性建模。 (2)组织心理研究领域:研究者的兴趣常常在于组织与镶嵌于不同组织的雇员之 间的关系。雇员层上的变量结果中的差异,或者变量之间关系的差异,可以解释为组织层上 预测变量的函数。就像第一点所说的,为了更好的反映第一层次中同一组织的个体差异(组 内差异)和第二层次中不同组织间的差异(组间差异) ,我们可以建立多层线性模型进行拟 合

5、。 2、纵向研究、重复研究 在发展心理学中, 研究者可以在一段时间内对儿童进行多次观察, 那么不同时间的观测 数据形成了数据结构的第一层,而儿童之间的个体差异则形成了数据结构的第二层。这样, 就可以探索个体在其发展趋势或发展曲线上的差异。三、多层线性模型的形式 1、基本形式上述方程是多层线性模型的基本形式。 第一个方程为第一层次方程,它是建立在个体基础上的,表现为第 j 个组织单位中的第 i 个个体的 Yij 是如何受组织内预测变量 Xij 的影响的。0j 是截距项,表示的是初始值, 也可以理解为 j 组织内 Yij 的平均值。1j 是斜率项,表示预测变量 Xij 每变化一个单位, Yij 平

6、均变化多少。 第二、三个方程是第二层次方程, 它是建立在组织基础上的, 表现为不同组织的截距项 0j,斜率项1j 是否一致。00 和10 分别是0j 和1j 的平均值,也是第二层次方程 里面的固定效应,0j 和1j 分别是0j 和1j 的随机成分,也代表了第二层次组织之间 的变异。 第四个方程是一个把第二、 三个方程嵌套在第一个方程后的结果。 从这个结果我们也可 以看出方程的随机干扰项 0j+1jXij+rij 确实是不满足传统线性回归方程里面方差齐性 和随机干扰项相互独立的假设前提的。 每个层次随机干扰项的方差和协方差:2、为了更进一步了解多层线性模型的基本原理以及不同情况下应该采取的不同形

7、式, 下面是几种常见的模型: (1)零模型在这个模型中,由于研究者只关心总体差异是如何分解成个体间差异和组差异两部分 的。 因此两层所构建的模型都不含有预测变量, 这有点类似于传统统计学里面的方差分析总 体差异可以分解为组内差异(rij)和组间差异(0j) 。同时0j 和00 的意义,rij 和0j 两个层次的随机干扰项意义和方差都与基本形式一样。在现实生活中, 满足这个模型的经济现象并不常见。 我们更多地是运用这个模型以及下 面这个公式来判断是否有必要建立多层线性模型(类似于传统统计学中的方差分析 ANOVA) :这个公式的含义:总体差异在多大程度上是由组间差异造成的。换而言之,第二个层面

8、上的差异是不是显著,如果显著的话,我们运用传统的回归建模就会导致拟合不当。就有必 要建立多层线性模型。 到底何为显著?在这个问题上我阅读了一些书籍和文献到底何为显著?在这个问题上我阅读了一些书籍和文献,一些文献上指出一些文献上指出, 只要只要(也也 即即 ICC)不为零即可。对于这一观点,我个人认为这种表述是不全面的。在一些情况下,)不为零即可。对于这一观点,我个人认为这种表述是不全面的。在一些情况下, 第一层次的组内差异(第一层次的组内差异(r ij)很小,甚至小到可以忽略不计,但是第二层次所代表的组间差)很小,甚至小到可以忽略不计,但是第二层次所代表的组间差 异(异(0j)很大,同样满足)

9、很大,同样满足 ICC 不为零。以上面提到的教育研究为例,如果每个班级内部不为零。以上面提到的教育研究为例,如果每个班级内部 个体差异不明显但是班级之间却有很大的差异,我们就可以个体差异不明显但是班级之间却有很大的差异,我们就可以将第一水平的观测直接合并为将第一水平的观测直接合并为 第二水平的观测,然后直接对班级作分析第二水平的观测,然后直接对班级作分析,直接运用传统线性回归即可。为了表述的科学直接运用传统线性回归即可。为了表述的科学 性性,我比较认同我比较认同 James(1982)的看法的看法:ICC 的范围在的范围在 0.000.50 之间之间。这样既满足了单这样既满足了单 位内部个体之

10、间有一定的变异性位内部个体之间有一定的变异性,也能保证单位之间存在变异性也能保证单位之间存在变异性,适合建立多层线性模型适合建立多层线性模型。(2)随机效应模型我们的研究在很大程度上是问题导向性。如果研究者关心在第一层次影响 Yij 的因素, 也即单位内部影响个体差异的因素,我们就有必要再第一层的模型里面加入预测变量 Xij。 至于到底应不应该加入,我们可以通过传统的参数显著性检验和后面会提到的2检验和似 然比都可以判断。第二、三个方程都属于第二层模型。第二个方程是关于第一层次截距项 0j 的随机效应模型,10 表示第二层次所有单位内的截距的平均值。第三个方程是斜率项 1j 的随机效应模型,1

11、0 表示第二层次所有单位内的斜率的平均值。整个第二层次的模 型表现了:不仅每个单位内个体 Yij 的平均值存在差异(0j) ,而且 Xij 对 Yij 的影响程度 在不同单位内也是存在差异的(1j) 。至于这个差异到底是由什么因素造成的,研究者并 不关心。(3)协方差模型与随机效应模型相似但是又有明显不同的是协方差模型。 正如随机效应模型一样, 研究 者只关心在一层次上影响 Yij 个体的因素而不关心第二层面上的影响因素。 但是协方差模型 对第一层次的模型的预测变量进行了一个总体中心化,目的是让变量以总体平均数为参照,使各个参数更有意义。 第二个不同在于协方差模型中假定1j 在各个单位间是不变

12、的, 也就 是说只有固定效应(10) ,没有随机效应。(4)完整模型前面在介绍随机效应模型中,我们讲了每个单位内部的截距(0j)和斜率(1j)存 在差异。 如果研究者关心到底是什么因素导致第一层次每个单位内 Yij 的平均值和 Xij 对 Yij 的影响程度存在差异,那么我们就有必要在方程的第二层次加入预测变量1j 来解释这一 差异。 那么到底怎么加入?是只在第二层次的截距项加入还是截距项和斜率项都加入预测变 量?这个问题同样依赖于研究者的研究兴趣和问题。 一般认为, 如果第一层次没有引进个体 影响因素预测变量 Xij, 那么就只需在第二层次截距方程中引入预测变量1j (对于这一点对于这一点,

13、 我并不是很认同。个人觉得如果第一层次不用引入预测变量,那么就说明组内差异不大,我并不是很认同。个人觉得如果第一层次不用引入预测变量,那么就说明组内差异不大, 主要是存在组间差异,那么我们就可以主要是存在组间差异,那么我们就可以将第一水平的观测直接合并为第二水平的观测,然将第一水平的观测直接合并为第二水平的观测,然 后直接对班级作分析后直接对班级作分析而无需进行多层线性模型建模。当然从数学的角度来看,在这种情况而无需进行多层线性模型建模。当然从数学的角度来看,在这种情况 下建立多层线性模型,把第二层次的模型直接带入第一层次得到的方程与传统回归模型无下建立多层线性模型,把第二层次的模型直接带入第

14、一层次得到的方程与传统回归模型无 异。因而从数学角度来看还是行得通的异。因而从数学角度来看还是行得通的。 ) ;在第一层次引入了预测变量的情况下,如果研 究问题不含有两个层次的交互作用,也只需在截距方程中加入预测变量。反之,如果研究问 题含有交互作用,以学生成绩为例,我们认为学生个体层面因素,如学生的努力程度会影响 学生成绩,但是这种影响作用又在很大程度上被班级特征,如学习氛围,所调节,那么,我 们既要在截距方程中加入预测变量,也要在斜率方程中加入预测变量,方程模型如上。四、其他重要问题 1、样本容量问题 在传统线性回归模型中,我们是不允许数据缺失的。对于一般的数据缺失问题,我们常 常会采用用

15、均值估算缺失值的问题,但我们知道均值常常是失真的,从而导致数据失真。但 是多层线性模型就可以有效地避免这一点。 多层线性分析的样本要求: 样本量:30; 变量个数与样本量的比例:1:10。 注:高一层样本量的要求比第一层样本量的要求更高; 在这种镶嵌数据结构中,HLM 分析的永远都是高层如何影响低层,而不可能是低层 如何影响高层。 当出现数据缺失或者每个单位内样本规模不一的时候, 第二层次的样本量可以很好地弥 补第一层次样本量存在的问题。而且,多层线性模型所采取的参数估计方法:最大似然法, 也可以很好地处理数据缺失这一问题对于模型拟合的影响。2、建模步骤:一般分为七个步骤,但是这七个步骤并不每

16、一个都是必要的,可以根据 研究问题进行取舍 (1)明确研究问题 (2)选择参数估计方法: 多层线性模型一般采取的参数估计方法是极大似然法和限制性极大似然估计; (3)判断是否应该建立多层线性模型 (4)建立第一层次模型 (5)建立第二层次模型 (6)多水平效应值的判断 (7)似然比检验3、中心化问题 中心化问题主要是为了让参数值更有意义,尤其是截距项0j。有两种中心化的方法, 一种是组平均数法,即用预测变量减去组平均数;另一种则是总体平均数,即用预测变量减 去总体平均数。一般情况下,在多层线性模型中,第一层次的方程我们用组平均数法,第二 层用总体平均数法。4、应用软件 对多层线性模型进行参数估计和模型分析的统计软件有很多, 如 SPSS, SAS 以及 HLM 等。运用的比较多的,比较专业化的软件主要是 HLM 软件。五、实证分析 上面我们介绍了多层线性模型的基本原理和形式, 同时也了解了模型的建模步骤。 下面 我们通过几个具体的实例来了解怎么进行建模,怎么进行应用。 1

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号