结构方程建模应用中的十大问题资料

资源描述

《结构方程建模应用中的十大问题资料》由会员分享，可在线阅读，更多相关《结构方程建模应用中的十大问题资料（3页珍藏版）》请在金锄头文库上搜索。

1、T J Y J C 统计与决策 2 0 0 7 年第 5 期（总第 2 3 7 期）被称为近年来统计学三大进展之一的结构方程建模( S t r u c t u r a lE q u a t i o n M o d e l i n g,S E M )方法, 克服了以往统计方法的不足, 目前已在管理学、社会学、心理学、经济学等社会科学领域里得到广泛的应用。但是, 任何一种统计技术都有其使用的条件,如果使用时不能满足其必须的条件,或者郁于研究者的能力而不能正确地使用,它也同样会导致错误的结论。下面本文讨论分析S E M在社会科学研究中都会遇到的十大问题。一、

2、在什么情况下需要应用S E M 研究者不能为了赶时髦而盲目地应用S E M到任何一个研究中。S E M虽然具有很多其他统计方法所没有的优点, 但是, 这种方法研究过程复杂、对研究者的知识能力要求较高。另外, 任何一种统计研究方法都有其严格的前提条件, 只有这些前提条件满足了,才能够运用这个方法, 采用这个方法得到的结果才有意义。当研究人员遇到一个研究课题, 首先需要考察的是这项课题是否满足应用 S E M的基本条件。一要看研究课题是否满足多项传统统计分析的基本假设 ( 例如线性关系、正态性) 。其次, 要看研究者结合相关领域的理论而提出的有待检验的理论概念、假

3、设模型是否有助于完成研究中变量的界定、变量关系的假设、参数的设定、模型的安排、模型的估计、模型的修正与确定、结果的解释等工作。三是要满足特定的统计分析软件的要求。因此,研究者就必须要进行前期调查和文献准备, 分析研究已经具备统计基础。另外, 研究者还需要分析应用S E M的必要性,即为何其他统计分析方法不适合此项研究。研究中应当把握一条原则, 即在应用简单的统计分析工具就可以解决问题的情况下, 应首先选用简单方法。比如, 如果数据不具有层次结构特点时, 就不必要使用多层分析法,用传统的单水平模型分析也可以得到很好的解释。二、应用S E M的步骤

4、包括哪些关于S E M的应用步骤, 前人的看法各不相同。B o l l e n、郭志刚、娄峥嵘和孙连荣等认为有五大步骤, 分别是模型设定、模型识别、模型估计、模型评价和模型修正。而R e i s i n g e rY v e t t e和T u r n e rL i n d - s a y则认为有八大步骤, 分别是理论模型构念、构建路径图、变量的具体化和量化、选择输入的矩阵模型, 评估样本大小的适当性及其影响,选择模型估计的手段、模型识别、模型评价、模型修正、交叉效度检验。从总体上看, 二者都包含了S E M的主体步骤, 但是R e i s i n g

5、 e rY v e t t e等人的看法更为详细和科学。“ 五步骤说” 虽然较为简洁,但是忽略了效度检验等几个关键步骤, 显得不够全面, 而且容易误导初学者只注意S E M大的环节, 不利于养成严谨细致的科研作风。“ 八步骤说” 特地将构建路径图、交叉效度检验等作为 S E M的重要环节, 不仅使得S E M的步骤更加完善,而且强调了几个细节的重要性, 便与初学者明了S E M在应用中应注意的关键点。三、路径图越复杂越好吗模型构建的主要任务是首先提出一个描述潜在构念(l a t e n tc o n s t r u c t) 与指标变量之间关系的,可以反映预先假设

6、的一个理论模型,接着要运用可测变量使潜在构念变得可操作化,并描绘出其与观测变量之间的关系,也即提出一个可测量模型。研究者应当根据自身不同的需要并结合一定的理论知识,提出初步的变量间相互关系的假设,表示自变量与因变量、自变量与中间变量之间的相互关系, 建立初步的模型体系, 然后通过路径图将自己的模型描述出来,将有关潜在构念与其指标变量之间所有的因果关系都用箭头表示出来。理论上讲,结构方程建模包含到模型中的变量越多, 越能够接近自然状态, 也就越能够发挥S E M的作用, 如变量过少, 发生错误的可能性反而增大。但是变量的增加也加大了模型的复杂性,使得后边的模型评价

7、和修正、结果的解释变得繁琐不堪。有的研究者为了研究各个变量间的关系, 将各种内生变量、外生变量之间可能的关系都用箭头标注在路径图上, 使各变量之间关系主次不分。实际上, “ 多” 不等于“ 好” , 一个尽善尽美的路经图并不表示一定必须包含尽可能多的箭头。相反, 统计学上最感兴趣的是, 寻找用尽可能少的箭头去联结尽可能少的变量,而这时的路经图又能对所代表的样本拟合得好。那么变量选用多少为佳呢?关键是看研究对象的属性和要求。首先, 应当在广泛查阅文献的基础上尽量包括所有指标变量, 以防止规范性错误发生, 然后用因子分析技术来找出关键的变量来。其次, 有一个可以

8、参考的标准是, 待估参数小于或等于m ( m + 1 ) / 2(m为表型变量的个数) 。一般来说, 一个模型最多可以包含 2 0个变量, 如果超过这一数字, 结果的解释及其统计显著性将会变得异常艰难。四、如何科学地测量指标变量在建立了初步的模型假设基础上, 需要对模型中每个变量都加以具体化、量化, 将路径图转化为一组结构化的、可测量的方程。只有科学地测量了指标变量, 我们才有可能了解潜在变量的真面目。在指标变量的测量上经常犯的一个错误是选用的测量工具不合适。指标变量的测量工作关系到以后模型的估计、评价和修正。如果测量工具不科学、不标准, 达不到统计上的信度

9、和效度标准, 得出的结果也就不可信,后续的各项工作就没有了前提基础。因此, 在选择测量工具的过程中, 如果对所需测定的变量已有现成的、广为应用的测量工具就尽量选用,因为一般来说它们具有较高的信度、效度水平, 但是要注意其在文化上的差异性。如果没有现成的测量工具, 就需要自行编制。编制测量工具时应当按照测量学的要求, 进行必要的试测、实测、统计分析和修正, 最后形成符合要求的量表。五、被试的数量越多越好吗对于S E M的应用而言, 被试数目越大, 参数估计的稳定性就会越好, 检验力也会越强, 结果也就越可靠。因此, 统计理论要求被试数目最低不得少于2 0 0

10、人,同时被试人数要随着模型复杂程度的增加而增加, 每增加一个变量, 需要增加的被试数目至少为5 - 1 0人。但是, 也不能一味地增加被试数目,因为被试数目越多,研究假设被拒绝的可能性也就会越大, 而如果假设被拒绝, 就说明模型与数据不相拟合,这是研究者所不愿意看到的。因此, 被试数目不要无限加大。结构方程建模应用中的张学军十大问题 Z H I S H I C O N G L I N 知识丛林 1 3 0 T J Y J C 统计与决策 2 0 0 7 年第 5 期（总第 2 3 7 期）一般来说,被试的人数大约是变量数的 1 0倍。应当明确的是, 由于S E M涉

11、及潜在变量的测量, 因此S E M分析的结果除受样本大小的影响外, 与样本结构、测量质量也有密切的关系。虽然S E M可以处理测量误差估计,使测量质量的影响可以被有效控制,但是研究者仍然应谨慎地选取研究样本, 维护测量的品质。六、如何解决模型的不能识别问题模型识别是建立S E M模型的重要阶段。识别工作主要考虑模型中每一个未知(自由)参数能否由观测数据求得惟一解作为估计。当数据收集到以后, 要通过回归分析,对模型中较重要的假设先行验证。各变量之间用各自测量的值进行比较;上一级变量的值则通过下一级变量得分相加得到,然后与其他变量进行比较。要遵循“ 先重要后一

12、般, 先直接关系后间接关系” 的原则。模型识别的情况有三种, 不能识别、恰好识别和过度识别。L I S R E L模型的应用着重于过度识别的结构方程模型。在这种情况下,模型中的自由参数数目少于观测变量中方差和协方差的总数, 即数据点。造成模型不能识别的原因主要是设定的自由参数过多,超过了数据点的数目。此外, 循环的或称之为非递归的结构方程模型也常常是识别问题发生的另一个来源。如果所指定的模型不能识别,无法得到系统各个自由参数的唯一估计值。解决模型不能识别问题最好的办法是避免它的发生。对于结构方程模型的识别手段, 没有充要的条件, 只有两个时时必须检查的必要条

13、件,一是数据点的数目不能少于自由参数的数目。模型的识别实际上依赖于自由参数、固定参数和限制参数的设定。通常, 可以对潜在变量加上更多的标识,因而有更多的数据点。二是必须为模型中的每一个潜在变量建立一个测量尺度。可以将潜在变量的方差设定为1,这就是说将潜在变量标准化, 使其具有标准化尺度。最后我们还可以在一开始建立模型时就尽量削减自由参数, 只保留那些必要的参数, 使模型简化。七、如何选择模型拟合优度检验的标准关于模型的总体拟合程度有许多测量指标。最常用的拟合指标是拟合优度的卡方检验。这个卡方值可以从拟合函数值直接推导出来。如果数据按多元正态分布且设定模型

14、正确的话,这个乘积则按卡方分布。事实上卡方检验在这里是“ 拟合劣度” 的测量, 因为很小的卡方值说明拟合很好,而很大的卡方值却说明拟合不好(即引申的方差协方差矩阵与观察方差协方差矩阵差别太大)。当卡方值为0时,即残差矩阵的所有元素都是0, 标志着模型对数据的完美拟合。尽管卡方检验提供模型在统计上是否成功的信息,但卡方值与样本规模相关联, 因而, 它常常不能很好地判定模型的拟合。由于卡方值是( n - 1 )乘以拟合函数的最小值F的积, 因此样本越大, 卡方值也就越大。所以, 即使观测的与模型引申的方差协方差矩阵之间的差别其实不大。拒绝一个模型的概率会随着样本规

15、模增加而增加。为减小样本规模对拟合检验的影响,有一个直接与卡方相联系的粗略常规,即如果卡方值与自由度之比小于2, 则可以认为模型拟合较好。除此以外,文献中常用的评价模型拟合的指标有拟合优度指数G F I和调整的拟合优度指数A G F I,这两个指数测量的是在样本方差中估计方差占有的加权比例。它们并不是统计量, 因此就不能用来对模型拟合度进行正常的统计检验。但是, 它们被作为模型适当的总体指标。这两个指数的值域都在0至1之间, 一般大于0 . 9时, 则认为模型拟合观测数据。虽然有这么多的模型拟合指数可用,但没有一个指标可以作为完全确定的标准来检验结构方程模型的成

16、功与否。所谓“ 理想的” 拟合指数实际上不存在。B o l l e n建议, 最好慎重地报告多项测量结果, 而不要只依赖于一种选择。在有许多模型要检验和比较时。尤其是这样。此外,模型及拟合的评价不完全是统计问题。即使一个模型拟合了数据, 也不意味着这个模型“ 正确” 或“ 最好” 。首先,所有的估计参数应该能够得到合理的解释,其次,也许会有许多等价的模型, 要是根据任何拟合优度指数, 它们都能同样好地拟合数据。如果简单模型的拟合与复杂模型的拟合一样好,就应该接受简单模型。八、非正态分布数据如何进行模型估计如前所述,S E M的输入数据可以是协方差矩阵、相关矩阵或标准差矩阵( 通过标准差把相关转换成协方差)或原始数据。输入的这些数据必须恰当体现或表示变量关系的特征。在S E M的模型估计中最常用的最大似然估计法 (M L) 和广义最小二乘法(G L S) 在使用时的前提条件是需要假设观测变量为连续性的变量, 且具有多元正态分布。偏态分布或者过高的峰度会威胁的最大似然估计法和广义最小二乘法的统计检验。当数据不服从正态分布时,

展开阅读全文