数学部分-第7章因子分析1

资源描述

《数学部分-第7章因子分析1》由会员分享，可在线阅读，更多相关《数学部分-第7章因子分析1（74页珍藏版）》请在金锄头文库上搜索。

1、1第七章因子分析第一节引言第二节因子分析模型第三节因子模型参数的估计第四节公因子重要性的分析第五节实例分析与计算机实现 2第一节引言n一般认为因子分析是从Charles Spearman在1904年发表的文章对智力测验得分进行统计分析开始，他提出这种方法用来解决智力测验得分的统计方法。目前因子分析在心理学、社会学、医学、经济学等学科中都取得了成功的应用，是多元统计分析中典型方法之一。 n因子分析(factor analysis)也是一种降维、简化数据的技术。它通过研究众多变量之间的内部依赖关系，探求观测数据中的基本结构，并用少数几个“抽象”的变量来表示其基本的

2、数据结构。这几个抽象的变量被称作“因子”，能反映原来众多变量的主要信息。原始的变量是可观测的显性变量，而因子一般是不可观测的潜在变量。 n因子分析的目的，是用几个不可观测的“隐变量”来解释原始变量之间的协方差关系。3n因子分析就是一种通过显性变量测评潜在变量，通过具体指标测评抽象因子的统计分析方法。n在医学研究中有一些现象是难以直接观测的，通常称为不可测现象，它们只能通过其它多个可观测的指标来间接地反映。如脑部疾病患者的意识清醒状态是不可测现象，但可通过患者的语言能力、辩识能力、记忆能力、理解能力、思维的逻辑能力等一系列可观测的指标来反映。这里，由于各个指标都不同程度地反映

3、了意识清醒状态这一不可测现象，因此这些不可测指标这之间呈现一定的相关性。很自然地，人们可以认为这些可观测指标之间的相关性主要是由它们所共同反映的不可测现象支配。4n 先看一个例子：观测5个生理指标X1（收缩压）、X2（舒张压）X3（心跳间隔）、X4（呼吸间隔）、 X5（舌下温度）。从生理知识知道，这5个指标是受自主神经的交感神经和副交感神经支配的，而这交感神经和副交感神经又不可直接测。若用F1、F2分别表示交感神经和副交感神经这两个因子，则可设想，可测指标Xi是不可测因子Fj的线性函数，即Fj对各Xi的影响是线性的，再加上其它对这些Xi有影响因子ei，则各Xi与F1、F2的

4、关系可表示为：5n由于F1、 F2为各Xi 的公因子或共性因子（common factor),而ei只与相应的一个Xi有关，故ei称为Xi的特殊因子或个性因子（specific factor)，我们感兴趣的是如何从一组观测数据出发，找出起支配作用的较少个数的公因子。6这二个公共因子可以表示为：是不可观测的潜在因子，5个变量共享这二个因子，所以称为公共因子。但是每个变量又有自己的个性，不被包含的部分，称为特殊因子。7其他例子n在医学领域，描述疾病的影响因素和诊断的指标很多，过多的指标容易导致分析过程复杂化。一个合适的做法是从这些指标中提取少数几个主要因子，每一个

5、主要因子都能反映相互依赖的疾病指标或诊断指标间共同作用，抓住这些主要因素就可以帮助我们对复杂的疾病危险因素或诊断问题进行深入分析、合理解释和正确评价。n再比如，调查青年对于婚姻、家庭的态度。邀请n个青年，每人回答p 50的问卷，这些问题可归纳为如下方面：对相貌的重视；对老人的态度；对孩子的观点；等等。每一个方面，就是一个因子。n公司老板对48名应聘者进行面试，并给出他们在15个方面所得的分数，这15个方面是：X1简历的制作质量；X2外貌；X3专业能力；X4讨人喜欢；X5自信心；X6精明；X7诚实；X8推销能力；X9经验；X10积极性；X11抱负；X12理解能力；X13潜力；X14交

6、际能力；X15适应性。通过因子分析，这15个方面归结为应聘者的五项能力：1、外露能力；2、讨人喜欢的程度；3、经验；4、专业能力；5、外貌。8主成分分析与因子分析有很大不同：n主成分分析不能作为一个模型来描述，它仅仅是变量变换，主成分是可观测的原始变量的线性组合；而因子分析需要构造因子模型，公共因子一般不能表示为原始变量的线性组合。n两者在表达形式上的区别是：主成分分析:原始变量的线性组合表示新的综合变量，即主成分；因子分析：潜在的假想变量（公共因子）和随机影响变量（特殊因子）的线性组合表示原始变量。n从计算方法上来说，主成分分析，可以视为因子分析的一个特例；或者说，因子分析是

7、主成分分析的推广。主成分分析与因子分析的区别9因子模型形式上与线性回归模型很相似，但它们却有着本质的区别：1、回归分析模型中的自变量是可以被观测得到的真实变量；而因子分析中的因子是一个比较抽象的概念，是不可观测的“隐变量”；2、两个模型的参数意义不同。回归分析与因子分析的区别10n因子分析的内容非常丰富，常用的因子分析类型是R型因子分析和Q型因子分析。R型的因子分析是对变量作因子分析，Q型因子分析是对样品作因子分析。本章侧重讨论R型因子分析。 11第二节因子分析模型一因子分析的数学模型二因子模型的性质三因子载荷阵的统计意义 12一、因子分析的数学模型13n无论是R型或Q

8、型因子分析，都用公共因子F代替X，一般要求mp，mn，因此，因子分析与主成分分析一样，也是一种降低变量维数的方法。我们下面将看到，因子分析的求解过程同主成分分析类似，也是从分析协方差阵出发的。 n因子分析与主成分分析有许多相似之处，但这两种模型又存在明显的不同。 n主成分分析的数学模型本质上是一种线性变换，是将原始坐标变换到变异程度大的方向上去，相当于从空间上转换观看数据的角度，突出数据变异的方向，归纳重要信息。 n因子分析从本质上看是从显性变量去“提炼”潜在因子的过程。正因为因子分析是一个提练潜在因子的过程，因子的个数 m取多大是要通过一定规则确定的，并且因子的形式也不是唯一

9、确定的。一般说来，作为“自变量”的因子F1，F2， Fm是不可直接观测的。这里我们应该注意几个问题： 14二、因子模型的性质151617n n 18三、因子载荷阵的统计意义n前面的因子分析模型中出现了一个概念叫因子载荷矩阵，实际上因子载荷矩阵存在明显的统计意义。为了对因子分析过程和计算结果做详细的解释，我们对因子载荷矩阵的统计意义加以说明。 19n n n 2021变量共同度的统计意义222324第三节因子模型参数的估计一主成分法二主轴因子法三极大似然法四其他方法 25n n 一、主成分法26例题7.1 对六门考试成绩的因子分析n我们继续使用主成份例题6.3提供的100名学

10、生的六门成绩（数学、物理、化学、语文、历史、英语），采用主成分法，对学生成绩进行因子分析。27变量共同度n变量共同度为1 （当m6时）n为什么？28特征值和各因子的贡献率n该表显示了六个公共因子解释原始变量总方差的情况。n第二列为特征值，第三、四列为每个公共因子的贡献率和累计贡献率。 n可见，使用2个公共因子就够用了。为什么？29因子载荷矩阵n 30n这里，第一个因子主要和语文、历史、英语三科有很强的正相关；而与数学、物理、化学三科有很强的负相关。因此可以给第一个因子起名为“偏科因子”。n而第二个因子作用比较均衡，可起名为“综合因子”。31二、主轴因子法（Principal Axis

11、 Factoring）n A矩阵每行元素的平方和，也即变量共同度！32（7）主轴因子法小节33例题7.2 对六门考试成绩的因子分析n使用主轴因子法，继续对主成份例题6.3提供的100名学生的六门成绩（数学、物理、化学、语文、历史、英语）进行因子分析。343536三、极大似然法*n n 37例题7.3 对六门考试成绩的因子分析n使用极大似然法，继续对主成份例题6.3提供的100名学生的六门成绩（数学、物理、化学、语文、历史、英语）进行因子分析。38取m2：39四、其他方法*n n n 40四、其他方法*n 41各种方法的比较n主成分法实际是在进行因子分析之前先对数据进行一次主成分分析，然

12、后把前几个主成分作为未旋转的公因子。主成分法较为简单，但是得到的特殊因子之间并不相互独立，因此，严格来说，主成分法不完全符合因子模型的假设前提。n但是，当共同度较大时，特殊因子所起的作用很小，因而特殊因子之间的相关性所带来的影响就可以忽略。n主轴因子法的计算思路类似于主成分法，两者都是从分析矩阵的结构出发，两者的差异在于，主成分法是在所有的p个主成分能解释标准化原始变量所有方差的基础之上进行分析；而主轴因子法，假定m个公共因子只能解释原始变量的部分方差，利用公共因子方差（共同度）来替换相关矩阵主对角线上的元素“1”，构建出约相关阵，从而求得因子解。n极大似然法要求公共因子和特殊

13、因子都要服从正态分布42各种方法的比较n一般来说，各种求解初始因子解的方法差别不大。n当变量个数较多时，各种方法的差别不大；当变量个数不多时，上述方法有一定差异。n当样本容量很大时，极大似然法的精度明显提高。n如何选择这些方法？ n（1）因子分析的目的：n（2）对变量方差的了解程度如果因子分析的目的是用最少的因子最大程度解释原始数据的方差，或者已知道特殊因子和误差带来的方差很小，则适合用主成分分析法；如果因子分析的主要目的是确定数据的结构但并不了解变量方差的情况，适合用主轴因子法、极大似然法等方法。43第四节公因子重要性的分析一因子旋转二因子得分 44一、因子旋转n因子分析的

14、目标之一就是要对所提取的抽象公共因子的实际含义进行合理解释。但是，有时直接根据特征根、特征向量求得的因子载荷阵难以看出公共因子的含义。n例如，可能有些变量在多个公共因子上都有较大的载荷；或者有些公共因子对许多变量的载荷都较大，说明它对多个变量都有较明显的影响作用。这种因子模型反而不利于突出主要矛盾和矛盾的主要方面，也很难对因子的实际背景进行合理的解释。n这时需要通过因子旋转的方法，使每个变量仅在一个公共因子上有较大的载荷，而在其余的公共因子上的载荷比较小，至多达到中等大小。n因子旋转后，对于每个公共因子而言（即载荷矩阵A的每一列），它在部分变量上的载荷较大，在其它变量上的载荷较小

15、，使同一列上的载荷尽可能地向靠近1和靠近0两极分离。n这时就突出了每个公共因子和其载荷较大的那些变量的联系，矛盾的主要方面显现出来了，该公共因子的含义也就能通过这些载荷较大变量做出合理的说明，这样也显示了该公共因子的主要性质。 45百米跑成绩跳远成绩铅球成绩跳高成绩400米跑成绩百米跨栏铁饼成绩撑杆跳远成绩标枪成绩1500米跑成绩这十项运动项目分别为：例题7.4 对奥运会十项全能运动项目得分的因子分析46由因子载荷矩阵可以看出，除第一因子在所有的变量在公共因子上有较大的正载荷，可以称为一般运动因子。其他的3个因子不太容易解释。似乎是跑和投掷的能力对比，似乎是长跑耐力和短跑速度

16、的对比。于是考虑旋转因子，得下表因子载荷矩阵A的初始解百米跑跳远铅球跳高400米跑百米跨栏铁饼撑杆跳远标枪1500米跑 47旋转后的因子载荷矩阵A*百米跑跳远铅球跳高400米跑百米跨栏铁饼撑杆跳远标枪1500米跑 48通过旋转，因子有了较为明确的含义。百米跑，跳远和 400米跑，需要爆发力的项目在有较大的载荷，可以称为短跑速度因子；铅球，铁饼和标枪在上有较大的载荷，可以称为爆发性臂力因子；百米跨栏，撑杆跳远，跳远和为跳高在上有较大的载荷，爆发腿力因子；长跑耐力因子。491、因子旋转的标准n由此可见，如果因子载荷矩阵A的元素多数居中，不大不小，则对因子模型的公共因子就不容易作出解释 n如果A是从相关阵R得来，A中的每一个元素都是原始变量与公共因子的相关系数，都小于等于1n旋转之后的因子载荷矩阵，在每一列上的元素，应尽可能拉开距离，通常，可使元素的绝对值（

展开阅读全文

数学部分-第7章 因子分析1

数学部分-第7章因子分析1