数据分析-因子分析－金锄头文库

资源描述

《数据分析-因子分析》由会员分享，可在线阅读，更多相关《数据分析-因子分析（41页珍藏版）》请在金锄头文库上搜索。

1、因子分析因子分析1 1 1 引言引言因子分析(factor analysis)是一种数据简化的技术。原理：通过研究众多变量之间的内部依赖关系，探求观测数据中的基本结构，并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量，而假想变量是不可观测的潜在变量，称为因子。 2例如，在企业形象或品牌形象的研究中，消费者可以通过一个有24个指标构成的评价体系，评价百货商场的24个方面的优劣。消费者主要关心的是三个方面，即商店的环境、商店的服务和商品的价格。因子分析方法可以通过24个变量，找出反映商店环境、商店服务水平和商品价格的三个潜在的因

2、子，对商店进行综合评价。3 而这三个公共因子可以表示为：称是不可观测的潜在因子。24个变量共享这三个因子，但是每个变量又有自己的个性，不被包含的部分，称为特殊因子。4注：注：因子分析与回归分析不同，因子分析中的因子因子分析与回归分析不同，因子分析中的因子是一个比较抽象的概念，而回归因子有非常明确的是一个比较抽象的概念，而回归因子有非常明确的实际意义；实际意义；主成分分析分析与因子分析也有不同，主成分主成分分析分析与因子分析也有不同，主成分分析仅仅是变量变换，而因子分析需要构造因子模分析仅仅是变量变换，而因子分析需要构造因子模型。型。主成分分析主成分分析: :原始变量的线性组合表示新

3、的综原始变量的线性组合表示新的综合变量，即主成分；合变量，即主成分；因子分析：潜在的假想变量和随机影响变量因子分析：潜在的假想变量和随机影响变量的线性组合表示原始变量。的线性组合表示原始变量。5 2 因子分析模型因子分析模型一、数学模型一、数学模型设个变量，如果表示为6 称为公共因子，是不可观测的变量，他们的系数称为因子载荷。是特殊因子，是不能被前m个公共因子包含的部分。并且满足：即不相关；即互不相关，方差为1。7即互不相关，方差不一定相等，。8二、因子分析模型的性质 1、原始变量X的协方差矩阵的分解（例8.2.1） D的主对角线上的元素值越小，则公共因子的作用就越大。9 2

4、、模型不受计量单位的影响将原始变量X做变换X*=CX,这里 Cdiag(c1,c2,cn),ci0。1011 3、因子载荷不是惟一的设T为一个pp的正交矩阵，令A*=AT，F*=TF，则模型可以表示为且： 12 三、三、因子载荷矩阵中的几个统计特征因子载荷矩阵中的几个统计特征 1 1、因子载荷、因子载荷a aijij的统计意义的统计意义因子载荷是第i个变量与第j个公共因子的相关系数模型为在上式的左右两边乘以 ,再求数学期望根据公共因子的模型性质，有（载荷矩阵中第i行，第j列的元素）反映了第i个变量与第j个公共因子的相关重要性。绝对值越大，相关的密切程度越高。13 2 2、变

5、量共同度的统计意义、变量共同度的统计意义定定义义：变量的共同度是因子载荷矩阵的第i行的元素的平方和。记为统计意义统计意义：两边求方差所有的公共因子和特殊因子对变量的贡献为1。如果非常靠近1，非常小，则因子分析的效果好，从原变量空间到公共因子空间的转化性质好。14 3 3、公共因子、公共因子方差贡献的统计意义方差贡献的统计意义因子载荷矩阵中各列元素的平方和称为所有的对的方差贡献和。衡量的相对重要性。15 3 3 因子载荷矩阵的估计方法因子载荷矩阵的估计方法 (二) 主因子法（三）极大似然方法（一）主成分分析法（一）主成分分析法16 4 因子旋转（正交变换）建立了因子分析数学

6、目的不仅仅要找出公共因子以及对变量进行分组，更重要的要知道每个公共因子的意义，以便进行进一步的分析，如果每个公共因子的含义不清，则不便于进行实际背景的解释。由于因子载荷阵是不惟一的，所以应该对因子载荷阵进行旋转。目的是使因子载荷阵的结构简化，使载荷矩阵每列或行的元素平方值向0和1两极分化。有三种主要的正交旋转法。四次方最大法、方差最大法和等量最大法。（一）为什么要旋转因子（一）为什么要旋转因子17变换后因子的共同度变换后因子的共同度设正交矩阵，做正交变换正交矩阵，做正交变换变换后因子的共同度没有发生变化！变换后因子的共同度没有发生变化！（二）旋转方法（二）旋转方法18变换后因子贡献变换后因子

7、贡献设正交矩阵，做正交变换正交矩阵，做正交变换变换后因子的贡献发生了变化！变换后因子的贡献发生了变化！19 1、方差最大法方差最大法从简化因子载荷矩阵的每一列出发，使和每个方差最大法从简化因子载荷矩阵的每一列出发，使和每个因子有关的载荷的平方的方差最大。当只有少数几个变量在某个因子有关的载荷的平方的方差最大。当只有少数几个变量在某个因子上又较高的载荷时，对因子的解释最简单。因子上又较高的载荷时，对因子的解释最简单。方差最大的直观意义是希望通过因子旋转后，使每个因子上的载荷尽量拉开距离，一部分的载荷趋于1，另一部分趋于0。20 2 2、四次方最大旋转、四次方最大旋转四次方最大旋转是从简化载

8、荷矩阵的行出发，通过旋转初始四次方最大旋转是从简化载荷矩阵的行出发，通过旋转初始因子，使每个变量只在一个因子上又较高的载荷，而在其它的因子，使每个变量只在一个因子上又较高的载荷，而在其它的因子上尽可能低的载荷。因子上尽可能低的载荷。如果每个变量只在一个因子上又非零的载荷，这时的因子解释是最简单的。四次方最大法通过使因子载荷矩阵中每一行的因子载荷平方的方差达到最大。21 3、等量最大法等量最大法把四次方最大法和方差最大等量最大法把四次方最大法和方差最大法结合起来求法结合起来求Q Q和和V V的加权平均最大。的加权平均最大。 22 5 因子得分因子得分（一）因子得分的概念（一）因子得分的概念

9、前面我们主要解决了用公共因子的线性组合来表示一组观测变量的有关问题。如果我们要使用这些因子做其他的研究，比如把得到的因子作为自变量来做回归分析，对样本进行分类或评价，这就需要我们对公共因子进行测度，即给出公共因子的值。231、巴特莱特因子得分(加权最小二乘法）巴特莱特因子得分计算方法的思想：把看作因变量；把因子载荷矩阵看成自变量的观测；把某个个案的得分看着最小二乘法需要求的系数。24由于特殊因子的方差相异，所以用加权最小二乘法求得分，每个各案作一次，要求出所有样品的得分，需要作次。 25 2、Thompson方法 26 则，我们有如下的方程组：27j=1,2,m28 注：共需要

10、解注：共需要解m次才能解次才能解出出所有的得分函数的系数。所有的得分函数的系数。29 6 因子分析的步骤、展望和建议计算所选原始变量的相关系数矩阵计算所选原始变量的相关系数矩阵相关系数矩阵描述了原始变量之间的相关关系。可以帮助判断原始变量之间是否存在相关关系，这对因子分析是非常重要的，因为如果所选变量之间无关系，做因子分析是不恰当的。并且相关系数矩阵是估计因子结构的基础。选择分析的变量选择分析的变量用定性分析和定量分析的方法选择变量，因子分析的前提条件是观测变量间有较强的相关性，因为如果变量之间无相关性或相关性较小的话，他们不会有共享因子,所以原始变量间应该有较强的相关性。一、因子

11、分析通常包括以下五个步骤30 提取公共因子提取公共因子这一步要确定因子求解的方法和因子的个数。需要根据研究者的设计方案或有关的经验或知识事先确定。因子个数的确定可以根据因子方差的大小。只取方差大于1(或特征值大于1)的那些因子，因为方差小于1的因子其贡献可能很小；按照因子的累计方差贡献率来确定，一般认为要达到60才能符合要求；因子旋转因子旋转通过坐标变换使每个原始变量在尽可能少的因子之间有密切的关系，这样因子解的实际意义更容易解释,并为每个潜在因子赋予有实际意义的名字。 31 计算因子得分计算因子得分求出各样本的因子得分，有了因子得分值，则可以在许多分析中使用这些因子，例如以因子的得分

12、做聚类分析的变量，做回归分析中的回归因子。 32 （二）展望和建议在因子分析研究中，必须做出许多决策。大概最重要的决策是选择公共因子数m。虽然已知m时对模型充分性有大样本检验，但这只是对近似正态分布的数据适用。而且，若变量数和观测数都大，检验将会很有把握地拒绝小m的模型，而正是此时因子分析可提供一个有用的近似。最为常见的是，m最后的选定基于下述考虑的综合：(1) 所解释的样本方差的比例； (2) 题材知识； (3) 结论的“合理程度”。 33 解法和旋转类型的选择并非决定性的决策，事实上，大多数满意的因子分析都试用了不止一种旋转并且所有结果实质上都确认同一因子结构。在现阶段，因子分析仍然是

13、一种艺术，并且尚没有一种单一的策略可以获得完美的成功。建议和详细阐述一种合情合理的选择： 1执行主成分因子分析。这个方法对第一次考察数据尤其合适。(不要求R或S是非奇异的)。 (a) 画因子得分图，找可疑观测值。计算对各观测值的标准化得分。 (b) 试用最大方差旋转。 34 5对大数据集，将它们分为两半并且对每一半都执行因子分析。比较这两个结果，并与从完整数据集所得结果做比较，以检查解的稳定性。(数据可以随机划分或是把前一半放在一组中，把后一半放在另一组中。) 2执行包括最大方差旋转在内的最大似然因子分析。 3比较从两个因子分析得到的解。 (a)载荷的分组方式是否相同? (b)画出从主成分得

14、到的因子得分图，对比从最大似然分析得到的图形。 4对其他的公共因子数m，重复前三个步骤。有必要将额外的因子放入来理解和阐述该数据吗? 35 因子分析是十分主观的，在许多出版的资料中，因子分析模型都用少数可阐述因子提供了合理解释。实际上，绝大多数因子分析并没有产生如此明确的结果。不幸的是，评价因子分析质量的法则尚未很好量化，质量问题只好依赖一个“哇”准则如果在仔细检查因子分析的时候，研究这能够喊出“哇，我明白这些因子”的时候，就可看着是成功运用了因子分析方法。36SAS/STAT（Factor）主要的语句如下：PROC Factor ；必需语句可选择的语句37用于PROC FACTOR语句的

15、任选项:规定数据集(共4项) 1) DATASAS-data-set(SAS数据集)给出输入数据集的名 2）OUTSAS-data-set (SAS数据集)创建一个数据集，它包括来自DATA的数据集中的全部数据，还包括被称为Factor1，Factor2等变量的因子得分估计。3) OUTSTATSAS-data-set (SAS数据集)规定一个包含大部分分析结果的输出数据 4) COV 要求用协方差阵替代相关系数阵作因子分析。385）NFACTORS=n 规定被保留的因子个数。 6）ROTATE=name 规定旋转方法。ROTATE=E 规定正交的均方最大旋转ROTATE=no 规定不旋转ROTATE=v 规定正交的方差最大旋转7)ALL 打印除图形之外的所有可选择的输出.8)SCORE 打印因子得分系数。39三、例子三、例子数据集SOCECON为洛杉基12个地区统计的五个社会经济指标：人口总数（POP），教育程度（SCHOOL），就业数（EMPLOY），服务业人数（SERVICES），中等的房价（HOUSE）。用FACTOR过程可以进行主分量分析。下例中的SIMPLE选项要求计算变量的简单统计量，CORR 要求输出相关阵。40部分资料从网络收集整理而来，供大家参考，感谢您的关注！

展开阅读全文

数据分析-因子分析

最新文档