主成份分析和因子分析

资源描述

《主成份分析和因子分析》由会员分享，可在线阅读，更多相关《主成份分析和因子分析（62页珍藏版）》请在金锄头文库上搜索。

1、中央财经大学统计学院,第10章主成分分析与因子分析,主成分分析因子分析,中央财经大学统计学院 2,学习目标,1.主成分分析的基本思想 2.主成分分析的软件实现和结果分析 3.因子分析的基本思想 4.因子分析的软件实现和结果分析,中央财经大学统计学院,主成分分析,中央财经大学统计学院 4,主成分分析的原理,多元统计分析处理的是多变量（多指标）问题。由于变量较多，增加了分析问题的复杂性。但在实际问题中，变量之间可能存在一定的相关性，因此，多变量中可能存在信息的重叠。人们自然希望通过克服相关性、重叠性，用较少的变量来代替原来较多的变量，而这种代替可以反映原来多个变量的大部分信息，这实际上是一种“

2、降维”的思想。 “主成分分析”、“因子分析” 都可以用来对数据进行降维。,中央财经大学统计学院 5,主成分分析的基本思想,主成分分析（Principal components analysis）是由Hotelling于1933年首先提出的。由于多个变量之间往往存在着一定程度的相关性。人们自然希望通过线性组合的方式，从这些指标中尽可能快地提取信息。当这些变量的第一个线性组合不能提取更多的信息时，再考虑用第二个线性组合继续这个提取的过程，直到提取足够多的信息为止。这就是主成分分析的思想。,中央财经大学统计学院 6,主成分分析的基本思想,主成分分析适用于原有变量之间存在较高程度相关的情况。在主

3、成分分析适用的场合，一般可以用较少的主成分得到较多的信息量，从而得到一个更低维的向量。通过主成分既可以降低数据“维数”又保留了原数据的大部分信息。,中央财经大学统计学院 7,例：斯通关于国民经济的研究,一项十分著名的工作是美国的统计学家斯通(Stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据，得到了17个反映国民收入与支出的变量要素，例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。在进行主成分分析后，竟以97.4的精度，用三个新变量就取代了原17个变量。,中央财经大学统计学院 8,主成分分析的几何意义,如果仅考虑X1或X2中

4、的任何一个分量，那么包含在另一分量中的信息将会损失，因此，直接舍弃x1或x2分量不是“降维”的有效办法。,中央财经大学统计学院 9,主成分分析的几何意义,平移、旋转坐标轴,对坐标轴进行旋转，n个点在F1轴上的方差达到最大，即在此方向上包含了有关n个样品的最大量信息。因此，欲将二维空间的点投影到某个一维方向上，则选择F1轴方向能使信息的损失最小。,中央财经大学统计学院 10,主成分分析的几何意义,第一主成分的效果与椭圆的形状有关。椭圆越扁平，n个点在F1轴上的方差就相对越大，在F2轴上的方差就相对越小，用第一主成分代替所有样品造成的信息损失就越小。,中央财经大学统计学院 11,主成分分析的几何

5、意义,原始变量不相关时，主成分分析没有效果。,中央财经大学统计学院 12,主成分分析的几何意义,原始变量相关程度越高，主成分分析效果越好。,中央财经大学统计学院 13,主成分分析的数学模型,方程满足下列条件：（1）（2）Fi与Fj不相关。（3） F1与Fp到方差依次递减。,中央财经大学统计学院 14,主成分分析的数学模型,有p个x，相应可以计算出p个主成分。但一般只使用少数几个主成分就可以提取大部分信息。主成分分析的基本任务是计算系数矩阵a11 app。,中央财经大学统计学院 15,主成分求解的步骤,主成分可以按以下步骤计算得出：计算原始变量的相关系数矩阵R。计算相关系数矩阵R的

6、特征值，并按从大到小的顺序排列，记为计算特征值对应的特征向量，即为主成分F1Fp相应的系数。,中央财经大学统计学院 16,主成分得分,把原始变量的值代入主成分表达式中，可以计算出主成分得分。注意在计算主成分得分时需要先对原始变量进行标准化。得到的主成分得分后，可以把各个主成分看作新的变量代替原始变量，从而达到降维的目的。,中央财经大学统计学院 17,主成分的贡献率,对于第k个主成分，其对方差的贡献率为前k个主成分贡献率的累计值称为累计贡献率。,中央财经大学统计学院 18,主成分个数的确定,通常有两种方式： 1、根据大于1的特征值的个数确定主成分的个数； 2、根据主成分的累计贡献率确定主

7、成分的个数，使累计贡献率85%或者其他值。最常见的情况是主成分的个数为2-3个。,中央财经大学统计学院 19,主成分分析的应用,主成分回归。即把各主成分作为新自变量代替原来自变量x做回归分析。还可以进一步还原得到Y与x的回归方程（可以避免多重共线性的问题）。用于综合评价。按照单个的主成分（例如第一主成分）可以对个体进行排序。按照几个主成分得分的加权平均值对个体进行排序也是一种评价方法。一般用各个主成分的方差贡献率加权。由于加权得分缺少实际意义，这种方法理论上有争议。,中央财经大学统计学院 20,主成分分析在SPSS中的实现,SPSS没有直接提供主成分分析的功能，需要借助于“因子分析”的

8、模块实现。用SPSS进行主成分分析有几个操作环节需要特别注意。下面我们以讲义中应聘的例子加以说明。,中央财经大学统计学院 21,主成分分析在SPSS中的实现,1、在SPSS中打开数据文件（或者录入数据）。,中央财经大学统计学院 22,主成分分析在SPSS中的实现,2、选择“分析”“降维”“因子分析”。 3、把除了“编号”以外的变量选入“变量”框； 4、单击“描述”按钮，在弹出的对话框中选中“系数”，以输出相关系数。其余选项使用默认值。单击“确定” 。,SPSS结果分析：相关系数表,相关系数表中有较大的相关系数，主成分分析可能有效。,特征值和贡献率,前4个特征值为7.51，2.05，1.4

9、6，1.20。默认提取4个主成分，累计贡献率为81.49%。,因子载荷矩阵,这个表是因子分析的因子载荷矩阵，不是特征向量矩阵。要得到特征向量，需要将各列除以对应特征值的平方根。第1列除以根号7.5，第二列除以根号2.05，等等。,特征向量,这是根据SPSS的结果在Excel计算出的特征向量。根据这个表可以写出4个主成分的表达式。,中央财经大学统计学院 27,主成分表达式,F1=0.162简历格式*+0.213外貌*+0.040学习能力*+0.236适应力*。式中带星号的变量表示标准化后的变量其余主成分的表达式依此类推。把标准化后的各个变量带入方程可以计算出主成分得分。,中央财经大学

10、统计学院 28,用SPSS计算的主成分得分,1、把原始变量标准化；按照主成分的计算公式可以计算出主成分得分。注：SAS、S-plus、R等软件可以直接给出主成分的系数表和主成分得分。,中央财经大学统计学院 29,主成分分析案例2,100个学生的六门成绩（数学、物理、化学、语文、历史、英语）见STUDENT.SAV。根据数据进行主成分分析。,中央财经大学统计学院 30,SPSS结果分析,有比较高的相关系数，可以使用主成分分析方法。,中央财经大学统计学院 31,特征值和贡献率,前2个主成分的贡献率为81.42%。,中央财经大学统计学院 32,成分矩阵和特征向量,成分矩阵各列除以相应的特征值可以

11、得出特征向量。,特征向量,除以根号3.735,除以根号1.133,中央财经大学统计学院 33,主成分得分,com1，com2为用公式计算出的主成分得分。,中央财经大学统计学院,因子分析,中央财经大学统计学院 35,因子分析,因子分析(factor analysis)是一种数据简化的技术。它通过研究众多变量之间的内部依赖关系，探求观测数据中的基本结构，并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量，而假想变量是不可观测的潜在变量，称为因子。,中央财经大学统计学院 36,一个例子,例如，在企业形象或品牌形象的研究中，消费者可以

12、通过一个有24个指标构成的评价体系，评价百货商场的24个方面的优劣。但消费者主要关心的是三个方面，即商店的环境、商店的服务和商品的价格。因子分析方法可以通过24个变量，找出反映商店环境、商店服务水平和商品价格的三个潜在的因子，对商店进行综合评价。,中央财经大学统计学院 37,因子分析的例子,这三个公共因子可以表示为：,称是不可观测的潜在因子。24个变量共享这三个因子，但是每个变量又有自己的个性，不被包含的部分，称为特殊因子。,中央财经大学统计学院 38,因子分析与主成分分析的区别,主成分分析分析与因子分析不同，主成分分析仅仅是变量变换，而因子分析需要构造因子模型。主成分分析：原始变量的

13、线性组合表示新的综合变量，即主成分；因子分析：潜在的假想变量和随机影响变量的线性组合表示原始变量。,中央财经大学统计学院 39,因子分析的数学模型,假设有p个变量X,有m个因子（mp），则因子分析的数学模型可以表示如下： i=1m 称为公共因子，是不可观测的变量，他们的系数称为因子载荷。是特殊因子，是不能被前m个公共因子包含的部分。,中央财经大学统计学院 40,因子分析的数学模型,因子之间互不相关，并且方差等于1。因子载荷是第i个变量与第j个公共因子的相关系数，反映了第j个公共因子对第i个变量的影响程度。,中央财经大学统计学院 41,变量共同度,如果对变量X进行了标准化，可以证明

14、定义为变量 Xi 的共同度。变量的共同度越接近1，说明被变量公共因子解释的程度越高，因子分析的效果越好。,中央财经大学统计学院 42,公共因子Fj的方差贡献,因子载荷矩阵中各列元素的平方和称为公共因子Fj对原始变量 X的方差贡献。可以衡量衡量因子的相对重要性。,中央财经大学统计学院 43,因子载荷矩阵的估计,因子载荷矩阵的估计方法有多种，估计结果并不唯一。最常用的方法之一是主成分法：求解变量X的前m个主成分，进行简单后的数学变换就可以得到因子载荷矩阵。与主成分分析类似，可以根据因子的累计贡献率确定因子的个数。,中央财经大学统计学院 44,因子旋转,因子分析中得出的各个因子如果有明确的含义，则因子分析的模型会更加易于解释和有实际意义。在因子分析中可以对因子载荷阵进行旋转，使每个变量仅在一个公共因子上有较大的载荷，而在其余的公共因子上的载荷比较小。通过旋转，因子可以有更加明确的含义。常用的一种方法是方差最大旋转。,中央财经大学统计学院 45,因子得分,前面我们主要解决了用公共因子的线性组合来表示一组观测变量的有关问题。如果我们要使用这些因子做其他的研究，比如把得到的因子作为自变量来做回归分析，对样本进行分类或评价，就需要计算每个个体在每个因子上的得分。,中央财经大学统计学院 46,因子得分的计算,

展开阅读全文