主成分分析与因子分析

资源描述

《主成分分析与因子分析》由会员分享，可在线阅读，更多相关《主成分分析与因子分析（53页珍藏版）》请在金锄头文库上搜索。

1、主成分分析和因子分析汇报什么？假定你是一个公司的财务经理，掌握了公司的所有数据，比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等。如果让你向上面介绍公司状况，你能够把这些指标和数字都原封不动地摆出去吗？当然不能。你必须要把各个方面作出高度概括，用一两个指标简单明了地把情况说清楚。对众多变量进行降维每个人都会遇到有很多变量的数据。比如全国或各个地区的带有许多经济和社会变量的数据；各个学校的研究、教学等各种变量的数据等等。这些数据的共同特点是变量很多，在如此多的变量之中，有很多是相

2、关的，即有很多重叠信息。人们希望能够找出它们的少数“代表”来对它们进行描述。本章就介绍两种把变量维数降低以便于描述、理解和分析的方法：主成分分析（principal component analysis）和因子分析（factor analysis）。实际上主成分分析可以说是因子分析的一个特例。在引进主成分分析之前，先看下面的例子。成绩数据（student.sav） 100个学生的数学、物理、化学、语文、历史、英语的成绩如下表（部分）。从本例可能提出的问题目前的问题是，能不能把这个数据的6个变量用一两个综合变量来表示呢？这一两个综合变量包含有多少原来的信息呢？能不能利用找

3、到的综合变量来对学生排序呢？这一类数据所涉及的问题可以推广到对企业，对学校进行分析、排序、判别和分类等问题。主成分分析(Principal Components Analysis) 例中的数据点是六维的；也就是说，每个观测值是 6维空间中的一个点。我们希望把6维空间用低维空间表示。由于6维空间无法直接观察，因此，我从2维空间开始解释主成分分析的原理。主成分分析原理当散点呈椭圆状分布时，代表长轴的变量就描述了数据的主要变化，而代表短轴的变量就描述了数据的次要变化。但是，坐标轴通常并不和椭圆的长短轴平行。因此，需要寻找椭圆的长短轴，并进行变换，使得新变量和椭圆的长短轴

4、平行。如果长轴变量代表了数据包含的大部分信息，就用该变量代替原先的两个变量（舍去次要的一维），降维就完成了。椭圆（球）的长短轴相差得越大，降维也越有道理。主成分分析的几何解释平移、旋转坐标轴主成分分析的几何解释平移、旋转坐标轴主成分分析的几何解释平移、旋转坐标轴主成分分析的几何解释平移、旋转坐标轴样本数据的标准化可解决平移问题根据旋转变换的公式：主成分分析对于多维变量的情况和二维类似，也有高维的椭球，只不过无法直观地看见罢了。首先把高维椭球的主轴找出来，再用代表大多数数据信息的最长的几个轴作为新变量；这样，主成分分析就基本完成了。注意，和二维情况类似，高维椭球

5、的主轴也是互相垂直的。这些互相正交的新变量是原先变量的线性组合，叫做主成分(principal component)。主成分分析的数学模型假设我们所讨论的实际问题中，有p个指标，我们把这p个指标看作p个随机变量，记为X1 ，X2，Xp，主成分分析就是要把这p个指标的问题，转变为讨论p个指标的线性组合的问题，而这些新的指标F1，F2，Fk(kp），按照保留主要信息量的原则充分反映原指标的信息，并且相互独立。这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通常的做法是，寻求原指标的线性组合Fi。满足如下的条件：主成分之间相互独立，即无重叠的信息。即主成

6、分的方差依次递减，重要性依次递减，即每个主成分的系数平方和为1。即样本数据的标准化可解决平移问题根据旋转变换的公式：主成分分析正如二维椭圆有两个主轴，三维椭球有三个主轴一样，有几个变量，就有几个主成分。选择越少的主成分，降维就越好。什么是标准呢？那就是这些被选的主成分所代表的主轴的长度之和占了主轴长度总和的大部分。有些文献建议，所选的主轴总长度占所有主轴长度之和的大约 85%即可，其实，这只是一个大体的说法；具体选几个，要看实际情况而定。对于我们的数据，SPSS输出为这里的Initial Eigenvalues就是这里的六个主轴长度，又称特征值（数据相关阵的特征值）。头

7、两个成分特征值累积占了总方差的81.142%。后面的特征值的贡献越来越少。特征值的贡献还可以从SPSS的所谓碎石图看出因子载荷反映的是主成分与变量间的相关系数。（因子载荷阵）主成分载荷与因子载荷可以把第一和第二因子的载荷点出一个二维图以直观地显示它们如何解释原来的变量的。这个图叫做载荷图。该图左面三个点是数学、物理、化学三科，右边三个点是语文、历史、外语三科。因子分析(Factor Analysis) 主要内容一、什么是因子分析二、因子分析模型三、因子载荷矩阵中的几个统计特征四、因子旋转五、因子得分六、在SPSS上进行因子分析的步骤因子分析(factor anal

8、ysis)是一种数据简化的技术。它通过研究众多变量之间的内部依赖关系，探求观测数据中的基本结构，并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量，而假想变量是不可观测的潜在变量，称为因子。例如，在企业形象或品牌形象的研究中，消费者可以通过一个有24个指标构成的评价体系，评价百货商场的24个方面的优劣。一、什么是因子分析但消费者主要关心的是三个方面，即商店的环境、商店的服务和商品的价格。因子分析方法可以通过24 个变量，找出反映商店环境、商店服务水平和商品价格的三个潜在的因子，对商店进行综合评价。而这三个公共因子可以表示

9、为：称是不可观测的潜在因子。24个变量共享这三个因子，但是每个变量又有自己的个性，不被包含的部分，称为特殊因子。二、因子分析模型数学模型设个变量，如果表示为注：因子分析与回归分析不同，因子分析中的因子是一个比较抽象的概念，而回归因子有非常明确的实际意义；主成分分析分析与因子分析也有不同，主成分分析仅仅是变量变换，而因子分析需要构造因子模型。主成分分析:原始变量的线性组合表示新的综合变量，即主成分，无误差项；因子分析：潜在的假想变量和随机影响变量的线性组合表示原始变量，有误差项。主成分分析与因子分析的公式上的区别主成分分析因子分析(mp)因子得分三、因子载荷矩阵中的几

10、个统计特征1、因子载荷aij的统计意义因子载荷是第i个变量与第j个公共因子的相关系数模型为因子载荷构成的km矩阵称为“因子矩阵”（factor matrix）或“因子模式”（factor pattern），因为它反映了因子与变量关系中因子的性质。“因子结构”（factor structure）是指因素与变量间的相关关系，可以证明，在正交模型中，因子模式等于因素结构，因子负荷就是变量与因素间的相关系数。因此在正交模型中不加区别地统称为“因子载荷”。 2、变量共同度（communality）的统计意义定义：变量的共同度是因子载荷矩阵的第i行的元素的平方和。记为统计意义：两边求方差

11、所有的公共因子和特殊因子对变量的贡献为1。如果非常靠近1，非常小，则因子分析的效果好，从原变量空间到公共因子空间的转化性质好。3、公共因子方差贡献(Contributions)的统计意义因子载荷矩阵中各列元素的平方和称为所有的对的方差贡献和。衡量的相对重要性。四、因子旋转建立了因子分析的目的不仅仅要找出公共因子以及对变量进行分组，更重要的要知道每个公共因子的意义，以便进行进一步的分析，如果每个公共因子的含义不清，则不便于进行实际背景的解释。求初始解是按照因子解释变量方差的多少顺序提取因子的，因此，绝大多数变量在第一个因子上肯定都有显著的负荷，其后的因子解释方差比例逐渐递

12、减。这时的因素负荷矩阵中大多数因子都和许多变量相关，尤其是靠前的第一因素，负载了过多的变量，很不便于解释。这时就需要借助“因子旋转”改变因子轴的位置，重新分配各因子所解释的方差比例，从而得到易于解释的“简单结构”。根据矩阵代数的知识，因子旋转实际上是对因素解进行的一个变换（正交旋转是标准正交变换），得到的模型对数据的拟合程度不发生改变，同时也不改变每个变量的共同度。（一）为什么要旋转因子旋转前与旋转后的因子载荷图旋转前后的因子载荷比较这里，第一个因子主要和语文、历史、英语三科有很强的正相关；而第二个因子主要和数学、物理、化学三科有很强的正相关。因此可以给第一个因子起名为“理科因

13、子”，而给第二个因子起名为“文科因子”。变换后因子的共同度设正交矩阵，做正交变换变换后因子的共同度没有发生变化！（二）正交旋转（orthogonal rotation）变换后因子贡献设正交矩阵，做正交变换变换后因子的贡献发生了变化！1、方差最大法（Varimax）方差最大法从简化因子载荷矩阵的每一列出发，使和每个因子有关的载荷的平方的方差最大。当只有少数几个变量在某个因子上有较高的载荷时，对因子的解释最简单。方差最大的直观意义是希望通过因子旋转后，使每个因子上的载荷尽量拉开距离，一部分的载荷趋于1，另一部分趋于0。此法便于解释因子，因此最常用。2、四次方最大旋转（Quartima

14、x）四次方最大旋转是从简化载荷矩阵的行出发，通过旋转初始因子，使每个变量只在一个因子上有较高的载荷，而在其它的因子上尽可能低的载荷。如果每个变量只在一个因子上有非零的载荷，这时的因子解释是最简单的。四次方最大法通过使因子载荷矩阵中每一行的因子载荷平方的方差达到最大。3、等量最大法（Equamax）等量最大法把四次方最大法和方差最大法结合起来求Q和V的加权平均最大。权数等于m/2，因子数有关。（三）斜交旋转（oblique rotation）如果因子间存在相关（斜交模型），理论上应考虑斜交旋转以更好地形成简单结构和解释因子。由于没有因子正交条件的限制，斜交旋转实际上就是尽可能将

15、因素轴调整到各组变量附近或者更有利于解释因子的位置。 f1f2f1f2x1x2x3x4x5x6五、因子得分（一）因子得分的概念前面我们主要解决了用公共因子的线性组合来表示一组观测变量的有关问题。如果我们要使用这些因子做其他的研究，比如把得到的因子作为自变量来做回归分析，对样本进行分类或评价，这就需要我们对公共因子进行测度，即给出公共因子的值。计算因子得分于是可以根据前面的公式，算出每个学生的第一个因子和第二个因子的大小，即算出每个学生的因子得分f1和f2。人们可以根据这两套因子得分对学生分别按照文科和理科排序。当然得到因子得分只是SPSS软件的一个选项。因子分析和主成分分析的一些注意事项可以看出，因子分析和主成分分析都依赖于原始变量，也只能反映原始变量的信息。所以原始变量的选择很重要。另外，如果原

展开阅读全文