《回归分析与因子分析之比较》-公开DOC·毕业论文

资源描述

《《回归分析与因子分析之比较》-公开DOC·毕业论文》由会员分享，可在线阅读，更多相关《《回归分析与因子分析之比较》-公开DOC·毕业论文（12页珍藏版）》请在金锄头文库上搜索。

1、回归分析与因子分析之比较数学与统计学院【摘要】回归分析与因子分析是数理统计中常用的两种数据处理方法，本文对他们进行比较，分析了两种方法的区别与联系，各自的使用和适用范围，对教学质量的提高及在实际中对于有效选择此两种统计方法提供了依据。【关键词】回归分析因子分析比较一、问题提出回归分析和因子分析都是研究因变量与因子间关系的一种数据处理方法，在模型上看，只是因子结构不一样，他们之间到底有什么内在联系，值得我们研究并加以利用。二、问题分析1、统计模型和类型多元线性回归模型表示方法为其解析表达式为:多元模型的矩阵表达式为一般地，设X=(x1， x2，，xp)为可观测的随机变量，且有

2、。在因子分析中，p维的变量向量x被赋予一个随机结构，x =+Af+具体也可以写成以下形式： (1)其中是p维向量，A是pr参数矩阵，f是r维潜变量向量，称为公共因子(Common factors)，而是p维的变量向量，称为特殊因子(Specific factors)，满足下列假定：E() =0，cov() =(对角矩阵)E(f) =0，cov (f，)=0，cov(f) =I (2)它把每个变量分解为两部分，一部分是由这些变量内含的公共因子所构成的，即公共因子部分，另一部分是每个变量各自独有的因子，即所谓特殊因子部分。应当注意，因子模型不具有唯一性，设T是一个正交矩阵，由可知，因子模型x =

3、+Af+与模型x =+(AT)(Tf)+等价。后者载荷矩阵为AT，新的公共因子Tf。正是由于因子模型的不唯一性，所以当原模型不适合专业解释时，则作一个正交变换T，把原模型改变为新模型，在新模型中再去寻找因子的专业解释，这就为因子旋转提供了理论的基础。由两者的比较可知，两种模型都是用某几个因子来解释变量的，只是因子构成不一样，回归分析的因子之间可能存在相关关系，但是后者却是独立的。回归分析模型写成了原观测变量的线性组合，因子分析是描述原指标X协方差阵结构的一种模型，对原观测变量分解成公共因子和特殊因子两部分，当公共因子的个数m=原变量个数p时，就不能考虑特殊因子了，此时因子分析也对应于一种线性组

4、合了，饿而且因子模型的系数矩阵表明了原变量和公共因子的相关程度。2、目的和作用回归分析是为了分析一个变量如何依赖其它变量而提出的一种统计分析方法，它的目的是要确定引起因变量变化的各个因素，多元线性回归是研究一个因变量（Y）和多个自变量（Xi）之间数量上相互依存的线性关系。利用回归分析可以进行因素分析、调整混杂因素和统计预测。因子分析是用于研究个体测量指标的协方差(或相关)结构的探索性数据分析的多元技术。它找出若干可以解释可观测指标之间的变差或者联系的潜变量从而简化高维数据，并对相似指标进行分组及检测多重共线性，将高维数据在低维空间中图示以利于直观考察数据的分布情况及检测异常值。目标是通过减少

5、变量的个数来了解数据的结构，在某种意义上可以取代原始数据，而且通过图示和多元推断技术更容易进行研究。它就是用少数几个有意义因子来描述多个指标或因素之间的联系，与此同时，又能保存住原有数据结构所提供的大部分信息，这样就可以找出潜在的特征。其目的为化简数据、浓缩信息、探讨内在结构，也就是说将分散在多个变量中的同类信息集中起来、提纯，从而便于分析、解释和利用。同样是因变量和因子之间的关系，但是回归分析却能得出确切的数值关系，而且通常是定量的（不过对定性因素可以采用虚拟变数的处理方法）。但因子分析一般适用于定性的，不可观测的数据。不过，回归分析的关系不精简明了，而且确定的因子也是根据人为经验事先定好的

6、，不如因子分析的全面，可能还得做逐步回归等才能剔除或增加变量。3、适用原则首先，回归分析和因子分析使用的数据不一样。回归分析同时需要因子和因变量的数据，数据结构为因变量和因子对应的顺序数据，即。而因子分析只需要在不同情况下对应的因变量的值，无需知道X的确切数值，只要根据调的数值就行了，也即这种方法可以揭示因子内部的关系。其次，样本容量的要求也不同。回归分析最小样本容量 n k+1。对，有(XX)-1存在| XX | 0 XX 为k+1阶的满秩阵，R(AB) min(R(A)，R(B)，R(X) k+1，因此，必须有nk+1。根据经验，有n 30或者n 3(k+1)才能满足模型估计的基本要求

7、。n 3(k+1)时，t分布才稳定，检验才较为有效。根据Gromuch(1983)的观点，因子分析的样本量要求如下:一般原则是要求样本数目至少是变量个数的五倍，能有一比十的比例是较可被接受的，有些研究建议观察值个数为变量个数的二十倍;总样本最好应有100个或以上的观察值，通常不要少于50个观察值。最后，模型假设也有不同之处：在回归分析中，有如下假设：解释变量 Xi 是确定性变量，不是随机变量；解释变量之间互不相关，即无多重共线性。随机误差项具有0均值和同方差。随机误差项不存在序列相关关系。随机误差项与解释变量之间不相关。随机误差项服从0均值、同方差的正态分布。在因子分析中，假定：公

8、共因子的均数为，方差为。特殊因子的均数为，方差为i，且特殊因子互不相关。公共因子与特殊因子相互独立。由比较可知，两种分析方法在两类因子的相关性上有相似之处，差别主要在于回归分析中的随机误差项要求服从0均值、同方差的正态分布。4、模型的解回归分析应用最小二乘估计，其矩阵表示如下：它具有线性（估计量都是被解释变量观测值的线性组合）无偏性（估计量的数学期望=被估计的真值）有效性（估计量的方差是所有线性无偏估计中最小的）而因子分析有若干种方法主成分法（principal component factor）每一个公共因子的载荷系数之平方和等于对应的特征根，即该公共因子的方差。主因子法（princi

9、pal factor）设原变量的相关矩阵为R=()，其逆矩阵为R-1=()。各变量特征方差的初始值取为逆相关矩阵对角线元素的倒数，。则共同度的初始值为。极大似然法（maximum likelihood factor）假定原变量服从正态分布，公共因子和特殊因子也服从正态分布，构造因子负荷和特殊方差的似然函数，求其极大，得到唯一解。由上可知，因子载荷的统计意义是第个变量与第个公共因子的相关系数，表示依赖巧的份量(比重)。统计中应称为权。现称载荷，表示第个变量在第个因子上的负荷，反映了第个变量在第个因子上的相对重要性。另外，回归的系数是唯一确定的，而因子模型的系数矩阵不唯一，且该矩阵表明了原变量和

10、公共因子的相关程度。差阵的特征值所对应的特征向量。某解释变量前回归系数的含义是，在其他解释变量保持不变的条件下，该变量变化一个单位，被解释变量将平均发生偏回归系数大小的变动。另外，因子分析中的载荷矩阵是不可逆的，只能通过可观测的原变量去估计不可观测的公共因子，是因子载荷矩阵中的元素，是第变量Xi与第个公共因子的相关系数，即表示依赖的份量，是第变量在第个公共因子上的负荷，它反映了第变量在第个公共因子上的相对重要性。是第个原观测变量的特殊因子，且此处的与的均值都为0，方差都为1。5、效果检验对多元线性回归可作如下平方和分解：回归方程的总体检验：回归系数的检验：而对于因子分析而言，是没有统计检验的

11、，只是在模型中各个量的统计意义上有所表现：(1)特征根(Eigenvalue)， (H.Kaiser)所谓特征值，是指每一行因子负荷量平方加总后之总和，表示该因子能解释全体变异的能力。每一个公共因子的载荷系数之平方和等于对应的特征根，即该公共因子的方差。它可以被看成是主成分影响度的指标，代表引入因子、主成分后可解释平均多少原始变量的信息。因每一变量之变异数均为1，若所抽取的因子特征根小于1，说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大。因此一般可以用特征根大于1作为纳入标准。(2)变量共同度(Communalities)，也称为公共方差(common variance)，反映

12、全部公共因子变量对原有变量的总方差解释说明比例。原有变量的共同度为因子载荷矩阵A中第行元素的平方和,越接近于1(原有变量标准化前提下，总方差为1)，说明公共因子解释原有变量越多的信息。如果大部分变量的共同度都高于0.8，则说明提取出的公共因子已经基本反映了各原始变量80%以上的信息，仅有较少的信息丢失，因子分析效果较好。可以说，各个变量的共同度是衡量因子分析效果的一个指标公共因子的方差贡献定义为因子载荷矩阵A中第列各元素的平方和，方差贡献反映了该因子对所有原始变量总方差的解释能力，其值越高，说明因子重要程度越高。累积贡献率达到80% 85%就比较满意了。因子载荷（负荷）是随机变量与公共因子的相

13、关系数。设称为公共因子对X的“贡献”，是衡量公共因子重要性的一个指标。6、步骤回归分析A、找出被选变量B、试建回归模型C、评核回归模型D、修改回归模型E、解释并应用回归模型因子分析A、输入原始数据，计算样本均值和方差，进行标准化计算（处理）；B、求样本相关系数矩阵R=；C、求相关系数矩阵的特征根()和相应的标准正交的特征向量；D、确定公共因子数；E、计算公共因子的共性方差;F、对载荷矩阵进行旋转，以求能更好地解释公共因子；G、对公共因子作出专业性的解释。三、结束语回归分析和因子分析是两种常用的数据处理方法，通过主成分分析和因子分析的对比，我们可以很清楚的看出回归

14、分析和因子分析有一定的关系，本文只给出一部分区别和联系。希望通过本文的分析，能给初学者有一定的帮助，在学习和研究中能提供信息。另外，由以上比较可知，在处理数据时，若数据包含因子的信息，则可以先进行回归分析，再用因子分析进行进一步验证和扩展，发现其内在规律，以尽量全面客观的解释客观事实。参考文献1 高惠璇.应用多元统计分析M.北京大学出版社,2005,1. 2 何晓群,刘义卿.应用回归分析M.中国人民大学出版社.3 张尧庭.多元统计分析选讲.北京:中国统计出版社出版，20024 数学建模方法及其应用韩中庚北京：高等教育出版社，20055 回归分析及其试验设计茆诗松、丁元、周纪芗、吕乃刚华东师范大学出版社，20016 多元线性回归的数学模型 J 刘严. 沈阳工程学院学报, 2005, 1 (2、3) : 128129.7 于秀林、任雪松编著。多元统计分析中国统计出版社l望9年版 8 实用统计方法梅长林、周家良科学出版社 2002 9 多元线性回归模型 http:/ 林海明.对主成分分析法运用中十个问题的解析J.统计与决策(理论版),2007,(8):16-18.11 张文彤。 SPSS统计分析高级教程M。上海:高等教育出版社， 2004。应用多元科研中常用的统计方法自由分布统计检验颜金锐中国统计出版社 2002l

展开阅读全文