R语言主成分和因子分析

上传人:夏** 文档编号:489884921 上传时间:2022-09-01 格式:DOC 页数:22 大小:464.50KB
返回 下载 相关 举报
R语言主成分和因子分析_第1页
第1页 / 共22页
R语言主成分和因子分析_第2页
第2页 / 共22页
R语言主成分和因子分析_第3页
第3页 / 共22页
R语言主成分和因子分析_第4页
第4页 / 共22页
R语言主成分和因子分析_第5页
第5页 / 共22页
点击查看更多>>
资源描述

《R语言主成分和因子分析》由会员分享,可在线阅读,更多相关《R语言主成分和因子分析(22页珍藏版)》请在金锄头文库上搜索。

1、R语言主成分和因子分析主成分分析(PCA )是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关 变量,这些无关变量称为主成分。探索性因子分析(EFA )是一系列用来发现一组变量的潜在结构的方法,通过寻找一组更 小 的、潜在的或隐藏的结构来解释已观测到的、变量间的关系。1.R中的主成分和因子分析R的基础安装包中提供了 PCA和EFA的函数,分别为 princomp()和factanal ()psych包中有用的因子分析函数函数描述prin cipal ()含多种可选的方差放置方法的主成分分析fa()可用主轴、最小残差、加权最小平方或最大似然法估计的因子分析fa.parallel ()含

2、平等分析的碎石图factor.plot ()绘制因子分析或主成分分析的结果fa.diagram ()绘制因子分析或主成分分析的载荷矩阵scree ()因子分析和主成分分析的碎石图PCA/EFA分析流程:(1)数据预处理;PCA和EFA都是根据观测变量间的相关性来推导结果。用户可以输入原始数据矩阵或相关系数矩阵列到principal()和fa ()函数中,若输出初始结果,相关系数矩阵将会被自动计算,在计算前请确保数据中没有缺失值;(2)选择因子分析模型。判断是 PCA (数据降维)还是 EFA (发现潜在结构)更符合你 的分析目标。若选择EFA方法时,还需要选择一种估计因子模型的方法 (如最大似

3、然估计)(3)判断要选择的主成分/因子数目;(4)选择主成分/因子;(5)旋转主成分/因子;(6) 解释结果;(7) 计算主成分或因子得分。2主成分分析PCA的目标是用一组较少的不相关变量代替大量相关变量,同时尽可能保留初始变量的信 息,这些推导所得的变量称为主成分,它们是观测变量的线性组合。如第一主成分为:PC1=a1X仁a2X2+akXk它是k个观测变量的加权组合,对初始变量集的方差解释性最大。第二主成分是初始变量的线性组合,对方差的解释性排第二,同时与第一主成分正交(不 相关)。后面每一个主成分都最大化它对方差的解释程度,同时与之前所有的主成分都正 交,但从实用的角度来看,都希望能用较少

4、的主成分来近似全变量集。(1)判断主成分的个数PCA中需要多少个主成分的准则:根据先验经验和理论知识判断主成分数;根据要解释变量方差的积累值的阈值来判断需要的主成分数;通过检查变量间k*k的相关系数矩阵来判断保留的主成分数。最常见的是基于特征值的方法,每个主成分都与相关系数矩阵的特征值关联,第一主成分与最大的特征值相关联,第二主成分与第二大的特征值相关联,依此类推。Kaiser-Harris 准则建议保留特征值大于1的主成分,特征值小于1的成分所解释的方差比包含在单个变量中的方差更少。Cattell碎石检验则绘制了特征值与主成分数的图形,这类图形可以展示图形弯曲状况,在 图形变化最大处之上的主

5、成分都保留。最后,还可以进行模拟,依据与初始矩阵相同大小的随机数矩阵来判断要提取的特征值。若基于真实数据的某个特征值大于一组随机数据矩阵相应的平均特征值,那么该主成分可 以保留。该方法称作平行分析。利用fa.parallel ()函数,可同时对三种特征值判别准则进行评价。plain view plain copy1. library(psych)2. fa.parallel(USJudgeRatings,-1,fa=PC,n.iter=100,show.legend=FALSE,main=Screen plot with parallel analysis)?46BHDScretn pM Mh

6、an 邮 i*CHsi 空 *LIIP iotE Js n碎石头、特征值大于1准则和100次模拟的平行分析(虚线)都表明保留一个主成分即可(2)提取主成分保留数据集的大部分信息,下一步是使用prin cipal ()函数挑选出相应的主成分。prin cipal ()函数可根据原始数据矩阵或相关系数矩阵做主成分分析格式为: prin cipal(的,n factors=,rotate=,scores=)其中:r是相关系数矩阵或原始数据矩阵;nfactors设定主成分数(默认为 1);u2栏指成分唯一性方差无法被主成分解释的比例(1-h2 )。rotate指定旋转的方式默认最大方差旋转(varim

7、ax ) scores设定是否需要计算主成分得分(默认不需要)。plai n view plain copyc1. 美国法官评分的主成分分析2. library(psych)3. pc pc/princlpal(usJudgaRatings,-1,nfactor=l) pcprincipal 匚ornponenxs Analyst s匸all : priinci pal (r = usjudgeRaxi ngs + -1. nfacxors = 1) standardized 1 oadings Cpatterri matrix) based upon correlation mitri xP

8、CIh2u2INTG0.52C.S4O.1S65DMNRc.sa0.1663DILG0.70.94Q.0613CFMG0.960 射a 0720DG匚工0.960.920.07G3PREP0.8070.0299FMT0.980.950. 04 69ORAL1.000.990. 0091WRIT4 9匚0.980.0196PHYS0.390.804 2Q13RTEhl6900.970,0275PCI ss 1 oad110.13Test of Ttie hypothesisProportnor Vr 0.92Thai 1 匸口mponenr 1 s suffi cl ent The deqree

9、s of freedom for rhe null model a.ra 55 and rhe ubjeccIue function v/as The degr ees of f r eedom for t he model are 44 and t he obj ect ve Funct i on was 9The tot-al runber 口千 observat i ons 帖 as 43 with mle Chi Square =331, 58 wiTh prob -)11 Lp: /blog* csdti. net/1 ilaij FnT based upon off di agon

10、al values 二 1此处,输入的是没有 ONT变量的原始,并指定获取一个未旋转的主成分。由于PCA只对相关系数矩阵进行分析,在获取主成分前,原始数据将会被自动转换为相关系数矩阵。PC1栏包含了成分载荷,指观测变量与主成分的相关系数。如果提取不止一个主成分,则 还将会有PC2、PC3等栏。成分载荷(component loadings )可用来解释主成分的含义。 此处可看到,第一主成分(PC1 )与每个变量都高度相关,也就是说,它是一个可用来进 行一般性评价的维度。SS loadi ngs 行包含了主成分相关联的特征值,指的是与特定主成分相关联的标准化后的 方差值。Proporti nVa

11、r 行表示的是每个主成分对整个数据集的解释程度。结果不止一个主成分的情况plai nview plain copy1. library(psych)2. fa.parallel(Harman23.cor$cov,n.obs=302,fa=pc,n.iter=100,show.legend=FALSE, main=Scree plot with parallel analysis)pnftI - N 二.- GUTJ :二; . -n载荷阵解释了成分和因子的含义,第一成分与每个身体测量指标都正相关,看起来似乎是 一个一般性的衡量因子;第二主成分与前四个变量负相关,与后四个变量正相关,因此它 看起

12、来似乎是一个长度容量因子。但理念上的东西都不容易构建,当提取了多个成分时, 对它们进行旋转可使结果更具有解释性。(3)主成分旋转旋转是一系列将成分载荷阵变得更容易解释的数学方法,它们尽可能地对成分去噪。旋转方法有两种:使选择的成分保持不相关(正效旋转),和让它们变得相关(斜交旋转) 旋转方法也会依据去噪定义的不同而不同。最流行的下次旋转是方差极大旋转,它试图对载荷阵的列进行去噪,使得每个成分只是由 一组有限的变量来解释(即载荷阵每列只有少数几个很大的载荷,其他都是很小的载荷)plai n view plain copyc1. install.packages(GPArotation)2. li

13、brary(GPArotation)3. rc 1ibraryCGPArorationD rc rcprlnci卩且 1 coniponenxs Analysis匚all; principal(r = narrnan23.corlcov, nfactors = 2、rotate = varinaK5 standardised loadings Cp-iTTerri niarr 1 based upon correlatiar matrixRdRC2h2u2height0-Q00.25C.8S0,123arm,5pans的0.0.097forearm0.920160,128lower, leg0. SOa22a呂阳5139wl ght0.260.8S0*850.150bltro.diamater0-190.840.740.261dnmsc.girth0.110.840.720.285匚 hest. width0.260.750,620.375FJ二 1R匚2ss loadnngs352 232proportion var0.44 0.蔚Oumularlve var44 0.SIProportnonaimed0.5 5 0.45CurnuH ative Pr oportnori0

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 演讲稿/致辞

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号