文档详情

主成分分析、聚类分析、因子分析的基本思想及优缺点

工****
实名认证
店铺
DOC
21KB
约6页
文档ID:409351677
主成分分析、聚类分析、因子分析的基本思想及优缺点_第1页
1/6

主成分分析:运用降维(线性变换)的思想,在损失很少信息的前提下把多种指标转化为几种综合指标(主成分),用综合指标来解释多变量的方差- 协方差构造,即每个主成分都是原始变量的线性组合,且各个主成分之间互不有关,使得主成分比原始变量具有某些更优越的性能(主成分必须保存原始变量90%以上的信息),从而达到简化系统构造,抓住问题实质的目的综合指标即为主成分求解主成分的措施:从协方差阵出发(协方差阵已知),从有关阵出发(有关阵R已知)实际研究中,总体协方差阵与有关阵是未知的,必须通过样本数据来估计)注意事项:1. 由协方差阵出发与由有关阵出发求解主成分所得成果不一致时,要恰当的选用某一种措施;2. 对于度量单位或是取值范畴在同量级的数据,可直接求协方差阵;对于度量单位不同的指标或是取值范畴彼此差别非常大的指标,应考虑将数据原则化,再由协方差阵求主成分;3.主成分分析不规定数据来源于正态分布;4. 在选用初始变量进入分析时应当特别注意原始变量与否存在多重共线性的问题(最小特性根接近于零,阐明存在多重共线性问题)长处:一方面它运用降维技术用少数几种综合变量来替代原始多种变量,这些综合变量集中了原始变量的大部分信息。

另一方面它通过计算综合主成分函数得分,对客观经济现象进行科学评价再次它在应用上侧重于信息奉献影响力综合评价缺陷:当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确命名清晰性低聚类分析:将个体(样品)或者对象(变量)按相似限度(距离远近)划分类别,使得同一类中的元素之间的相似性比其她类的元素的相似性更强目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化其重要根据是聚到同一种数据集中的样本应当彼此相似,而属于不同组的样本应当足够不相似常用聚类措施:系统聚类法,K-均值法,模糊聚类法,有序样品的聚类,分解法,加入法注意事项:1. 系统聚类法可对变量或者记录进行分类,K-均值法只能对记录进行分类;2. K-均值法规定分析人员事先懂得样品分为多少类;3. 对变量的多元正态性,方差齐性等规定较高应用领域:细分市场,消费行为划分,设计抽样方案等长处:聚类分析模型的长处就是直观,结论形式简要缺陷:在样本量较大时,要获得聚类结论有一定困难由于相似系数是根据被试的反映来建立反映被试间内在联系的指标,而实践中有时尽管从被试反映所得出的数据中发现她们之间有紧密的关系,但事物之间却无任何内在联系,此时,如果根据距离或相似系数得出聚类分析的成果,显然是不合适的,但是,聚类分析模型自身却无法辨认此类错误。

因子分析:运用降维的思想,由研究原始变量有关矩阵内部的依赖关系出发,把某些具有错综复杂关系的变量归结为少数几种综合因子因子分析是主成分的推广,相对于主成分分析,更倾向于描述原始变量之间的有关关系),就是研究如何以至少的信息丢失,将众多原始变量浓缩成少数几种因子变量,以及如何使因子变量具有较强的可解释性的一种多元记录分析措施求解因子载荷的措施:主成分法,主轴因子法,极大似然法,最小二乘法,a因子提取法注意事项:5. 因子分析中各个公共因子之间不有关,特殊因子之间不有关,公共因子和特殊因子之间不有关应用领域:解决共线性问题,评价问卷的构造效度,寻找变量间潜在的构造,内在构造证明长处:第一它不是对原有变量的取舍,而是根据原始变量的信息进行重新组合,找出影响变量的共同因子,化简数据;第二,它通过旋转使得因子变量更具有可解释性,命名清晰性高缺陷:在计算因子得分时,采用的是最小二乘法,此法有时也许会失效鉴别分析:从已知的多种分类状况中总结规律(训练出鉴别函数),当新样品进入时,判断其与鉴别函数之间的相似限度(概率最大,距离近来,离差最小等鉴别准则)常用鉴别措施:最大似然法,距离鉴别法,Fisher鉴别法,Bayes鉴别法,逐渐鉴别法等。

注意事项:1. 鉴别分析的基本条件:分组类型在两组以上,解释变量必须是可测的;2. 每个解释变量不能是其他解释变量的线性组合(例如浮现多重共线性状况时,鉴别权重会浮现问题);3. 各解释变量之间服从多元正态分布(不符合时,可使用Logistic回归替代),且各组解释变量的协方差矩阵相等(各组协方方差矩阵有明显差别时,鉴别函数不相似)4. 相对而言,虽然鉴别函数违背上述合用条件,也很稳健,对成果影响不大应用领域:对客户进行信用预测,寻找潜在客户(与否为消费者,公司与否成功,学生与否被录取等等),临床上用于鉴别诊断相应分析/最优尺度分析:运用降维的思想以达到简化数据构造的目的,同步对数据表中的行与列进行解决,谋求以低维图形表达数据表中行与列之间的关系相应分析:用于展示变量(两个/多种分类)间的关系(变量的分类数较多时较佳);最优尺度分析:可同步分析多种变量间的关系,变量的类型可以是无序多分类,有序多分类或持续性变量,并对多选题的分析提供了支持典型有关分析:借用主成分分析降维的思想,分别对两组变量提取主成分,且使从两组变量提取的主成分之间的有关限度达到最大,而从同一组内部提取的各主成分之间互不有关。

相似点:1.主成分分析法和因子分析法都是用少数的几种变量(因子) 来综合反映原始变量(因子) 的重要信息,变量虽然较原始变量少,但所涉及的信息量却占原始信息的85 %以上,因此虽然用少数的几种新变量,可信度也很高,也可以有效地解释问题并且新的变量彼此间互不有关,消除了多重共线性2.这两种分析法得出的新变量,并不是原始变量筛选后剩余的变量在主成分分析中,最后拟定的新变量是原始变量的线性组合,如原始变量为x1 ,x2 ,. . . ,x3 ,通过坐标变换,将原有的p个有关变量xi 作线性变换,每个主成分都是由原有p 个变量线性组合得到在诸多主成分Zi 中,Z1 在方差中占的比重最大,阐明它综合原有变量的能力最强,越往后主成分在方差中的比重也小,综合原信息的能力越弱因子分析是要运用少数几种公共因子去解释较多种要观测变量中存在的复杂关系,它不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子与特殊因子两部分公共因子是由所有变量共同具有的少数几种因子;特殊因子是每个原始变量独自具有的因子3.对新产生的主成分变量及因子变量计算其得分,就可以将主成分得分或因子得分替代原始变量进行进一步的分析,由于主成分变量及因子变量比原始变量少了许多,因此起到了降维的作用,为我们解决数据减少了难度。

4.聚类分析是把研究对象视作多维空间中的许多点,并合理地提成若干类,因此它是一种根据变量域之间的相似性而逐渐归群成类的措施,它能客观地反映这些变量或区域之间的内在组合关系它是通过一种大的对称矩阵来摸索有关关系的一种数学分析措施,是多元记录分析措施,分析的成果为群集对向量聚类后,我们对数据的解决难度也自然减少,因此从某种意义上说,聚类分析也起到了降维的作用不同之处:1.主成分分析是研究如何通过少数几种主成分来解释多变量的方差一协方差构造的分析措施,也就是求出少数几种主成分(变量) ,使它们尽量多地保存原始变量的信息,且彼此不有关它是一种数学变换措施,即把给定的一组变量通过线性变换,转换为一组不有关的变量(两两有关系数为0 ,或样本向量彼此互相垂直的随机变量) ,在这种变换中,保持变量的总方差(方差之和) 不变,同步具有最大方差,称为第一主成分;具有次大方差,称为第二主成分依次类推若共有p 个变量,实际应用中一般不是找p 个主成分,而是找出m (m < p) 个主成分就够了,只要这m 个主成分能反映本来所有变量的绝大部分的方差主成分分析可以作为因子分析的一种措施浮现2.因子分析是寻找潜在的起支配作用的因子模型的措施。

因子分析是根据有关性大小把变量分组,使得同组内的变量之间有关性较高,但不同的组的变量有关性较低,每组变量代表一种基本构造,这个基本构造称为公共因子对于所研究的问题就可试图用至少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述本来观测的每一分量通过因子分析得来的新变量是对每个原始变量进行内部剖析因子分析不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子和特殊因子两部分具体地说,就是要找出某个问题中可直接测量的具有一定有关性的诸指标,如何受少数几种在专业中故意义、又不可直接测量到、且相对独立的因子支配的规律,从而可用各指标的测定来间接拟定各因子的状态因子分析只能解释部分变异,主成分分析能解释所有变异3.聚类分析算法是给定m 维空间R 中的n 个向量,把每个向量归属到k 个聚类中的某一种,使得每一种向量与其聚类中心的距离最小聚类可以理解为: 类内的有关性尽量大,类间有关性尽量小聚类问题作为一种无指引的学习问题,目的在于通过把本来的对象集合提成相似的组或簇,来获得某种内在的数据规律从三类分析的基本思想可以看出,聚类分析中并没于产生新变量,但是主成分分析和因子分析都产生了新变量。

就数据原则化来说,区别如下:1.主成分分析中为了消除量纲和数量级,一般需要将原始数据进行原则化,将其转化为均值为0方差为1 的无量纲数据2.因子分析在这方面规定不是太高,由于在因子分析中可以通过主因子法、加权最小二乘法、不加权最小二乘法、重心法等诸多解法来求因子变量,并且因子变量是每一种变量的内部影响变量,它的求解与原始变量与否同量纲关系并不太大,固然在采用主成分法求因子变量时,仍需原则化但是在实际应用的过程中,为了尽量避免量纲或数量级的影响,建议在使用因子分析前还是要进行数据原则化在构造因子变量时采用的是主成分分析措施,重要将指标值先进行原则化解决得到协方差矩阵,即有关矩阵和相应的特性值与特性向量,然后构造综合评价函数进行评价3.聚类分析中如果参与聚类的变量的量纲不同会导致错误的聚类成果因此在聚类过程进行之前必须对变量值进行原则化,即消除量纲的影响不同措施进行原则化,会导致不同的聚类成果要注意变量的分布如果是正态分布应当采用z 分数法总结来说:1. 目的不同: 因子分析把诸多变量当作由对每一种变量均有作用的某些公共因子和仅对某一种变量有作用的特殊因子线性组合而成,因此就是要从数据中控查出对变量起解释作用的公共因子和特殊因子以及其组合系数;主成分分析只是从空间生成的角度寻找能解释诸多变量变异的绝大部分的几组彼此不有关的新变量(主成分)。

2. 线性表达方向不同: 因子分析是把变量表达到各公因子的线性组合;而主成分分析中则是把主成分表达到各变量的线性组合3. 假设条件不同:主成分分析中不需要有假设;因子分析的假设涉及:各个公共因子之间不有关,特殊因子之间不有关,公共因子和特殊因子之间不有关4. 提取主因子的措施不同:因子分析抽取主因子不仅有主成分法,尚有极大似然法,主轴因子法,基于这些措施得到的成果也不同;主成分只能用主成分法抽取5. 主成分与因子的变化:当给定的协方差矩阵或者有关矩阵的特性值唯一时,主成分一般是固定的;而因子分析中因子不是固定的,可以旋转得到不同的因子6. 因子数量与主成分的数量:在因子分析中,因子个数需要分析者指定(SPSS根据一定的条件自动设定,只要是特性值不小于1的因子主可进入分析),指定的因子数量不同而成果也不同;在主成分分析中,成分的数量是一定的,一般有几种变量就有几种主成分(只是主成分所解释的信息量不等)7. 功能:和主成分分析相比,由于因子分析可以使用旋转技术协助解释因子,在解释方面更加有优势;而如果想把既有的变量变成少数几种新的变量(新的变量几乎带有本来所有变量的信息)来进入后续的分析,则可以使用主成分分析。

固然,这种状况也可以使用因子得分做到,因此这种辨别不是绝对的。

下载提示
相似文档
正为您匹配相似的精品文档