对主成分分析中综合得分方法的质疑(王学民)

上传人:第*** 文档编号:37964883 上传时间:2018-04-25 格式:DOC 页数:5 大小:268KB
返回 下载 相关 举报
对主成分分析中综合得分方法的质疑(王学民)_第1页
第1页 / 共5页
对主成分分析中综合得分方法的质疑(王学民)_第2页
第2页 / 共5页
对主成分分析中综合得分方法的质疑(王学民)_第3页
第3页 / 共5页
对主成分分析中综合得分方法的质疑(王学民)_第4页
第4页 / 共5页
对主成分分析中综合得分方法的质疑(王学民)_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《对主成分分析中综合得分方法的质疑(王学民)》由会员分享,可在线阅读,更多相关《对主成分分析中综合得分方法的质疑(王学民)(5页珍藏版)》请在金锄头文库上搜索。

1、1对主成分分析中综合得分方法的质疑王学民(发表于统计与决策 ,2007 年 4 月下)摘要:在作主成分分析时,国内近年来流行一种通过建立综合评价函数来对各样品进行综合排名的方法。本文对这一方法的不科学性作了阐述,并指出在综合评价函数中对各主成分使用贡献率加权是错中加错。关键词:主成分;信息量;综合评价函数;综合得分一、问题的提出在多元数据分析中,近年来国内流行一种通过建立综合评价函数来对所有样品进行综合排名的方法。该方法是这样的:对个原始变量,通过主成分分析,取前p12,px xxL个主成分,其方差分别为,以每个主成分的贡献率m12,my yyL12,m Liy作为权数,构造综合评价函数1pi

2、ii i1122mmFyyyL计算出每个样品的()综合得分,然后依这个得分的大小对所有样品进行综合排名。对F这种用线性组合的方式来综合各主成分的方法,笔者从未在国外的有关多元统计分析的文献中见过。该方法粗看起来似乎有一定道理且很有吸引力(似乎可以综合排名了) ,但仔细推敲之后就会发现这一方法是对主成分思想和方法的误解,是不科学的,没有什么理论和应用上的价值。该综合排名方法在我国的多元数据分析应用中已得到了比较普遍的误用,笔者曾在参考文献1中的 253 页上简略地谈到过这一问题,现觉得很有必要针对这一问题作一具体阐述,谈谈自己的观点,供大家参考和讨论。二、主成分的基本思想除了将主成分法用于聚类或

3、回归分析或寻找变量之间的共线性关系等目的之外,主成分分析的一般目的由两点组成:(1)将多个有相关关系的变量压缩成少数几个不相关的主成分(综合变量) ,并保留绝大部分信息;(2)给出各主成分的具有实际背景和意义的解2释。这里我们只讨论主成分分析的这种一般目的。主成分的价值就在于它的信息量(可用方差来度量)达到最大化,即使前少数几个主成分能使累计贡献率达到一个较大的百分数,这几个主成分能不能用还得看它们是否都能得到符合实际意义的解释。例 1 在 1984 年洛杉矶奥运会 IAAF/ATFS 田径统计手册中,有 55 个国家和地区的如下八项男子径赛运动记录:100 米(单位:秒) :1500 米(单

4、位:分)1x5x:200 米(单位:秒) :5000 米(单位:分)2x6x:400 米(单位:秒) :10000 米(单位:分)3x7x:800 米(单位:秒) :马拉松(单位:分)4x8x经计算,的样本相关矩阵列于表 1。的前两个特征值、特征向量及贡128,x xxLRR献率列于表 2,其中是经标准化得到的,即的均值和标准差分别为 0 和 1。* ixix* ix表 11x2x3x4x5x6x7x8x1x1.0002x0.9231.0003x0.8410.8511.0004x0.7560.8070.8701.0005x0.7000.7750.8350.9181.0006x0.6190.69

5、50.7790.8640.9281.0007x0.6330.6970.7870.8690.9350.9751.0008x0.5200.5960.7050.8060.8660.9320.9431.000表 2特征向量1t2t:100 米* 1x0.3180.5673:200 米* 2x0.3370.462:400 米* 3x0.3560.248:800 米* 4x0.3690.012:1500 米* 5x0.373-0.140:5000 米* 6x0.364-0.312:10000 米* 7x0.367-0.307:马拉松* 8x0.342-0.439特征值6.6220.878贡献率0.8280

6、.110累计贡献率0.8280.937由表 2 知,前两个主成分的累计贡献率已高达 93.7%,第一主成分在所有变量上有1y几乎相等的正载荷,可称为在径赛项目上的强弱成分。第二主成分在上的载2y* 128,x xxL荷基本上逐个递减,反映了速度与耐力成绩的对比1。前两个主成分和虽然得到了很1y2y好的符合实际意义的解释,但这种解释毕竟带有一定程度的模糊性,这是主成分分析的一个特点,这种解释的模糊性也是变量降维需要付出的代价。体育径赛项目方面的专家也许能制定出实际意义更清楚、更能反映各国在径赛项目上强弱的指标(例如,在系数平方1z和为 1 的前提下,取)* 11281281110.3540.35

7、40.3542 22 22 2zxxxxxxLL和反映速度与耐力成绩对比的指标,但、这两个指标合起来所包含的信息量不如或2z1z2z明显不如、所包含的信息量大。这两个主成分的优势就在于它们合在一起能拥有最大1y2y的信息量,而不是它们各自能多么准确地反映各国在径赛项目上的强弱和速度与耐力成绩的对比。三、综合评价函数存在的问题在许多实际问题中,我们确实非常需要一个综合指标来对所有样品进行排序,但这个综合指标不应想当然地从前几个主成分的线性组合来产生。设作主成分分析时取前个主m1此例用因子分析法效果更好,见参考文献1,本文这里只是作为一个说明性的例子。4成分是合适的,则综合评价函数为,它存在以下一

8、12,my yyL1122mmFyyyL些问题:(1)到底包含有原始变量的多少信息,应用此方法者都未作说明。当F12,px xxL然,所含的信息量不会超过第一主成分。F1y(2)到底具有什么样的实际含义,应用者都没有解释或作不出解释,只是笼统地F理解为所谓的“综合”指标,用这种不知其具体含义的指标来对所有样品进行排序又有何实际意义呢?这样的排序说明不了什么问题。(3)的首要价值就在于它们合在一起拥有最大量的信息,这种信息对原12,my yyL始的个变量绝对不是包罗万象的(如并不含有关于原始变量均值等的信息) ,而仅是体现p在数据的变异性上。把反映数据变异性信息的前个主成分线性组合起来将会瓦解主

9、成分m在变异性信息上的优势,主成分分析一旦离开了反映变异性的信息量,也就没有价值和意义了。(4)由于 222 1122333 12 222111VarVarVarVarmmmpppiii iiiFyyy LL故第 个主成分对的方差贡献所占的比例(容易证明,该比例就是,其中iiyF2,iy F是与的相关系数)为,iy FiyF331,1,2,i mi iim L在主成分分析中一般会远大于其他的,以致对的方差贡献所占的比1(2,)iimL1yF例通常是很大的,而其他对的方差贡献所占的比例通常都很小,因此未能对iyFF起到什么“综合”作用。在许多实际问题中,作主成分分析时常常会出现(2,)iy im

10、L,若取前两个主成分和,则对的方差贡献所占的比例为1221y2y1yF 33 21 3333 12222888.89%925而对的方差贡献所占的比例为2yF33 22 3333 1222111.11%92 在例 1 中33 1 3333 120.82899.77%0.8280.110 33 2 3333 120.1100.23%0.8280.110 因此,通常影响 的主要是第一主成分,而其他主成分对 的影响一般都很小。在例F1yF1 中,综合评价函数为112212* 123456780.8280.1100.3260.3300.3220.3070.2930.2670.2700.235Fyyyyx

11、xxxxxxx将各系数均除以这些系数的平方和的平方根(以使调整后的系数平方和为 1,便于与主成分的载荷进行比较) ,得* 123456780.3900.3950.3850.3670.3510.3200.3230.281Fxxxxxxxx将变量前的各系数与表 2 的主成分载荷比较,可以发现与较接近,而与相差很远。F1y2y既没有的信息量大,又不如易解释,看不出构造有什么实际价值。F1y1yF(5)在综合评价函数中,对各主成分分别使用权数是错中加12,my yyL12,m L错,实际上各主成分的方差不同,具有自动加权的功能。也就是说,使用比使用更糟糕。对的方差贡献所占1122mmFyyyL* 12mFyyyLiy*F的比例为,与的贡献率成正比。1(1,2,)i mi iim Liy在因子分析中,对因子得分建立类似综合评价函数的方法同样也是错误的。参考文献1王学民.应用多元分析(第二版)M.上海:上海财经大学出版社,2004.

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号