主成分分析步骤和案例分析

上传人:suns****4568 文档编号:60872851 上传时间:2018-11-19 格式:PDF 页数:33 大小:866.89KB
返回 下载 相关 举报
主成分分析步骤和案例分析_第1页
第1页 / 共33页
主成分分析步骤和案例分析_第2页
第2页 / 共33页
主成分分析步骤和案例分析_第3页
第3页 / 共33页
主成分分析步骤和案例分析_第4页
第4页 / 共33页
主成分分析步骤和案例分析_第5页
第5页 / 共33页
点击查看更多>>
资源描述

《主成分分析步骤和案例分析》由会员分享,可在线阅读,更多相关《主成分分析步骤和案例分析(33页珍藏版)》请在金锄头文库上搜索。

1、(一一)计算相关系数矩阵计算相关系数矩阵 rij(i,j=1,2,p)为原变量xi与xj 的相关系数, rij=rji,其计算公式为: pppp p p rrr rrr rrr R 21 22221 11211 n k n k jkjiki n k jkjiki ij xxxx xxxx r 11 22 1 )()( )( 主成分分析步骤 (二)计算特征值与特征向量:(二)计算特征值与特征向量: 解特征方程,常用雅可比法 (Jacobi)求出特征值,并使其按大小顺序排 列; 0 RI 0, 21 p 分别求出对应于特征值的特征向量 ,要求=1,即, 其中表示向量的第j个分量。 i ), 2 ,

2、 1(piei i e1 1 2 p j ij e ij e i e 计算主成分贡献率及累计贡献率 贡献率: ),2, 1( 1 pi p k k i 累计贡献率: ),2, 1( 1 1 pi p k k i k k 一般取累计贡献率达8595%的特征值 所对应的第一、第二、第m(mp)个主成分。 m , 21 计算主成分载荷 各主成分的得分(主成分): ( ,)( ,1,2, ) ijijiij lz xe i jp nmnn m m zzz zzz zzz Z 21 22221 11211 主成分分析方法应用实例 对某农业生态经济系统做主成分分析 样本 序号 x1:人 口密度 (人/km

3、2) x 2:人均 耕地面积 (ha) x 3:森林 覆盖率 (%) x 4:农民 人均纯收 入(元/人) x 5:人均 粮食产量 (kg/人) x 6:经济 作物占农 作物播面 比例() x 7:耕地 占土地面 积比率() x 8:果 园与林 地面积 之比() x 9:灌溉 田占耕地 面积之比 () 1363.9120.35216.101192.11295.3426.72418.4922.23126.262 2141.5031.68424.3011752.35452.2632.31414.4641.45527.066 3100.6951.06765.6011181.54270.1218.26

4、60.1627.47412.489 4143.7391.33633.2051436.12354.2617.48611.8051.89217.534 5131.4121.62316.6071405.09586.5940.68314.4010.30322.932 表表1 1某某农业生态经济系统各区域单元的有关数据农业生态经济系统各区域单元的有关数据 668.3372.03276.2041540.29216.398.1284.0650.0114.861 795.4160.80171.106926.35291.528.1354.0630.0124.862 862.9011.65273.3071501.

5、24225.2518.3522.6450.0343.201 986.6240.84168.904897.36196.3716.8615.1760.0556.167 1091.3940.81266.502911.24226.5118.2795.6430.0764.477 1176.9120.85850.302103.52217.0919.7934.8810.0016.165 1251.2741.04164.609968.33181.384.0054.0660.0155.402 1368.8310.83662.804957.14194.049.114.4840.0025.79 1477.3010.

6、62360.102824.37188.0919.4095.7215.0558.413 1576.9481.02268.0011255.42211.5511.1023.1330.013.425 1699.2650.65460.7021251.03220.914.3834.6150.0115.593 17118.5050.66163.3041246.47242.1610.7066.0530.1548.701 18141.4730.73754.206814.21193.4611.4196.4420.01212.945 19137.7610.59855.9011124.05228.449.5217.8

7、810.06912.654 20117.6121.24554.503805.67175.2318.1065.7890.0488.461 21122.7810.73149.1021313.11236.2926.7247.1620.09210.078 步骤如下:(1)将表中的数据作标准差标 准化,计算相关系数矩阵。 x1x2x3x4x5x6x7x8x9 x11-0.327 -0.714 -0.3360.3090.4080.790.1560.744 x2-0.331-0.0350.6440.420.2550.009-0.0780.094 x3-0.71-0.03510.07-0.74-0.755-0

8、.93-0.109-0.924 x4-0.340.6440.0710.3830.069-0.05-0.0310.073 x50.3090.42-0.740.38310.7340.6720.0980.747 x60.4080.255-0.7550.0690.73410.6580.2220.707 x70.790.009-0.93-0.0460.6720.6581-0.030.89 x80.156-0.078 -0.109 -0.0310.0980.222-0.0310.29 x90.7440.094-0.9240.0730.7470.7070.890.291 表表2 2 相关系数相关系数矩阵矩阵

9、 (2)由相关系数矩阵计算特征值,以及各个 主成分的贡献率与累计贡献率。由表3可知,第 一,第二,第三主成分的累计贡献率已高达 86.596%(大于85%),故只需要求出第一、第 二、第三主成分z1,z2,z3即可。 主成分特征值贡献率(%)累积贡献率(%) z14.66151.79151.791 z22.08923.21675.007 z31.04311.58986.596 z40.5075.63892.234 z50.3153.50295.736 z60.1932.1497.876 z70.1141.27199.147 z80.04530.50499.65 z90.03150.35100

10、表表3 3特征值及主成分贡献率特征值及主成分贡献率 (3)对于特征值=4.6610,=2.0890, =1.0430分别求出其特征向量e1,e2,e3,再用计 算各变量x1,x2,x9在主成分z1,z2,z3上的 载荷。 z1z2z3 占方差的百分数 (%) x10.739-0.532-0.006182.918 x20.1230.887-0.002880.191 x3-0.9640.00960.009592.948 x40.00420.8680.003775.346 x50.8130.444-0.001185.811 x60.8190.1790.12571.843 x70.933-0.133-

11、0.25195.118 x80.197-0.10.9798.971 x90.964-0.00250.009292.939 上述计算过程,可以借助于SPSS或MATLAB软件系统实现。 表表4 4主成分载荷主成分载荷 第一主成分z1与x1,x5,x6,x7, x9呈显出较强的正相关,与x3呈 显出较强的负相关,而这几个变 量则综合反映了生态经济结构状 况,因此可以认为第一主成分z1 是生态经济结构的代表。 分析分析结果结果: x1:人口密度x 2:人均耕地面积 x 3:森林覆盖率 x 4:农民人均纯收入 x 5:人均粮食产量 x 6:经济作物占农作物播面比例 x 7:耕地占土地面积比率 x 8:

12、果园与林地面积之比 x 9:灌溉田占耕地面积之比 10.739 20.123 3-0.964 40.0042 50.813 60.819 70.933 80.197 90.964 第二主成分z2与x2,x4,x5呈显出较强的正相关, 与x1呈显出较强的负相关,其中,除了x1为人口总 数外,x2,x4,x5都反映了人均占有资源量的情况, 因此可以认为第二主成分z2代表了人均资源量。 分析分析结果结果: x1:人口密度x 2:人均耕地面积 x 3:森林覆盖率 x 4:农民人均纯收入 x 5:人均粮食产量 x 6:经济作物占农作物播面比例 x 7:耕地占土地面积比率 x 8:果园与林地面积之比 x

13、9:灌溉田占耕地面积之比 显然,用三个主成分z1、z2、z3代替原来9个变量 (x1,x2,x9),描述农业生态经济系统, 可以使问题更进一步简化、明了。 第三主成分z3,与x8呈显出的正相关程度最高, 其次是x6,而与x7呈负相关,因此可以认为第三主 成分在一定程度上代表了农业经济结构。 另外,表4中最后一列(占方差的百分数),在 一定程度反映了三个主成分z1、z2、z3包含原变量 (x1,x2,x9)的信息量多少。 x1:人口密度x 2:人均耕地面积 x 3:森林覆盖率 x 4:农民人均纯收入 x 5:人均粮食产量 x 6:经济作物占农作物播面比例 x 7:耕地占土地面积比率 x 8:果园

14、与林地面积之比 x 9:灌溉田占耕地面积之比 SPSS主成分分析应用实例1 公司销售净利率(X1) 资产净利率(X2) 净资产收益率(X3) 销售毛利率(X4) 歌华有线 五粮液 用友软件 太太药业 浙江阳光 烟台万华 方正科技 红河光明 贵州茅台 中铁二局 红星发展 伊利股份 青岛海尔 湖北宜化 雅戈尔 福建南纸 43.31 17.11 21.11 29.55 11.00 17.63 2.73 29.11 20.29 3.99 22.65 4.43 5.40 7.06 19.82 7.26 7.39 12.13 6.03 8.62 8.41 13.86 4.22 5.44 9.48 4.64

15、 11.13 7.30 8.90 2.79 10.53 2.99 8.73 17.29 7.00 10.13 11.83 15.41 17.16 6.09 12.97 9.35 14.3 14.36 12.53 5.24 18.55 6.99 54.89 44.25 89.37 73 25.22 36.44 9.96 56.26 82.23 13.04 50.51 29.04 65.5 19.79 42.04 22.72 2002年16家上市公司4项指标的数据见下表。试定量分析各 企业的综合盈利能力 标准化原始数据 进行主成分分析 计算各主成分 综合主成分得到综合评价指标 原始变量相关性的检验 KMO值接近1.KMO值越接近于1,意味着变量间的相关性越强,原有变量 越适合作因子分析;Bartlett 球度度检验的Sig值越小于显著水平0.05, 越说明变量之间存在相关关系。 所的结论:所的结论: 符合因子分析的条件,可以进行因子分析,并进一步完成主成分分析。 特征向量和累计贡献率 初始特征根(Initial Eigenvalues)大于1,并且累计百分比达到80%85% 以上。 查看相关系数矩阵的特征根及方差贡献率见表3,由于前2个主成分贡献 率85%、结合表4中变量不出现丢失,所以提取的主成分个数m=2。 从特征值的分布图选取主成

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 其它文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号