补充资料3 主成分分析

上传人:mg****85 文档编号:35544147 上传时间:2018-03-17 格式:DOC 页数:19 大小:2MB
返回 下载 相关 举报
补充资料3 主成分分析_第1页
第1页 / 共19页
补充资料3 主成分分析_第2页
第2页 / 共19页
补充资料3 主成分分析_第3页
第3页 / 共19页
补充资料3 主成分分析_第4页
第4页 / 共19页
补充资料3 主成分分析_第5页
第5页 / 共19页
点击查看更多>>
资源描述

《补充资料3 主成分分析》由会员分享,可在线阅读,更多相关《补充资料3 主成分分析(19页珍藏版)》请在金锄头文库上搜索。

1、地理系统要素关系的主成分分析地理系统要素关系的主成分分析地理工作者在地理系统的区域构成分析中,常常用多个指标来分析、比较各个地理区域的特征和“职能” ,为地理区域类型的划分和制定区域发展战略提供依据。但由于指标多会增加分析问题的复杂性,能否通过某些线性组合,使原始变量减少为有代表意义的少数几个新的变量,以少数几个指标或“成分”来代表多数指标?这是对地理系统进行分析的关键问题。例如在环境研究中,需要对许多环境要素进行观测;在土地资源研究中,需要对土壤样品进行多指标的分析化验。例如有 30 个测试指标,也许 10 多种指标即可代表。由此可见减少研究的要素,使系统简化,是地理学研究中的重要环节。事实

2、上,如果复杂的地理系统,不加以任何简化,不抓住对地理系统影响的主要矛盾,要对之进行深入的研究,几乎是不可能的。本章介绍解决上述问题的数学方法主成分分析,它是原始变量的线性组合,但较原始变量更集中更典型地表明研究对象的特征。因为主成分析的数学原理比较简单易懂,因此它在地理学研究中应用较为广泛。7 71 1 主成分分析方法的原理主成分分析方法的原理主成分分析是把原来多个指标化为少数几个综合指标的一种统计方法。主成分分析是把原来多个指标化为少数几个综合指标的一种统计方法。设有 n 个地理区域,每个地理区域测得 p 个指标,总共有 n*p 观测数据。若 n=100,p=10,则有 1000 个地理数据

3、,如何从这么多指标的数据中抓住地理事物的内在规律性呢?如前所述,多数情况下,指标之间存在着相关关系,这时要弄清它们的规律须在 p 维空间中加以考察,这是比较麻烦的。为了克服这一困难,一个自然的想法是找较少的综合指标来代表原来较多的指标,而这些较少的综合指标既能尽量多地反映原来较多指标的信息,它们彼此之间又是独立的。综合指标如何选取呢?通常是取原指标的线性组合,使综合指标之间相互独立且代表性最好。如果原来单项指标记为;它们的综合指标记为。特pxxx,21L)(,21pmzzzmL别当 p=2 时,原指标是。21,xx设 n 个散布点大致为一个椭圆型。如图 7-1,若在椭圆长轴方向取坐标 Z1,在

4、椭圆短 轴方向取坐标 Z2,这相当于在平面上作一个坐标变换,显然变换后的坐标有下述性质。图 7-1 主成分分析的几何意义(1)n 个点的坐标的相关几乎为 0。21zz 和(2)二维平面上 n 个点的波动(方差)大部分可以归结为轴上的波动,而轴上1z2z的波动是较小的。于是称是原指标的主成分。如果图 7-1 的椭圆是相当扁平的,则可考21zz 和21xx 和虑方向上的波动,忽视方向的波动,不会犯很大错误。比如,这个椭圆的长轴方向将1z2z整个信息反映了 75%,那么,仅用来表达还是可以的,这样二维就可以降为一维1z21xx 和了,就是的综合指标。显然:1z21xx 和(7-1)2121111xl

5、xlz如果取椭圆的短轴作为第二主成分,图上的点对原指标的值记作;2z21,xx 21,aaxx对主成分的值记作,则有21,zz 21,aazz(7-2) nananaanaazzzzxxxx1%2512 22%7512 112 22 12 11)()()()(4444443444444214 4444434 4444421所谓所反映的信息,就是在整个平方和中占的比例,这个比例越大1z naazz12 11)(越好,即的平方和(方差)越大越好。取什么方向使它的平方和(或方差)达到极大取什么方向使它的平方和(或方差)达到极大1z1z呢?这就是主成分分析首先要解决的问题。呢?这就是主成分分析首先要解

6、决的问题。如果有 p 个指标,将它们综合成个指标,即pxxx,21L)(pm mzzz,21L(7-3)pmpmmmppppxlxlxlzxlxlxlzxlxlxlzLLLLLLLLLLLLLLL22112222121212121111 ,系数由下列原则来决定:ijl(1)与互相无关;iz), 2 , 1,(mjijizjL(2)是的一切线性组合中方差最大的;是与不相关的的1zpxxxL,212z1zpxxx,21L所有线性组合中方差最大的;是与都不相关的的所有线mz121,mzzzLpxxxL,21性组合中方差最大的。这样决定的综合指标分别称做原指标的第一,第二,第 m 主成分。其mzzzL

7、,2, 1中在总方差中占的比例最大,其余主成分的方差依次递减。在实际工作中1zmzzz,32L常挑选前几个最大的主成分,这样既减少了指标的数目,又抓住了主要矛盾,简化了指标 之间的关系。 从几何上看,找主成分的问题,就是找出从几何上看,找主成分的问题,就是找出 p p 维空间中椭球体的主轴问题,从数学上容维空间中椭球体的主轴问题,从数学上容易得到它们是易得到它们是的相关矩阵中的相关矩阵中 m m 个较大特征值所对应的特征向量。个较大特征值所对应的特征向量。pxxx,2, 1L7 72 2 主成分分析的解法主成分分析的解法下面用一个简单的例子来说明主成分分析的解法。设有一组地理研究样品的两个变量

8、。所测量的数据列于表 7-1。图 7-2 是表 7-121,xx数据的散布图。表 7-1 中的方差的方差与的协方差(为多元回归分1x22; 3 .201xx12; 1 .242xx2x析中的除以自由度)即方差-协方差矩阵为jkl; 6 .15),(),(1221xxCOVxxCOV 1 .246 .156 .153 .20表 7-1 双变量的原始数据1x2x1x2x3212104101211651366813146101315721317713147891513951713981717914181910720201112图 7-2 双变量数据散布图 我们可以在同一坐标系统中,用向量来表示方差和

9、协方差,如图 7-3。在轴上取,1x1x为了表示和协方差的关系,在端点作一条直线平行,使其长度等于协方差值1x2x1x2x15.6,这样便可得到一点,将此点与坐标原点相连,得到向量 I;用类似方法取,并作2x向量 II。图 7-3 方差和协方差的向量表示根据矩阵的特征值和特征向量的几何解释,我们可以把一个 p 阶方阵中的元素看作是位于一个 p 维椭球上各点的坐标。此矩阵的特征向量给出椭球的主轴,而其对应的特征值,则表示主轴的长度。主成分分析的实质就是要求出方差主成分分析的实质就是要求出方差-协方差矩阵的特征向量及其对应的特征值,即要协方差矩阵的特征向量及其对应的特征值,即要找出方差找出方差-协

10、方差矩阵所确定的椭球的主轴,并确定其长度。协方差矩阵所确定的椭球的主轴,并确定其长度。图 7-4 表示方差和协方差所确定的椭圆,其长轴 I 为第一主成分(第一主轴) ,短轴 II 为第二主成分(第二主轴) 。方差-协方差矩阵的特征向量表示主轴的方向,而其对应的特征值则表示主轴的长度。由本例 22 方差-协方差矩阵算出。 第一主成分 I:特征向量为 75. 066. 0I对应的特征值是 37.9。 第二主成分 II,特征向量为 66. 075. 0II对应的特征值是 6.5。图 7-4 由数据方差和协方差决定的椭圆这就是说第一特征向量的方向由和两个数字控制,第二个特征向66. 01x75. 02

11、x量的方向由和两个数字控制。矩阵的总方差为 20.3+24.1=44.4,变75. 01x66. 02x量所占的比重为 20.3/44.4,占总方差的 46%,占总方差的 54%。由线性代数可知,1x2x两个特征值分别为两个特征向量所组成的椭圆的两个主轴的长度,而主轴长度之和可用来表示数据组的总方差。第一主成分的方差为 37.9,第二主成分的方差为 6.5。二者1Z2Z之和恰为的总方差 44.4。可见,两个主成分所代表信息分别为 86%和 14%,21xx 和21,ZZ如果用代表原来的数据,则仅损失信息 14%。但若用或来代表原来的数据,则将损1Z1x2x失 46%或 54%。主成分分析的优点

12、正在于此。根据(7-3)式,得到主成分的表达式为(7-4) , (7-5)212211 66. 075. 075. 066. 0xxZxxZ将表将表 7-17-1 的原始数据代入(的原始数据代入(7-47-4) 、 (7-57-5)式,可得出一组新的数据,称为主成分得分,)式,可得出一组新的数据,称为主成分得分,见表见表 7-27-2。由于提取主成分的主要原则是使方差最大,为了排除数量级、量纲的影响,在具体应用这一方法时,一般先对原始数据进行标准化处理。这时数据的方差这时数据的方差-协方差矩阵即为原协方差矩阵即为原始数据的相关矩阵。始数据的相关矩阵。表 7-2 原始数据的主成分得分1z2z1z

13、2z3.490.9215.442.3510.14-3.6416.191.697.721.1813.115.759.97-0.8119.100.4511.46-2.1419.85-0.226.143.9121.35-1.5414.37-3.3814.525.8412.040.0219.682.609.713.4221.004.1011.961.4324.001.4516.45-2.4526.160.8711.872.8428.231.7016.280.28的方差为 37.9;的方差为 6.5。1z2z由此,我们可以把主成分分析的步骤归纳如下: 1对原始地理数据npnnppxxxxxxxxxZLM

14、LL212222111211进行标准化处理,即jji jxxx *其中22)(11jjjjjxxnxnx2计算相关系数*1ijijxxnr3计算特征值和特征向量。根据特征方程计算特征值,即解0 IR0011 1 rrrrp np nL的特征多项式,求并使按大小排列,即p,21Li021pL列出关于特征值的特征向量kT kpkkkllll,21LkklRl在变量较多时,一般用雅可比法来计算特征值和特征向量。在变量较多时,一般用雅可比法来计算特征值和特征向量。4计算贡献率和累计贡献率。一般取累计贡献率达 85-95%的 piik 1 piij 1特征值()对应的主成分即可。m,21Lpm 5根据下

15、式计算主成分得分* 22* 11* 2* 222* 1212* 1* 212* 1111pmpmmmppppxlxlxlZxlxlxlZxlxlxlZLLLLLLLLLLLLLLL得到主成分得分矩阵nmnnmmZZZZZZZZZLLLLLLLLLLLL2122221112117 73 3 特征值与特征向量的计算方法特征值与特征向量的计算方法主成分分析最主要的计算量是计算特征值和特征向量。关于它们的计算方法内容十分丰富,已有专著,这里仅仅介绍适合于实对称阵的雅可比方法。雅可比法是利用矩阵的这样一条性质,即任一实对称阵 A,均存在一正交矩阵(变换变换)T 使(7-6) PATT21那么,就是 A 的特征值,T 的列向量就是相应的特征向量。p,21L雅可比法首先是从二维得到启发的,这时(7-7) 22121211 aaaaA如令(7-7) cossinsincosT其中(7-8)22111212 21 aaatg则 2 22122 112 22122 11 c

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号