8第八章地理系统要素关系的主成分分析

上传人:m**** 文档编号:487418852 上传时间:2023-12-12 格式:DOC 页数:19 大小:292.50KB
返回 下载 相关 举报
8第八章地理系统要素关系的主成分分析_第1页
第1页 / 共19页
8第八章地理系统要素关系的主成分分析_第2页
第2页 / 共19页
8第八章地理系统要素关系的主成分分析_第3页
第3页 / 共19页
8第八章地理系统要素关系的主成分分析_第4页
第4页 / 共19页
8第八章地理系统要素关系的主成分分析_第5页
第5页 / 共19页
点击查看更多>>
资源描述

《8第八章地理系统要素关系的主成分分析》由会员分享,可在线阅读,更多相关《8第八章地理系统要素关系的主成分分析(19页珍藏版)》请在金锄头文库上搜索。

1、第八章 地理系统要素关系的主成分分析地理工作者在地理系统的区域构成分析中, 常常用多个指标来分 析、比较各个地理区域的特征和“职能” ,为地理区域类型的划分和 制定区域发展战略提供依据。但由于指标多会增加分析问题的复杂 性,能否通过某些线性组合, 使原始变量减少为有代表意义的少数几 个新的变量,以少数几个指标或“成分”来代表多数指标?这是对地 理系统进行分析的关键问题。 例如在环境研究中, 需要对许多环境要 素进行观测; 在土地资源研究中, 需要对土壤样品进行多指标的分析 化验。 而这些要素和指标之间,常存在密切关系,要考察全部要素 和测试指标,常常要做大量重复的工作。例如有 30 测试指标,

2、也许 10 多种指标即可代表。由此可见减少研究的要素,使系统简化,是 地理学研究中的重要环节。事实上,如果复杂的地理系统,不加以任 何简化,不抓住对地理系统影响的主要矛盾, 要对之进行深入的研究, 几乎是不可能的。 本章介绍主成分分析方法就是解决上述问题的数学 方法。1 主成分分析方法原理主成分分析是把原来多个指标化为少数几个综合指标的一种统计 方法, 达到降维和去相关目的 ,既由多个变量变换为少数几个相互独 立的综合变量。 主成分分析也称 K-L 变换。因子分析不仅可以用来研 究变量之间的相关关系,还可用来研究样品之间的相关关系,通常将 前者称之为R型因子分析,后者称之为Q型因子分析。假设有

3、n个地理样本,每个样本观测p个指标,如何从这么多指 标的数据中抓住地理事物的内在规律性呢?如前所述,多数情况下, 指标之间存在着相关关系,这时要弄清它们的规律须在p维空间中加 以考察,这是比较麻烦的。为了克服这一困难,一个自然的想法是找 比较少的综合指标来代表原来较多的指标, 而这些较少的综合指标既 能尽量多地反映原来较多指标的信息, 它们彼此之间又是独立的。综 合指标如何选取呢?通常是取原指标的线性组合,适当调它们的系 数,使综合指标之间相互独立且代表性最好。记原来的变量指标为Xi,X2.,Xp,综合指标(新综合变量)为Zi,Z2,., Zm ( m - p) 即乙-liixi12X2hpX

4、pz2 = I21 X1 + I 22 X2 + +lpXpzm = ImlXi Tm2X2-Imp Xp可以要求牴尤.Ikp (单位向量)以限制Zi取值大小,利于对 比。系数Ij由下列原则来决定:(1)Z 与 Zj (i = j,i, j =1,2,m)互相无关(独立);(2)Zi是Xi,X2.,Xp的一切线性组合中方差最大者;Z2为与Zi不相关的Xi,X2.,Xp的所有线性组合中方差最大者;Zm为与Zi,Z2,., Zmj都不相关的Xi,X2.,Xp的所有线性组合中方差最大者。Zi,Z2,.,Zm分别称做原指标的第一,第二,第 m个主成分。Zi在 总方差中占的比例最大,其余主成分Z2,.,

5、Zm所占方差比例依次递减。从几何上看,找主成分的问题,就是找出 p维空间中椭球体的主 轴问题,从数学上容易得到它们是Xi,X2.,Xp的相关矩阵中m个较大特 征值对应的特征向量。也就是说寻找这样的坐标系旋转角, 使得样本 点在新坐标系中对主成分轴上的投影具有极大的方差。闻由數撫方星和协方差抉立的柚關主成分分析的实质就是要求出方差一协方差矩阵的特征向量及其对应的特征值,即要找出方差一协方差矩阵所确定的椭球的主轴,并 确定其长度。由于提取主成分的主要原则是使方差最大,为了排除量纲、数量级的影响,对原始数据先进行标准化处理(标准差标准化),这样方差一协方差矩阵即为相关系数矩阵。计算步骤:(1) 计算

6、相关系数矩阵R(原始数据已进行标准化处理变换,也就是方差一协方差矩阵)(2) 计算特征值和特征向量九 I - R = 0求出特征值,按大小排序- -2p - 0;然后,求出对应的特征向量h 二 hi,hpi=1,2,,p(3) 计算主成分贡献率和累积贡献率可以证明:Zi的万差等于1 ;Z2的万差等于2 ;Zp的万差等于p ;主成分乙的贡献率i=1,2,pm/ p累积贡献率-kk=1k=1般取累积贡献率达 85-90%的特征值 2,.jm (mp)对应的主成分即可(4) 计算主成分载荷/. k lkiP(Zk,xJ=(i=1,2,.,p;k=1,2,m)Pik是主成分Zk与变量Xi之间的相关系数

7、(5) 计算主成分得分* * *Z = I11X1i2Xhp xpZ2 T21X1I22X22pXpZm =lmiX; +lm2X; +十 ImpX;Xi是Xi标准差标准化后的数据得到主成分得分矩阵ZiiZ12Z21Z22Z1mZ2m_Z n1 Z n2Z nm主成分几大性质:性质1主成分的协方差矩阵对角阵性质2:主成分的总方差等于原始变量的总方差1: I:性质 3: p(Zk,Xi)=W lki(i=1,2,p;k=1,2,m)Pik是主成分Zk与变量Xi之间的相关系数 2因子分析法对p个变量进行因子分析的目的是研究它们有哪些共同因素,哪些是特殊因素,这些因素在变量分析中起什么作用。为研究方

8、便,设 着p个变量已进行标准差标准化变换,记为Xi,X2,.,Xp,或表示为向量形式 X =(x(X2.Xp)。上述的p个因子(变量)会有一些共同因素,这些共同因素称为 公共因子,记为fi,f2,., fm (公共因子数目m通常要比原因子个数p 要少),也可记为向量形式F = ( fi f2.fm)。对每一因子,除了可以有一 些公共因素的部分外,还有一些自身特殊因素,称为特殊因子。因而 因子模型可表示为下面形式:对第k个因子xk有Xk - ak1 f1 ak2 f2 . akm fm uk式中玄“?,.%称为m个公共因子的荷载,山为第k个因子的特殊部 分。U为特殊因子向量,记为U =(ue2.

9、Up)因子模型的向量形式为X 二 A F U式中矩阵A为因子荷载,记为aiiai2.aim I&2袒22 .QmA =3pi3p2 .a pm为求得矩阵A,对模型还要作些假定(样本容量为n):(1) 公共因子部分与特殊因子部分是无关的11-fuumnn公共因子是标准化变量,不同公共因子之间无关,即公共因子之间的协方差矩阵为单位阵(3) 各特殊因子之间是无关的,第k个特殊因子的方差为c:,它们的协方差阵为C1 uu =cn在上述假定下,p个变量之间的相关阵可表为11R XX (AF U)(AF U)nn由上述假定R 二 AA C上述矩阵中的第k行第k列元素为该式表明第k个变量的方差可表示为公共性

10、部分的方差和特殊 性部分的方差之和。记公共性部分的方差为m2 - 2hkakjj h2称为第k个变量的公共性,它反映了第k个变量被公共因子所 解释的那部分方差。从几何意义上来说,因子模型中的因子荷载a可看成为第k个变量在m个公共因子空间中第j个因子轴上的投影,变量数据 可看成为在该空间中的一个向量;h2可看成为第k个变量在该空 间中的向量长度的平方。Xk作了标准化处理,Xk与fj的协方差cov(Xk, fj )就是第k个变量与第j个公共因子之间的相关系数rkj。即_m 1cov(Xk, fj)二 cov aki fi ;k, fj_i 4m二cov akifi, fj cov(;k, fj)二

11、 akj由以上假定得知cov(xk , fj - rxk,fj - akj经常地,对F进行正交变换后,得到新矩阵的各分量仍然不 相关,各自方差仍然为1 (斜交变换后不能保证各分量独立性, 各自方差也不为1)。旋转以后得到的因子,有时它的实际意义 比较明显。例如,可经旋转变换,使得荷载矩阵中的每一行的数 值尽可能两极化(接近1或0),这样有利于发现公因子的实际 意义。例子:以各个城市第三产业发展水平评价为例:选用20个指标:Xi :人口数x2: GDP X3 :第三产业增加值X4 :货用总量X5 :批、零、贸商品销售总额X6 :外贸收购总额X7 :年末银行贷款总额X8 :社会零售的物价指数X9

12、:实际利用外资Xio :万名职工中科技人员的人数Xii :旅游外汇收入Xi2 :第三产业就业比例Xi3 :邮电业务总量X14 :职工人均工资X15 :人口数人均居住面积Xl6 :用水普及率X17 :煤气普及率X18 :人均道路面积 冷:人均公共绿地面积X20 :政策体制 对上述指标进行因子分析,从旋转后因子荷载矩阵来看,五个因子意义比较明确,也就是将五个因子分成五大类:1、第三产业的基本经济因子X2X3X4X5X6X7 X9XnX12X132、基础环境因子X15X16X17X183、政策性因子XX14X204、人员素质因子Xio5、补充因子X1X19 3典型相关分析典型相关分析是研究两组变量之

13、间相关关系的一种多元统计方法。它能够揭示出两组变量之间的内在联系。 一元统计分析 中,(偏)相关系数来衡量两个随机变量的线性相关关系 ;用复 相关系数来衡量一个随机变量与多个随机变量的线性相关关系。不能用于研究两组变量之间相关关系。比如生理指标与训练指标 的关系、 居民生活环境与健康状况的关系、 人口统计变量与消费 变量之间的关系等。典型相关分析由霍特林提出, 其基本思想与主成分分析非常 相似。 首先在每组变量中找出变量的线性组合, 使得两组的线性 组合之间具有最大的相关系数。然后选取和 最初挑选的这对线 性组合不相关的线性组合, 使其配对, 并选取相关系数最大的一 对,如此继续下去,直到两组

14、变量之间的 相关性被提出完毕为 止。被选取的线性组合配对称为典型变量, 它们的相关系数称为 典型相关系数。典型相关系数度量了这两组变量之间联系的强 度。 4 对应(相应)分析对应分析是 R 型因子分析与 Q 型因子分析的结合,它也是 利用降维的思想以达到简化数据结构的目的, 不过,与因子分析 不同的是, 它同时对数据表中的行与列进行处理, 寻求以低维图 形表示数据表中行与列之间的关系。 对应分析的思想首先由理查 森(Richardson)和库德(Kuder)在1933年提出,后来法国统计学家 让一保罗贝内泽(Jean Paul Benzkcri)和日本统计学家林知己夫 (HayashiChikio)对该方法进行了详细的论述而使其得到了发展。 对应分析方法广泛用于对由属性变量构成的列联表数据的研究, 利用对应分析可以在一张二维图上同时画出属性变量不同取值 的情况,列联表的每一行及每一列均以二维图上的一个点来表示,以直观、简洁的形式描述属性变量各种状态之间的相互关系 及不同属性变量之间的相互关系。由于对应分析是在 R 型因子分析和 Q 型因子分析基础上发 展起来的一种多元统计分析方法,它把两种因子分析结合起来, 对变量和样品统一进行分析研究, 因而更有利于地质学等一些领 域解释应用。 如前所述,两种因子分析都可以用少数几个公因 子去提取研究对象的绝大部分

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号