第四章相关分析和

上传人:今*** 文档编号:109944608 上传时间:2019-10-28 格式:PPT 页数:126 大小:1.66MB
返回 下载 相关 举报
第四章相关分析和_第1页
第1页 / 共126页
第四章相关分析和_第2页
第2页 / 共126页
第四章相关分析和_第3页
第3页 / 共126页
第四章相关分析和_第4页
第4页 / 共126页
第四章相关分析和_第5页
第5页 / 共126页
点击查看更多>>
资源描述

《第四章相关分析和》由会员分享,可在线阅读,更多相关《第四章相关分析和(126页珍藏版)》请在金锄头文库上搜索。

1、第四章 相关分析和回归分析,相关分析和回归分析,第一节 地理要素间的相关分析 第二节 地理要素间的回归分析,一 相关关系与函数关系 二 地理要素的相关类型 三 相关程度的程度方法及显著性检验,第一节 地理要素间的相关分析,一 相关关系与函数关系,1.确定性的函数关系 。,2.不确定性的统计关系相关关系,3. 相关关系与函数关系的共同点,区别与联系,(1) 共同点:都是反映现象变量之间存在的相互依存关系。,(2) 区别:相关关系是一种不严格的依存关系,函数关系是严格确定的依存关系。,(3) 联系:由于观察值和测量误差的存在,函数关系在现实生活中往往通过相关关系表现出来;而相关关系又往往要使用函数

2、关系的形式来模拟描述。,为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。 它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。,正相关 负相关 完全正相关 完全负相关 零相关,二 地理要素间的相关类型,三 相关程度的度量及显著性检验,由于地理相关类型各不相同,因此测度的方法也不同。,(一)线性相关程度的测度,所谓相关程度,就是研究它们之间的相互关系是否密切。,所谓相关方向,又可以分两种,即正相关和负相关。 正相关变量同方向变化,同增同减 负相关变量反方向变化,一增一减 不相关,用来测度直线相关程度和方向的

3、指标就是相关系数。,当两个变量之间为直线相关时,可以利用皮尔逊相关系数表示变量之间的相关关系及程度,设 表示变量 , 的取值, 为两个变量的算术平均数, , 为这两个变量的标准差, 为自变量数列与因变量数列的协方差, 为相关系数,则直线相关系数定义为:,1. 简单相关系数公式及检验,(1) 简单相关系数公式,(2)相关系数的性质,相关系数的分布范围,介于-1和+1之间,当相关系数为正值时,表示两个要素(或变数)之间呈正相关,相关系数为负值时,表示两个要素(或变数)之间为负相关;,相关系数的绝对值越大。表示两个要素间相关程度越密切。,当r=+1时,为完全正相关。R=-1时,为完全负相关;r=0则

4、完全无直线相关,可能存在其他形式的相关关系。,(3)相关程度的判断,当 时,X与Y高度相关 当 时,X与Y显著相关 当 时,X与Y低度相关 当 时,X与Y微相关或不相关,例 某企业生产某种产品的月产量和生产费用的统计资料如表,试判断月产量与生产费用之间存在怎样相关关系,相关程度为多少。,表 月产量和生产费用的统计资料,(4)简单相关系数的应用,相关系数数据计算表,表明X与Y之间存在线性相关关系,且是高度相关。, 和 都是相互对称的随机变量 线性相关系数只反映变量间的线性相关程度,不 能说明非线性相关关系 样本相关系数是总体相关系数的样本估计值,由 于抽样波动,样本相关系数是个随机变量,其统 计

5、显著性有待检验 相关系数只能反映线性相关程度,不能确定因果 关系,不能说明相关关系具体接近哪条直线,使用简单相关系数时的注意事项,相关系数是根据要素之间的样本值计算出来的,它随着样本数的多少或取样方式的不同而不同,因此它只是要素之间的样本相关系数,只有通过检验,才能知道它的可信度。,(5)相关系数的显著性检验,为什么?,一般情况下,相关系数的检验,是在给定的置信水平下,通过查相关系数检验的临界值表来完成的。,检验相关系数=0的临界值(ra)表 prra=,f值称为自由度,其数值为f=n-2,这里n为样本数,a代表不同的显著性水平,表内的数值代表不同的置信水平下相关系数=0的临界值,即ra,公式

6、p=rra=a的意思是当所计算的相关系数r的绝对值大于在a水平下的临界值ra时,两要素不相关(即=0)的可能性只有a。,相关系数r的具体检验方法步骤如下: (1)计算相关系数r (2)给定显著水平,按n-2查相关系数临界值,查出相应的临界值 (3)比较r的绝对值与临界值的大小。当r的绝对值大于或等于临界值时,说明两变量在水平上达到显著性;若小于临界值,则说明两变量没有达到所要求的精度。如果仍需研究二者的关系,可考虑降低精度,即修改显著性水平、,相关系数的显著性检验步骤,2、等级相关系数的计算公式及检验,表示两个变量顺序间直线相关程度和方向的系数,称为等级(或顺序)相关系数。等级相关系数不仅适用

7、于数量指标的相关分析,同时亦适用于质量指标的相关分析。,等级相关系数,又称顺序相关系数是将两要素的样本值按数值的大小顺序排列位次,以各要素样本值的位次代替实际数据而求得的一种统计量。实际上,它是位次分析方法的数量化。,(1)等级相关系数的计算公式,(2)等级相关系数的计算及检验,1985年全国各省(市,区)总人口与社会总产值,即:总人口(x)与社会总产值(y)的等级相关系数为0.726,等级相关系数检验的临界值,在上例中,n=29,表中没有给出相应的样本数下的临界值ra,但我们发现,在同一显著水平下,随着样本数的增大,临界值ra减少。在n=28时,查表可知:r0.05=0.317,r0.01=

8、0.448,由于rxy=0.726r0.01=0.448,故rxy在a=0.01的置信水平上是显著的。,等级相关系数检验结果,(二)多要素间相关程度的测定,1.偏相关系数的计算与检验,在多要素所构成的地理系统中,当我们研究某一个要素对另一个要素的影响或相关程度时,把其它要素的影响视为常数(保持不变),即暂不考虑其它要素的影响,而单独研究那两个要素之间的相互关系的密切程度时,则称为偏相关。用以度量偏相关程度的统计量,称为偏相关系数。,当研究2个相关变量x1、x2的关系时,用直线相关系数r12表示x1与x2线性相关的性质与程度。此时固定的变量个数为0,所以直线相关系数r12又叫做零级偏相关系数。

9、当研究3个相关变量x1、x2、x3的相关时,我们把x3保持固定不变,x1与x2的相关系数称为x1与x2的偏相关系数,记为r12.3,类似地,还有偏相关系数r13.2、 r23.1。这3个偏相关系数固定的变量个数为1,所以都叫做一级偏相关系数。 当研究4个相关变量x1、x2、x3、x4的相关时,须将其中的2个变量固定不变,研究另外两个变量间的相关。即此时只有二级偏相关系数才真实地反映两个相关变量间线性相关的性质与程度。二级偏相关系数共有6个:r12.34,r13.24,r14.23,r23.14,r24.13,r34.12。,一般,当研究m个相关变量x1、x2、xm的相关时,只有将其中的m-2个

10、变量保持固定不变,研究另外两个变量的相关才能真实地反映这两个相关变量间的相关,即此时只有m-2级偏相关系数才真实地反映了这两个相关变量间线性相关的性质与程度。m-2级偏相关系数共有,个。xi与xj的m-2级偏相关系数记为rij.(i,j=1,2,m,ij)。,偏相关系数,可利用单相关系数来计算。假设有三个要素x1,x2,x3,其两两间单相关系数矩阵为,对于上述三个要素x1,x2,x3,它们之间的偏相关系数共有三个,即r123,r132,r231(下标点后面的数字,代表在计算偏相关系数时,保持不变量,如r123即表示x3保持不变),其计算公式分别如下:,式(5)(7)表示三个偏相关系数,称为一级

11、偏相关系数。,若有四个要素X1,X2,X3,X4,则有六个偏相关系数,即r1234,r1324,r1423,r2314,r2412,r3412,它们称为二级偏相关系数,其计算公式分别如下:,在式(8)中,r1234表示在x3和x4保持不变的条件,x1和x2的偏相关系数。,实例:对于某四个地理要素X1,X2,X3,X4的23个样本数据,经过计算得到了如下的单相关系数矩阵:,为了计算二级偏相关系数,需要先计算一级偏相关系数,由(5)式可求得,同理,依次可以计算出其它各一级偏相关系数,见下表,在一级偏相关系数求出以后,便可代入公式计算二级偏相关系数,如由(8)式计算可得,同理,依次可计算出其它各二级

12、偏相关系数,见下表,偏相关系数具有下述性质: (1)偏相关系数分布的范围在-1到1之间; (2) 偏相关系数的绝对值越大,表示其偏相关程度越大; (3)偏相关系数的绝对值必小于或最多等于由同一系列资料所求得的复相关系数,即 R123|r123|。,偏相关系数的显著性检验 偏相关系数的显著性检验,一般采用t检验法。其统计量计算公式为,在(15)式中,r1234m为偏相关系数,n为样本数,m为自变量个数。,对于前述计算得到的偏相关系数r2413=0.821,由于n=23,m=3,故,查t分布表,可得出不同显著水平上的临界值ta,若t ta ,则表示偏相关显著;反之,tta,则偏相关不显著。在自由度

13、为23-3-1=19时,查表得t0.001=3.883,所以tta,这表明在显著性水平a=0.001上,偏相关系数r2413是显著的。,山东省1990-2006年GDP和人口情况,1.计算简单相关系数,- - - P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S - - Controlling for 时间 GDP 人口 GDP 1.0000 -.0690 人口 -.0690 1.0000,2.计算偏相关系数,如果令时间 T不变 ,计算人口与 GDP的偏相关系数为 =- 0. 0690 ,且 t = -0.259 0. 8

14、=。由此可以看出 ,如果去掉时间的因素 ,人口与 GDP之间的偏相关系数很小 ,即如果固定时间不变 ,人口与 GDP 之间的关系是微弱的 ,且经检验人口与 GDP之间没有什么内在的必然的线性联系。人口越多未必 GDP越高 ,这是比较合乎实际的。,2.复相关系数的计算与检验,复相关系数:反映几个要素与某一个要素之间的复相关程度 。 复相关系数的计算 当有两个自变量时 当有三个自变量时,当有k个自变量时,复相关系数的性质 复相关系数介于0到1之间,即, 复相关系数越大,则表明要素(变量)之间的相关程度越密切。复相关系数为1,表示完全相关;复相关系数为0,表示完全无关。 复相关系数必大于或至少等于单

15、相关系数的绝对值。 复相关系数的显著性检验 F检验法。其统计量计算公式为,例题:在上例中,若以x4为因变量,x1,x2,x3为自变量,试计算x4与x1,x2,x3之间的复相关系数。,解:按照公式计算 检验: ,故复相关达到了极显著水平。,一 回归分析的意义与研究内容 二 一元回归分析 三 多元回归分析 四 非线性回归模型,第二节 地理要素间的回归分析,1、 回归分析意义,回归的古典意义: 高尔顿遗传学的回归概念 ( 父母身高与子女身高的关系) 回归的现代意义: 一个因变量对若干自变量 依存关系 的研究 回归的目的(实质): 由固定的自变量去 估计因变量的平均值,一 回归分析的意义与研究内容,2、回归分析的概念,就是对具有相互联系的要素,根据其联系的形态,选择一个合适的数学模式,用来近似地表达要素间平均变化关系的数理统计方法。这个数学模式称为回归模型(回归方程),3、回归分析的目的,用样本回归函数去估计总体回归函数。 由于样本对总体总是存在代表性误差,样本回归函数总会过 高或过低估计总体回归函数。 要解决的问题: 寻求一种规则和方法,使得到的样本回归函数的参数 和 尽可能“接近”总体回归函数中的参数 和 。 这样的“规则和方法”有多种,最常用的是最小二乘法,样本 总体 A,4、回归分析研究的主要内容,从一组地理数据出发,确定这些要素(变量

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号