《《线性相关与回归》PPT课件》由会员分享,可在线阅读,更多相关《《线性相关与回归》PPT课件(43页珍藏版)》请在金锄头文库上搜索。
1、 第十章第十章 线性相关与回归线性相关与回归( (Linear Correlation & Regression ) )要求:要求: 掌握:掌握:直线相关的概念、相关系数的意直线相关的概念、相关系数的意义、相关系数假设检验的意义;直线回归的义、相关系数假设检验的意义;直线回归的概念、回归系数假设检验的意义;相关与回概念、回归系数假设检验的意义;相关与回归的区别;直线相关与回归的注意事项。归的区别;直线相关与回归的注意事项。 了解:了解:相关系数及相关系数假设检验的相关系数及相关系数假设检验的计算方法;回归方程建立的方法与回归系数计算方法;回归方程建立的方法与回归系数假设检验的方法。假设检验的方
2、法。 一、线性相关的基本概念一、线性相关的基本概念二、线性相关系数二、线性相关系数三、相关系数的显著性检验三、相关系数的显著性检验四、进行线性相关分析的注意事项四、进行线性相关分析的注意事项第一节第一节 线性相关(线性相关(linear correlation) ) 例例 从男青年总体中随机抽取从男青年总体中随机抽取1111名男青年组成样本,名男青年组成样本,分别测量每个男青年的身高和前臂长分别测量每个男青年的身高和前臂长编编号号身高(身高(cmcm)前臂前臂长长(cmcm)XYXYX X2 2Y Y2 2( (X X) )( (Y Y) )1 1 170 170 47 47 7990 799
3、0 28900 28900220922092 2 173 173 42 42 7266 7266 29929 29929176417643 3 160 160 44 44 7040 7040 25600 25600193619364 4 155 155 41 41 6355 6355 24025 24025168116815 5 173 173 47 47 8131 8131 29929 29929220922096 6 188 188 50 50 9400 9400 35344 35344250025007 7 178 178 47 47 8366 8366 31684 3168422092
4、2098 8 183 183 46 46 8418 8418 33489 33489211621169 9 180 180 49 49 8820 8820 32400 32400240124011010 165 165 43 43 7095 7095 27225 27225184918491111 166 166 44 44 3174 3174 28561 2856121162116合合计计1891189150050086185861853260813260812281022810一、线性相关的基本概念一、线性相关的基本概念 为直观地判断两个变量之间的关系,可在直角坐标系中把为直观地判断两个变
5、量之间的关系,可在直角坐标系中把每对(每对(X Xi i,Y,Yi i)值所代表的点绘出来,形成散点图。例如)值所代表的点绘出来,形成散点图。例如1212名名男青年身高与前臂长资料绘制的散点图如图所示:男青年身高与前臂长资料绘制的散点图如图所示: 若一个变量若一个变量X X由小到大(或由大到小),另由小到大(或由大到小),另一变量一变量Y Y亦相应地由小到大或由大到小,则两个亦相应地由小到大或由大到小,则两个变量的散点图呈直线趋势,我们称这种现象为变量的散点图呈直线趋势,我们称这种现象为共变,也就是这两个变量之间有共变,也就是这两个变量之间有“相关关系相关关系”。 男青年身高与前臂长散点呈直线
6、趋势,即男男青年身高与前臂长散点呈直线趋势,即男青年身材高,前臂亦长,说明身高与前臂长之间青年身材高,前臂亦长,说明身高与前臂长之间存在线性相关关系,我们把这种关系称为直线相存在线性相关关系,我们把这种关系称为直线相关。关。 线性相关用于双变量正态资料。它的性质可由散点图线性相关用于双变量正态资料。它的性质可由散点图直观地说明。散点图中点的分布即线性相关的性质和相关直观地说明。散点图中点的分布即线性相关的性质和相关之间的密切程度,可分为以下几种情况:之间的密切程度,可分为以下几种情况: 1. 1.正相关正相关 2. 2.负相关负相关 3. 3.无相关无相关 二、线性相关系数二、线性相关系数 在
7、分析两个变量在分析两个变量X X与与Y Y之间关系时,常常要了解之间关系时,常常要了解X X与与Y Y之之间有无相关关系,相关是否密切,是呈正相关还是负相间有无相关关系,相关是否密切,是呈正相关还是负相关。相关系数就是说明具有直线关系的两个变量间相关关。相关系数就是说明具有直线关系的两个变量间相关密切程度和相关方向的统计量。密切程度和相关方向的统计量。 皮尔森皮尔森(Pearson)(Pearson)相关系数的计算公式为:相关系数的计算公式为: 相关系数相关系数r r没有测量单位,其数值为没有测量单位,其数值为-1 -1 r 11 相关系数的计算方法相关系数的计算方法 计算时分别可用下面公式带
8、入相关系数计算时分别可用下面公式带入相关系数r r的的计算公式中计算公式中 例例 从男青年总体中随机抽取从男青年总体中随机抽取1111名男青年组成样本,名男青年组成样本,分别测量每个男青年的身高和前臂长,身高和前臂长分别测量每个男青年的身高和前臂长,身高和前臂长均以均以cmcm为单位,测量结果如下表所示,试计算身高与前为单位,测量结果如下表所示,试计算身高与前臂长之间的相关系数。臂长之间的相关系数。 编编号号身高(身高(cmcm)前臂前臂长长(cmcm)XYXYX X2 2Y Y2 2( (X X) )( (Y Y) )1 1 170 170 47 47 7990 7990 28900 289
9、00220922092 2 173 173 42 42 7266 7266 29929 29929176417643 3 160 160 44 44 7040 7040 25600 25600193619364 4 155 155 41 41 6355 6355 24025 24025168116815 5 173 173 47 47 8131 8131 29929 29929220922096 6 188 188 50 50 9400 9400 35344 35344250025007 7 178 178 47 47 8366 8366 31684 31684220922098 8 183
10、183 46 46 8418 8418 33489 33489211621169 9 180 180 49 49 8820 8820 32400 32400240124011010 165 165 43 43 7095 7095 27225 27225184918491111 166 166 44 44 3174 3174 28561 2856121162116合合计计1891189150050086185861853260813260812281022810三、相关系数的显著性检验 与前面讲的其它统计量一样,根据样本资料与前面讲的其它统计量一样,根据样本资料计算出来的相关系数同样存在抽样误差
11、。即假设计算出来的相关系数同样存在抽样误差。即假设在一个在一个X X与与Y Y无关总体中作随机抽样,由于抽样误无关总体中作随机抽样,由于抽样误差的影响,所得的样本相关系数也常常不等于零。差的影响,所得的样本相关系数也常常不等于零。 因此要判断两个变量因此要判断两个变量X X与与Y Y是否真的存在相关是否真的存在相关关系,仍需根据作总体相关系数关系,仍需根据作总体相关系数是否为零的假是否为零的假设检验。设检验。 常用的检验方法有两种常用的检验方法有两种: : 1.1.按自由度直接查附表按自由度直接查附表1111的界值表,得到的界值表,得到P P 值。值。2.2.用假设检验法,计算统计量用假设检验
12、法,计算统计量 ,其公式为:,其公式为: 例所得的例所得的 r r 值检验男青年身高与值检验男青年身高与前臂长之间是否存在相关关系前臂长之间是否存在相关关系? ?四、进行线性相关分析的注意事项四、进行线性相关分析的注意事项 线性相关表示两个性相关表示两个变量之量之间的相互关系是双向的,的相互关系是双向的,分析两个分析两个变量之量之间到底有无相关关系可首先到底有无相关关系可首先绘制散点制散点图,散点,散点图呈呈现出直出直线趋势时,再作分析。,再作分析。 相关分析要求相关分析要求x x、y y是来自双变量正态总体的随机变是来自双变量正态总体的随机变量,一个变量的数值人为选定时不能作相关。量,一个变
13、量的数值人为选定时不能作相关。四、进行线性相关分析的注意事项四、进行线性相关分析的注意事项 依据公式依据公式计算出的相关系数算出的相关系数仅是是样本相关系本相关系数,它是数,它是总体相关系数的一个估体相关系数的一个估计值,与,与总体体相关系数之相关系数之间存在着抽存在着抽样误差,要判断两个事差,要判断两个事物之物之间有无相关及相关的密切程度,必有无相关及相关的密切程度,必须作假作假设检验。四、进行线性相关分析的注意事项四、进行线性相关分析的注意事项 相关分析是用相关系数来描述两个相关分析是用相关系数来描述两个变量量间相相互关系的密切程度和方向,而两个事物之互关系的密切程度和方向,而两个事物之间
14、的的关系既可能是依存因果关系,也可能关系既可能是依存因果关系,也可能仅是相互是相互伴随的数量关系。决不可因伴随的数量关系。决不可因为两事物两事物间的相关的相关系数有系数有统计学意学意义,就,就认为两者之两者之间存在着因存在着因果关系,要果关系,要证明两事物明两事物间确确实存在因果关系,存在因果关系,必必须凭借凭借专业知知识加以加以阐明。明。 出现异常值时慎用相关出现异常值时慎用相关分层资料盲目合并易出假象分层资料盲目合并易出假象一、线性回归的基本概念一、线性回归的基本概念二、线性回归方程的计算二、线性回归方程的计算三、线性回归方程的显著性检验三、线性回归方程的显著性检验四、进行线性回归分析的注
15、意事项四、进行线性回归分析的注意事项第二节第二节 线性回归(线性回归(linear regression) )一、线性回归的基本概念一、线性回归的基本概念 相关是分析两个正态变量相关是分析两个正态变量X X与与Y Y之间的互相关系。在之间的互相关系。在相关分析中,分不清相关分析中,分不清X X与与Y Y何者为自变量,何者为因何者为自变量,何者为因变量。现在假设两个变量变量。现在假设两个变量X X 、Y Y 中,当一个变量中,当一个变量X X 改变时,另一个变量改变时,另一个变量 Y Y 也相应地改变,当这样的也相应地改变,当这样的两个变量之间存在着直线关系时,不仅可以用相关两个变量之间存在着直
16、线关系时,不仅可以用相关系数系数 r r 表示变量表示变量Y Y与与X X线性关系的密切程度,也可线性关系的密切程度,也可以用一个直线方程来表示以用一个直线方程来表示 Y Y 与与 X X 的线性关系。的线性关系。根据大量实测数据,寻找出其规律性,寻求一个直根据大量实测数据,寻找出其规律性,寻求一个直线方程来线方程来描述两个变量间依存变化的数量关系描述两个变量间依存变化的数量关系,即,即线性回归关系,这样得出的直线方程叫做线性回归线性回归关系,这样得出的直线方程叫做线性回归方程方程linear regression equation。a 为回归直线在 Y 轴上的截距 x 取0时,y 的平均估计
17、值 a 0,表示直线与纵轴的交点在原点的上方 a 0,直直线从从左左下下方方走走向向右右上上方方,Y 随随 X 增大而增大增大而增大 b0,直直线从从左左上上方方走走向向右右下下方方,Y 随随 X 增大而减小增大而减小 b=0,表示直表示直线与与 X 轴平行,平行,X 与与Y 无无直直线关系关系b 的统计学意义是:的统计学意义是:X 每增加每增加(减减)一个单位,一个单位,Y 平均改变平均改变b个单位个单位 最小二乘法原理:最小二乘法原理:最小二乘法原理:最小二乘法原理:各点到回归线的纵向各点到回归线的纵向各点到回归线的纵向各点到回归线的纵向距离的平方和最小。距离的平方和最小。距离的平方和最小
18、。距离的平方和最小。Method of least square使计算出的回归直线最能代表实测数据所反映出的直线趋势使计算出的回归直线最能代表实测数据所反映出的直线趋势二、线性回归方程的计算二、线性回归方程的计算 例例10.3 10.3 有人研究了温度对蛙的心率的影响,得到了有人研究了温度对蛙的心率的影响,得到了表表10-210-2中所示的资料,试进行回归分析中所示的资料,试进行回归分析。对象对象温度(温度(X X) 心率心率(Y Y) XY XY X X2 2Y Y2 21 1 2 2 5 5 10 10 4 4 25 252 2 4 4 11 11 44 44 16 16 121 1213
19、 3 6 6 11 11 66 66 36 36 121 1214 4 8 8 14 14 112 112 64 64 196 1965 51010 22 22 220 220 100 100 484 4846 61212 23 23 276 276 144 144 529 5297 71414 32 32 448 448 196 196102410248 81616 29 29 464 464 256 256 841 8419 91818 32 32 576 576 324 3241024102410102020 34 34 680 680 400 4001156115611112222 3
20、3 33 726 726 484 48410891089合计合计1321322462463622362220242024661066101.1.根据表根据表10-210-2数据绘制散点图,如下图所示数据绘制散点图,如下图所示:2.2.计算回归系数与常数项计算回归系数与常数项 在本例中: 则,回归方程为3. 3. 作回归直线作回归直线三、线性回归方程的显著性检验三、线性回归方程的显著性检验对线性回归方程要进行假设检验,就是要检验对线性回归方程要进行假设检验,就是要检验b b是否为是否为=0=0的总体中的一个随机样本。该假的总体中的一个随机样本。该假设检验通常用方差分析或者设检验通常用方差分析或者
21、t t检验,两者的检检验,两者的检验效果等价。验效果等价。 H H0 0: : 0 0(两变量之间无直线关系)(两变量之间无直线关系) H H1 1:0 0 n2对例的回归方程用对例的回归方程用t t 检验进行假设检验检验进行假设检验(1 1)建立假设检验)建立假设检验 =0=0 00(2 2)计算统计量)计算统计量V V =11=112=92=9 (3 3)确定)确定P P值作结论值作结论根据根据 V V =9=9, 3.250, 3.250, P P ,拒绝拒绝H H0 0,直线回归方程的应用直线回归方程的应用1. 1. 描述两个变量之间的数量依存关系。描述两个变量之间的数量依存关系。2.
22、 2. 利用回归方程进行预测利用回归方程进行预测(1 1)由现在已知的变量值预测将来未知的变)由现在已知的变量值预测将来未知的变量值量值 (父母身高预测子女身高)(父母身高预测子女身高)(2 2)由易测的变量值估算难测的变量值)由易测的变量值估算难测的变量值 (体重预测体表面积)(体重预测体表面积)3. 3. 利用回归方程进行控制利用回归方程进行控制 利用回归方程进行逆估计利用回归方程进行逆估计 四、进行线性回归分析的注意事项四、进行线性回归分析的注意事项 只有将两个内在有联系的变量放在一起进行回归分析才是只有将两个内在有联系的变量放在一起进行回归分析才是有意义的。有意义的。 作回归分析时,如
23、果两个有内在联系的变量之间存在的是一作回归分析时,如果两个有内在联系的变量之间存在的是一种依存因果的关系,那么应该以种依存因果的关系,那么应该以“因因”的变量为的变量为X X , ,以以“果果”的变量为的变量为Y Y 。如果变量之间并无因果关系,则应以易于测。如果变量之间并无因果关系,则应以易于测定、较为稳定或变异较小者为定、较为稳定或变异较小者为X X 。 在回归分析中,因变量是随机变量,自变量既可以是随机变在回归分析中,因变量是随机变量,自变量既可以是随机变量(量(IIII型回归模型,两个变量应该都服从正态分布),也可型回归模型,两个变量应该都服从正态分布),也可以是给定的量(以是给定的量
24、(I I型回归模型,这时,与每个型回归模型,这时,与每个X X 取值相对应取值相对应的变量的变量Y Y必须服从正态分布),如果数据不符合要求,在进必须服从正态分布),如果数据不符合要求,在进行回归分析前,必须先进行变量的变换。行回归分析前,必须先进行变量的变换。四、进行线性回归分析的注意事项四、进行线性回归分析的注意事项 回归方程建立后必须作假设检验,只有经假回归方程建立后必须作假设检验,只有经假设检验拒绝了无效假设,回归方程才有意义。设检验拒绝了无效假设,回归方程才有意义。 使用回归方程计算估计值时,不可把估计的使用回归方程计算估计值时,不可把估计的范围扩大到建立方程时的自变量的取值范围之范
25、围扩大到建立方程时的自变量的取值范围之外。外。 第三节第三节线性相关和回归的区别与联系线性相关和回归的区别与联系 1. 应用情况不同应用情况不同 说明两变量依存变化的数量关系用回归说明两变量依存变化的数量关系用回归 说明两变量间的相关关系用相关说明两变量间的相关关系用相关区别区别2.资料要求不同资料要求不同回归:回归:型回归型回归 y是随机正态变量,是随机正态变量, x是一般变量,可以精确测量和控制是一般变量,可以精确测量和控制的变量的变量 型回归型回归 双变量均为随机正态变量,双变量均为随机正态变量, 可计算两个回归方程可计算两个回归方程 由由x推推y的回归方程的回归方程 由由y推推x的回归
26、方程的回归方程相关:双变量均为随机正态变量相关:双变量均为随机正态变量区别区别3.意义:意义: b表表示示X每每增增(减减)一一个个单单位位时时,Y平平均均改改变变b个个单单位位;r说说明明具具有有直直线线关关系系的的两两个个变量间关系的密切程度与相关方向。变量间关系的密切程度与相关方向。4.计算:计算:5.取值范围:取值范围: b; 1r1区别区别1.假设检验等价假设检验等价 对对同同一一样样本本,r和和b的的假假设设检检验验得得到到的的t值值是是相相等等的的,实实际际应应用用中中常常以以r的的假假设设检检验验代替代替b的假设检验。的假设检验。2.方向一致方向一致 对一组数据,若同时计算对一
27、组数据,若同时计算b、r,则它们的正负号是一致的则它们的正负号是一致的联系联系一、线性相关与回归的区别一、线性相关与回归的区别 相关系数的计算只适用于两个变量都服从正相关系数的计算只适用于两个变量都服从正态分布的情形,而在回归分析中,因变量是随态分布的情形,而在回归分析中,因变量是随机变量,自变量既可以是随机变量(机变量,自变量既可以是随机变量(IIII型回归型回归模型,两个变量都应该服从正态分布),也可模型,两个变量都应该服从正态分布),也可以是给定的量(以是给定的量(I I型回归模型,这时,与每个型回归模型,这时,与每个X X 取值相对应的变量取值相对应的变量Y Y必须服从正态分布)。必须
28、服从正态分布)。 线性相关表示两个变量之间的相互关系是双线性相关表示两个变量之间的相互关系是双向的,回归则反映两个变量之间的依存关系,向的,回归则反映两个变量之间的依存关系,是单向的。是单向的。 二、线性相关与回归的联系二、线性相关与回归的联系 如果对同一资料进行相关与回归分析,则得到如果对同一资料进行相关与回归分析,则得到的相关系数的相关系数r r与回归方程中的与回归方程中的b b正负号是相同的。正负号是相同的。 在相关分析中,求出在相关分析中,求出r r后要进行假设检验,同样,后要进行假设检验,同样,在回归分析中,对在回归分析中,对b b也要进行假设检验。实际上,也要进行假设检验。实际上,
29、通过数学推导,对同一样本可以得出通过数学推导,对同一样本可以得出r r与与b b互化的互化的公式,同一样本的这两种假设检验也是等价的。公式,同一样本的这两种假设检验也是等价的。因此,由于因此,由于r r的假设检验可以直接查表,较为简的假设检验可以直接查表,较为简单,所以可以用其代替对单,所以可以用其代替对b b的假设检验。的假设检验。 相关回归可以互相解释。相关回归可以互相解释。R R 的平方称为确定系数的平方称为确定系数 (coefficient of determinationcoefficient of determination)应用确定系数,也可以从回归的角度对相关程度做进应用确定系数,也可以从回归的角度对相关程度做进一步的了解。一步的了解。二、线性相关与回归的联系二、线性相关与回归的联系