线性相关与回归

上传人:pu****.1 文档编号:570214956 上传时间:2024-08-02 格式:PPT 页数:43 大小:527KB
返回 下载 相关 举报
线性相关与回归_第1页
第1页 / 共43页
线性相关与回归_第2页
第2页 / 共43页
线性相关与回归_第3页
第3页 / 共43页
线性相关与回归_第4页
第4页 / 共43页
线性相关与回归_第5页
第5页 / 共43页
点击查看更多>>
资源描述

《线性相关与回归》由会员分享,可在线阅读,更多相关《线性相关与回归(43页珍藏版)》请在金锄头文库上搜索。

1、 第十章第十章 线性相关与回归线性相关与回归( (Linear Correlation & Regression ) )要求:要求: 掌握:掌握:直线相关的概念、相关系数的意直线相关的概念、相关系数的意义、相关系数假设检验的意义;直线回归的义、相关系数假设检验的意义;直线回归的概念、回归系数假设检验的意义;相关与回概念、回归系数假设检验的意义;相关与回归的区别;直线相关与回归的注意事项。归的区别;直线相关与回归的注意事项。 了解:了解:相关系数及相关系数假设检验的相关系数及相关系数假设检验的计算方法;回归方程建立的方法与回归系数计算方法;回归方程建立的方法与回归系数假设检验的方法。假设检验的方

2、法。 一、线性相关的基本概念一、线性相关的基本概念二、线性相关系数二、线性相关系数三、相关系数的显著性检验三、相关系数的显著性检验四、进行线性相关分析的注意事项四、进行线性相关分析的注意事项第一节第一节 线性相关(线性相关(linear correlation) ) 例例 从男青年总体中随机抽取从男青年总体中随机抽取1111名男青年组成样本,名男青年组成样本,分别测量每个男青年的身高和前臂长分别测量每个男青年的身高和前臂长编编号号身高(身高(cmcm)前臂前臂长长(cmcm)XYXYX X2 2Y Y2 2( (X X) )( (Y Y) )1 1 170170 4747 79907990 2

3、890028900220922092 2 173173 4242 72667266 2992929929176417643 3 160160 4444 70407040 2560025600193619364 4 155155 4141 63556355 2402524025168116815 5 173173 4747 81318131 2992929929220922096 6 188188 5050 94009400 3534435344250025007 7 178178 4747 83668366 3168431684220922098 8 183183 4646 84188418

4、3348933489211621169 9 180180 4949 88208820 3240032400240124011010 165165 4343 70957095 2722527225184918491111 166166 4444 31743174 285612856121162116合合计计1891189150050086185861853260813260812281022810一、线性相关的基本概念一、线性相关的基本概念 为直观地判断两个变量之间的关系,可在直角坐标系中把为直观地判断两个变量之间的关系,可在直角坐标系中把每对(每对(X Xi i,Y,Yi i)值所代表的点绘出

5、来,形成散点图值所代表的点绘出来,形成散点图。例如例如1212名名男青年身高与前臂长资料绘制的散点图如图所示:男青年身高与前臂长资料绘制的散点图如图所示: 若一个变量若一个变量X X由小到大(或由大到小),另由小到大(或由大到小),另一变量一变量Y Y亦相应地由小到大或由大到小,则两个亦相应地由小到大或由大到小,则两个变量的散点图呈直线趋势,我们称这种现象为变量的散点图呈直线趋势,我们称这种现象为共变,也就是这两个变量之间有共变,也就是这两个变量之间有“相关关系相关关系”。 男青年身高与前臂长散点呈直线趋势,即男男青年身高与前臂长散点呈直线趋势,即男青年身材高,前臂亦长,说明身高与前臂长之间青

6、年身材高,前臂亦长,说明身高与前臂长之间存在线性相关关系,我们把这种关系称为直线相存在线性相关关系,我们把这种关系称为直线相关。关。 线性相关用于双变量正态资料线性相关用于双变量正态资料。它的性质可由散点图它的性质可由散点图直观地说明。散点图中点的分布即线性相关的性质和相关直观地说明。散点图中点的分布即线性相关的性质和相关之间的密切程度,可分为以下几种情况:之间的密切程度,可分为以下几种情况: 1.1.正相关正相关 2.2.负相关负相关 3.3.无相关无相关 二、线性相关系数二、线性相关系数 在分析两个变量在分析两个变量X X与与Y Y之间关系时,常常要了解之间关系时,常常要了解X X与与Y

7、Y之之间有无相关关系,相关是否密切,是呈正相关还是负相间有无相关关系,相关是否密切,是呈正相关还是负相关。相关系数就是说明具有直线关系的两个变量间相关关。相关系数就是说明具有直线关系的两个变量间相关密切程度和相关方向的统计量。密切程度和相关方向的统计量。 皮尔森皮尔森(Pearson)(Pearson)相关系数的计算公式为:相关系数的计算公式为: 相关系数相关系数r r没有测量单位,其数值为没有测量单位,其数值为- -1 1 r 11 相关系数的计算方法相关系数的计算方法 计算时分别可用下面公式带入相关系数计算时分别可用下面公式带入相关系数r r的的计算公式中计算公式中 例例 从男青年总体中随

8、机抽取从男青年总体中随机抽取1111名男青年组成样本,名男青年组成样本,分别测量每个男青年的身高和前臂长,身高和前臂长分别测量每个男青年的身高和前臂长,身高和前臂长均以均以cmcm为单位,测量结果如下表所示,试计算身高与前为单位,测量结果如下表所示,试计算身高与前臂长之间的相关系数。臂长之间的相关系数。 编编号号身高(身高(cmcm)前臂前臂长长(cmcm)XYXYX X2 2Y Y2 2( (X X) )( (Y Y) )1 1 170170 4747 79907990 2890028900220922092 2 173173 4242 72667266 299292992917641764

9、3 3 160160 4444 70407040 2560025600193619364 4 155155 4141 63556355 2402524025168116815 5 173173 4747 81318131 2992929929220922096 6 188188 5050 94009400 3534435344250025007 7 178178 4747 83668366 3168431684220922098 8 183183 4646 84188418 3348933489211621169 9 180180 4949 88208820 32400324002401240

10、11010 165165 4343 70957095 2722527225184918491111 166166 4444 31743174 285612856121162116合合计计1891189150050086185861853260813260812281022810三、相关系数的显著性检验 与前面讲的其它统计量一样,根据样本资料与前面讲的其它统计量一样,根据样本资料计算出来的相关系数同样存在抽样误差。即假设计算出来的相关系数同样存在抽样误差。即假设在一个在一个X X与与Y Y无关总体中作随机抽样,由于抽样误无关总体中作随机抽样,由于抽样误差的影响,所得的样本相关系数也常常不等于零。

11、差的影响,所得的样本相关系数也常常不等于零。 因此要判断两个变量因此要判断两个变量X X与与Y Y是否真的存在相关是否真的存在相关关系,仍需根据作总体相关系数关系,仍需根据作总体相关系数是否为零的假是否为零的假设检验。设检验。 常用的检验方法有两种常用的检验方法有两种: : 1.1.按自由度直接查附表按自由度直接查附表1111的界值表,得到的界值表,得到P P 值。值。2.2.用假设检验法,计算统计量用假设检验法,计算统计量 ,其公式为:,其公式为: 例例10.110.1所得的所得的 r r 值检验男青年身高与值检验男青年身高与前臂长之间是否存在相关关系前臂长之间是否存在相关关系? ?四、进行

12、线性相关分析的注意事项四、进行线性相关分析的注意事项 线性相关表示两个性相关表示两个变量之量之间的相互关系是双向的,的相互关系是双向的,分析两个分析两个变量之量之间到底有无相关关系可首先到底有无相关关系可首先绘制散点制散点图,散点,散点图呈呈现出直出直线趋势时,再作分析。,再作分析。 相关分析要求相关分析要求x x、y y是来自双变量正态总体的随机变是来自双变量正态总体的随机变量,一个变量的数值人为选定时不能作相关。量,一个变量的数值人为选定时不能作相关。四、进行线性相关分析的注意事项四、进行线性相关分析的注意事项 依据公式依据公式计算出的相关系数算出的相关系数仅是是样本相关系本相关系数,它是

13、数,它是总体相关系数的一个估体相关系数的一个估计值,与,与总体体相关系数之相关系数之间存在着抽存在着抽样误差,要判断两个事差,要判断两个事物之物之间有无相关及相关的密切程度,必有无相关及相关的密切程度,必须作假作假设检验。四、进行线性相关分析的注意事项四、进行线性相关分析的注意事项 相关分析是用相关系数来描述两个相关分析是用相关系数来描述两个变量量间相相互关系的密切程度和方向,而两个事物之互关系的密切程度和方向,而两个事物之间的的关系既可能是依存因果关系,也可能关系既可能是依存因果关系,也可能仅是相互是相互伴随的数量关系。决不可因伴随的数量关系。决不可因为两事物两事物间的相关的相关系数有系数有

14、统计学意学意义,就,就认为两者之两者之间存在着因存在着因果关系,要果关系,要证明两事物明两事物间确确实存在因果关系,存在因果关系,必必须凭借凭借专业知知识加以加以阐明。明。 出现异常值时慎用相关出现异常值时慎用相关分层资料盲目合并易出假象分层资料盲目合并易出假象一、线性回归的基本概念一、线性回归的基本概念二、线性回归方程的计算二、线性回归方程的计算三、线性回归方程的显著性检验三、线性回归方程的显著性检验四、进行线性回归分析的注意事项四、进行线性回归分析的注意事项第二节第二节 线性回归(线性回归(linear regression) )一、线性回归的基本概念一、线性回归的基本概念 相关是分析两个

15、正态变量相关是分析两个正态变量X X与与Y Y之间的互相关系。在之间的互相关系。在相关分析中,分不清相关分析中,分不清X X与与Y Y何者为自变量,何者为因何者为自变量,何者为因变量。现在假设两个变量变量。现在假设两个变量X X 、Y Y 中,当一个变量中,当一个变量X X 改变时,另一个变量改变时,另一个变量 Y Y 也相应地改变,当这样的也相应地改变,当这样的两个变量之间存在着直线关系时,不仅可以用相关两个变量之间存在着直线关系时,不仅可以用相关系数系数 r r 表示变量表示变量Y Y与与X X线性关系的密切程度,也可线性关系的密切程度,也可以用一个直线方程来表示以用一个直线方程来表示 Y

16、 Y 与与 X X 的线性关系。的线性关系。根据大量实测数据,寻找出其规律性,寻求一个直根据大量实测数据,寻找出其规律性,寻求一个直线方程来线方程来描述两个变量间依存变化的数量关系描述两个变量间依存变化的数量关系,即,即线性回归关系,这样得出的直线方程叫做线性回归线性回归关系,这样得出的直线方程叫做线性回归方程方程linear regression equation。a 为回归直线在 Y 轴上的截距 x 取0时,y 的平均估计值 a 0,表示直线与纵轴的交点在原点的上方 a 0,直直线从从左左下下方方走走向向右右上上方方,Y 随随 X 增大而增大增大而增大 b0,直直线从从左左上上方方走走向向

17、右右下下方方,Y 随随 X 增大而减小增大而减小 b=0,表示直表示直线与与 X 轴平行,平行,X 与与Y 无无直直线关系关系b 的统计学意义是:的统计学意义是:X 每增加每增加(减减)一个单位,一个单位,Y 平均改变平均改变b个单位个单位 最小二乘法原理:最小二乘法原理:最小二乘法原理:最小二乘法原理:各点到回归线的纵向各点到回归线的纵向各点到回归线的纵向各点到回归线的纵向距离的平方和最小。距离的平方和最小。距离的平方和最小。距离的平方和最小。Method of least square使计算出的回归直线最能代表实测数据所反映出的直线趋势使计算出的回归直线最能代表实测数据所反映出的直线趋势二

18、、线性回归方程的计算二、线性回归方程的计算 例例10.3 10.3 有人研究了温度对蛙的心率的影响,得到了有人研究了温度对蛙的心率的影响,得到了表表10-210-2中所示的资料,试进行回归分析中所示的资料,试进行回归分析。对象对象温度(温度(X X) 心率心率(Y Y) XY XY X X2 2Y Y2 21 1 2 2 5 5 1010 4 4 25252 2 4 4 1111 4444 1616 1211213 3 6 6 1111 6666 3636 1211214 4 8 8 1414 112112 6464 1961965 51010 2222 220220 100100 48448

19、46 61212 2323 276276 144144 5295297 71414 3232 448448 196196102410248 81616 2929 464464 256256 8418419 91818 3232 576576 3243241024102410102020 3434 680680 4004001156115611112222 3333 726726 48448410891089合计合计1321322462463622362220242024661066101.1.根据表根据表10-210-2数据绘制散点图,如下图所示数据绘制散点图,如下图所示:2.2.计算回归系数

20、与常数项计算回归系数与常数项 在本例中: 则,回归方程为3. 3. 作回归直线作回归直线三、线性回归方程的显著性检验三、线性回归方程的显著性检验对线性回归方程要进行假设检验,就是要检验对线性回归方程要进行假设检验,就是要检验b b是否为是否为=0=0的总体中的一个随机样本。该假的总体中的一个随机样本。该假设检验通常用方差分析或者设检验通常用方差分析或者t t检验,两者的检检验,两者的检验效果等价。验效果等价。 H H0 0: : 0 0(两变量之间无直线关系)(两变量之间无直线关系) H H1 1:0 0 0.050.05 n2对例对例10.310.3的回归方程用的回归方程用t t 检验进行假

21、设检验检验进行假设检验(1 1)建立假设检验)建立假设检验 =0=0 00 =0.05 =0.05(2 2)计算统计量)计算统计量V V =11=112=92=9 (3 3)确定)确定P P值作结论值作结论根据根据 V V =9=9, 3.250, 3.250, P P 0.010.01,拒绝拒绝H H0 0,直线回归方程的应用直线回归方程的应用1. 1. 描述两个变量之间的数量依存关系。描述两个变量之间的数量依存关系。2. 2. 利用回归方程进行预测利用回归方程进行预测(1 1)由现在已知的变量值预测将来未知的变)由现在已知的变量值预测将来未知的变量值量值 (父母身高预测子女身高)(父母身高

22、预测子女身高)(2 2)由易测的变量值估算难测的变量值)由易测的变量值估算难测的变量值 (体重预测体表面积)(体重预测体表面积)3. 3. 利用回归方程进行控制利用回归方程进行控制 利用回归方程进行逆估计利用回归方程进行逆估计 四、进行线性回归分析的注意事项四、进行线性回归分析的注意事项 只有将两个内在有联系的变量放在一起进行回归分析才是只有将两个内在有联系的变量放在一起进行回归分析才是有意义的。有意义的。 作回归分析时,如果两个有内在联系的变量之间存在的是一作回归分析时,如果两个有内在联系的变量之间存在的是一种依存因果的关系,那么应该以种依存因果的关系,那么应该以“因因”的变量为的变量为X

23、X , ,以以“果果”的变量为的变量为Y Y 。如果变量之间并无因果关系,则应以易于测如果变量之间并无因果关系,则应以易于测定、较为稳定或变异较小者为定、较为稳定或变异较小者为X X 。 在回归分析中,因变量是随机变量,自变量既可以是随机变在回归分析中,因变量是随机变量,自变量既可以是随机变量(量(IIII型回归模型,两个变量应该都服从正态分布),也可型回归模型,两个变量应该都服从正态分布),也可以是给定的量(以是给定的量(I I型回归模型,这时,与每个型回归模型,这时,与每个X X 取值相对应取值相对应的变量的变量Y Y必须服从正态分布),如果数据不符合要求,在进必须服从正态分布),如果数据

24、不符合要求,在进行回归分析前,必须先进行变量的变换。行回归分析前,必须先进行变量的变换。四、进行线性回归分析的注意事项四、进行线性回归分析的注意事项 回归方程建立后必须作假设检验,只有经假回归方程建立后必须作假设检验,只有经假设检验拒绝了无效假设,回归方程才有意义。设检验拒绝了无效假设,回归方程才有意义。 使用回归方程计算估计值时,不可把估计的使用回归方程计算估计值时,不可把估计的范围扩大到建立方程时的自变量的取值范围之范围扩大到建立方程时的自变量的取值范围之外。外。 第三节第三节线性相关和回归的区别与联系线性相关和回归的区别与联系 1. 应用情况不同应用情况不同 说明两变量依存变化的数量关系

25、用回归说明两变量依存变化的数量关系用回归 说明两变量间的相关关系用相关说明两变量间的相关关系用相关区别区别2.资料要求不同资料要求不同回归:回归:型回归型回归 y是随机正态变量,是随机正态变量, x是一般变量,可以精确测量和控制是一般变量,可以精确测量和控制的变量的变量 型回归型回归 双变量均为随机正态变量,双变量均为随机正态变量, 可计算两个回归方程可计算两个回归方程 由由x推推y的回归方程的回归方程 由由y推推x的回归方程的回归方程相关:双变量均为随机正态变量相关:双变量均为随机正态变量区别区别3.意义:意义: b表表示示X每每增增(减减)一一个个单单位位时时,Y平平均均改改变变b个个单单

26、位位;r说说明明具具有有直直线线关关系系的的两两个个变量间关系的密切程度与相关方向。变量间关系的密切程度与相关方向。4.计算:计算:5.取值范围:取值范围: b; 1r1区别区别1.假设检验等价假设检验等价 对对同同一一样样本本,r和和b的的假假设设检检验验得得到到的的t值值是是相相等等的的,实实际际应应用用中中常常以以r的的假假设设检检验验代替代替b的假设检验。的假设检验。2.方向一致方向一致 对一组数据,若同时计算对一组数据,若同时计算b、r,则它们的正负号是一致的则它们的正负号是一致的联系联系一、线性相关与回归的区别一、线性相关与回归的区别 相关系数的计算只适用于两个变量都服从正相关系数

27、的计算只适用于两个变量都服从正态分布的情形,而在回归分析中,因变量是随态分布的情形,而在回归分析中,因变量是随机变量,自变量既可以是随机变量(机变量,自变量既可以是随机变量(IIII型回归型回归模型,两个变量都应该服从正态分布),也可模型,两个变量都应该服从正态分布),也可以是给定的量(以是给定的量(I I型回归模型,这时,与每个型回归模型,这时,与每个X X 取值相对应的变量取值相对应的变量Y Y必须服从正态分布)。必须服从正态分布)。 线性相关表示两个变量之间的相互关系是双线性相关表示两个变量之间的相互关系是双向的,回归则反映两个变量之间的依存关系,向的,回归则反映两个变量之间的依存关系,

28、是单向的。是单向的。 二、线性相关与回归的联系二、线性相关与回归的联系 如果对同一资料进行相关与回归分析,则得到如果对同一资料进行相关与回归分析,则得到的相关系数的相关系数r r与回归方程中的与回归方程中的b b正负号是相同的。正负号是相同的。 在相关分析中,求出在相关分析中,求出r r后要进行假设检验,同样,后要进行假设检验,同样,在回归分析中,对在回归分析中,对b b也要进行假设检验。实际上,也要进行假设检验。实际上,通过数学推导,对同一样本可以得出通过数学推导,对同一样本可以得出r r与与b b互化的互化的公式,同一样本的这两种假设检验也是等价的。公式,同一样本的这两种假设检验也是等价的。因此,由于因此,由于r r的假设检验可以直接查表,较为简的假设检验可以直接查表,较为简单,所以可以用其代替对单,所以可以用其代替对b b的假设检验。的假设检验。 相关回归可以互相解释。相关回归可以互相解释。R R 的平方称为确定系数的平方称为确定系数 (coefficient of determinationcoefficient of determination)应用确定系数,也可以从回归的角度对相关程度做进应用确定系数,也可以从回归的角度对相关程度做进一步的了解。一步的了解。二、线性相关与回归的联系二、线性相关与回归的联系

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号