十 相关与回归

上传人:豆浆 文档编号:50888606 上传时间:2018-08-11 格式:PPT 页数:37 大小:372KB
返回 下载 相关 举报
十 相关与回归_第1页
第1页 / 共37页
十 相关与回归_第2页
第2页 / 共37页
十 相关与回归_第3页
第3页 / 共37页
十 相关与回归_第4页
第4页 / 共37页
十 相关与回归_第5页
第5页 / 共37页
点击查看更多>>
资源描述

《十 相关与回归》由会员分享,可在线阅读,更多相关《十 相关与回归(37页珍藏版)》请在金锄头文库上搜索。

1、相关与回归1医学上,许多现象之间也都有相互联系,例 如:身高与体重、体温与脉搏、产前检查与婴儿 体重、乙肝病毒与乙肝等。在这些有关系的现象 中,它们之间联系的程度和性质也各不相同。这 里,体温和脉搏的关系就比产前检查与婴儿体重 之间的关系密切得多,而体重和身高的关系则介 与二者之间。另外,可以说乙肝病毒感染是前因 ,得了乙肝是后果,乙肝病毒和乙肝之间是因果 关系;但是,有的现象之间因果不清,只是伴随 关系,例如丈夫的身高和妻子的身高之间,就不 能说有因果关系。相关与回归就是用于研究和解 释两个变量之间相互关系的。 相关与回归2直线相关Linear Correlation相关与回归3散点图n为了

2、确定相关变量之间的关系,首先应该 收集一些数据,这些数据应该是成对的。 例如,每人的身高和体重。然后在直角坐 标系上描述这些点,这一组点集称为散点 图。相关与回归4n为了研究父亲与成年儿 子身高之间的关系,卡尔. 皮尔逊测量了1078对父 子的身高。把1078对数 字表示在坐标上,如图。 用水平轴X上的数代表父 亲身高,垂直轴Y上的数 代表儿子的身高,1078 个点所形成的图形是一个 散点图。它的形状象一块 橄榄状的云,中间的点密 集,边沿的点稀少,其主 要部分是一个椭圆。 相关与回归5相关的类型正相关 负相关 完全正相关 完全负相关 称零相关 相关与回归6相关系数 n样本的相关系数用r (c

3、orrelation coefficient)n相关系数r的值在-1和1之间,但可以是此范围内 的任何值。正相关时,r值在0和1之间,散点云 图是斜向上的,这时一个变量增加,另一个变量 也增加;负相关时,r值在-1和0之间,散点云图 是斜向下的,此时一个变量增加,另一个变量将 减少。r的绝对值越接近1,两变量的关联程度越 强,r的绝对值越接近0,两变量的关联程度越弱 。相关与回归7相关系数的计算公式r的计算结果说明了两个变量X与Y之间关联的密 切程度(绝对值大小)与关联的性质(正负号) 。相关与回归8例 一n一个产科医师发现孕妇尿中雌三醇含量与产儿的 体重有关。于是设想,通过测量待产妇尿中雌三

4、 醇含量,可以预测产儿体重,以便对低出生体重 进行预防。因此收集了31例待产妇24小时的尿 ,测量其中的雌三醇含量,同时记录产儿的体重 。问尿中雌三醇含量与产儿体重之间相关系数是 多少?是正相关还是负相关?n分析问题:目的、变量、关系 相关与回归9编号 (1)尿雌三醇 mg/24h(2产儿体重 kg(3)编号 (1)尿雌三醇 mg/24h(2 )产儿体重 kg(3)172.517173.2292.518253.2392.519273.44122.720153.45142.721153.46162.722153.57162.423163.58143.024193.49163.025183.510

5、163.126173.611173.027183.712193.128203.813213.029224.014242.830253.915153.231244.316163.2 待产妇尿雌三醇含量与产儿体重关系 10X=534 Y=99.2 X2=9876 Y2=324.8 XY=1750 N=31相关与回归11计算结果从计算结果可以知道,31例待产妇尿中雌三醇含 量与产儿体重之间程正相关,相关系数是0.61。相关与回归12问题:我们能否得出结论说明待 产妇尿中雌三醇含量与产儿体重 之间程正相关,相关系数是0.61 。为什么?相关与回归13相关系数的假设检验 n上例中的相关系数r等于0.61

6、,说明了31例样本中雌三醇含量与出生体重之间存在相关关系。但是,这31例只是总体中的一个样本,由此得到的相关系数会存在抽样误差。因为,总体相关系数()为零时,由于抽样误差,从总体抽出的31例,其r可能不等于零。所以,要判断该样本的r是否有意义,需与总体相关系数=0进行比较,看两者的差别有无统计学意义。这就要对r进行假设检验,判断r不等于零是由于抽样误差所致,还是两个变量之间确实存在相关关系。 相关与回归14对相关系数的假设检验,常用t检验,选用 统计量t的计算公式如下:=n-2 相关与回归15zH0 : =0 H1 : 0 =0.05r=0.61, n=31, 代入公式 t=n-2=31-2=

7、29 t=4.14查t值表, t0.05(29)=2.045 查t值表, t0.05(29)=2.756, 上述计算t=4.142.045,由t 所推断的P值小于0.05,按=0.05水准拒绝,接受, 认为临产妇24小时内尿中雌三醇浓度与产儿体重之间 有正相关关系。 相关与回归16直线相关的应用n 前面我们已经讲过,相关是研究两个变量间的相互关 系,而且这种相互关系是用相关系数反应的。在确实存 在相关关系的前提下,如果r的绝对值越大,说明两个变 量之间的关联程度越强,那么,已知一个变量对预测另 一个变量越有帮助;如果r绝对值越小,则说明两个变量 之间的关系越弱,一个变量的信息对猜测另一个变量的

8、 值无多大帮助。n 一般说来,当样本量较大(n100),并对r进行假 设检验,有统计学意义时,r的绝对值大于0.7,则表示 两个变量高度相关;r的绝对值大于0.4,小于等于0.7时 ,则表示两个变量之间中度相关;r的绝对值大于0.2, 小于等于0.4时,则两个变量低度相关。 相关与回归17n前面我们讨论了待产妇尿中雌三醇含量和产儿体 重之间的关系,知道了二者之间成正相关。那么 ,如果我们知道了一位待产妇的尿雌三醇含量, 能推断出产儿的体重吗?或产儿的体重可能在什 么范围内呢?还有,随着身高的增加,体重也在 增大,它们之间也成正相关关系。那么,身高每 增加1厘米,体重增加多少克呢?上面的相关关

9、系分析不能提供给我们需要的答案。这些要用直 线回归的方法来解决。 相关与回归18相关与回归19n当我们知道了两个变量之间有直线相关关系,并且 一个变量的变化会引起另一个变量的变化,这时, 如果它们之间存在准确、严格的关系,它们的变化 可用函数方程来表示,叫它们是函数关系,它们之 间的关系式叫函数方程。但在实际生活当中,由于 其它因素的干扰,许多双变量之间的关系并不是严 格的函数关系,不能用函数方程反映,为了区别于 两变量间的函数方程,我们称这种关系式为直线回 归方程,这种关系为直线回归.相关与回归20直线回归就是用来描述一个变量如何依赖于另一个变量相关与回归21回归方程 n直线回归的任务就是要

10、找出一个变量随另 一个变量变化的直线方程,我们把这个直 线方程叫做直线回归方程。式中的 是由自变量X推算应变量Y的估计值 ,a是回归直线在Y 轴上的截距,即X=0时的Y值; b为样本的回归系数,即回归直线的斜率,表示当 X变动一个单位时,Y平均变动b个单位。如果a、b 已知,代入上式,就可求得直线回归方程。 相关与回归22回归系数根据上例的数据,求待产妇尿中雌三醇含量与产儿体重之间的 回归方程。 从相关系数的计算中,已经求得: 相关与回归23这就是我们求得的二者关系的回归方程相关与回归24回归直线的描绘 n 根据求得的回归方程,可以在自变量X的 实测范围内任取两个值,代入方程中,求 得相应的两

11、个Y值,以这两对数据找出对应 的两个坐标点,将两点连接为一条直线, 就是该方程的回归直线。回归直线一定经 过(0,a ),( )。这两点可以用来 核对图线绘制是否正确。 相关与回归25相关与回归26n与直线相关一样,直线回归方程也是从样本资料计算而得的,同样也存在着抽样误差问题。所以,需要对样本的回归系数b进行假设检验,以判断b是否从回归系数为零的总体中抽得。为了判断抽样误差的影响,需对回归系数进行假设检验。总体的回归系数一般用表示。 相关与回归27=2.15+0.061X 是否一定能说明雌三醇与产儿体重之间存在回归关系? 相关与回归28n1.方差分析F=MS组间/MS组内n2.t检验 回归系

12、数的假设检验nH0:=0H1:0n=0.05n选择合适的假设检 验方法,计算统计量n计算概率值Pn做出推论:统计学 结论和专业结论相关与回归29采用t检验方法其中Sy.x为各观察值Y到回归直线的距离的标准差,表 示去除X影响后Y的变异程度, 相关与回归30自由度=31-2=29,查t值表,t0.05(29)=2.045, P0.05,按=0.05检验水准,拒绝H0,认为待 产妇24小时尿中雌三醇含量与产儿体重之间存在 直线回归关系。相关与回归31直线回归的应用 描述两变量之间的依存关系:通过回归系数的假设检验,若认 为两变量之间存在直线回归关系,则可用直线回归来描述。例 如上例回归方程:就是待

13、产妇尿雌三醇含量与产儿出生体重的定量表达式 。 利用回归方程进行预测 :把自变量代入回归方程,对应变量 进行估计,可求出应变量的波动范围。例如,已知某待产妇 的尿雌三醇浓度,代入回归方程,再用区间估计的方法,即 可知道生产时,产儿的体重的范围。 利用回归方程进行统计控制 利用多元回归描述多因素的影响 相关与回归32应用直线相关与回归的注意事项 1.实际意义进行相关回归分析要有实际意义,不可把毫无关系 的两个事物或现象用来作相关回归分析。例如,有 人说,孩子长,公园里的小树也在长。求孩子和小 树之间的相关关系就毫无意义,用孩子的身高推测 小树的高度则更加慌谬。2.相关关系相关关系不一定是因果关系

14、,也可能是伴随关系, 并不能证明事物间有内在联系,例如,有人发现, 对于在校儿童,鞋的大小与阅读技能有很强的相关 关系。然而,学会新词并不能使脚变大,而是涉及 到第三个因素 年龄。当儿童长大一些,他们的阅 读能力会提高而且由于长大也穿不下原来的鞋。相关与回归333.利用散点图对于性质不明确的两组数据,可先做散点图 ,在图上看它们有无关系、关系的密切程度 、是正相关还是负相关,然后再进行相关回 归分析。4.变量范围相关分析和回归方程仅适用于样本的原始数 据范围之内,出了这个范围,我们不能得出 两变量的相关关系和原来的回归关系。相关与回归34相关与回归的区别 n1.意义 :相关反映两变量的相互关系

15、,即在两个变量中,任何一 个的变化都会引起另一个的变化,是一种双向变化的关系。回归是反 映两个变量的依存关系,一个变量的改变会引起另一个变量的变化, 是一种单向的关系。n2.应用:研究两个变量的相互关系用相关分析。研究两个变量的 依存关系用回归分析。n3.研究性质:相关是对两个变量之间的关系进行描述,看两个变 量是否有关,关系是否密切,关系的性质是什么,是正相关还是负相 关。回归是对两个变量做定量描述,研究两个变量的数量关系,已知 一个变量值可以预测出另一个变量值,可以得到定量结果。 n4.相关系数r与回归系数b :r与b的绝对值反映的意义不同。r 的绝对值越大,散点图中的点越趋向于一条直线,

16、表明两变量的关系 越密切,相关程度越高。b的绝对值越大,回归直线越陡,说明当X变 化一个单位时,Y的平均变化就越大。反之也是一样。 相关与回归35相关与回归的联系关系:能进行回归分析的变量之间存在相关关系。所以,对于两组新 数据(两个变量)可先做散点图,求出它们的相关系数,对于 确有相关关系的变量再进行回归分析,求出回归方程。相关系数r与回归系数b :r与b的符号一致。r为正时,b也为正,表示两变量是正相关,是 同向变化。r为负时,b也为负,表示两变量是负相关,是反向 变化。r与b的假设检验结果一致 ,可用r的显著检验代替b的显 著性检验。 相关与回归36小 结一 直线相关 二 直线回归相关与回归37

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号