第七章 相关与回归分析概要课件

上传人:我*** 文档编号:138904182 上传时间:2020-07-18 格式:PPT 页数:55 大小:1.08MB
返回 下载 相关 举报
第七章 相关与回归分析概要课件_第1页
第1页 / 共55页
第七章 相关与回归分析概要课件_第2页
第2页 / 共55页
第七章 相关与回归分析概要课件_第3页
第3页 / 共55页
第七章 相关与回归分析概要课件_第4页
第4页 / 共55页
第七章 相关与回归分析概要课件_第5页
第5页 / 共55页
点击查看更多>>
资源描述

《第七章 相关与回归分析概要课件》由会员分享,可在线阅读,更多相关《第七章 相关与回归分析概要课件(55页珍藏版)》请在金锄头文库上搜索。

1、数据、模型与决策,第七章 相关与回归分析,正相关关系与正比例关系,假设速度为每小时5公里,则行驶总路程与行驶时间之间有正比例关系: 行驶总路程(公里)5(公里/小时)行驶时间(小时) 人的身高与脚印长度有这样的正相关关系: 人的身高6.876脚印长度误差 脚印长度一样的人,长得并不一样高,这有多个方面的原因。他们来自不同的家庭,遗传基因不同、健康状况不同、饮食不同、运动习惯不同等都可能是造成脚印一样长但身高不一样的原因。每一个原因都可能产生误差,而正相关关系右边的误差是这一系列误差的总和。,负相关关系,美国纽约州的一所医院全年的289411份处方中905份处方有错误。平均每天发生2.5份错误处

2、方。医生的工作年限和经验与处方的错误率有极为密切的关系。第一年工作的医生平均错误率为0.425%,第二年工作的平均为0.234%,第三年工作的平均为0.198%,第四年工作的平均为0.081%。医生的工作年限与错误率有负相关关系。不论医生的工作年限是长还是短,都有可能开错处方。总的来说,工作年限短的医生开错处方的可能性比工作年限长的医生大。,父亲及其成年儿子的身高正相关,英国著名生物和统计学家高尔顿(F. Galton,1822 1911)和他的学生,著名统计学家皮尔逊(K. Pearson,1856 1936)对测量得到的1078个父亲及其成年儿子身高的成对数据进行了研究。研究结果发现,他们

3、之间有正相关关系。父亲比较高则其成年儿子往往也比较高,而父亲比较矮则其成年儿子往往也比较矮。这也就是说,若父亲比较高则其成年儿子总的趋势也比较高。同样道理,比较矮的父亲其成年儿子总的趋势也比较矮。,父亲身高与儿子身高的1078对数据的散点图,儿 子 身 高,父亲身高,儿子身高的回归,成年儿子的身高(厘米) 其父亲的身高(厘米)误差 成年儿子的身高的分布为正态分布 , 均值 其父亲的身高 成年儿子的平均身高为 其父亲的身高。 成年儿子的身高超过与低于 其父亲的身高 的可能性都等于0.5。,长得比较高的父亲其成年儿子往往比较高 1)比父亲还高的儿子少一些; 2)没有父亲高的儿子多一些。,成年儿子的

4、身高(厘米) 其父亲的身高(厘米)误差 倘若某父亲比较高,例如身高180厘米,那么他的成年儿子的身高超过 厘米 的可能性正好等于0.5。 由此可见,成年儿子的身高比他父亲身高180厘米还高的可能性不到0.5,而没有超过他父亲身高的可能性大于0.5。,长得比较矮的父亲其成年儿子往往比较矮 1)比父亲还矮的儿子少一些; 2)没有父亲矮的儿子多一些。,成年儿子的身高(厘米) 其父亲的身高(厘米)误差 倘若某父亲比较矮,例如身高165厘米,那么他的成年儿子的身高超过 厘米 的可能性正好等于0.5。 由此可见,成年儿子的身高比他父亲身高165厘米还矮的可能性不到0.5,而超过他父亲身高的可能性大于0.5

5、。,儿子身高的回归,由父亲身高预测儿子身高,成年儿子的身高(厘米) 其父亲的身高(厘米) 9.51厘米,概率95% 某父亲身高170厘米,则预测其成年儿子身高为 厘米,上下误差不超过9.51厘米,概率95%。 身高170厘米的父亲,其成年儿子身高的置信水平为95%的预测区间为 (厘米),即 区间的长度19.02厘米, 太大了。,身高,遗传因素不可忽视。它能改变一个人身高的25% 。 受到经济状况制约。繁荣时期人类身体长高,危机时期人类身体长矮。 上个世纪德国人长高,例如男性平均长高18厘米。 然而东德人的身高比西德人增长得慢。在东德城市里的食品供应远好于农村,因而东德的农村居民比城市居民矮2.

6、2厘米 身高增长特别快的是日本人。 美国人却往胖里长,甚至变矮成趋势。今天30岁的美国人比20岁的美国人高。,由父母亲身高预测孩子身高,成年儿子身高 56.6990.419父亲身高(厘米) 0.265母亲身高(厘米)3厘米,概率95% 成年女儿身高 40.0890.306父亲身高(厘米) 0.431母亲身高(厘米)3厘米,概率95% 倘若根据父亲和祖父的身高预测成年儿子的身高好不好?,回归模型:y = ax + b + e,回归模型中有两类变量:自变量和因变量。回归模型可用来根据自变量的数值预测因变量。 在美国黄石国家公园间歇喷泉的例子中,可观察的“喷发的持续时间“称为是自变量,记为x。待预报

7、的“到下一次喷发间隔时间”称为是因变量,记为y。 线性回归模型(简称回归模型):y = ax + b + e 其中a是斜率,b是截距,e是误差(error)。 如果斜率a大于0,自变量x和因变量y直线正相关(简称正相关)。如果斜率a小于0,自变量x和因变量y直线负相关(简称负相关) 。,回归模型:y = ax + b + e,回归模型: 问题1) 估计斜率a; 问题2) 估计截距b。 有了斜率a与截距b的估计,就可以在知道自变量x之后,计算因变量y的预测值。 通常假设误差e是正态分布 。 问题3)估计误差标准差 。 有了误差标准差的估计,就可以计算因变量y的概率例如为95%的预测误差。,预测问

8、题的第1步工作是收集数据,预测问题的第2步工作制作交叉分组列表判断变量之间的相关性,预测问题的第2步工作通常画散点图判断变量之间的相关性,喷发持续时间与到下一次喷发的间隔时间直线正相关关系,有了这条直线如何预报 到下一次喷发的间隔时间,回归模型:y = ax + b + e,喷发持续时间与到下一次喷发的间隔时间之间的回归模型: 到下一次喷发的间隔时间 喷发持续时间 , 其中误差 有正态分布 。 三个问题; 1) 计算斜率 的估计; 2) 计算截距 的估计; 3) 计算误差标准差 的估计。,预测问题的第3步工作 计算斜率a和截距b的估计, 建立数据文件,将喷发持续时间的数据放在A列的第1至第10

9、7个单元格,到下一次喷发的间隔时间的数据放在B列的第1至第107个单元格; 在其它任意两个单元格上分别输入: “=slope(b1:b107,a1:a107)”; “=intercept(b1:b107,a1:a107)”。 则得斜率(Slope) ; 截距(Intercept) 。 注意:首先输入待预报的因变量的数据b1:b107,然后输入可观察的自变量的数据a1:a107。输入的次序不能颠倒。,预测问题的第3步工作:计算回归直线,有了斜率 和截距 的估计,就有了回归直线: 有了回归直线,我们就能根据喷发持续时间 的观察值,预测到下一次喷发的间隔时间 。倘若这一次喷发持续 分钟,则 到下一次

10、喷发的间隔时间 的预报值 预报下一次喷发大概在66.05112分钟后发生。这说明喷发持续3分钟时,到下一次喷发的间隔时间可能超过66.05112分钟,有正误差;也可能不到66.05112分钟,有负误差;其平均为66.05112分钟。波动的幅度,误差的范围多大?,预测问题的第4步工作 计算回归标准误,回归模型 ,误差 有正态分布 误差标准差 用回归标准误来估计。 输入“=yxste(b1:b107,a1:a107)”,则得因变量y关于自变量x的回归标准误(standard error),它等于6.68261。这就是误差标准差 的估计。 注意:首先输入待预报的因变量的数据b1:b107,然后输入可

11、观察的自变量的数据a1:a107。输入的次序不能颠倒。,概率与系数,预测问题的第4步工作 给出预测误差和概率,得到因变量 y 关于自变量 x 的回归标准误为6.68261之后,就可以计算预报误差: 预报误差在 之间的概率(比例)为80%; 预报误差在 之间的概率(比例)为90%; 预报误差在 之间的概率(比例)为95%; 预报误差在 之间的概率(比例)为99%。 概率越大,预报误差越大,区间长度越长。,美国黄石国家公园间歇喷泉的预报问题,到下一次喷发的间隔时间的预报值 (10.74097这一次喷发持续时间 33.82821)8.56443分钟,概率80%。 到下一次喷发的间隔时间的预报值 (1

12、0.74097这一次喷发持续时间 33.82821)10.99223分钟,概率90%。 到下一次喷发的间隔时间的预报值 (10.74097这一次喷发持续时间 33.82821)13.09792分钟,概率95%。 到下一次喷发的间隔时间的预报值 (10.74097这一次喷发持续时间 33.82821)17.21307分钟,概率99%。,使用回归模型进行预测的4个步骤,收集数据; 画散点图判断变量之间有没有相关性; 计算斜率和截距的估计,得到回归直线,给出预测值; 计算回归标准误,给出预测误差和概率。 画散点图判断变量之间有没有相关性这个步骤能否省略?,异常值,强影响力观察值,成对数据,有n对观察

13、数据: 变量一的(样本)均值 、方差 和标准差 。 变量二的(样本)均值 、方差 和标准差 。 计算变量一和变量2的(样本)相关系数 : “=correl(起始格:终止格,起始格:终止格) 注意:输入的次序可以先变量一,然后变量二。也可以先变量二,然后变量一。输入的次序可以颠倒。,相关系数,变量一和变量二的相关系数 与量纲(单位)没有关系,其值一定在1和1之间。 变量一和变量二正相关时,相关系数 大于0。相关系数 越接近1,变量一和变量二就越正相关。 变量一和变量二负相关时,相关系数 小于0。相关系数 越接近1,变量一和变量二就越负相关。 总之, 越大,变量一和变量二就越相关。 变量一和变量二

14、相互独立时,相关系数 等于0。相关系数 越接近0,变量一和变量二就越相互独立。,父亲及其成年儿子的身高,著名统计学家Karl Pearson(英国,1857-1936)曾进行了一项研究,研究家庭成员间的相似性。作为这项研究的一部分,他测量了1078个父亲及其成年儿子的身高。经计算, 父亲平均身高为68英寸(即172.7cm),标准差为2.7英寸(即6.86cm); 儿子平均身高为69英寸(即175.3cm),标准差为2.7英寸(即6.86cm); 它们之间的相关系数为0.5。,喷发持续时间和到下一次喷发的间隔时间,1978年8月1日至8月8日清晨8时至午夜老忠实间歇喷泉的喷发持续时间和到下一次喷发的间隔时间的107对数据。 喷发持续时间:平均为3.46分钟,标准差为1.04分钟; 到下一次喷发的间隔时间:平均为71分

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号