相关分析与一元线回归模型

上传人:tia****nde 文档编号:67701937 上传时间:2019-01-08 格式:PPT 页数:96 大小:1.02MB
返回 下载 相关 举报
相关分析与一元线回归模型_第1页
第1页 / 共96页
相关分析与一元线回归模型_第2页
第2页 / 共96页
相关分析与一元线回归模型_第3页
第3页 / 共96页
相关分析与一元线回归模型_第4页
第4页 / 共96页
相关分析与一元线回归模型_第5页
第5页 / 共96页
点击查看更多>>
资源描述

《相关分析与一元线回归模型》由会员分享,可在线阅读,更多相关《相关分析与一元线回归模型(96页珍藏版)》请在金锄头文库上搜索。

1、第八章 相关分析与一元线性回归模型, 相关系数 (Correlation Coefficient) 一元线性回归模型 ( Simple Linear Regression Model),8.1 随机关系,函数关系 (Deterministic Relationship) Y= f (X) 每一个 X 值都唯一地对应一个 Y值. 随机关系( Stochastic Relationship) 当 X 的值给定时, Y 的取值服从一个分布,函 数 关 系,例1: 一台计算机售价为960美元。 X 计算机的销售量 Y 总销售收入 Y=960X 例2:租车固定费用为100美元。每行驶一公里收费0.2 $

2、 X 行驶公里数 Y 租用车辆的费用 Y= 100 + 0.20X,随 机 关 系,随机关系( Stochastic Relationship): 例: 钢材消费量与国民收入 Y 钢材消费量(万吨) X 国民收入(亿元) 问题:如何测量X与Y的相关性大小?,钢材消费量与国民收入,随机关系( Stochastic Relationship): 当 X 的值给定时, Y 的取值服从一个分布,发电量与工业增加值(19952007),1-1. 北京市人口变化情况,图为19782009年北京常住人口变化情况。 户籍人口增长比较缓慢,年平均增长率为1.24%, 外来人口(指居住半年以上外来人口),随着北京

3、经济的发展,增长迅猛,年平均增长率为15.74%。,1. 北京市人口预测,1-2. 北京市的人口规划与实际情况,根据北京城市总体规划(2004-2020)的要求,到2020年,北京的常住人口为1800万左右,户籍人口为1350万。 而实际情况是:截止2009年底,北京的常住人口已经达到了1755万人。,图4 指数预测模型的拟合图,从图中看出,近10年内,北京市的常住人口基本接近指数增长。,1-3. 北京市人口预测,选取了2000-2009年的总常住人口数据来预测未来人口变化。选取该段数据原因是(1)2000-2009年北京人口的变化比较有规律;(2)北京市统计局从2001年开始正式对外来人口进

4、行统计。,不同年份常住人口预测结果,表1 按指数函数预测的北京市未来10年的常住人口数,2006年中国城市生活质量报告中,北京在全国仅排名第14 位,比上一年下降10 位。交通问题满意度则排在所有城市的最后一位,也是造成北京排名下滑的最主要的原因。(中国汽车资源网引用法制晚报报道),2. 全市交通承载力分析,2-1. 北京市交通现状:机动车保有量,从图中可以看出,北京市的机动车保有量增长迅速,特别是2000年以来,增长极为迅猛。,图10,2-2. 北京市人口出行总量预测(六环以内),从图12可以看出,随着人口的增长,出行总量也随之增长。 预计到2020年,六环内的出行总量将达到4300万人次/

5、日以上,是2009年的1.6倍。,3-3. 全市交通出行比例分析,右图显示:自行车出行比重下降,公共交通出行比例不断增加,同时,小汽车出行比例也持续增加。 目前,北京市公共交通出行比例仅为38.9%,而东京大于64%以上。 北京的小汽车使用强度为45车公里/日,远高于东京(19)、香港(39)、伦敦(30)。 北京市机动车的80%以上集中在六环范围内。 北京机动车呈现高速度增长、高强度使用、高密度聚集的态势。,交通出行比例,到2020年,即使公交能够承担50%的出行数量,小汽车承担的出行比例降到24%(乐观估计)。小汽车所承担的出行量也高于2009年的出行量,这意味着,届时,在路上行驶的小汽车

6、的数量将高于目前的数量至少10个百分点。,小汽车和公共交通承担的出行量分析,2009年,北京公交出行比例接近39%,小汽车接近35%。如果2020年,公交承担的比例为50%,并认为增加的部分主要来自小汽车的承担量,则小汽车承担的比例降为24%。,Y 每周支出 ($) Xi 每周税后收入 ($) 解: b1= 0.9232 b0= -8.1622,8.2 相关系数(The Correlation Coefficient),Pearson 相关系数: r(x,y) 记,r(x, y) 的性质,(1) -1 r 1 (2) 0 r 1: 正线性相关 (3) -1 r 0: 负线性相关 (4) r =

7、 0: 线性无关 (5) r =1: 完全正线性相关 (6) r= -1:完全负线性相关,四个散点图,总体相关系数,1. 总体方差 2.总体协方差 3. 总体相关系数,关于总体相关系数的假设检验,H0: = 0 H1: 0 检验统计量:,(总体上有相关关系),例题:,X 钻井深度 Y 钻井费用 n=6, r(x,y)=0.953 H0: = 0 H1: 0 (右尾检验),Spearman秩相关系数,注意:样本相关系数只能测量两个随机变量之间是否存在线性相关关系! 问题:如何测量非线性相关关系? xi 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 yi 12, 22, 32, 42

8、, 52, 62, 72, 82, 92, 102,计算得到: r = 0.975,思路1.,X: 2, 4, 6, 8, 10, 12, 14, 16, 18, 20 rank 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 Y: 22, 42, 62, 82, 102, 122, 142, 162,182,202 rank 1, 2, 3, 4, 5, 6, 7, 8, 9, 10,思路2:,(1) 求两组秩的差: Di= ui - vi (2)为防止正负号抵消: (3)(a) 如果: ui = vi , i =1,2,n 取到最小值(等于零)。 (b) 如果:两组秩取值完全相

9、反, 取到最大值。 ui n (n-1) (n-2) 3 2 1 vi 1 2 3 (n-2) (n-1) n,计算: 显然,l 的取值范围为 0,1 两组秩完全一致 两组秩完全相反 (4)定义Spearman秩相关系数 当 l = 0: R=1 (正相关) 当 l = 1: R= 1 (负相关) 一般认为: 为相关程度比较高。,例:对某地区 12 个街道进行调查,并对经济发展水平与卫生条件按规定的标准打分。评价与计算结果见下表:,编号 经济水平 卫生水平 u (经济) v (卫生) D =u-v D2 1 82 86 6 9 -3 9 2 87 78 9 6 3 9 3 60 65 1 2

10、-1 1 4 98 88 12 10 2 4 5 75 64 3 1 2 4 6 89 90 10 11 -1 1 7 84 80 7 7 0 0 8 78 77 4 5 -1 1 9 80 76 5 4 1 1 10 94 96 11 12 -1 1 11 85 85 8 8 0 0 12 68 70 2 3 -1 1 合计 32,计算Spearman秩相关系数 该地区的经济水平与卫生水平存在正相关关系!,例7.1 有50个从初中升到高中的学生。为了比较初三的成绩是否和高中的成绩相关,得到了他们在初三和高一的各科平均成绩(数据在highschool.sav)。,Pearson相关,非参数相关

11、,讨论1:从相关关系发现因果关系,案例:2006年北京市的福寿螺事件 5月20日 蜀国演义酒楼将“凉拌螺肉”的原料海水螺改为福寿螺。 5月23日 前后 广州管圆线虫病患者开始出现症状,但病因难查。 6月24日 首例广州管圆线虫病在友谊医院确诊。(热带病研究所) 6月25日 友谊医院临床医生先后2次到蜀国演义酒楼暗访、明查, 检测出福寿螺携带广州管圆线虫幼虫。 8月17日 北京市卫生局通报因食用凉拌螺肉染上“广州管圆线虫病”情况。 2008年05月12日 新华网报道,100多位曾在蜀国演义酒楼食用凉拌螺肉的顾客患上广州管圆线虫病。该病严重者出现头痛、发热、颈部强硬等症状,严重者可致痴呆,甚至死亡

12、。经场历时一年半的 赔偿案审理,160多名患者共获赔偿近1000万元。酒楼总损失则为2320万元。,讨论2:相关关系 因果关系 西班牙医生Gasper Casal 与18世纪在欧洲首次发现糙皮病是非常贫困的居民中体弱多病、伤残、夭折的一个重要原因。十九世纪初这种疾病在欧洲蔓延,二十世纪头十年,在美国泛滥。 患病者家庭贫困,环境条件恶劣,到处有苍蝇。而在欧洲,一种吸血蝇与糙皮病有同样的地理分布范围;而吸血蝇在春天最为活跃,恰恰是糙皮病发生病历最多的季节。 许多流行病专家认为这种疾病是传染性的由昆虫传染。 1914年初,美国医生Joseph Goldberger通过实验研究证实,糙皮病是由于不良饮

13、食引起的,可以通过食用含P-P因子(烟酸)的食物而预防和治疗。烟酸天然存在与肉、奶、蛋和一些蔬菜、谷物中。发病地区的穷人主要以玉米为食物,而玉米几乎不含烟酸。1940年以来,美国销售的大部分面粉中添加了P-P因子。 苍蝇是贫穷的标志,而不是糙皮病的起因。相关关系不等于因果关系。,(4)航空运量的增长在1996年以前是经济增长的线性趋势。,还有一些例子: (1)闪电是打雷的原因吗 (2)公鸡打鸣,天就亮 (相关关系?反因果关系?) (3) 哲学家罗素(Bertrand Russell)讨论因果问题 在一只鸡看来:农妇到来,饲料会被放在钵子里,有相关关系,不一定有因果关系; 没有相关关系,就一定没

14、有因果关系。,8.3 一元线性回归模型 ( Simple Linear Regression Model),回归模型: 研究因变量与自变量之间的因果关系 Y因变量(dependent variable) Xj 自变量(independent variable) 例: 总体参数 : 0 , 1, , p 随机误差 : ,Sir Francis Galton 1889, Natural Inheritance,T 8, Y 4 C 8, Y 64,应用实例: 美国航空公司的零件预测,美国航空公司发展了RAPS分配与计划系统,可以提供从咖啡机到起落架的超过5000种零件的需求预测。这些零件的保障供应都对一架飞机的运行至关重要。零件短缺会导致航班取消,代来很高的成本。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号