第八部分相关分析与一元线回归模型研究报告

上传人:youn****329 文档编号:136947431 上传时间:2020-07-04 格式:PPT 页数:96 大小:1.18MB
返回 下载 相关 举报
第八部分相关分析与一元线回归模型研究报告_第1页
第1页 / 共96页
第八部分相关分析与一元线回归模型研究报告_第2页
第2页 / 共96页
第八部分相关分析与一元线回归模型研究报告_第3页
第3页 / 共96页
第八部分相关分析与一元线回归模型研究报告_第4页
第4页 / 共96页
第八部分相关分析与一元线回归模型研究报告_第5页
第5页 / 共96页
点击查看更多>>
资源描述

《第八部分相关分析与一元线回归模型研究报告》由会员分享,可在线阅读,更多相关《第八部分相关分析与一元线回归模型研究报告(96页珍藏版)》请在金锄头文库上搜索。

1、第八章相关分析与一元线性回归模型,相关系数(CorrelationCoefficient)一元线性回归模型(SimpleLinearRegressionModel),8.1随机关系,函数关系(DeterministicRelationship)Y=f(X)每一个X值都唯一地对应一个Y值.随机关系(StochasticRelationship)当X的值给定时,Y的取值服从一个分布,函数关系,例1:一台计算机售价为960美元。X计算机的销售量Y总销售收入Y=960X例2:租车固定费用为100美元。每行驶一公里收费0.2$X行驶公里数Y租用车辆的费用Y=100+0.20X,随机关系,随机关系(Sto

2、chasticRelationship):例:钢材消费量与国民收入Y钢材消费量(万吨)X国民收入(亿元)问题:如何测量X与Y的相关性大小?,发电量与工业增加值(19952007),1-1.北京市人口变化情况,图为19782009年北京常住人口变化情况。户籍人口增长比较缓慢,年平均增长率为1.24%,外来人口(指居住半年以上外来人口),随着北京经济的发展,增长迅猛,年平均增长率为15.74%。,1.北京市人口预测,1-2.北京市的人口规划与实际情况,根据北京城市总体规划(2004-2020)的要求,到2020年,北京的常住人口为1800万左右,户籍人口为1350万。而实际情况是:截止2009年底

3、,北京的常住人口已经达到了1755万人。,图4指数预测模型的拟合图,从图中看出,近10年内,北京市的常住人口基本接近指数增长。,1-3.北京市人口预测,选取了2000-2009年的总常住人口数据来预测未来人口变化。选取该段数据原因是(1)2000-2009年北京人口的变化比较有规律;(2)北京市统计局从2001年开始正式对外来人口进行统计。,不同年份常住人口预测结果,表1按指数函数预测的北京市未来10年的常住人口数,2006年中国城市生活质量报告中,北京在全国仅排名第14位,比上一年下降10位。交通问题满意度则排在所有城市的最后一位,也是造成北京排名下滑的最主要的原因。(中国汽车资源网引用法制

4、晚报报道),2.全市交通承载力分析,2-1.北京市交通现状:机动车保有量,从图中可以看出,北京市的机动车保有量增长迅速,特别是2000年以来,增长极为迅猛。,图10,2-2.北京市人口出行总量预测(六环以内),从图12可以看出,随着人口的增长,出行总量也随之增长。预计到2020年,六环内的出行总量将达到4300万人次/日以上,是2009年的1.6倍。,3-3.全市交通出行比例分析,右图显示:自行车出行比重下降,公共交通出行比例不断增加,同时,小汽车出行比例也持续增加。目前,北京市公共交通出行比例仅为38.9%,而东京大于64%以上。北京的小汽车使用强度为45车公里/日,远高于东京(19)、香港

5、(39)、伦敦(30)。北京市机动车的80%以上集中在六环范围内。北京机动车呈现高速度增长、高强度使用、高密度聚集的态势。,交通出行比例,到2020年,即使公交能够承担50%的出行数量,小汽车承担的出行比例降到24%(乐观估计)。小汽车所承担的出行量也高于2009年的出行量,这意味着,届时,在路上行驶的小汽车的数量将高于目前的数量至少10个百分点。,小汽车和公共交通承担的出行量分析,2009年,北京公交出行比例接近39%,小汽车接近35%。如果2020年,公交承担的比例为50%,并认为增加的部分主要来自小汽车的承担量,则小汽车承担的比例降为24%。,Y每周支出($)Xi每周税后收入($)解:b

6、1=0.9232b0=-8.1622,8.2相关系数(TheCorrelationCoefficient),Pearson相关系数:r(x,y)记,r(x,y)的性质,(1)-1r1(2)0r1:正线性相关(3)-1r0:负线性相关(4)r=0:线性无关(5)r=1:完全正线性相关(6)r=-1:完全负线性相关,四个散点图,总体相关系数,1.总体方差2.总体协方差3.总体相关系数,关于总体相关系数的假设检验,H0:=0H1:0检验统计量:,(总体上有相关关系),例题:,X钻井深度Y钻井费用n=6,r(x,y)=0.953H0:=0H1:0(右尾检验),Spearman秩相关系数,注意:样本相关

7、系数只能测量两个随机变量之间是否存在线性相关关系!问题:如何测量非线性相关关系?xi1,2,3,4,5,6,7,8,9,10yi12,22,32,42,52,62,72,82,92,102,计算得到:r=0.975,思路1.,X:2,4,6,8,10,12,14,16,18,20rank1,2,3,4,5,6,7,8,9,10Y:22,42,62,82,102,122,142,162,182,202rank1,2,3,4,5,6,7,8,9,10,思路2:,(1)求两组秩的差:Di=ui-vi(2)为防止正负号抵消:(3)(a)如果:ui=vi,i=1,2,n取到最小值(等于零)。(b)如果:

8、两组秩取值完全相反,取到最大值。uin(n-1)(n-2)321vi123(n-2)(n-1)n,计算:显然,l的取值范围为0,1两组秩完全一致两组秩完全相反(4)定义Spearman秩相关系数当l=0:R=1(正相关)当l=1:R=1(负相关)一般认为:为相关程度比较高。,例:对某地区12个街道进行调查,并对经济发展水平与卫生条件按规定的标准打分。评价与计算结果见下表:,编号经济水平卫生水平u(经济)v(卫生)D=u-vD21828669-392877896393606512-1149888121024575643124689901011-117848077008787745-1198076

9、54111094961112-11118585880012687023-11合计32,计算Spearman秩相关系数该地区的经济水平与卫生水平存在正相关关系!,例7.1有50个从初中升到高中的学生。为了比较初三的成绩是否和高中的成绩相关,得到了他们在初三和高一的各科平均成绩(数据在highschool.sav)。,Pearson相关,非参数相关,讨论1:从相关关系发现因果关系,案例:2006年北京市的福寿螺事件5月20日蜀国演义酒楼将“凉拌螺肉”的原料海水螺改为福寿螺。5月23日前后广州管圆线虫病患者开始出现症状,但病因难查。6月24日首例广州管圆线虫病在友谊医院确诊。(热带病研究所)6月25

10、日友谊医院临床医生先后2次到蜀国演义酒楼暗访、明查,检测出福寿螺携带广州管圆线虫幼虫。8月17日北京市卫生局通报因食用凉拌螺肉染上“广州管圆线虫病”情况。2008年05月12日新华网报道,100多位曾在蜀国演义酒楼食用凉拌螺肉的顾客患上广州管圆线虫病。该病严重者出现头痛、发热、颈部强硬等症状,严重者可致痴呆,甚至死亡。经场历时一年半的赔偿案审理,160多名患者共获赔偿近1000万元。酒楼总损失则为2320万元。,讨论2:相关关系因果关系西班牙医生GasperCasal与18世纪在欧洲首次发现糙皮病是非常贫困的居民中体弱多病、伤残、夭折的一个重要原因。十九世纪初这种疾病在欧洲蔓延,二十世纪头十年

11、,在美国泛滥。患病者家庭贫困,环境条件恶劣,到处有苍蝇。而在欧洲,一种吸血蝇与糙皮病有同样的地理分布范围;而吸血蝇在春天最为活跃,恰恰是糙皮病发生病历最多的季节。许多流行病专家认为这种疾病是传染性的由昆虫传染。1914年初,美国医生JosephGoldberger通过实验研究证实,糙皮病是由于不良饮食引起的,可以通过食用含P-P因子(烟酸)的食物而预防和治疗。烟酸天然存在与肉、奶、蛋和一些蔬菜、谷物中。发病地区的穷人主要以玉米为食物,而玉米几乎不含烟酸。1940年以来,美国销售的大部分面粉中添加了P-P因子。苍蝇是贫穷的标志,而不是糙皮病的起因。相关关系不等于因果关系。,(4)航空运量的增长在

12、1996年以前是经济增长的线性趋势。,还有一些例子:(1)闪电是打雷的原因吗(2)公鸡打鸣,天就亮(相关关系?反因果关系?)(3)哲学家罗素(BertrandRussell)讨论因果问题在一只鸡看来:农妇到来,饲料会被放在钵子里,有相关关系,不一定有因果关系;没有相关关系,就一定没有因果关系。,8.3一元线性回归模型(SimpleLinearRegressionModel),回归模型:研究因变量与自变量之间的因果关系Y因变量(dependentvariable)Xj自变量(independentvariable)例:总体参数:0,1,p随机误差:,SirFrancisGalton1889,Na

13、turalInheritance,T8,Y4C8,Y64,应用实例:美国航空公司的零件预测,美国航空公司发展了RAPS分配与计划系统,可以提供从咖啡机到起落架的超过5000种零件的需求预测。这些零件的保障供应都对一架飞机的运行至关重要。零件短缺会导致航班取消,代来很高的成本。最初使用时间序列模型,但发现不适用。之后,系统使用线性回归模型,建立月度零件更新Y与月度飞行小时X的函数关系,可以在不到1个小时的时间里得出所有零件的月度需求预测。美国航空公司的原材料管理小组估计“使用RAPS每年差不多节约100万美元。,例1:阿蒙德比萨饼屋的销售预测,阿蒙德比萨饼屋在美国5个州有连锁店。最成功的店址是在

14、大学校园边上。经理们认为,这些饭店的季度销售额Y与学生人数成正相关,即位于学生人数较多校园旁边的饭店将比位于学生人数较少的校园边上的饭店实现更达的销售额。为了研究学生人数与季度销售额之间的关系,阿蒙德公司采集了10家位于大学校园边的饭店的数据。,b1=5(为正),说明学生人数增加时,季度销售额便会增加学生人数每增加1000人,预计销售额会增加5000美元如果要预测一个位于拥有16000个学生的校园边的饭店的季度销售额,可以预测季度销售额约为140000美元.,一元线性回归模型,基本假设(basicassumptions):,一元线性回归分析的问题,假设对于总体数据:希望估计总体参数:0,1从总

15、体中抽取容量为n的样本:估计量:一元回归线:,8.4最小二乘方法(OrdinaryLeastSquares),一元回归线:残差平方和:SSE(SumofSquaresforError),解:,正规方程(Thenormalequations),Gauss-Markov定理,如果基本假设成立:最小二乘估计量b0、b1是总体参数0、1的线性最小方差无偏估计量。,例题:yi股票价格($)xi股息($),股票股息($)股价($)ixiyi113115244531210045505655688573408450954510770,yi股价($)xi股息($),解:,y股价x股息计算结果为:b1=7.507

16、2,b0=15.2017,8.5评价回归模型,一.问题提出样本回归模型总是可以求到的,但是它是否确实是总体回归模型的正确估计呢?1.该模型能否较好地解释yi的取值变化规律?回归方程的质量如何?误差多大?2.关于一元线性回归模型的几个基本假设条件是否得到满足?,问题:,1.估计标准误差:se(sy)2.拟合优度(判定系数):R23.在X和Y之间是否存在线性关系?(F-test)4.X在解释Y时,是否有作用?(t-test)5.无序列相关检验(D-Wtest)6.残差分析,二.估计标准误差(StandardErroroftheEstimate),回归标准误如果基本假设成立:se是总体标准差的无偏估计量:E(se)=,自由度(DegreeofFreedom)=n-2,计算se例:股价与股息之间的关系,回归标准误差,(5.653/65.5=8.63%),三.拟合优度GoodnessofFit,可解释变异,不可解释变异,总变异,=,+,测定系数,SSR越大:用回归方程解

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件 > 高中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号