简单线性回归最新课件

上传人:大米 文档编号:571421682 上传时间:2024-08-10 格式:PPT 页数:72 大小:741KB
返回 下载 相关 举报
简单线性回归最新课件_第1页
第1页 / 共72页
简单线性回归最新课件_第2页
第2页 / 共72页
简单线性回归最新课件_第3页
第3页 / 共72页
简单线性回归最新课件_第4页
第4页 / 共72页
简单线性回归最新课件_第5页
第5页 / 共72页
点击查看更多>>
资源描述

《简单线性回归最新课件》由会员分享,可在线阅读,更多相关《简单线性回归最新课件(72页珍藏版)》请在金锄头文库上搜索。

1、第十二章 简单线性回归简单线性回归PPT课件 (2)n对于考察变量与变量之间关系时,我们采用回归分析的方法建立模型或方程进行变量间关系的分析。n因变量:被预测的变量n自变量:进行预测的变量简单线性回归PPT课件 (2)n简单线性回归模型(对总体而言)n 为未知参数, 为随机误差项,反映其它未列入回归模型的变量对因变量的影响。简单线性回归PPT课件 (2)n关于简单线性回归模型的标准假设:n1. ,可推知,该方程称为回归方程。n2. 对于所有的X,误差项 的方差 一样:即同方差假定。n3.误差项 独立。其协方差为零,n4.自变量是给定的变量,与误差项线性无关。n5.误差项 服从正态分布,从而说明

2、Y服从正态分布简单线性回归PPT课件 (2)n对于总体的线性回归模型,由于总体参数未知,我们只能利用样本数据进行估计,得到样本回归模型(对样本而言)。n 分别为 的估计。 n其中真实值与估计值之间的差距用e来表示:n 是y的一个估计值。简单线性回归PPT课件 (2)我们称下式为估计回归方程:简单线性回归PPT课件 (2)n估计回归方程与总体回归模型之间的区别。n总体回归模型是未知的,它只有一个。而估计回归方程则是根据样本数据拟合的,每抽取一组样本,便可以拟合一个样本估计方程。n总体回归模型中的1和2是未知的参数,表现为常数。而回归估计方程中的 和 是随机变量,其具体数值随所抽取的样本观测值不同

3、而变动。n总体回归模型中的E是Y 与未知的总体回归线之间的纵向距离,它是不可直接观测的。而样本回归模型中的e 是Y 与估计回归线之间的纵向距离,当根据样本观测值拟合出估计回归方程之后,可以计算出e 的具体数值。简单线性回归PPT课件 (2)最小二乘估计法n该法的目的:使残差平方和达到最小n残差:因变量y的观察值与估计值之间的距离n求该式对应的b0,b1n可以根据微分的方法求解最优解。简单线性回归PPT课件 (2)n令简单线性回归PPT课件 (2)披萨连锁店的销售量与学生人数的回归方程连锁店12345678910学生人数2688121620202226销售收入581058811811713715

4、7169149202简单线性回归PPT课件 (2)序号xyx-x均值y-y均值(x-x均值)*(y-y均值)(x-x均值)21258-12-7286414426105-8-25200643888-6-422523648118-6-127236512117-2-132646161372714472015762716236820169639234369221498191526410262021272864144x均值y均值 SUM SUM141302840568x求和y求和1401300简单线性回归PPT课件 (2)简单线性回归PPT课件 (2)模型的拟合度n判定系数:用来判断估计回归方程的拟合程

5、度。n误差平方和SSEn总平方和SSTn回归平方和SSRnSST=SSR+SSE n判定系数简单线性回归PPT课件 (2)简单线性回归PPT课件 (2)nSST=SSR+SSE WHY?简单线性回归PPT课件 (2)序号xyy估计x-x均值y-y均值(x-x均值)*(y-y均值)(x-x均值)2(y-y均值)2(y-y估计)2125870-12-7286414451841442610590-8-25200646252253888100-6-4225236176414448118100-6-127236144324512117120-2-13264169961613714027144499720

6、1571606271623672998201691606392343615218192214917081915264361441102620219012728641445184144x均值y均值SUMSUMSUMSUM14130284056815730142001530x求和y求和SSTSSRSSE1401300判定系数=SSR/SST0.902734简单线性回归PPT课件 (2)n在该披萨店的例题中,由样本估计得到的回归方程的判定系数为:0.9027n我们认为:该估计回归方程n有90.27%的总平方和可以通过估计回归方程来解释,我们认为该模型较好的拟合了学生人数与销售额之间的线性关系。简单线

7、性回归PPT课件 (2)n判定系数与相关系数的关系:简单线性回归PPT课件 (2)n从而有:n判定系数=SSR/SST=n回忆相关系数的计算公式:n 本例中:r0.9501简单线性回归PPT课件 (2)模型的显著性检验n在模型进行估计以后,得到了估计回归方程。由于估计回归方程是由样本信息得到的,具有随机性。为了由样本推及总体,我们需要对估计参数进行显著性检验。因此可以利用之前介绍的假设检验的统计方法来判断。简单线性回归PPT课件 (2)1.估计回归模型中残差项的方差n之前的假设中,令误差项 的方差记为n可得,n因此 也代表了y值的方差。n数学上可以证明,方差 的无偏估计为MSE(mean sq

8、uare error)简单线性回归PPT课件 (2)n其中SSE的自由度为n-2,受两个约束(b0,b1)nMSE=SSE/(n-2)n s称为估计量的标准误差npizza店的例子中,计算得到SSE=1530,n因此方差 的一个无偏估计,简单线性回归PPT课件 (2)2.T检验及相应的抽样分布nT检验: 用来判定 是否显著为零。nH0: =0;Ha: 0n如果x和y相关,则有 0.n如果通过假设检验,我们拒绝了H0,可以相应得到 0的结论。n由于 是唯一的,是未知总体的参数,我们需要借助样本计算得到的斜率b1来进行判断。简单线性回归PPT课件 (2)n考察b0,b1的抽样分布:n可以证明,在标

9、准假定能够得到满足的条件下,回归系数的最小二乘估计量的期望值等于其真值,即有:简单线性回归PPT课件 (2)n我们给出截距项估计参数的推导公式:n以上公式的推导,是由于:n令简单线性回归PPT课件 (2)n推导:简单线性回归PPT课件 (2)n由于总体方差未知,我们用之前说过的MSE来渐近估计总体方差:n代入估计参数的方差和标准差公式:简单线性回归PPT课件 (2)n构造统计量T,n在H0为真是,T统计量服从自由度为(n-2)的t分布。n显著水平下的拒绝规则:如果Tt(a/2;n-2),拒绝H0的初始假定。说明 显著非零。简单线性回归PPT课件 (2)n披萨店的例子,我们来看人数的估计参数是否

10、显著,也就是看学生人数是否真的与销售量有显著关系:显著水平为0.01nH0: =0;Ha: 0n在H0为真的前提下,有统计量T服从自由度为8的t分布。简单线性回归PPT课件 (2)n比较T与临界值t(0.005,8),T3.36n从而可以拒绝H0的假定,统计上提供依据可以认为学生人数与披萨店的销售量有显著相关关系。简单线性回归PPT课件 (2)3.F检验及相关抽样分布nF检验是针对整体模型是否显著而设计的假设检验。在一元简单回归模型中,F检验的对象与T检验一致,结果也一致。但在多元回归模型中,F检验是对所有自变量的显著性同时进行检验。简单线性回归PPT课件 (2)nF检验的原理:类似于方差分析

11、的构造方式,总体方差有两个独立的估计量。n之前介绍的MSE是总体方差 的无偏估计, 的另一个独立估计量为MSRnMSR=SSR/(k-1)nk为模型待估参数个数。n在一元回归模型中,k=2简单线性回归PPT课件 (2)n当H0: 为真时,两个估计量应当相当接近,且MSR和MSE相除后得到的统计量服从F分布,自由度为(k-1,n-2)n我们依照该分布的特点,且在一定显著水平下,找到统计值落入小概率事件的区域。nF=MSR/MSEF(a;k-1,n-2)n拒绝原则:如果FF临界值,则拒绝H0,从而可以认为模型整体通过显著检验。简单线性回归PPT课件 (2)n类似于方差分析,我们同样可以列出ANOV

12、A表:方差来源平方和自由度均方(mean square)F统计量回归方程SSRk-1MSR=SSR/(K-1)MSR/MSE误差SSEn-2MSE=SSE/(n-2)合计SSTn-1简单线性回归PPT课件 (2)n披萨店的例子:k-1=1n由之前的计算,有MSR=14200,MSE=1530/8=191.25nF=14200/191.25=74.25n通过比较F与临界值,有F11.26,相应拒绝H0原假设,认为模型整体通过显著检验。nF检验结果与T检验一致。简单线性回归PPT课件 (2)n对一元线性回归模型而言,F检验与T检验的关系:简单线性回归PPT课件 (2)4.回归模型中参数的区间估计n

13、样本回归模型中的b1是由(x,y)的一组样本数据计算得到的,类似于点估计,n那么对总体回归模型中的 是未知参数,我们通过样本估计b1来估计,其区间估计为:置信度(1-)简单线性回归PPT课件 (2)5.关于显著性检验的几点问题n1. 变量x和y之间有显著性关系,并不能得出x和y之间存在因果关系的结论。我们可以说,x的变化是y产生变化的最大可能。n2. x和y之间存在显著性关系,不能说明x和y之间存在线性关系。只能说明在样本观察值范围内有一近似线性关系。简单线性回归PPT课件 (2)利用估计回归方程进行估计和预测n前面的章节对模型的拟合度、参数估计显著性进行的分析,在我们得到较高的拟合度以及明显

14、的变量间关系以后,可以利用估计回归方程进行估计和预测。n估计:因变量的点估计和区间估计n预测:观测样本以外的因变量预测简单线性回归PPT课件 (2)n1. E(y)的点估计:n利用估计回归方程给出某一特定的x对应的y的均值的点估计。n由披萨店的例子,我们估计当x=10时的y均值的点估计。n说明:所有位于有1万名学生的校园附近的餐馆平均每季度销售额为11万美元。简单线性回归PPT课件 (2)n因为:n 是 的无偏估计。n所以给出的是在某个对应点上因变量的均值。简单线性回归PPT课件 (2)n2.E(y)的区间估计n在已知了E(y)点估计 的基础上,我们可以构造E(y)的区间估计:点估计加减抽样极

15、限误差n抽样极限误差与点估计 的标准差有关。简单线性回归PPT课件 (2)n因为:简单线性回归PPT课件 (2)nE(y)的置信区间的估计公式为:n求位于有1万名学生的校园附近的连锁店平均销售收入的95%置信区间:n(98585,121415)简单线性回归PPT课件 (2)n由标准差 的公式看出,当 时, 最小,相应的E(y)估计区间最窄。xy抽样极限误差 xy简单线性回归PPT课件 (2)n3. y的个别值预测区间n当 时,以 作为 的预测值。n预测误差为:简单线性回归PPT课件 (2)n当总体方差未知时,我们用MSE替代,n由已知抽样分布,有,简单线性回归PPT课件 (2)n从而有,y个别

16、值的预测区间:简单线性回归PPT课件 (2)n由以上公式,求在学生人数为1万的校园附近一家指定连锁店的销售收入,置信度为95%的估计区间:n(76215,143875)简单线性回归PPT课件 (2)n由标准差 的公式看出,当 时, 最小,相应的E(y)估计区间最窄。xy抽样极限误差 xy简单线性回归PPT课件 (2)残差分析n我们在进行模型估计之前,曾经对回归模型的误差项做了诸多假设。残差分析就是用来判断这些假定是否符合真实数据的统计方法。n若对误差项的那些假定不成立,那么关于回归关系的显著性检验和区间估计的结果就不可能正确。简单线性回归PPT课件 (2)n我们利用残差e提供的信息,对误差项

17、的假设是否合适进行分析。n我们利用残差项的残差图来观察和判断:n1.自变量x的值的残差图n2.关于自变量的预测值的残差图n3.标准残差图n4.正态概率图简单线性回归PPT课件 (2)关于x的残差图简单线性回归PPT课件 (2)n(1)图满足同方差假定n(2)图不满足同方差假定n(3)图说明模型不能合理的描述变量间的关系。简单线性回归PPT课件 (2)关于因变量y预测值的残差图简单线性回归PPT课件 (2)标准残差图n残差标准化以后,观察其是否服从标准正态分布:n第i个观测值的标准化残差=n其中第i个残差的标准差为:n其中h与x有关,因此残差标准差依赖于x。简单线性回归PPT课件 (2)简单线性

18、回归PPT课件 (2)n该图形以x为横坐标,标准化残差为纵坐标,该图表明:所有标准化残差都在-2到+2之间,因此我们没有理由拒绝误差相服从正态分布的假设。n标准正态变量至少有95%的值介于-2到+2之间。简单线性回归PPT课件 (2)正态概率图n标准正态分布的样本的顺序统计量和正态分数(n=10)序号1-1.5560.122-170.373-0.6580.654-0.37915-0.12101.55简单线性回归PPT课件 (2)n作图:将10个标准化残差由小到大顺序,使与10个正态分数依顺序对应。然后,以对应所得的10对数在坐标系(正态分数为横坐标)中描点,得出散点图。n若散点图显示这些散点紧

19、密的聚集在45度线附近,则认为残差来自正态分布。否则表明正态性假设不成立。简单线性回归PPT课件 (2)简单线性回归PPT课件 (2)残差分析:离群值与影响值n1. 检测离群值n(1)查看散点图n某个别的观测值远离大部分的观测点。简单线性回归PPT课件 (2)n(2)计算标准残差n计算每个观测点的标准残差,若该值大于2或小于-2,就可以将该观测点视为异常值。n若将异常值放入模型中,会发现其对整个模型拟合效果有明显影响。简单线性回归PPT课件 (2)n2.检测有影响的观察值n所谓的影响值是对回归结果有强影响的观测值。n(1)利用散点图识别影响值n影响值可能是离群值,也可能是远离x平均值的观测值,

20、同时也可能是与接近极端的x值对应、有某种程度偏离其它诸y值的观测值。简单线性回归PPT课件 (2)简单线性回归PPT课件 (2)n(2)观测值的杠杆率n对应x为极端值的观测值称为高杠杆率点。xyxy10125201201013025110151207010020115简单线性回归PPT课件 (2)n根据杠杆率公式,我们可以计算各观测点的杠杆率:n我们可以设定:若h6/n,则可将该观测值识别为高杠杆率的观测值。第7个观测点简单线性回归PPT课件 (2)作业n1.估计成本是回归分析在会计学上的一个重要应用。根据搜集到的产量和成本的数据,利用最小二乘法可以求出关于成本和产量的估计的回归方程,从而使会

21、计师能够估计某一特定制造业生产过程的成本。考虑下面某一制造业的产量和总成本数据组成的样本。简单线性回归PPT课件 (2)na. 利用这些数据求出估计的回归方程,在产量已知的情形下,这个方程能用来预测总成本。nb. 生产每单位产品的可变成本或追加成本是多少?nc. 计算判定系数。总成本中的变异能被产量解释的百分比是多少?nd. 公司的生产计划进度表表明,下个月必须生产500个单位的产品。对于这一生产计划估计的总成本是多少?简单线性回归PPT课件 (2)n2.美国全国住宅建筑商协会(National Association of Home Builders)对购买力最强的和购买力最弱的住宅市场进行

22、排序。排序的根据是在该住宅市场上中间收入的家庭有能力购买住宅的比例。从购买力最强的住宅市场中抽取1 2个市场组成一个样本,中间收入(千美元)和中间销售价格(千美元)数据如下:简单线性回归PPT课件 (2)简单线性回归PPT课件 (2)na. 利用这些数据,求出估计的回归方程,在某个市场的家庭中间收入已知时,能利用这个方程去预测该市场的中间销售价格。nb. 估计的回归方程对数据拟合的好吗?请作出解释。nc. 已知在某市场,家庭的中间收入是40100美元。求出在该市场上已售出的所有住宅的n中间销售价格的95% 的置信区间估计。nd. 在纽约州宾厄姆顿市,家庭的中间收入是40100美元。求出在宾厄姆顿市场,已售出住宅的中间销售价格的95% 的预测区间估计。简单线性回归PPT课件 (2)

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > 总结/计划/报告

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号