简单线性回归模型与分析残差图.ppt

上传人:F****n 文档编号:97145119 上传时间:2019-09-02 格式:PPT 页数:35 大小:212.50KB
返回 下载 相关 举报
简单线性回归模型与分析残差图.ppt_第1页
第1页 / 共35页
简单线性回归模型与分析残差图.ppt_第2页
第2页 / 共35页
简单线性回归模型与分析残差图.ppt_第3页
第3页 / 共35页
简单线性回归模型与分析残差图.ppt_第4页
第4页 / 共35页
简单线性回归模型与分析残差图.ppt_第5页
第5页 / 共35页
点击查看更多>>
资源描述

《简单线性回归模型与分析残差图.ppt》由会员分享,可在线阅读,更多相关《简单线性回归模型与分析残差图.ppt(35页珍藏版)》请在金锄头文库上搜索。

1、第十讲,简单线性回归模型,建立两个变量X和Y间的关系模型,推断变量Y如何依赖于变量X, 从而可以用X预测Y. 例: 广告费用和销售量 公司的市值与CEO的年薪 原始股的销售数量和期望价格 证券市场收益率与某只股票的收益率 商品价格和销售量 装配线的速度和次品数量 年收入与信用卡消费金额 年龄与手机话费 连锁店附近的人流与店的利润 气温与滑雪场门票销量 ,3,阿姆德比萨饼连锁店的问题,阿姆得(Armand)比萨饼连锁店坐落在美国的5个州内,它们通常的位置是在大学旁边,而且管理人员相信附近大学的人数与这些连锁店的季度销售额是有关系的。下面是10家连锁店附近大学的学生人数和季度销售收入的数据: 根据

2、以上数据,你能否判断学生人数(x)如何影响到销售收入(y)?根据一家连锁店附近大学的人数,你能够预测该家连锁店的季度销售收入吗?,4,描述学生人数和销售收入之间的关系,协方差(315.56)和相关系数(0.95),散点图; 根据这些你可以得到什么结论?,5,Types of Regression Models,Positive Linear Relationship,Negative Linear Relationship,Relationship NOT Linear,No Relationship,6,模型的引入,对于给定的学生人数,销售收入是唯一确定的一个数,还是一个随机变量? 学生人数

3、的变化如何影响到销售收入? 使用的模型,7,简单线性回归模型,Y 的截距,斜率,随机误差,因变量(响应变量,被预测变量),自变量(解释变量,预测变量),8,i,= 随机误差,Y,X,观测值,观测值,Y,X,0,1,Y,X,i,i,i,0,1,9,模型的假定,1) E()=0; (E(y)=x) 2) 对于所有的x,Var()=. 3) 是服从正态分布N(0, ) 的. 4) 对于不同的x, 是相互独立的. 这些假定意味着什么?,10,X1,X2,X,Y,f,y 服从在回归直线附近的正态分布 对每个 x 值, y分布的方差相同.,回归直线,11,估计的回归方程,如何估计参数和? 最小二乘准则,1

4、2,阿姆德连锁店的回归直线,估计参数 b1=5 b0=60 回归直线 你对系数的含义怎么理解?,13,回归方程的判定系数,y的总变差的分解 定义判定系数R2=SSR/SST. 判定系数的含义是什么? 阿姆德比萨饼连锁店的例子:R2=0.9027. 判定系数和相关系数的关系。,14,Coefficients of Determination (r2) and Correlation (r),r2 = 1,r2 = 1,r2 = .8,r2 = 0,Y,X,Y,X,Y,Y,X,r = +1,r = -1,r = +0.9,r = 0,X,15,的估计,理解误差平方和 的一个无偏估计 s2=MSE=

5、SSE/(n-2),16,关于回归系数的假设检验,检验统计量 给定显著水平时,选择拒绝域,17,关于回归方程整体的检验,变量x的确对y有解释作用吗?(H0: =0) 检验统计量 F=MSR/MSE 其中MSR=SSR/自变量的个数 拒绝域 FF(1, n-2),18,回归方程的方差分析表,19,阿姆德连锁店的情形,使用EXCEL对阿姆德连锁店的数据建立模型,并进行分析,基于EXCEL的输出结果,你对该模型有些什么认识?,20,使用你建立的模型(一),问题一:对于那些附近学校人数是1万的连锁店,他们的季度销售收入一定是一样吗?这种连锁店平均的季度销售收入是多少?你能够给出一个估计吗? 问题二:某

6、家连锁店附近学生总数约1万人,你能够给出它的季度销售收入的一个估计值吗? 点估计:110,21,使用你建立的模型(二),对于问题一,如何得到这种连锁店平均销售收入的一个95%的置信区间?,( 98.58, 121.42),22,使用你建立的模型(三),对于问题二,如何给出一个预测区间,使得这家连锁店的季度销售收入落在该区间里面的概率是1-?,( 76.13, 143.87),23,两种区间的关系,xp,预测区间边界,均值的置信区间,24,对模型作进一步的探讨,回忆我们使用的模型; 对模型作了什么假定? 逻辑问题:如何判断我们的问题符合这些假定? 分析的方案:残差分析,25,通过残差你能够了解什

7、么?,对误差项作的假定适合吗? 1)等方差; 2)相互独立; 3)正态分布; 哪些数据属于异常值? 哪些观测属于对回归模型有很大影响的?,26,残差图,关于自变量的残差图; 关于因变量的预测值的残差图; 学生化的标准残差图:,27,如何分析残差图,如果模型是符合的,那么残差图上的散点应该落在一条水平带中间,除此之外,残差图上的点不应呈现出什么规律性。 使用EXCEL对阿姆德连锁店的数据产生残差图。你能得到什么结论?,28,非线性,线性,X,X,29,方差不等,方差相等,X,X,30,不独立,独立,X,X,31,一个残差不独立的例子,32,异常值的检测,异常值是与其它点显示的趋势不合的点。 检查它是否可能是被错误输入的数据。 检测异常值的方法: 散点图; 利用学生化标准残差基本服从标准正态分布来检测(落在2个标准差之外时)。,33,带有异常值的散点图示例,34,检测有影响的观测值,什么是有影响的观测? 观测的杠杆率: 高杠杆率的点意味着它的自变量距离别的自变量的值距离较大的点。 识别影响的观测: 杠杆率6/n的观测.,35,对于建立简单线性回归模型, 你知道了些什么?,什么情况下需要建立简单线性回归模型? 对模型的假定有哪些? 如何估计模型的参数? 如何检验模型及其参数的显著性? 如何使用你建立的模型进行预测? 如何分析你的问题符合对模型做的假定?,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号