统计学原理:第十章1 一元线性回归

上传人:hs****ma 文档编号:568739602 上传时间:2024-07-26 格式:PPT 页数:97 大小:3.99MB
返回 下载 相关 举报
统计学原理:第十章1 一元线性回归_第1页
第1页 / 共97页
统计学原理:第十章1 一元线性回归_第2页
第2页 / 共97页
统计学原理:第十章1 一元线性回归_第3页
第3页 / 共97页
统计学原理:第十章1 一元线性回归_第4页
第4页 / 共97页
统计学原理:第十章1 一元线性回归_第5页
第5页 / 共97页
点击查看更多>>
资源描述

《统计学原理:第十章1 一元线性回归》由会员分享,可在线阅读,更多相关《统计学原理:第十章1 一元线性回归(97页珍藏版)》请在金锄头文库上搜索。

1、8 - 1统计学统计学STATISTICS(第三版第三版)第九章 相关与回归学习目的与要求学习目的与要求 通过本章的教学,使学生掌握相关与回归分析的基本思想,会进行一元线性回归分析,能看懂统计软件的一元线性回归分析结果,会对回归方程进行解释,会利用回归方程进行点估计。8 - 2统计学统计学STATISTICS(第三版第三版)重点:变量间的关系(函数关系和相关关系);相关关系的描述和测度;相关关系的显著性检验;回归分析的起源和基本思想;一元线性回归模型;参数的最小二乘估计;回归直线的拟合优度;显著性检验;回归分析结果的评价。难点:变量间的关系(函数关系和相关关系);相关关系的描述和测度;相关关系

2、的显著性检验;回归分析的起源和基本思想;一元线性回归模型;参数的最小二乘估计;回归直线的拟合优度;显著性检验;回归分析结果的评价。8 - 3统计学统计学STATISTICS(第三版第三版)基本内容9.19.1 变量间关系的度量变量间关系的度量 9.2 9.2 一元线性回归一元线性回归9.3 9.3 利用回归方程进行估计和预测利用回归方程进行估计和预测9.4 9.4 残差分析残差分析8 - 4统计学统计学STATISTICS(第三版第三版)问题提出 PHD公司正决定是否为公司新的文字处理系统鉴订一项维修合同。公司的管理人员认为,维修费用与该系统的使用时间有关。于是采集了一组的每周使用时间(小时)

3、和年维修费用(千元)的数据如下表。8 - 5统计学统计学STATISTICS(第三版第三版)8 - 6统计学统计学STATISTICS(第三版第三版)公司的管理人员希望通过所收集的数据的分析,得到以下结果: 1)确认两者是否有关系,关系如何? 2)若有关,预测每周使用文字处理系统的时间为30小时,该公司年维修费用的将是多少? 3)若维修合同的费用是每年30 000元,有关管理人会签定这个合同吗?为什么?8 - 7统计学统计学STATISTICS(第三版第三版)9.1 相关分析相关分析一一.变量间的关系变量间的关系二二.相关关系的描述与测度相关关系的描述与测度三三.相关系数的显著性检验相关系数的

4、显著性检验8 - 8统计学统计学STATISTICS(第三版第三版)怎样分析变量间的关系?1.变量之间是否存在关系?2.如果存在,它们之间是什么样的关系?3.变量之间的关系强度如何?4.样本所反映的变量之间的关系能否代表总体变量之间的关系? 2008年8月8 - 9统计学统计学STATISTICS(第三版第三版)为解决这些问题,在进行相关分析时,对总体主要有以下两个假定:1.两个变量之间是线性关系。2.两个变量都是随机变量。 2008年8月8 - 10统计学统计学STATISTICS(第三版第三版)变量间的关系8 - 11统计学统计学STATISTICS(第三版第三版)函数关系1.是一一对应的

5、确定关系2.设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完全依赖于 x ,当变量 x 取某个数值时, y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y = f (x),其中 x 称为自变量,y 称为因变量3.各观测点落在一条线上 2008年8月x xy y8 - 12统计学统计学STATISTICS(第三版第三版)函数关系(几个例子) 函数关系的例子函数关系的例子某某种种商商品品的的销销售售额额( (y y) )与与销销售售量量( (x x) )之之间间的的关关系系可表示为可表示为 y y = = px px ( (p p 为单价为单价) )圆的面积圆的面积(S

6、)(S)与半径之间的关系可表示为与半径之间的关系可表示为S S= = R R2 2 企企业业的的原原材材料料消消耗耗额额( (y y) )与与产产量量( (x x1 1) ) 、单单位位产产量量消消耗耗( (x x2 2) ) 、原原材材料料价价格格( (x x3 3) )之之间间的的关关系系可可表表示示为为y y = = x x1 1 x x2 2 x x3 3 8 - 13统计学统计学STATISTICS(第三版第三版)相关关系(correlation)1.一个变量的取值不能由另一个变量唯一确定2.当变量 x 取某个值时,变量 y 的取值对应着一个分布分布3.各观测点分布在直线周围 200

7、8年8月y yx x8 - 14统计学统计学STATISTICS(第三版第三版)相关关系(几个例子)l子女的身高与其父母身高的关系子女的身高与其父母身高的关系u从遗传学角度看,父母身高较高时,其子女的身高一般也比较高。但实际情况并不完全是这样,因为子女的身高并不完全是由父母身高一个因素所决定的,还有其他许多因素的影响l一个人的收入水平同他受教育程度的关系一个人的收入水平同他受教育程度的关系u收入水平相同的人,他们受教育的程度也不可能不同,而受教育程度相同的人,他们的收入水平也往往不同。因为收入水平虽然与受教育程度有关系,但它并不是决定收入的惟一因素,还有职业、工作年限等诸多因素的影响l农作物的

8、单位面积产量与降雨量之间的关系农作物的单位面积产量与降雨量之间的关系u在一定条件下,降雨量越多,单位面积产量就越高。但产量并不是由降雨量一个因素决定的,还有施肥量、温度、管理水平等其他许多因素的影响2008年8月8 - 15统计学统计学STATISTICS(第三版第三版)相关关系(类型)8 - 16统计学统计学STATISTICS(第三版第三版)相关关系的描述与测度(散点图)8 - 17统计学统计学STATISTICS(第三版第三版)散点图(scatter diagram)2008年8月完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全负线性相关完全正线性相关完全正线性

9、相关完全正线性相关完全正线性相关完全正线性相关完全正线性相关不相关不相关不相关不相关不相关不相关 负线性相关负线性相关负线性相关负线性相关负线性相关负线性相关正线性相关正线性相关正线性相关正线性相关正线性相关正线性相关非线性相关非线性相关非线性相关非线性相关非线性相关非线性相关8 - 18统计学统计学STATISTICS(第三版第三版)用散点图描述变量间的关系(例题分析)【例例】为研究销售收入与广告费用支出之间的关系,某医药管理部门随机抽取20家药品生产企业,得到它们的年销售收入和广告费用支出(万元)的数据如下。绘制散点图描述销售收入与广告费用之间的关系 2008年8月8 - 19统计学统计学

10、STATISTICS(第三版第三版)散点图(销售收入和广告费用的散点图)2008年8月8 - 20统计学统计学STATISTICS(第三版第三版)相关关系的描述与测度(相关系数)8 - 21统计学统计学STATISTICS(第三版第三版)相关系数(correlation coefficient)1.对变量之间关系密切程度的度量2.对两个变量之间线性相关程度的度量称为简单相关系数3.若相关系数是根据总体全部数据计算的,称为总体相关系数,记为 4.若是根据样本数据计算的,则称为样本相关系数,记为 r8 - 22统计学统计学STATISTICS(第三版第三版)相关系数 (计算公式) 样本相关系数的计

11、算公式或化简为8 - 23统计学统计学STATISTICS(第三版第三版)相关系数的性质性质性质1:r 的取值范围是 -1,1|r|=1,为完全相关lr =1,为完全正相关lr =-1,为完全负正相关r = 0,不存在线性线性相关关系-1r0,为负相关0 t t,拒绝,拒绝H H0 0 若若 t t t t,不拒绝,不拒绝H H0 08 - 29统计学统计学STATISTICS(第三版第三版)相关系数的显著性检验(检验的步骤)用Excel中的【TDIST】函数得双尾计算P值,并于显著性水平比较,并作出决策 若Pt(20-2)=2.1009,拒绝H0.4. 用 Excel中 的 【 TDIST】

12、 函 数 得 双 尾 P=2.743E-090.05,拒绝H0,销售收入与广告费用之间的相关系数显著 .2008年8月8 - 31统计学统计学STATISTICS(第三版第三版)用EXCEL计算相关系数选择EXCEL中统计函数CORREL 或PEARSON函数可以计算两组数据的相关系数。其语法为CORREL(ARRAY1, ARRAY2)。 ARRAY1, ARRAY2是两个变量的数据区域。8 - 32统计学统计学STATISTICS(第三版第三版)SPSS FOR WINDOWS 实现过程 选择Analyze Correlate Bivariate. 8 - 33统计学统计学STATISTI

13、CS(第三版第三版)9.2 一元线性回归一元线性回归一一.一元线性回归模型一元线性回归模型二二.参数的最小二乘估计参数的最小二乘估计三三.回归直线的拟合优度回归直线的拟合优度四四.显著性检验显著性检验8 - 34统计学统计学STATISTICS(第三版第三版)什么是回归分析?(regression analysis)1.重点考察一个特定的变量(因变量),而把其他变量(自变量)看作是影响这一变量的因素,并通过适当的数学模型将变量间的关系表达出来2.利用样本数据建立模型的估计方程3.对模型进行显著性检验4.进而通过一个或几个自变量的取值来估计或预测因变量的取值2008年8月8 - 35统计学统计学

14、STATISTICS(第三版第三版)回归分析与相关分析的区别1.相关分析中,变量 x 变量 y 处于平等的地位;回归分析中,变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化2.相关分析中所涉及的变量 x 和 y 都是随机变量;回归分析中,因变量 y 是随机变量,自变量 x 可以是随机变量,也可以是非随机的确定变量3.相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制 8 - 36统计学统计学STATISTICS(第三版第三版)回归模型的类型2008年8月8 - 37统计学统计学STA

15、TISTICS(第三版第三版)一元线性回归模型8 - 38统计学统计学STATISTICS(第三版第三版)一元线性回归1.涉及一个自变量的回归2.因变量y与自变量x之间为线性关系被预测或被解释的变量称为因变量(dependent variable),用y表示用 来 预 测 或 用 来 解 释 因 变 量 的 一 个 或 多 个 变 量 称 为 自 变 量(independent variable),用x表示 3.因变量与自变量之间的关系用一个线性方程来表示2008年8月8 - 39统计学统计学STATISTICS(第三版第三版)一元线性回归模型(linear regression model)

16、1.描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型回归模型2.一元线性回归模型可表示为 y = 0 0 + + 1 1 x + + e eny 是 x 的线性函数(部分)加上误差项n线性部分反映了由于 x 的变化而引起的 y 的变化n误差项 是随机变量l反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响l是不能由 x 和 y 之间的线性关系所解释的变异性n0 和 1 称为模型的参数2008年8月8 - 40统计学统计学STATISTICS(第三版第三版)一元线性回归模型(基本假定) 1.因变量x与自变量y之间具有线性关系2.在重复抽样中,自变量x的取值是固定的

17、,即假定x是非随机的3.误差项 满足l正态性正态性。 是一个服从正态分布的随机变量,且期望值为0,即 N(0 , 2 ) 。对于一个给定的 x 值,y 的期望值为E(y)=0+ 1xl方差齐性方差齐性。对于所有的 x 值, 的方差都相同。即,一个特定的x 值, y 的方差也都等于2l独立性独立性。独立性意味着对于一个特定的 x 值,它所对应的与其他 x 值所对应的不相关;对于一个特定的 x 值,它所对应的 y 值与其他 x 所对应的 y 值也不相关2008年8月8 - 41统计学统计学STATISTICS(第三版第三版)回归方程 (regression equation)1.描述 y 的平均值

18、或期望值如何依赖于 x 的方程称为回归方程回归方程2.一元线性回归方程的形式如下 E( y ) = 0+ 1 x 方程的图示是一条直线,也称为直线回归方程方程的图示是一条直线,也称为直线回归方程 0 0是回归直线在是回归直线在 y y 轴上的截距,是当轴上的截距,是当 x x=0 =0 时时 y y 的期望值的期望值 1 1是是直直线线的的斜斜率率,称称为为回回归归系系数数,表表示示当当 x x 每每变变动动一一个个单单位位时时,y y 的的平均变动值平均变动值8 - 42统计学统计学STATISTICS(第三版第三版)估计的回归方程(estimated regression equation

19、)2008年8月1.总总体体回回归归参参数数 和和 是是未未知知的的,必必须须利利用用样样本本数数据去估计据去估计2.用用样样本本统统计计量量 和和 代代替替回回归归方方程程中中的的未未知知参参数数 和和 ,就得到了,就得到了估计的回归方程估计的回归方程估计的回归方程估计的回归方程3.一元线性回归中估计的回归方程为一元线性回归中估计的回归方程为其中:其中:其中: 是估计的回归直线在是估计的回归直线在是估计的回归直线在 y y y 轴上的截距;轴上的截距;轴上的截距; 是是是直直直线线线的的的斜斜斜率率率,它它它表表表示示示对对对于于于一一一个个个给给给定定定的的的 x x x 的的的值值值,

20、是是是 y y y 的的的估估估计计计值值值,也也也表表表示示示 x x x 每每每变变变动动动一一一个单位时,个单位时,个单位时, y y y 的平均变动值的平均变动值的平均变动值 8 - 43统计学统计学STATISTICS(第三版第三版)参数的最小二乘估计8 - 44统计学统计学STATISTICS(第三版第三版)参数的最小二乘估计(method of least squares )2008年8月1.德国科学家Karl Gauss(17771855)提出用最小化图中垂直方向的误差平方和来估计参数 2.使因变量的观察值与估计值之间的误差平方和达到最小来求得 和 的方法。即3.用最小二乘法拟

21、合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小8 - 45统计学统计学STATISTICS(第三版第三版)Karl Gauss的最小化图2008年8月x xy y( (x xn n , , y yn n) )( (x x1 1 , , y y1 1) )( (x x2 2 , , y y2 2) )( ( (x x xi i i , , , y y yi ii) ) )e ei i = = y yi i- -y yi i8 - 46统计学统计学STATISTICS(第三版第三版)参数的最小二乘估计 ( 和 的计算公式)2008年8月 根据最小二乘法,可得求解 和 的公式如下8

22、 - 47统计学统计学STATISTICS(第三版第三版)估计方程的求法(例题分析)回归方程为:回归方程为:y = 274.5502+ 5.1309 x回归系数 =5.1309 表示,广告费用每增加或减少1万元,销售收入平均增加或减少5.1309万元。截距截距 通常不作实际意义上的解释。通常不作实际意义上的解释。 8 - 48统计学统计学STATISTICS(第三版第三版)用Excel进行回归分析第第1步:步:选择“工具工具”下拉菜单第第2步:步:选择“数据分析数据分析”选项第第3步:步:在分析工具中选择“回归回归”,然后选择“确定确定”第第4步:步:当对话框出现时 在“Y值输入区域值输入区域

23、”方框内键入Y的数据区域 在“X值输入区域值输入区域”方框内键入X的数据区域 在“置信度置信度”选项中给出所需的数值 在“输出选项输出选项”中选择输出区域 在“残差残差”分析选项中选择所需的选项用用Excel进行回归分析进行回归分析8 - 49统计学统计学STATISTICS(第三版第三版)参数的最小二乘估计(例题分析)【例例】求销售收入与广告费用的估计回归方程 ,并解释回归系数的含义2008年8月8 - 50统计学统计学STATISTICS(第三版第三版)参数的最小二乘估计(例题分析)2008年8月8 - 51统计学统计学STATISTICS(第三版第三版)回归直线的拟合优度8 - 52统计

24、学统计学STATISTICS(第三版第三版)变差1.因变量 y 的取值是不同的,y 取值的这种波动称为变差。变差来源于两个方面由于自变量 x 的取值不同造成的除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响2.对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示2008年8月8 - 53统计学统计学STATISTICS(第三版第三版)误差分解图2008年8月x xy yy y8 - 54统计学统计学STATISTICS(第三版第三版)误差平方和的分解 (误差平方和的关系) 2008年8月SST = SSR + SSE总平方和总平方和总平方和总平方和( (S

25、STSST) ) 回归平方和回归平方和回归平方和回归平方和( (SSRSSR) )残差平方和残差平方和残差平方和残差平方和( (SSESSE) ) 8 - 55统计学统计学STATISTICS(第三版第三版)误差平方和的分解 (三个平方和的意义)1.总平方和(SSTtotal sum of squares)反映因变量的 n 个观察值与其均值的总误差2.回归平方和(SSRsum of squares of regression)反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和3.残差平方和(SSEsum o

26、f squares of error)反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和2008年8月8 - 56统计学统计学STATISTICS(第三版第三版)判定系数R2 (coefficient of determination)1.回归平方和占总误差平方和的比例2008年8月2.反映回归直线的拟合程度反映回归直线的拟合程度3.取值范围在取值范围在 0 , 1 0 , 1 之间之间4. R R2 2 1 1,说明回归方程拟合的越好;,说明回归方程拟合的越好;R R2 20 0,说,说明回归方程拟合的越差明回归方程拟合的越差5.决定系数决定系数平方根等于相关系

27、数(在一元线性回归平方根等于相关系数(在一元线性回归中)中)8 - 57统计学统计学STATISTICS(第三版第三版)判定系数R2(例题分析) 判定系数R2 =0.8661=86.61%,其实际意义是:在销售取值的总变差中,有86.61%可以由销售收入与广告费用之间的线性关系来解释,可见回归方程的拟合程度较高。8 - 58统计学统计学STATISTICS(第三版第三版)估计标准误差(standard error of estimate)1.实际观察值与回归估计值误差平方和的均方根2.反映实际观察值在回归直线周围的分散状况3.对误差项的标准差的估计,是在排除了x对y的线性影响后,y随机波动大小

28、的一个估计量4.反映用估计的回归方程预测y时预测误差的大小 5.计算公式为2008年8月8 - 59统计学统计学STATISTICS(第三版第三版)估计标准误差(例题分析)估计标准误差 =361.8672,其实际意义是:根据广告费用来预测销售收入时,平均预测误差为361.8672万元。8 - 60统计学统计学STATISTICS(第三版第三版)显著性检验8 - 61统计学统计学STATISTICS(第三版第三版)线性关系的检验-F检验1.检验自变量与因变量之间的线性关系是否显著2.将回归均方(MSR)同残差均方(MSE)加以比较,应用F检验来分析二者之间的差别是否显著回归均方:回归平方和SSR

29、除以相应的自由度(自变量的个数k) 残差均方:残差平方和SSE除以相应的自由度(n-k-1)2008年8月8 - 62统计学统计学STATISTICS(第三版第三版)线性关系的检验 (检验的步骤) 1.提出假设H0:1=0 线性关系不显著H1:1 0 线性关系显著2008年8月2. 2. 计算计算检验统计量检验统计量F F3.确定确定显著性水平显著性水平 ,并根据分子自由度,并根据分子自由度1 1和分母自和分母自由度由度n n-2-2求统计量的求统计量的P P值值4.作作出决策:若出决策:若PP ,拒绝拒绝H H0 0。表明两个变量之间表明两个变量之间的线性关系显著的线性关系显著8 - 63统

30、计学统计学STATISTICS(第三版第三版)线性关系检验(例题分析)F=116.40,对应的P值为2.743E-09(Significance F).由于若若PP ,拒拒绝绝H H0 0。表表明明销销售售收收入入与与广广告告费费用用之之间间的线性关系显著。的线性关系显著。8 - 64统计学统计学STATISTICS(第三版第三版)回归系数的检验-T检验2008年8月3.在一元线性回归中,等价于线性关系的显著性检验4.采用t检验1.检验 x 与 y 之间是否具有线性关系,或者说,检验自变量 x 对因变量 y 的影响是否显著2.理论基础是回归系数 的抽样分布8 - 65统计学统计学STATIST

31、ICS(第三版第三版)回归系数的检验和推断(样本统计量 的分布)2008年8月1. 1.1. 是是是根根根据据据最最最小小小二二二乘乘乘法法法求求求出出出的的的样样样本本本统统统计计计量量量,它它它有有有自自自己己己的分布的分布的分布2. 2.2. 的的的分布具有如下性质分布具有如下性质分布具有如下性质 分布形式:正态分布分布形式:正态分布分布形式:正态分布 数学期望:数学期望:数学期望: 标准差:标准差:标准差: 由由由于于于 未未未知知知,需需需用用用其其其估估估计计计量量量s s se ee来来来代代代替替替得得得到到到 的的的估估估计计计的的的标准差标准差标准差8 - 66统计学统计学

32、STATISTICS(第三版第三版)回归系数的检验和推断 (检验步骤) 1.提出假设H0: 1 = 0 (没有线性关系) H1: 1 0 (有线性关系) 2.计算检验的统计量2008年8月3. 确确定定显显著著性性水水平平 ,计计算算出出统统计计量量的的P P值值,并并做出决策做出决策PP ,拒拒绝绝H H0 0,表表明明自自变变量量是是影影响响因因变变量量的的一一个个显著因素显著因素8 - 67统计学统计学STATISTICS(第三版第三版)回归系数的检验(例题分析) ,对应的P值为2.743E-09(P-value).由于若若PP ,拒拒绝绝H H0 0。表表明明广广告告费费用用是是影影响

33、响销销售售收收入入的一个显著因素。的一个显著因素。8 - 68统计学统计学STATISTICS(第三版第三版)9.3 利用回归方程进行利用回归方程进行 估计和预测估计和预测一一.点估计点估计二二.区间估计区间估计8 - 69统计学统计学STATISTICS(第三版第三版)利用回归方程进行估计和预测1.根据自变量 x 的取值估计或预测因变量 y的取值2.估计或预测的类型点估计y 的平均值的点估计y 的个别值的点估计区间估计y 的平均值的置信区间置信区间估计y 的个别值的预测区间预测区间估计8 - 70统计学统计学STATISTICS(第三版第三版)点估计8 - 71统计学统计学STATISTIC

34、S(第三版第三版)点估计2. 点估计值有n ny y 的的平均值平均值平均值平均值的点估计的点估计n ny y 的的个别值个别值个别值个别值的点估计的点估计3.在点估计条件下,平均值的点估计和个别值的的点估计是一样的,但在区间估计中则不同1.对于自变量 x 的一个给定值x0 ,根据回归方程得到因变量 y 的一个估计值8 - 72统计学统计学STATISTICS(第三版第三版) y 的平均值的点估计利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的一个估计值E(y0) ,就是平均值的点估计在前面的例子中,假如我们要估计广告费用为100万元时,所有企业销售收入的平

35、均值,就是平均值的点估计 。根据估计的回归方程可得。8 - 73统计学统计学STATISTICS(第三版第三版)y 的个别值的点估计利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计值 ,就是个别值的点估计比如,如果我们只是想知道广告费用为175万元的那个企业(这里是编号为12的那个企业)的销售收入是多少,则属于个别值的点估计 。根据估计的回归方程得。8 - 74统计学统计学STATISTICS(第三版第三版)区间估计8 - 75统计学统计学STATISTICS(第三版第三版)区间估计1.点估计不能给出估计的精度,点估计值与实际值之间是有误差的,因此需

36、要进行区间估计2.对于自变量 x 的一个给定值 x0,根据回归方程得到因变量 y 的一个估计区间3.区间估计有两种类型置信区间估计(confidence interval estimate)预测区间估计(prediction interval estimate)8 - 76统计学统计学STATISTICS(第三版第三版)平均值的置信区间1.利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的估计区间 ,这一估计区间称为置信区间置信区间(confidence interval)2. E(y0) 在1-置信水平下的置信区间为2008年8月式中:式中:s se e为估

37、计标准误差为估计标准误差8 - 77统计学统计学STATISTICS(第三版第三版)个别值的预测区间1.利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计区间,这一区间称为预测区间预测区间(prediction interval) 2. y0在1-置信水平下的预测区间为2008年8月注意!注意!8 - 78统计学统计学STATISTICS(第三版第三版)置信区间和预测区间2008年8月x xp ppy yx x x x预测上限预测上限置信上限置信上限预测下限预测下限置信下限置信下限8 - 79统计学统计学STATISTICS(第三版第三版)置信区间和预

38、测区间(例题分析)2008年8月点点预预测测值值置置信信线线预预测测线线8 - 80统计学统计学STATISTICS(第三版第三版)置信区间和预测区间(例题分析)2008年8月8 - 81统计学统计学STATISTICS(第三版第三版)预测时需要注意的问题1.在利用回归方程进行估计或预测时,不要用样本数据之外的x值去预测相对应的y值2.因为在一元线性回归分析中,总是假定因变量y与自变量x之间的关系用线性模型表达是正确的。但实际应用中,它们之间的关系可能是某种曲线3.此时我们总是要假定这条曲线只有一小段位于x测量值的范围之内。如果x的取值范围是在xL和xU之间,那么可以用所求出的利用回归方程对处

39、于xL和xU之间的值来估计E(y)和预测y。如果用xL和xU之间以外的值得出的估计值和预测值就会很差 2008年8月8 - 82统计学统计学STATISTICS(第三版第三版) 9.4 用残差证实模型的假定用残差证实模型的假定 9.4.1 检验方差齐性检验方差齐性 9.4.2 检验正态性检验正态性 9.4.3 检验独立性检验独立性8 - 83统计学统计学STATISTICS(第三版第三版)10.4.1 检验方差齐性8 - 84统计学统计学STATISTICS(第三版第三版)残差(residual)1.因变量的观测值与根据估计的回归方程求出的预测值之差,用e表示2.反映了用估计的回归方程去预测而

40、引起的误差 3.可用于确定有关误差项的假定是否成立 4.用于检测有影响的观测值2008年8月8 - 85统计学统计学STATISTICS(第三版第三版)残差图(residual plot)1.表示残差的图形关于x的残差图关于y的残差图标准化残差图2.用于判断误差的假定是否成立 3.检测有影响的观测值2008年8月8 - 86统计学统计学STATISTICS(第三版第三版)残差图(形态及判别)2008年8月(a)(a)(a)满意模式满意模式满意模式残残残残残残差差差差差差x x x0 00(b)(b)(b)非常数方差非常数方差非常数方差残残残残差差差差x x x0 00(c)(c)(c)模型不合

41、适模型不合适模型不合适残残残残差差差差x x x0 008 - 87统计学统计学STATISTICS(第三版第三版)残差与标准化残差图(例题分析)2008年8月点点预预测测值值残残差差标标准准残残差差8 - 88统计学统计学STATISTICS(第三版第三版)残差图(例题分析)2008年8月销售收入与广告费用回归的残差图销售收入与广告费用回归的残差图销售收入与广告费用回归的残差图销售收入与广告费用回归的残差图8 - 89统计学统计学STATISTICS(第三版第三版)10.4.2 检验正态性8 - 90统计学统计学STATISTICS(第三版第三版)标准化残差(standardized res

42、idual)1.残差除以它的标准差2.也 称 为 Pearson残 差 或 半 学 生 化 残 差 (semi-studentized residuals) 3.计算公式为2008年8月注意:注意:注意:注意:ExcelExcel给出的标准残差的计算公式为给出的标准残差的计算公式为 这实际上是学生化删除残差这实际上是学生化删除残差(studentized deleted residuals)(studentized deleted residuals)8 - 91统计学统计学STATISTICS(第三版第三版)标准化残差图 用以直观地判断误差项服从正态分布这一假定是否成立 若假定成立,标准化残

43、差的分布也应服从正态分布在标准化残差图中,大约有95%的标准化残差在-2到+2之间 2008年8月8 - 92统计学统计学STATISTICS(第三版第三版)标准化残差图(例题分析)2008年8月销售收入与广告费用回归的标准化残差图销售收入与广告费用回归的标准化残差图销售收入与广告费用回归的标准化残差图销售收入与广告费用回归的标准化残差图8 - 93统计学统计学STATISTICS(第三版第三版) 10.4.3 检验独立性检验独立性2008年8月8 - 94统计学统计学STATISTICS(第三版第三版)残差自相关检验(D-W检验)利用残差 构成的统计量推断误差项 是否存在自相关。即2008年

44、8月8 - 95统计学统计学STATISTICS(第三版第三版)D-W检验规则是根据样本容量和被估参数个数,在给定显著水平下,给出检验用的上下两个临界值 和 。判别规则如下:(1)若DW取值在(0, )之间,则认为误差项存在一阶正自相关;(2)若DW取值在( ,4 )之间,则认为误差项存在一阶负自相关;(3)若DW取值在( , )之间,则认为误差项非自相关; 2008年8月8 - 96统计学统计学STATISTICS(第三版第三版)(4)若DW取值在( , )或( , ) 之间,这种检验没有结论,即不能判别误差项是否存在一阶自相关。当 DW取值在不确定区域时,有两种处理方法:(1)加大样本容量或重新取样本;(2)选用其他检验方法。2008年8月8 - 97统计学统计学STATISTICS(第三版第三版)相关与回归分析应注意的问题1.定性分析为前提;2.回归分析应正确确定自变量和因变量;3.正确选择正确的数学表达式;4.应用条件和范围。5.其它问题: (1)非线性问题 (2)复相关与复回归分析问题 (3)多重共线性问题 (4)自相关与自回归问题。 2008年8月

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号