第三章回归分析概要

上传人:ldj****22 文档编号:48620536 上传时间:2018-07-18 格式:PPT 页数:58 大小:974KB
返回 下载 相关 举报
第三章回归分析概要_第1页
第1页 / 共58页
第三章回归分析概要_第2页
第2页 / 共58页
第三章回归分析概要_第3页
第3页 / 共58页
第三章回归分析概要_第4页
第4页 / 共58页
第三章回归分析概要_第5页
第5页 / 共58页
点击查看更多>>
资源描述

《第三章回归分析概要》由会员分享,可在线阅读,更多相关《第三章回归分析概要(58页珍藏版)》请在金锄头文库上搜索。

1、第三章 回归分析概要 第一节、经典线性回归模型 第二节、普通最小二乘估计和最大似然估计 第三节、假设检验 第四节、置信区间1第一节 经典线性回归模型 一、函数关系和统计关系 (一)函数关系是一一对应的确定性关 系。(举例见教材) (二)统计关系是不完全一致的对应关 系。(举例见教材) 二、理论模型和回归模型 Y=f(X1,X2,Xp) Y=f(X1,X2,Xk; )2 三、随机误差和系统误差 1、随机误差:是由随机因素形成的误差。 所 谓随机因素,是指那些对被解释变量的作用不 显著,其作用方向不稳定(时正时负),在重 复试验中,正作用与负作用可以相互抵消的因 素。 2、系统误差:由系统因素形成

2、的误差。所谓 系统因素,是指那些对被解释变量的作用较显 著,其作用方向稳定,重复试验也不可能相互 抵消的因素。3 四、线性回归模型和非线性回归模型 分类的标准:回归模型的期望函数关于 参数的倒数是否与参数有关。即期望函 数的一阶导函数是否仍然是关于参数的 函数。如果导函数不是关于参数的函数 ,即参数是线性的,则称该回归模型是 线性回归模型;反之,则称该回归模型 是非线性回归模型。4五、回归模型的矩阵方法和随 机矩阵56789六、经典线性回归模型及其 假设条件 一、有正确的期望函数。 它要求在线性回归模型中没有遗漏任何重 要的解释变量,也没有包含任何多余的解释变 量。 二、被解释变量等于期望函数

3、与随机干扰项之 和。 三、随机干扰项独立于期望函数。即所有解释 变量Xj与随机干扰项u不相关。 四、解释变量矩阵X是非随机矩阵,且其秩为 列满秩的,即rank(X)k。 10 五、随机干扰项服从正态分布。该假设 给出了被解释变量的概率分布。 六、随机干扰项的期望值为0。即: E(u)0 七、随机干扰项具有方差齐性。即: 八、随机干扰项相互独立。 11第二节 模型参数的估计 一、普通最小二乘法 (OLS估计) 通过协方差或相关系数证实变量之间存在关系,仅仅 只是知道变量之间线性相关的性质正(负)相关 和相关程度的大小。 既然它们之间存在线性关系,接下来必须探求它们之 间关系的表现形式是什么? 最

4、好用数学表达式将这种关系尽可能准确、严谨的表 示出来y=a+bx+u把它们之间的内在联系挖掘 出来。也就是直线中的截距a=?;直线的斜率b=? 消费支出=基本生存+边际消费倾向可支配收入+随机 扰动12解决问题的思路可能性 寻找变量之间直线关系的方法多多。于是,再接下 来则是从众多方法中,寻找一种优良的方法,运用 方法去求出线性模型y=a+bx+u中的截距a=?; 直线的斜率b=?正是是本章介绍的最小二乘法。 根据该方法所得,即表现变量之间线性关系的直线 有些什么特性? 所得直线可靠吗?怎样衡量所得直线的可靠性? 最后才是如何运用所得规律变量的线性关系?13最小二乘法产生的历史 最小二乘法最早

5、称为回归分析法。由著 名的英国生物学家、统计学家道尔顿( F.Gallton)达尔文的表弟所创。 早年,道尔顿致力于化学和遗传学领域 的研究。 他研究父亲们的身高与儿子们的身高之 间的关系时,建立了回归分析法。14最小二乘法的地位与作用 现在回归分析法已远非道尔顿的本意 已经成为探索变量之间关系最重要的方 法,用以找出变量之间关系的具体表现 形式。 后来,回归分析法从其方法的数学原理 误差平方和最小(平方乃二乘也) 出发,改称为最小二乘法。15父亲们的身高与儿子们的身高之间 关系的研究 1889年F.Gallton和他的朋友K.Pearson收 集了上千个家庭的身高、臂长和腿长的 记录 企图寻

6、找出儿子们身高与父亲们身高之 间关系的具体表现形式 下图是根据1078个家庭的调查所作的散 点图(略图)16160165170175180185140150160170180190200YX儿子们身高向着平均身高“回归”,以保持种族的稳定17“回归”一词的由来 从图上虽可看出,个子高的父亲确有生出个子 高的儿子的倾向,同样地,个子低的父亲确有 生出个子低的儿子的倾向。得到的具体规律如 下: 如此以来,高的伸进了天,低的缩入了地。他 百思不得其解,同时又发现某人种的平均身高 是相当稳定的。最后得到结论:儿子们的身高 回复于全体男子的平均身高,即“回归”见 1889年F.Gallton的论文普用回

7、归定律。 后人将此种方法普遍用于寻找变量之间的规律 18最小二乘法的思路 1为了精确地描述Y与X之间的关系,必须使 用这两个变量的每一对观察值,才不至于以点 概面(作到全面)。 2Y与X之间是否是直线关系(协方差或相关 系数)?若是,将用一条直线描述它们之间的 关系。 3在Y与X的散点图上画出直线的方法很多。 任务?找出一条能够最好地描述Y与X( 代表所有点)之间的直线。 4什么是最好?找出判断“最好”的原则。 最好指的是找一条直线使得这些点到该直线的 纵向距离的和(平方和)最小。19三种距离 yx纵向距离横向距离距离A为实际点,B为拟 合直线上与之对应 的点20距离是度量实际值与拟合值 是否

8、相符的有效手段 点到直线的距离点到直线的垂直线 的长度。 横向距离点沿(平行)X轴方向到直 线的距离。 纵向距离点沿(平行)Y轴方向到直 线的距离。也就是实际观察点的Y坐标减 去根据直线方程计算出来的Y的拟合值。 这个差数以后称为误差残差(剩余 )。21最小二乘法的数学原理 纵向距离是Y的实际值与拟合值之差,差 异大拟合不好,差异小拟合好,所以又 称为拟合误差或残差。 将所有纵向距离平方后相加,即得误差 平方和,“最好”直线就是使误差平方和 最小的直线。 于是可以运用求极值的原理,将求最好 拟合直线问题转换为求误差平方和最小 。22数学推证过程23关于所得直线方程的结论 结论之一: 由(5)式

9、,得 即拟合直线过y和x的平均数点。 结论之二: 由(2)式,得 残差与自变量x的乘积和等于0,即两者不相关 。24拟合直线的性质 1估计残差和为零 2Y的真实值和拟合值有共同的均值 3估计残差与自变量不相关 4估计残差与拟合值不相关251估计残差和为零 (Residuals Sum to zero) 由(1)式直接得此结论无须再证明。并 推出残差的平均数也等于零。262Y的真实值和拟合值有共同的均值 (The actual and fitted values of yi have the same mean)273估计残差与自变量不相关( Residuals are unrelated wi

10、th independent variable)284估计残差与拟合值不相关( Residuals are unrelated with fitted value of yi)29关于回归直线性质的总结关于回归直线性质的总结 残差和=0 平均数相等拟合值与残差不相关自变量与残差不相关注意:这里的残差与 随机扰动项不是一个 概念。随机扰动项是 总体的残差。30二、极大似然估计法3132333435最佳线性无偏估计36高斯马尔柯夫定理37第三节 拟合优度的评价38问题的提出 由最小二乘法所得直线究竟能够对这些 点之间的关系加以反映吗? 对这些点之间的关系或趋势反映到了何 种程度? 于是必须经过某种

11、检验或者找出一个指 标,在一定可靠程度下,根据指标值的 大小,对拟合的优度进行评价。 分四个问题进行讨论:平方和分解、方 差分析、拟合优度、拟合优度与简单相 关系数的关系。39一、平方和与自由度的分解 1、总平方和、回归平方和、残差平方和 的定义 2、平方和的分解 3、自由度的分解401、总平方和、回归平方和、残 差平方和的定义 TSS度量Y自身的差异程度,RSS度量因 变量Y的拟合值自身的差异程度,ESS度 量实际值与拟合值之间的差异程度。412、平方和的分解42平方和分解的意义 TSS=RSS+ESS 被解释变量Y总的变动(差异)= 解释变量X引起的变动(差异 ) +除X以外的因素引起的变

12、动(差异 ) 如果X引起的变动在Y的总变动中占很大 比例,那么X很好地解释了Y;否则,X 不能很好地解释Y。433、自由度的分解 总自由度 dfT=n-1 回归自由度 dfR=1(自变量的个数,k元为k) 残差自由度 dfE=n-2 自由度分解 dfT=dfR+dfE44平方和分解图正交分解45为什么回归平方和是由X引起的变动ABC46二、方差分析 模型:y=a+bx+u =LS估计:y=a+bx H0:b=0 HA:b0 H0:b=0 RSS中的X不起作用,RSS变动 无异于随机变动= 分子方差与分母方差是一回事=F=1 如果F显著地大于1,甚至FF=小概率事件发生了 ,根据小概率原理,小概

13、率事件在一次试验中是不可 能发生的,于是H0不成立。就不能认为X没有作用。 则直线是有意义的。可靠性=1- 48三、拟合优度(或称判定系数、 决定系数) 目的:企图构造一个不含单位,可以相互进行 比较,而且能直观判断拟合优劣。 拟合优度的定义: 意义:拟合优度越大,自变量对因变量的解释 程度越高,自变量引起的变动占总变动的百分 比高。观察点在回归直线附近越密集。 取值范围:0-149拟合优度与F统计量之间的联系 F显著=拟合优度必然显著50四、拟合优度等于实际值与拟合值之 间简单相关系数的平方51第四节各回归系数的显著性检 验 上述由回归方差分析给出的F检验是 对整个线性回归模型的检验,即使我

14、们 在上述检验中否定了原假设H0:Bi=0, 也并不意味着每个解释变量都对被解释 变量有显著的影响。因此,还必须对模 型中每个解释变量的重要性,即解释变 量对被解释变量是否有显著性的影响进 行检验。52 对于一般线性回归模型,要检验某个解 释变量Xi是否对被解释变量Y有显著的影 响,可建立原假设和备择假设为: H0:Bi0;H1:Bi不等于0 (见教材P40-41)53复习与提高 y=a+bx +uxn+1 yn+1xn yn x2 y2x1 y1根据已知样 本采用LS得 一拟合直线 拟合直线性质:残差和=0残差与自变量无关拟合值与残差值无关两个平均数均值相等R20TSS RSS ESSR2 R21用直线反映总体Good ?noYes54案例分析一:教学指导书P20 教学目的: 1掌握普通最小二乘法 2掌握回归方程的拟合优度的判断 3掌握回归方程的显著性检验。55 例1 下表是某地区10户家庭人均收入(X)和 人均食物消费支出(Y)的数据。 试根据表中数据 (1)用普通最小二乘法估计该地居民家庭食 物消费支出的回归直线. (2)计算判定系数R2,说明回归方程的拟合 优度。 (3)在5%的显著性水平下,对回归方程进行 显著性检验。56Y X70 8065 10090 12095 140110 160115 180120 200140

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号