第5讲_回归分析_Matlab

上传人:洪易 文档编号:52516112 上传时间:2018-08-22 格式:PPT 页数:125 大小:1.21MB
返回 下载 相关 举报
第5讲_回归分析_Matlab_第1页
第1页 / 共125页
第5讲_回归分析_Matlab_第2页
第2页 / 共125页
第5讲_回归分析_Matlab_第3页
第3页 / 共125页
第5讲_回归分析_Matlab_第4页
第4页 / 共125页
第5讲_回归分析_Matlab_第5页
第5页 / 共125页
点击查看更多>>
资源描述

《第5讲_回归分析_Matlab》由会员分享,可在线阅读,更多相关《第5讲_回归分析_Matlab(125页珍藏版)》请在金锄头文库上搜索。

1、第五讲 数据拟合回归分析,回归一词的由来,谢中华 天津科技大学,2018/8/22, 相关与回归分析概述 线性回归 非线性回归 回归分析的Matlab函数,主要内容:,变量间的关系,确定性关系或函数关系 y=f (x),人的身高和体重 家庭的收入和消费 商品的广告费和销售额 粮食的产量和施肥量 股票的价格和时间 学生的期中和期末考试成绩,不确定性关系,x,Y,实变量,随机变量,不确定性关系,一、 相关与回归分析概述,确定性关系与相关关系,2相关关系的图示,1)从一组样本数据出发,确定变量之间的数学关系式2)对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影

2、响显著,哪些不显著3)利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度,3什么是回归分析,(x,y),采集样本信息(xi,yi),回归分析,散点图,回归方程,回归方程的显著性检验,对现实进行预测与控制,4回归分析的流程,对于回归模型,我们假设:,可得到:,y 称为因变量,x 称为自变量, 称为随机扰动,a, b 称为待估计的回归参数,下标 i 表示第 i 个观测值。,若两个变量x, y之间有线性相关关系,其回归模型为,二、 一元线性回归分析,1回归模型,如果给出a 和b 的估计量分别为 ,则经验回归方程为:,一般地,,称为残差,,残差

3、可视为扰动 的“估计量”。,去掉回归模型中的扰动项,得理论回归方程为:,2回归方程,3一元线性回归图示,二元函数 的最小值点 称为a, b的最小二乘估计(简记为OLSE ).,记,其中,4回归系数的最小二乘估计,所以方程组有解,解得,其中,即最小二乘估计所得经验回归方程为,上面讨论了如何根据实验数据求得线性回归方程,然而,实际上,对于变量和的任意对观测值,只要不全相等,则无论变量 和 之间是否存在线性相关关系,都可根据上面介绍的方法求得一个线性回归方程。显然,这样写出的线性方程当且仅当变量 和 之间存在线性相关关系时才是有意义的;若不存在线性相关关系,则这样写出的线性方程就毫无意义了。为了使求

4、得的线性回归方程真正有意义, 就需要进行回归方程的显著性检验。,5回归方程的显著性检验,(1)因变量 y 的取值是不同的,y 取值的这种波动称为变差。变差来源于两个方面由于自变量 x 的取值不同造成的除 x 以外的其他因素(如x 对 y的非线性影响、测量误差等)的影响 (2)对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示,离差平方和分解, 离差平方和分解示意图,两端平方后求和有,从图上看有,SST = SSR + SSE自由度( df ) n-1 = 1 + n-2,总变差平方和 (SST),回归平方和 (SSR),残差平方和 (SSE), 三个平方和的关系,(1)

5、 总平方和(SST) 反映因变量的 n 个观察值与其均值的总离差 (2) 回归平方和(SSR) 反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和 (3) 残差平方和(SSE) 反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和, 三个平方和的意义,回归平方和占总离差平方和的比例,(1) 反映回归直线的拟合程度 (2) 取值范围在 0 , 1 之间 (3) r2 1,说明回归方程拟合的越好;r20,说明回归方程拟合的越差 (4) 判定系数等于相关系数的平方,即r2(r)2,判定

6、系数 r2, 定义, 判定系数的意义,线性关系的检验(F 检验),(1) 提出假设,(2) 计算检验统计量F,(3) 确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F (1, n-2), 检验的步骤,H0:b=0 H1:b 0,(4) 作出决策:若FF ,拒绝H0;若Ft,拒绝H0若t t,拒绝H0; tt,接受H0, 回归系数的显著性检验 (步骤),(2) 计算检验的统计量,(1)根据自变量 x 的取值估计或预测因变量 y 的取值 (2)估计或预测的类型 点估计 y 的平均值的点估计 y 的个别值的点估计 区间估计 y 的平均值的置信区间估计 y 的个别值的预测区间估计,6利

7、用回归方程进行估计和预测,(2) 点估计值有 y 的平均值的点估计 y 的个别值的点估计,(1) 对于自变量 x 的一个给定值 x0 ,根据回归方程得到因变量 y 的一个估计值,点估计,(3) 在点估计条件下,平均值的点估计和个别值的的点估计是一样的,但在区间估计中则不同,利用估计的回归方程,对于自变量 x 的一个给定值 x0 , 求出因变量 y 的一个个别值的估计值 ,就是个别值的点估计,利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的一个估计值E(y0) ,就是平均值的点估计, y 的平均值的点估计, y 的个别值的点估计,(1) 点估计不能给出估计的精

8、度,点估计值与实际值之间是有误差的,因此需要进行区间估计 (2) 对于自变量 x 的一个给定值 x0,根据回归方程得到因变量 y 的一个估计区间 (3) 区间估计有两种类型 置信区间估计 预测区间估计,区间估计, y 的平均值的置信区间估计, 置信区间估计,其中: 为估计标准误差,利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值E(y0)的估计区间 ,这一估计区 间称为置信区间,E(y0) 在1-置信水平下的置信区间为, y 的个别值的预测区间估计, 预测区间估计,利用估计的回归方程,对于自变量 x 的一个给定值x0 ,求出因变量 y 的一个个别值的估计区间,

9、这一区间称 为预测区间,y0在1-置信水平下的预测区间为, 置信区间、预测区间、回归方程的图示,xp,y,x,x,预测上限,置信上限,预测下限,置信下限,y,(1)一个因变量与两个及两个以上自变量之间的回归 (2)描述因变量 y 如何依赖于自变量 x1 , x2 , xp 和误差项 的方程称为多元线性回归模型 (3)涉及 p 个自变量的多元线性回归模型可表示为,b0 ,b1,b2 ,bp是参数 是被称为误差项的随机变量y 是x1,,x2 , ,xp 的线性函数加上误差项 说明了包含在y里面但不能被p个自变量的线性关系所 解释的变异性,三、 多元线性回归分析,1回归模型, 对于 n 组实际观察数

10、据(yi ; xi1,,xi2 , ,xip ),(i=1,2,n),多元线性回归模型可表示为,(1) 自变量 x1,x2,xp是确定性变量,不是随机变量 (2) 随机误差项的期望值为0,且方差2 都相同 (3) 误差项是一个服从正态分布的随机变量,即N(0,2),且相互独立,2基本假定,描述 y 的平均值或期望值如何依赖于 x1, x1 ,xp的 方程称为多元线性回归方程,多元线性回归方程的形式为,b1,b2,bp称为偏回归系数bi 表示假定其他变量不变,当 xi 每变动一个单位时,y的平均平均变动值,3回归方程,E( y ) = 0+ 1 x1 + 2 x2 + p xp,4. 多元线性回

11、归方方程的直观解释,(2)根据最小二乘法的要求,可得求解各回归参数的标准方程如下,(1)使因变量的观察值与估计值之间的离差平方和达到最小来求得 。即,5. 参数的最小二乘法,整理得,或矩阵形式,其中,解得,(1) 回归平方和占总离差平方和的比例,(2) 反映回归平面的拟合程度 (3) 取值范围在 0 , 1 之间 (4) R2 1,说明回归方程拟合的越好; R20,说明回归方程拟合的越差 (5) 等于多重(复)相关系数的平方,即R2=(R)2,6. 多重判定系数 R2,(1) 由于增加自变量将影响到因变量中被估计的回归方程所解释的变异性的数量,为避免高估这一影响,需要用自变量的数目去修正R2的

12、值(2) 用n表示观察值的数目,p表示自变量的数目,修正的多重判定系数的计算公式可表示为,7. 修正的多重判定系数 R2,(1) 检验因变量与所有的自变量和之间是否存在一个显著的线性关系,也被称为总体的显著性检验(2) 检验方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用 F 检验来分析二者之间的差别是否显著 如果是显著的,因变量与自变量之间存在线性关系 如果不显著,因变量与自变量之间不存在线性关系,8. 线性关系的检验,(1) 提出假设 H0:12p=0 线性关系不显著 H1:1,2,p至少有一个不等于0,(2) 计算检验统计量F,(3) 确定显著性水平和分子自由度p

13、、分母自由度n-p-1找出临界值F (4) 作出决策:若FF ,拒绝H0;若FF,接受H0,回归方程的显著性检验 (步骤),(1) 如果F检验已经表明了回归模型总体上是显著的,那么回归系数的检验就是用来确定每一个单个的自变量 xi 对因变量 y 的影响是否显著 (2) 对每一个自变量都要单独进行检验 (3) 应用 t 检验 (4) 在多元线性回归中,回归方程的显著性检验不再等价于回归系数的显著性检验,回归系数的显著性检验,1. 提出假设 H0: bi = 0 (自变量 xi 与 因变量 y 没有线性关系) H1: bi 0 (自变量 xi 与 因变量 y有线性关系),3. 确定显著性水平,并进行决策 tt,拒绝H0; tt,接受H0, 回归系数的显著性检验(步骤),2. 计算检验的统计量 t,其中cii 为矩阵,的主对角线上的第 i +1个元素, 因变量 y 与 x 之间不是线性关系 可通过变量代换转换成线性关系 用最小二乘法求出参数的估计值 并非所有的非线性模型都可以化为线性模型 对于不能化为线性模型的非线性模型,应直接用非线性最小二乘法处理,四、 非线性回归,线性化方法 两端取对数得:lny = ln + x 令:y = lny,则有y = ln + x,基本形式:,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 研究报告 > 综合/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号