回归分析PPT课件

上传人:优*** 文档编号:149227452 上传时间:2020-10-25 格式:PPT 页数:102 大小:4.62MB
返回 下载 相关 举报
回归分析PPT课件_第1页
第1页 / 共102页
回归分析PPT课件_第2页
第2页 / 共102页
回归分析PPT课件_第3页
第3页 / 共102页
回归分析PPT课件_第4页
第4页 / 共102页
回归分析PPT课件_第5页
第5页 / 共102页
点击查看更多>>
资源描述

《回归分析PPT课件》由会员分享,可在线阅读,更多相关《回归分析PPT课件(102页珍藏版)》请在金锄头文库上搜索。

1、.,1,数学建模培训插值与拟合,王惠群 2015年9月2日, 线性回归 非线性回归 回归分析的Matlab函数,主要内容:,主要掌握: 回归分析的基本理论 用数学软件求解回归分析问题,.,3,理学院,在实际生活中,某种现象的发生与某种结果的得出往往与其他某个或某些因素有关,但这种关系又不是确定的,只是从数据上可以看出有“有关”的趋势。 回归分析就是用来研究具有这种特征的变量之间的相关关系的。,血压和体重指数间的关系,.,4,1)从一组样本数据出发,确定变量之间的数学关系式 2)对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著 3)利用所

2、求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度,什么是回归分析?,.,5,理学院,涉及的自变量的多少分为回归和多重回归分析; 因变量的多少分为一元回归分析和多元回归分析; 自变量和因变量之间的关系类型分为线性回归分析和非线性回归分析,一元线性回归最简单的情形是只包括一个自变量和一个因变量,且它们大体上有线性关系,这叫一元线性回归,即模型为Y=a+bX+,这里X是自变量,Y是因变量,是随机误差。 正态线性模型若进一步假定随机误差遵从正态分布,就叫做正态线性模型。,回归分析的分类,.,6,理学院,一般的情形,有多个自变量和一个因变量(多元回归)

3、,因变量的值可以分解为两部分:一部分是由自变量的影响,即表示为自变量的函数,其中函数形式已知,但含一些未知参数;另一部分是由于其他未被考虑的因素和随机性的影响,即随机误差。 当函数形式为未知参数的线性函数时,称线性回归分析模型; 当函数形式为未知参数的非线性函数时,称为非线性回归分析模型; 当回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,称为多重线性回归分析模型。,.,7,理学院,从一组数据出发确定某些变量之间的定量关系式,即建立数学模型并估计其中的未知参数。估计参数的常用方法是最小二乘法。 对这些关系式的可信程度进行检验。 在许多自变量共同影响着一个因变量的关系中,判

4、断哪个(或哪些)自变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量选入模型中,而剔除影响不显著的变量,通常用逐步回归、向前回归和向后回归等方法。 利用所求的关系式对某一生产过程进行预测或控制。回归分析的应用是非常广泛的,统计软件包使各种回归方法计算十分方便。,回归分析的主要内容,.,8,理学院,在回归分析中,把变量分为两类。一类是因变量,它们通常是实际问题中所关心的一类指标,通常用Y表示;而影响因变量取值的的另一变量成为自变量,用X来表示。 回归分析研究的主要问题是: (1)确定Y与X间的定量关系表达式。这种表达式成为回归方程; (2)对求得的回归方程的可信度进行检验; (3

5、)判断自变量X对Y有无影响; (4)利用所求得的回归方程进行预测和控制。,.,9,理学院,1)根据预测目标,确定自变量和因变量 明确预测的具体目标,也就确定了因变量。如预测具体目标是下一年度的销售量,那么销售量Y就是因变量。通过市场调查和查阅资料,寻找与预测目标的相关影响因素,即自变量,并从中选出主要的影响因素。 2)建立回归预测模型 依据自变量和因变量的历史统计资料进行计算,在此基础上建立回归分析方程,即回归分析预测模型。,回归分析的步骤,.,10,理学院,3)进行相关分析 回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。只有当变量与因变量确实存在某

6、种关系时,建立的回归方程才有意义。因此,作为自变量的因素与作为因变量的预测对象是否有关,相关程度如何,以及判断这种相关程度的把握性多大,就成为进行回归分析必须要解决的问题。进行相关分析,一般要求出相关关系,以相关系数的大小来判断自变量和因变量的相关的程度。,.,11,理学院,4)检验回归预测模型,计算预测误差 回归预测模型是否可用于实际预测,取决于对回归预测模型的检验和对预测误差的计算。回归方程只有通过各种检验,且预测误差较小,才能将回归方程作为预测模型进行预测。 5)计算并确定预测值 利用回归预测模型计算预测值,并对预测值进行综合分析,确定最后的预测值。,.,12,对于回归模型,我们假设:,

7、可得到:,y 称为因变量,x 称为自变量, 称为随机误差,a, b 称为待估计的回归参数,下标 i 表示第 i 个观测值。,若两个变量x, y之间有线性相关关系,其回归模型为:,一元线性回归分析,1回归模型,理学院,.,13,例 测16名成年女子的身高与腿长所得数据如下:,以身高x为横坐标,以腿长y为纵坐标将这些数据点(xI,yi)在平面直角坐标系上标出.,散点图,腿长Y随身高X的增加而增大且呈直线趋势,但并非每个点都恰好在一条直线上,这与两变量间严格的直线函数关系不同。,.,14,如果给出a 和b 的估计量分别为 ,则经验回归方程为:,一般地,,称为残差,,残差 可视为误差 的“估计量”。,

8、去掉回归模型中的扰动项,得理论回归方程为:,2回归方程,理学院,.,15,理学院,3一元线性回归图示,.,16,二元函数 的最小值点 称为a, b的最小二乘估计,记,4回归系数的最小二乘估计,最小二乘法就是选择a和b的估计值 使得二元函数Q 能够最接近 ,即,等于 的最小值。,理学院,.,17,上面讨论了如何根据实验数据求得线性回归方程,然而,实际上,对于变量 和 的任意对观测值,只要不全相等,则无论变量 和 之间是否存在线性相关关系,都可根据上面介绍的方法求得一个线性回归方程。显然,这样写出的线性方程当且仅当变量 和 之间存在线性相关关系时才是有意义的;若不存在线性相关关系,则这样写出的线性

9、方程就毫无意义了。为了使求得的线性回归方程真正有意义,就需要进行回归方程的显著性检验。,5回归方程的显著性检验,理学院,.,18,(1)因变量y的取值是不同的,y取值的这种波动称为变差。变差来源于两个方面由于自变量x的取值不同造成的除x以外的其他因素(如x对 y的非线性影响、测量误差等)的影响 (2)对一个具体的观测值来说, 变差的大小可以通过该实际 观测值与其均值之差 来表示,离差平方和分解,理学院,.,19,两边平方后求和有,从图上看有,SST = SSR + SSE 自由度( df ) n-1 = 1 + n-2,总变差平方和 (SST),回归平方和 (SSR),残差平方和 (SSE),

10、三个平方和的关系,理学院,.,20,(1) 总平方和(SST) 反映因变量的n个观察值与其均值的总离差 (2) 回归平方和(SSR) 反映自变量x的变化对因变量y取值变化的影响,或者说,是由于 x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和 (3) 残差平方和(SSE) 反映除x以外的其他因素对y取值的影响,也称为不可解释的 平方和或剩余平方和,三个平方和的意义,理学院,.,21,回归方程的显著性检验,理学院,对回归方程 的显著性进行检验,归结为对假设: H0:b=0 H1:b0 的检验。 假设 H0:b=0被拒绝,则回归显著,认为y与x存在线性关系,所求的线性回归方程有意义;否

11、则回归不显著,y与x的关系不能用一元线性回归模型来描述,所得的回归方程也无意义。,.,22,线性关系的检验(F 检验),(1) 提出假设,(2) 计算检验统计量F,(3) 确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值 F (1, n-2), 检验的步骤,H0:b=0 H1:b 0,(4) 作出决策:若FF ,拒绝H0;若FF ,接受H0,如果拒绝 H0,两个变量之间存在显著线性关系 如果接受H0,两个变量间不存在显著线性关系,理学院,.,23,(1) 检验两个变量之间是否存在线性相关关系,计算检验的统计量:,确定显著性水平,并作出决策 若t t,拒绝H0 若t t,接受H0,

12、线性关系的检验(t 检验),(2) 等价于对回归系数b的检验,(3) 采用t检验,(4) 检验的步骤为,提出假设:H0: ;H1: 0,理学院,式中 为回归的剩余标准差。,.,24, 计算检验的统计量:, 确定显著性水平,并作出决策 若t t,拒绝H0 若t t,接受H0,相关系数的显著性检验(t 检验),理学院,.,25,(1) 检验 x 与 y 之间是否具有线性关系,或者说,检验自变量 x 对因变量 y 的影响是否显著 (2),(3) 在一元线性回归中,等价于回归方程的显著性检验,回归系数的显著性检验(t 检验),理学院,(3) 在一元线性回归中,等价于回归方程的显著性检验,.,26,(1

13、) 提出假设 H0: b = 0 (没有线性关系) H1: b 0 (有线性关系),(3) 确定显著性水平,并进行决策 tt,拒绝H0; tt,接受H0, 回归系数的显著性检验 (步骤),(2) 计算检验的统计量,理学院,.,27,(1)根据自变量 x 的取值估计或预测因变量 y 的取值 (2)估计或预测的类型 点估计 y 的平均值的点估计 y 的个别值的点估计 区间估计 y 的平均值的置信区间估计 y 的个别值的预测区间估计,6利用回归方程进行估计和预测,理学院,.,28,理学院,点估计:,.,29,理学院,.,30,理学院,.,31,理学院,.,32,理学院,.,33,理学院,.,34,理

14、学院,多元线性回归分析,.,35,理学院,.,36,理学院,.,37,理学院,.,38,理学院,.,39,理学院,.,40,理学院,最小二乘法整理运算得到:,.,41,理学院,.,42,理学院,.,43,理学院,.,44,理学院,.,45,理学院,非线性回归分析, 因变量y与x之间不是线性关系 可通过变量代换转换成线性关系 用最小二乘法求出参数的估计值 并非所有的非线性模型都可以化为线性模型 对于不能化为线性模型的非线性模型,应直接 用非线性最小二乘法处理,.,46,理学院,通常选择的六类曲线如下:,1、指数函数 2、负指数函数 3、幂函数 4、双曲线函数 5、对数函数 6、S型曲线 7、多项

15、式曲线,.,47,理学院,.,48,理学院,.,49,理学院,.,50,理学院,.,51,理学院,.,52,理学院,.,53,理学院,.,54,理学院,回归分析的Matlab函数, 线性回归函数 多项式回归函数 非线性回归函数 逐步回归函数,.,55,理学院,.,56,理学院,.,57,理学院,.,58,理学院,例 考察15名不同程度的烟民的每日抽烟量、饮酒量(啤酒)与其心电图指标(zb)的对应数据,试建立心电图指标关于日抽烟量和日饮酒量的适合的回归模型。,.,59,理学院,.,60,理学院,画散点图的Matlab程序,xyz=30 10 280 25 11 260 35 13 330 40

16、14 400 45 14 410 20 12 170 18 11 210 25 12 280 25 13 300 23 13 290 40 14 410 45 15 420 48 16 425 50 18 450 55 19 470; plot3(xyz(:,1), xyz(:,2), xyz(:,3),o) grid on set(gca,color,none) xlabel(日抽烟量(x)/支); ylabel(日饮酒量(y)/升); zlabel(心电图指标(zb); set(gca,Xcolor,1 0 0,Ycolor,1 0 0,Zcolor,1 0 0),.,61,理学院,.,62,理学院,调用regress函数作回归分析的Matlab程序,x=xyz(:,1); y=xyz(:,2); z=x

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 专业基础教材

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号