《概率论与数理统计回归分析PPT课件》由会员分享,可在线阅读,更多相关《概率论与数理统计回归分析PPT课件(73页珍藏版)》请在金锄头文库上搜索。
1、 9.2 回归分析回归分析 回回归归分分析析是是针针对对两两个个或或两两个个以以上上具具有有相相关关关关系系的的变变量量,研研究究它它们们的的数数量量伴伴随随关关系系,并并通通过过一一定定的的数数学学表达式将这种关系描述出来,建立表达式将这种关系描述出来,建立回归模型回归模型 回回归归分分析析中中总总假假设设因因变变量量是是随随机机变变量量,自自变变量量可可以以是是随随机机变变量量也也可可以以是是一一般般变变量量(可可以以控控制制或或精精确确测测量量的变量)的变量) 我们只讨论自变量为一般变量的情况我们只讨论自变量为一般变量的情况 为为简简单单起起见见,以以后后的的所所有有随随机机变变量量及及
2、其其观观测测值值均均用用小写字母表示小写字母表示 第第9章章 相关分析与一元回归分析相关分析与一元回归分析9.2 回归分析回归分析 如如果果设设随随机机变变量量y是是因因变变量量,x1,x2,xn是是影影响响y的自变量,回归模型的一般形式为:的自变量,回归模型的一般形式为:y = f (x1,x2,xn) + 其其中中为为均均值值为为0的的正正态态随随机机变变量量,它它表表示示除除x1,x2,xn之外的随机因素对之外的随机因素对y的影响的影响 在在回回归归分分析析中中,当当只只有有一一个个自自变变量量时时,称称为为一一元元回回归归分分析析;当当自自变变量量有有两两个个或或两两个个以以上上时时,
3、称称为为多多元元回回归归分分析析;f是是线线性性函函数数时时,称称线线性性回回归归分分析析,所所建建回回归归模模型型称称为为线线性性回回归归模模型型;f是是非非线线性性函函数数时时,称称非非线性回归分析线性回归分析,所建回归模型称为,所建回归模型称为非线性回归模型非线性回归模型9.2 回归分析回归分析 线性回归模型的一般形式为:线性回归模型的一般形式为:其其中中, 0和和 i(i = 1,2,k)是是未未知知常常数数,称称为为回归系数,回归系数,实际中常假定实际中常假定 N(0, 2) 一元线性回归模型的一般形式为:一元线性回归模型的一般形式为:由由 N(0, 2)的假定,容易推出的假定,容易
4、推出y N( 0 + 1x, 2) 9.2 回归分析回归分析 本本章章主主要要讨讨论论一一元元线线性性回回归归分分析析和和可可化化为为线线性性回回归归的一元非线性回归分析的一元非线性回归分析 它它们们是是反反映映两两个个变变量量之之间间关关系系的的简简单单模模型型,但但从从中中可以了解到回归分析的基本思想、方法和应用可以了解到回归分析的基本思想、方法和应用9.2 回归分析回归分析9.2.1 一元线性回归分析一元线性回归分析 我们用一个例子来说明如何进行一元线性回归分析我们用一个例子来说明如何进行一元线性回归分析 为为了了研研究究合合金金钢钢的的强强度度和和合合金金中中含含碳碳量量的的关关系系,
5、专专业人员收集了业人员收集了12组数据如表组数据如表9.1所示所示试试根根据据这这些些数数据据进进行行合合金金钢钢的的强强度度y(单单位位:107Pa)与合金中含碳量与合金中含碳量x(%)之间的回归分析之间的回归分析序号序号123456789101112含含碳碳量量x(%)0.100.110.120.130.140.150.160.170.180.200.210.23合合金金钢钢的的强强度度y(107Pa)42.043.045.045.045.047.549.053.050.055.055.060.09.2.1 一元线性回归分析一元线性回归分析 为为了了研研究究这这些些数数据据中中所所蕴蕴含含
6、的的规规律律性性,首首先先在在Excel中由中由12对数据作出散点图,如图对数据作出散点图,如图9.7所示所示从从图图看看到到,数数据据点点大大致致落落在在一一条条直直线线附附近近,这这告告诉诉我我们们变变量量x和和y之之间间大大致致可可看看作作线线性性关关系系从从图图中中还还看看到到,这这些些点点又又不不完完全全在在一一条条直直线线上上,这这表表明明x和和y的的关关系系并并没有确切到给定没有确切到给定x就可以唯一确定就可以唯一确定y的程度的程度9.2.1 一元线性回归分析一元线性回归分析事实上,还有许多其它随机因素对事实上,还有许多其它随机因素对y产生影响产生影响 如如果果只只研研究究x和和
7、y的的关关系系,可可以以考考虑虑建建立立一一元元线线性性回回归模型:归模型: (9.1)其中其中是除含碳量是除含碳量x外其它诸多随机因素对合金钢强度外其它诸多随机因素对合金钢强度y的综合影响,假定它是零均值的正态随机变量的综合影响,假定它是零均值的正态随机变量9.2.1 一元线性回归分析一元线性回归分析 (9.1) 由由(9.1)式,不难算得式,不难算得y的数学期望的数学期望: (9.2)该该式式表表示示当当x已已知知时时,可可以以精精确确地地算算出出E(y)称称方方程程(9.2)为为y关于关于x的的回归方程回归方程 现现对对变变量量x, y进进行行了了n次次独独立立观观察察,得得样样本本(x
8、i,yi) (i = 1,2,n)据据(9.1)式,此样本可由方程式,此样本可由方程 (9.3)来来描描述述这这里里i是是第第i次次观观测测时时的的值值,它它是是不不能能观观测测到的到的9.2.1 一元线性回归分析一元线性回归分析由由于于各各次次观观测测独独立立,i看看作作是是相相互互独独立立与与同同分分布布的的随随机变量即有机变量即有 yi = 0 + 1xi + i, i相互独立,且相互独立,且 i N(0, 2), i = 1,2,n (9.4)(9.4)给给出出了了样样本本(x1,y1),(x2,y2),(xn,yn)的的概概率率性性质质它它是是对对理理论论模模型型进进行行统统计计推推
9、断断的的依依据据,也也常常称称(9.4)式为一元线性回归模型式为一元线性回归模型9.2.1 一元线性回归分析一元线性回归分析 要要建建立立一一元元线线性性回回归归模模型型,首首先先利利用用n组组独独立立观观测测数数据据(x1,y1),(x2,y2),(xn,yn)来来估估计计 0和和 1,以估计值以估计值 和和 分别代替分别代替(9.2)式中的式中的 0和和 1,得到,得到 (9.5)由由于于此此方方程程的的建建立立有有赖赖于于通通过过观观察察或或试试验验积积累累的的数数据据,所以称其为所以称其为经验回归方程(经验回归方程(或或经验公式)经验公式) 经经验验回回归归方方程程也也简简称称为为回回
10、归归方方程程,其其图图形形称称为为回回归归直线直线 当当给给定定x = x0时时,称称 为为拟拟合合值值(预预测测值值或回归值)或回归值)9.2.1 一元线性回归分析一元线性回归分析那么,如何利用那么,如何利用n组独立观察数据来估计组独立观察数据来估计 0和和 1呢?呢?一般常用最小二乘估计法和最大似然估计法一般常用最小二乘估计法和最大似然估计法下面只介绍下面只介绍 0和和 1的最小二乘估计法的最小二乘估计法1参数参数 0和和 1的最小二乘估计的最小二乘估计 设设对对模模型型(9.1)中中的的变变量量x,y进进行行了了n次次独独立立观观察察,得得样样本本(xi,yi) (i = 1,2,n)由
11、由(9.3)式式知知随随机机误差误差 i = yi ( 0 + 1xi) 最最小小二二乘乘法法的的思思想想是是:由由xi,yi估估计计 0, 1时时,使使误误差平方和差平方和达到最小的达到最小的 和和 ,分别作为,分别作为 0, 1的估计,并称的估计,并称 和和 为为 0和和 1的的最小二乘估计最小二乘估计 9.2.1 一元线性回归分析一元线性回归分析1参数参数 0和和 1的最小二乘估计的最小二乘估计通常可采用微积分中求极值的办法,求出使通常可采用微积分中求极值的办法,求出使达到最小的达到最小的 和和 即解方程:即解方程: 或或 (9.6)9.2.1 一元线性回归分析一元线性回归分析1参数参数
12、 0和和 1的最小二乘估计的最小二乘估计即解方程:即解方程: (9.6)或或 (9.7)称称(9.6)或或(9.7)为为正则方程正则方程9.2.1 一元线性回归分析一元线性回归分析1参数参数 0和和 1的最小二乘估计的最小二乘估计解正则方程得解正则方程得 (9.8)其中其中 从而得到回归方程:从而得到回归方程:9.2.1 一元线性回归分析一元线性回归分析1参数参数 0和和 1的最小二乘估计的最小二乘估计 (9.8) 因为因为 ,(9.8)式又可以写成式又可以写成9.2.1 一元线性回归分析一元线性回归分析1参数参数 0和和 1的最小二乘估计的最小二乘估计 可可以以证证明明,用用最最小小二二乘乘
13、法法求求出出的的估估计计 和和 ,分分别别是是 0, 1的的无无偏偏估估计计,它它们们都都是是y1,y2,yn的的线线性函数性函数 而而且且在在所所有有y1,y2,yn的的线线性性函函数数中中,最最小小二二乘估计的方差最小乘估计的方差最小9.2.1 一元线性回归分析一元线性回归分析【例例9.3】建建立立表表9.1中中合合金金钢钢的的强强度度y与与含含碳碳量量x之之间间的回归方程,并计算参数的回归方程,并计算参数 0和和 1的最小二乘估计的最小二乘估计 解:解:首先计算首先计算 参数参数 1和和 0的最小二乘估计分别为的最小二乘估计分别为因此,回归方程为因此,回归方程为 9.2.1 一元线性回归
14、分析一元线性回归分析2. 回归方程的显著性检验回归方程的显著性检验 对任意两个变量的一组观测数据对任意两个变量的一组观测数据(x1,y1),(x2,y2),(xn,yn)都都可可以以用用最最小小二二乘乘法法得得到到回回归归方方程程 ,但但这这样得到的回归方程不一定都有意义样得到的回归方程不一定都有意义如如果果实实际际上上模模型型(9.1)中中的的 ,用用最最小小二二乘乘法法得得到到的的 就没有意义这时称回归方程就没有意义这时称回归方程不显著不显著;如如果果 , 就就有有意意义义,这这时时称称回回归归方方程程是是显著显著的的 9.2.1 一元线性回归分析一元线性回归分析2. 回归方程的显著性检验
15、回归方程的显著性检验 综综上上,一一元元线线性性回回归归方方程程的的显显著著性性检检验验,就就是是要要根据观测数据检验假设根据观测数据检验假设H0: 1 = 0 H1: 1 0 如如果果检检验验结结果果拒拒绝绝原原假假设设H0,说说明明一一元元线线性性回回归归方方程程是是显显著著的的,否否则则,表表明明y与与x线线性性关关系系不不显显著著,不不需要建立这种模型了需要建立这种模型了 在在一一元元线线性性回回归归方方程程的的显显著著性性检检验验中中,有有多多种种等等价价的检验方法这里介绍常用的的检验方法这里介绍常用的F检验法检验法 9.2.1 一元线性回归分析一元线性回归分析2. 回归方程的显著性
16、检验回归方程的显著性检验 采采用用方方差差分分析析的的思思想想,我我们们研研究究影影响响观观测测值值yi的的原原因因 注注意意到到回回归归方方程程 只只反反映映了了x对对y的的影影响响,所以,所以,拟合值拟合值 是观测值是观测值yi中只受中只受xi影响的那一部分影响的那一部分 而而 则则是是除除去去xi的的影影响响后后,受受其其它它种种种种因因素素影影响响的的部部分分,故故将将 称称为为残残差差于于是是,观观测测值值yi可可以以分分解为两部分解为两部分 和和 另外,另外, 也可分解为两部分:也可分解为两部分:记记9.2.1 一元线性回归分析一元线性回归分析2. 回归方程的显著性检验回归方程的显
17、著性检验记记SST反映了观测数据总的波动,称为反映了观测数据总的波动,称为总变差平方和总变差平方和SSM反反映映了了由由于于自自变变量量x的的变变化化影影响响因因变变量量y的的差差异异,体现了体现了x对对y的影响,称为的影响,称为回归平方和回归平方和;SSE反映了种种其它因素对反映了种种其它因素对y的影响的影响, 称为称为残差平方和残差平方和 注意到注意到 满足正则方程满足正则方程(9.6),有,有 即有即有9.2.1 一元线性回归分析一元线性回归分析2. 回归方程的显著性检验回归方程的显著性检验由由 及及 ,得,得于是于是从而从而 = SSM + SSE即即总总变变差差平平方方和和SST可可
18、以以分分解解为为两两部部分分:回回归归平平方方和和SSM与残差平方和与残差平方和SSE9.2.1 一元线性回归分析一元线性回归分析2. 回归方程的显著性检验回归方程的显著性检验 SSM / SSE为为x的的影影响响部部分分与与随随机机因因素素影影响响部部分分的的相相对比值对比值 若若它它不不是是显显著著地地大大,表表明明回回归归方方程程中中的的x并并不不是是影影响响y的的一一个个重重要要的的因因素素,于于是是由由数数据据得得到到的的回回归归方方程程就没有什么意义;就没有什么意义; 如如果果它它显显著著地地大大,表表明明x的的作作用用显显著著地地比比随随机机因因素素大,这样方程就有意义大,这样方
19、程就有意义 所以我们考虑用所以我们考虑用SSM / SSE构造检验统计量构造检验统计量9.2.1 一元线性回归分析一元线性回归分析2. 回归方程的显著性检验回归方程的显著性检验考考虑虑用用SSM / SSE构构造造检检验验统统计计量量可可以以证证明明,当当原原假设假设H0成立时,即成立时,即 1 = 0时,有时,有将将 作为检验统计量,作为检验统计量,H0的拒绝域为的拒绝域为9.2.1 一元线性回归分析一元线性回归分析2. 回归方程的显著性检验回归方程的显著性检验若若F统计量的观测值为统计量的观测值为F0,则,则P值为值为 回回归归方方程程的的显显著著性性检检验验结结果果,通通常常汇汇总总为为
20、方方差差分分析析表,如表表,如表9.2所示所示 表表9.2 方差分析表方差分析表9.2.1 一元线性回归分析一元线性回归分析来源平方和自由度平均平方和F统计量P值回归SSM1SSMP残差SSEn 2SSE / (n 2)总计SSTn 1【实实验验9.1】使使用用Excel建建立立表表9.1中中合合金金钢钢的的强强度度y与与含含碳碳量量x之之间间的的回回归归方方程程,并并对对所所建建立立的的回回归归方方程程作作显著性检验显著性检验 实验准备:实验准备: (1) 函数函数SLOPE的使用格式:的使用格式:SLOPE(known_ys, known_xs) 功功能能:返返回回回回归归直直线线的的斜斜
21、率率其其中中known_ys为为因因变变量量观观测测数数据据或或单单元元格格区区域域known_xs为为自自变变量量观观测数据或单元格区域测数据或单元格区域9.2.1 一元线性回归分析一元线性回归分析【实实验验9.1】使使用用Excel建建立立表表9.1中中合合金金钢钢的的强强度度y与与含含碳碳量量x之之间间的的回回归归方方程程,并并对对所所建建立立的的回回归归方方程程作作显著性检验显著性检验 实验准备:实验准备: (2) 函数函数INTERCEPT的使用格式:的使用格式:INTERCEPT(known_ys,known_xs) 功功能能:返返回回回回归归直直线线的的截截距距其其中中known
22、_ys为为因因变变量量观观测测数数据据或或单单元元格格区区域域known_xs为为自自变变量量观观测数据或单元格区域测数据或单元格区域9.2.1 一元线性回归分析一元线性回归分析实验步骤实验步骤: (1) 计算参数计算参数 1,在单元格,在单元格B14中输入公式:中输入公式:=SLOPE(C2:C13,B2:B13) (2) 计算参数计算参数 0,在单元格,在单元格B15中输入公式:中输入公式:=INTERCEPT(C2:C13,B2:B13)即可得到即可得到 0, 1的估计值,如图的估计值,如图9.8(a)所示所示 9.2.1 一元线性回归分析一元线性回归分析 (a) (b) 图图9.8 0
23、, 1的估计值与回归方程的显著性检验的估计值与回归方程的显著性检验据此得到回归方程:据此得到回归方程:注注:例例9.3中中结结果果与与此此方方程程有有些些出出入入,原原因因是是计计算算时时的舍入误差所致的舍入误差所致9.2.1 一元线性回归分析一元线性回归分析 (3) 计算回归值,在单元格计算回归值,在单元格D2中输入公式:中输入公式:=B$15+B$14*B2 将单元格将单元格D2中公式复制到单元格区域:中公式复制到单元格区域:D3:D13如图如图9.8(b) (4) 计计算算y1,y2,yn的的总总变变差差平平方方和和SST、回回归归平方和平方和SSM和残差平方和和残差平方和SSE: 计算
24、计算SST,在单元格,在单元格B16中输入公式:中输入公式:= DEVSQ(C2:C13)9.2.1 一元线性回归分析一元线性回归分析 计算计算SSE,在单元格,在单元格B17中输入公式:中输入公式:= SUMXMY2(C2:C13,D2:D13) 计算计算SSM,在单元格,在单元格B18中输入公式:中输入公式:= B16-B17 5) 计算检验统计量计算检验统计量F和检验和检验P值:值: 计算计算F,在单元格,在单元格B19中输入公式:中输入公式:=B18/B17*10 计算计算P,在单元格,在单元格B20中输入公式:中输入公式:=FDIST(B19,1,10) 得得到到检检验验P值值,如如
25、图图9.8(c)P = 7.59 10-8 0.05,拒绝原假设,故拒绝原假设,故 1显著非显著非0,回归方程显著,回归方程显著9.2.1 一元线性回归分析一元线性回归分析 3. 回归方程的判定系数回归方程的判定系数 前前面面已已讲讲到到观观测测数数据据y1,y2,yn的的总总变变差差平平方方和和SST可可以以分分解解为为回回归归平平方方和和SSM与与残残差差平平方方和和SSE两部分,即两部分,即 SST = SSM + SSE 将将回回归归平平方方和和与与总总变变差差平平方方和和之之比比值值称称为为判判定定系系数数,记为记为R2,即,即 9.2.1 一元线性回归分析一元线性回归分析 3. 回
26、归方程的判定系数回归方程的判定系数 判判定定系系数数R2可可以以解解释释为为y1,y2,yn的的总总变变化化量量中被回归方程所描述的比例中被回归方程所描述的比例 R2越越大大,总总变变化化量量中中被被回回归归方方程程所所描描述述的的比比例例就就越越大大,说说明明自自变变量量对对因因变变量量的的影影响响越越大大从从而而残残差差平平方方和就越小,即拟合效果越好和就越小,即拟合效果越好 可可见见R2反反映映了了回回归归方方程程对对数数据据的的拟拟合合程程度度,是是衡衡量量拟合优劣的一个很重要的统计量拟合优劣的一个很重要的统计量 称称R2为回归方程的为回归方程的拟合优度拟合优度 9.2.1 一元线性回
27、归分析一元线性回归分析 3. 回归方程的判定系数回归方程的判定系数 如如果果所所有有观观测测数数据据的的散散点点都都落落在在回回归归直直线线上上,残残差差平方和平方和SSE = 0,R2 = 1,拟合是完全的;,拟合是完全的; 如如果果y的的变变换换与与x无无关关,x完完全全无无助助于于解解释释y的的变变差差,此时,此时, 则则R2 = 0 可见,可见,0 R2 1 R2越越接接近近于于1,表表明明回回归归平平方方和和占占总总变变差差平平方方和和的的比比例例就就越越大大,回回归归直直线线与与各各观观测测点点越越接接近近,用用x解解释释y的的变变差差部部分分就就越越多多,回回归归直直线线的的拟拟
28、合合程程度度就就越越好好;反反之,之,R2越接近于越接近于0,回归直线的拟合程度就越差,回归直线的拟合程度就越差9.2.1 一元线性回归分析一元线性回归分析 在在一一元元回回归归模模型型中中,可可以以证证明明R恰恰好好是是由由(xi,yi),i=1,2,n计算得到的样本相关系数计算得到的样本相关系数r, 即有即有 事实上,由于事实上,由于 由由(9.8)式,式, 所以所以 ,于是,于是9.2.1 一元线性回归分析一元线性回归分析【实实验验9.2】使使用用Excel画画出出表表9-1中中合合金金钢钢的的强强度度y与与含碳量含碳量x之间的回归直线之间的回归直线, 并计算回归方程的拟合优度并计算回归
29、方程的拟合优度 (1) 在在Excel中画出中画出y与与x之间的散点图之间的散点图, 如图如图9.7所示所示 (2) 用鼠标右键单击散点图中的数据点,在弹出的用鼠标右键单击散点图中的数据点,在弹出的快捷菜单中选择快捷菜单中选择“添加趋势线添加趋势线”,如图,如图9.9所示所示 (3) 在打开的在打开的“添加趋势添加趋势线线”对话框中,对话框中,“类型类型”取取默认的默认的“线性线性”;9.2.1 一元线性回归分析一元线性回归分析 在在“选选项项”选选项项卡卡中中,修修改改“趋趋势势预预测测”中中“前前推推”和和“倒倒推推”为为0.1,选选中中“显显示示公公式式”和和“显显示示R平平方方值值”复
30、复选选框框,如图如图9.10所示单击所示单击“确定确定”按钮按钮 得回归直线、回归方程与拟合优度得回归直线、回归方程与拟合优度,如图如图9.11所示所示9.2.1 一元线性回归分析一元线性回归分析【实实验验9.2】使使用用Excel画画出出表表9.1中中合合金金钢钢的的强强度度y与与含碳量含碳量x之间的回归直线之间的回归直线, 并计算回归方程的拟合优度并计算回归方程的拟合优度 回归直线、回归方程与拟合优度回归直线、回归方程与拟合优度, 如图如图9.11所示所示 图中显示,回归直线的方程为图中显示,回归直线的方程为方程的拟合优度为方程的拟合优度为0.95039.2.1 一元线性回归分析一元线性回
31、归分析 4. 误差方差的估计误差方差的估计 在一元线性回归模型在一元线性回归模型y = 0 + 1x + , N(0, 2)中中,随随机机误误差差 的的大大小小可可由由它它的的方方差差 2衡衡量量, 2越越小小,回归方程拟合数据的程度就越好回归方程拟合数据的程度就越好 如何估计如何估计 2? 9.2.1 一元线性回归分析一元线性回归分析 4. 误差方差的估计误差方差的估计 由由观观测测值值(x1,y1),(x2,y2),(xn,yn),通通过过参参数估计得到了回归方程数估计得到了回归方程 残差平方和残差平方和说明了实际观测值说明了实际观测值yi与估计值与估计值 之间的差异程度之间的差异程度我们
32、称我们称 为为均方残差(均方残差(也记为也记为MSE) 可以证明可以证明9.2.1 一元线性回归分析一元线性回归分析 4. 误差方差的估计误差方差的估计 因因此此,我我们们将将 作作为为随随机机误误差差的的标标准准差差 的的估估计计,称称 为为随随机机误误差差 的的估估计计标标准准误误差差,简简称称标准误差,标准误差,或叫或叫根均方残差根均方残差 估估计计标标准准误误差差 反反映映了了回回归归方方程程预预测测因因变变量量y时时预预测测误误差差的的大大小小,若若各各观观测测点点靠靠近近回回归归直直线线, 越越小小,回回归归直直线线对对各各观观测测点点的的代代表表性性就就越越好好,根根据据回回归归
33、方方程程进行预测也就越准确进行预测也就越准确 可见可见 也从一个侧面反映了回归直线的拟合程度也从一个侧面反映了回归直线的拟合程度 9.2.1 一元线性回归分析一元线性回归分析 4. 误差方差的估计误差方差的估计 在实验在实验9.1中,中,SSE = 17.133(见图(见图9.8)所以回归方程所以回归方程 的估计标准误差为的估计标准误差为9.2.1 一元线性回归分析一元线性回归分析 5. 残差分析残差分析 在在一一元元线线性性回回归归模模型型(9.4)式式中中假假定定了了误误差差 i(i=1,2,n)的正态性、独立性和同方差性)的正态性、独立性和同方差性 其其中中,误误差差 i = yi (
34、0 + 1xi) (i1,2,n)是是未知的,不可观测的未知的,不可观测的 若所建回归方程若所建回归方程 合适,残差合适,残差 可可近近似似看看做做 i (i1,2,n) ,即即 应应基基本本上反映未知误差上反映未知误差 i的上述特性的上述特性 利利用用残残差差 (i1,2,n)的的特特征征反反过过来来考察原模型的合理性就是残差分析的基本思想考察原模型的合理性就是残差分析的基本思想 9.2.1 一元线性回归分析一元线性回归分析 5. 残差分析残差分析 在在将将回回归归方方程程应应用用于于实实际际之之前前必必须须进进行行残残差差分分析析,这这是是十十分分重重要要的的一一个个环环节节如如果果残残差
35、差基基本本符符合合模模型型中中对对误误差差的的假假定定,才才能能最最终终认认为为所所选选模模型型是是合合适适的的,所所建建回回归归方方程程是是可可行行的的,可可以以用用于于预预测测和和控控制制,否否则则,所所选选模模型型可可能能不不合合适适,需需要要改改进进,所所建建回回归归方方程程也也不不能应用于实际能应用于实际 残残差差的的正正态态性性检检验验可可以以通通过过第第八八章章所所讲讲分分布布拟拟合合检检验验法法进进行行检检验验,也也可可以以用用频频率率检检验验、残残差差图图分分析析等等方方法法进进行行检检验验下下面面简简单单介介绍绍一一下下残残差差正正态态性性的的频频率率检检验及残差图分析方法
36、验及残差图分析方法9.2.1 一元线性回归分析一元线性回归分析 5. 残差分析残差分析 (1) 残差正态性的频率检验残差正态性的频率检验 残残差差正正态态性性的的频频率率检检验验是是一一种种很很直直观观的的检检验验方方法法其其基基本本思思想想是是将将残残差差落落在在某某范范围围的的频频率率与与正正态态分分布布在在该该范范围围的的概概率率(或或称称为为理理论论频频率率)相相比比较较,通通过过二二者者之间偏差的大小评估残差的正态性之间偏差的大小评估残差的正态性 9.2.1 一元线性回归分析一元线性回归分析 5. 残差分析残差分析 在回归模型中,若假定在回归模型中,若假定 i N(0, 2),则,则
37、(i1,2,n)由于均方残差由于均方残差(MSE)是是 2的无偏估计的无偏估计因因此此,当当n较较大大时时, (i1,2,n)可可近近似似认认为为是取自标准正态分布总体的样本是取自标准正态分布总体的样本 称称 (i1,2,n)为为标准化残差标准化残差9.2.1 一元线性回归分析一元线性回归分析 5. 残差分析残差分析 由由于于服服从从N(0,1)分分布布的的随随机机变变量量取取值值在在(1,1)内内的的概概率率约约为为0.68,在在(1.5,1.5)内内的的概概率率约约为为0.87,在在(2,2)内的概率约为内的概率约为0.95等等等等 因因此此理理论论上上, 标标准准化化残残差差 (i1,2
38、,n)中中有有大大约约68应应在在(1,1)内内, 87应应在在(1.5,1.5)内内, 95应应在在(2, 2)内内等等等等如如果果残残差差在在某某些些区区间间内内的的频频率率与与上上述述理理论论频频率率有有较较大大的的偏偏差差,则则有有理理由由怀怀疑疑 ,从而从而 i (i1,2,n)的正态性假定的合理性的正态性假定的合理性. 用用这这种种方方法法检检验验残残差差的的正正态态性性是是十十分分方方便便的的在在实实际应用中,一般取二三个具有代表性的区间即可际应用中,一般取二三个具有代表性的区间即可9.2.1 一元线性回归分析一元线性回归分析5. 残差分析残差分析 (2) 残差图分析残差图分析
39、凡凡是是以以残残差差为为纵纵坐坐标标,而而以以观观测测值值yi,拟拟合合值值 ,自自变变量量xi(i = 1,2,n)或或序序号号、观观测测时时间间等等为为横坐标的散点图,均称为横坐标的散点图,均称为残差图残差图 可可以以通通过过残残差差图图对对误误差差项项的的正正态态性性、等等方方差差性性、独独立立性性及及对对模模型型中中是是否否应应该该包包含含自自变变量量的的高高次次项项、观观测测值中是否有异常值存在等作出直观的考察值中是否有异常值存在等作出直观的考察 9.2.1 一元线性回归分析一元线性回归分析5. 残差分析残差分析 (2) 残差图分析残差图分析 如果线性回归模型的假定成立,标准化残差如
40、果线性回归模型的假定成立,标准化残差(i=1,2,n)应应相相互互独独立立且且近近似似服服从从N(0,1),那那么么残残差差图图中中绝绝大大多多数数散散点点(95%)应应随随机机地地分分布布在在2到到+2的的带带子子里里这这样样的的残残差差图图称称为为合合适适的的残残差差图图,如如图图9-12左左 9.2.1 一元线性回归分析一元线性回归分析5. 残差分析残差分析 (2) 残差图分析残差图分析 图图9.12(b)中中表表明明残残差差的的方方差差随随自自变变量量的的增增大大而而增增大大,不不是是常常数数图图9.12(c)散散点点分分布布有有二二次次趋趋势势,表表明明回回归归模模型型不不合合适适,
41、可可以以考考虑虑在在回回归归模模型型中中加加入入自自变变量量的二次项,建立非线性回归方程的二次项,建立非线性回归方程9.2.1 一元线性回归分析一元线性回归分析【实实验验9.3】使使用用Excel数数据据分分析析功功能能对对表表9-1中中合合金金钢钢的强度的强度y与含碳量与含碳量x作一元线性回归分析作一元线性回归分析 设设例例9.3中中数数据据已已整整理理如如图图9.7所所示示,回回归归分分析析步步骤骤如下:如下: (1) 在在Excel主主菜菜单单中中选选择择“工工具具”“数数据据分分析析”,打打开开“数数据据分分析析”对对话话框框,在在“分分析析工工具具”列列表表中中选选择择“回回归归”选
42、项,单击选项,单击“确定确定”按钮按钮9.2.1 一元线性回归分析一元线性回归分析【实实验验9-3】使使用用Excel数数据据分分析析功功能能对对表表9-1中中合合金金钢钢的强度的强度y与含碳量与含碳量x作一元线性回归分析作一元线性回归分析 (2) 在在打打开开的的“回回归归”对对话话框框中中,依依次次输输入入“Y值值输输入入区区域域”和和“X值值输输入入区区域域”,选选中中“残残差差”和和“残残差差图图”,如图如图9-13所示,单击所示,单击“确定确定”按钮按钮9.2.1 一元线性回归分析一元线性回归分析得到回归分析的结果如图得到回归分析的结果如图9-14和和9-15所示所示 结果显示,回归
43、方程为:结果显示,回归方程为: 方方 程程 的的 拟拟 合合 优优 度度 R2为为 0.9503 F统统 计计 量量 的的 P值值=7.59 10-8 0.05,说明,说明 1显著非显著非0,回归方程显著,回归方程显著9.2.1 一元线性回归分析一元线性回归分析回归方程回归方程: 其其中中回回归归系系数数 1=132.90,意意味味着着含含碳碳量量每每增增加加0.01%,合金钢的强度平均增加,合金钢的强度平均增加1.329个个107Pa 从残差图可以看出,所建回归模型是合适的从残差图可以看出,所建回归模型是合适的9.2.1 一元线性回归分析一元线性回归分析 6利用回归方程进行估计和预测利用回归
44、方程进行估计和预测 在在回回归归方方程程通通过过各各种种检检验验后后,就就可可以以利利用用它它对对因因变变量的取值进行预测了量的取值进行预测了. 对对因因变变量量的的取取值值进进行行预预测测分分为为点点预预测测(点点估估计计)和和区间预测(区间估计)区间预测(区间估计) 点点预预测测是是根根据据回回归归方方程程代代入入自自变变量量的的值值,得得到到对对应应因因变变量量的的预预测测值值,而而区区间间预预测测则则是是在在点点预预测测的的基基础础上上,给出给定置信水平下的因变量的预测区间给出给定置信水平下的因变量的预测区间 9.2.1 一元线性回归分析一元线性回归分析 6利用回归方程进行估计和预测利
45、用回归方程进行估计和预测 (1) 点预测点预测 假设通过各种检验的假设通过各种检验的“最优最优”回归方程为回归方程为 对对给给定定的的x0值值,代代入入回回归归方方程程 中中就就可可得得的的 值值. 它既可以作为实际值它既可以作为实际值的的估估计计值值,也也可可以以作作为为 的的估估计计值值,这这就是所谓的点预测就是所谓的点预测 例如,对合金钢强度例如,对合金钢强度y对含碳量对含碳量x的回归方程的回归方程 当当已已知知含含碳碳量量x0= 0.22时时,就就可可以以预预测合金钢强度为测合金钢强度为9.2.1 一元线性回归分析一元线性回归分析 6利用回归方程进行估计和预测利用回归方程进行估计和预测
46、 (2) 区间预测区间预测 区区间间预预测测分分为为个个体体的的区区间间预预测测和和均均值值的的区区间间预预测测,这里只介绍个体的区间预测这里只介绍个体的区间预测 对给定的对给定的x0值,因变量值,因变量y的相应值的相应值y0记成记成由于由于y0服从正态分布,且服从正态分布,且 可以证明可以证明其中其中 9.2.1 一元线性回归分析一元线性回归分析 6利用回归方程进行估计和预测利用回归方程进行估计和预测 因因此此,对对给给定定的的x0,在在给给定定的的置置信信水水平平1 下下,y0的的置信区间为置信区间为可可以以看看出出,对对于于给给定定的的n和和 ,lxx越越大大或或x0越越靠靠近近 ,区间
47、的长度就越短,预测精度就越高区间的长度就越短,预测精度就越高由由于于 刻刻画画了了观观测测点点x1,x2,xn的的分分散散程程度度,因因此此,想想提提高高预预测测精精度度就就要要使使x1, x2, xn尽尽量分散量分散9.2.1 一元线性回归分析一元线性回归分析 6利用回归方程进行估计和预测利用回归方程进行估计和预测 例如,合金钢强度例如,合金钢强度y对含碳量对含碳量x的回归方程的回归方程当当已已知知含含碳碳量量x0= 0.22时时,就就可可以以得得到到合合金金钢钢强强度度置置信水平为信水平为95%的置信区间:的置信区间:(54.01,60.63)9.2.1 一元线性回归分析一元线性回归分析9
48、.2 回归分析回归分析 9.2.2 可化为线性回归的一元非线性回归可化为线性回归的一元非线性回归 现现实实世世界界中中严严格格的的线线性性模模型型并并不不多多见见,它它们们或或多多或或少都带有某种程度的近似;少都带有某种程度的近似; 在在不不少少情情况况下下,非非线线性性模模型型可可能能更更加加符符合合实实际际,因因此,非线性回归与线性回归同样重要此,非线性回归与线性回归同样重要 下下面面主主要要介介绍绍可可化化为为线线性性回回归归的的一一元元非非线线性性回回归归分分析析 9.2.2 可化为线性回归的一元非线性回归可化为线性回归的一元非线性回归 在在对对数数据据进进行行分分析析时时,常常常常先
49、先描描出出数数据据的的散散点点图图,判断两个变量间可能存在的函数关系判断两个变量间可能存在的函数关系 如如果果两两个个变变量量间间存存在在线线性性关关系系,我我们们可可以以用用前前面面所所述的方法建立一元线性回归方程述的方法建立一元线性回归方程 来描述来描述 如如果果它它们们之之间间存存在在着着一一种种非非线线性性关关系系,这这时时常常用用的的方方法法是是通通过过变变量量变变换换,使使新新变变量量之之间间具具有有线线性性关关系系,然后利用一元线性回归方法对其进行分析然后利用一元线性回归方法对其进行分析 9.2.2 可化为线性回归的一元非线性回归可化为线性回归的一元非线性回归 表表9.3给给出出
50、了了一一些些常常见见的的可可线线性性化化的的一一元元非非线线性性函函数及线性化方法数及线性化方法下下面面通通过过一一个个具具体体实实例例说说明明一一元元非非线线性性回回归归分分析析的的方方法:法:【实实验验9.4】设设随随机机变变量量x与与y的的观观测测数数据据如如下下,试试建建立立y与与x的回归模型的回归模型下面分三步进行分析建立模型:下面分三步进行分析建立模型:x234578101114151618y106.42108.20109.58109.50110.00109.93110.49110.59110.60110.90110.76111.009.2.2 可化为线性回归的一元非线性回归可化为
51、线性回归的一元非线性回归【实实验验9.4】设设随随机机变变量量x与与y的的观观测测数数据据如如下下,试试建建立立y与与x的回归模型的回归模型1. 确定回归函数可能形式确定回归函数可能形式为为确确定定可可能能的的函函数数形形式式,首首先先描描出出数数据据的的散散点点图图步步骤如下:骤如下:选选中中单单元元格格区区域域:B2:C14,并并选选择择主主菜菜单单“插插入入”“图图表表”,打打开开“图图表表向向导导”对对话话框框,选选中中图图表表类类型型“XY散散点点图图”,单单击击“完完成成”按按钮钮,即即可可得得到到散散点图点图x234578101114151618y106.42108.20109.
52、58109.50110.00109.93110.49110.59110.60110.90110.76111.00散点图如图散点图如图9.16所示所示 散散点点图图呈呈现现出出明明显显的的向向上上且且上上凸凸的的趋趋势势,可可能能选选择择的函数关系有很多,比如可以给出如下三种曲线函数:的函数关系有很多,比如可以给出如下三种曲线函数:令令 三三种种曲曲线线函函数数又又可可以以表示为:表示为:v = a + bu,y = a + bw,y = a + bz9.2.2 可化为线性回归的一元非线性回归可化为线性回归的一元非线性回归 2. 变量变换变量变换 (1) 增增加加变变量量u=1/x, 在在单单元
53、元格格D2中中输输入入公公式式:=1/B2, 并将单元格并将单元格D2中公式复制到单元格区域中公式复制到单元格区域D3:D14中中 (2) 增加变量增加变量v=1/y, 在单元格在单元格E2中输入公式:中输入公式:=1/C2, 并将单元格并将单元格E2中公式复制到单元格区域中公式复制到单元格区域E3: E14中中 (3) 增加变量增加变量w=lnx, 在单元格在单元格F2中输入公式中输入公式: =LN(B2), 并将单元格并将单元格F2中公式复制到单元格区域中公式复制到单元格区域F3: F14中中9.2.2 可化为线性回归的一元非线性回归可化为线性回归的一元非线性回归 (4) 增加变量增加变量
54、 在单元格在单元格G2中输入公式:中输入公式:=SQRT(B2) 并将单元格并将单元格G2中公式复制到单元格区域中公式复制到单元格区域G3: G14中中 结果如图结果如图9.17所示所示9.2.2 可化为线性回归的一元非线性回归可化为线性回归的一元非线性回归分别做分别做v对对u、y对对w和和y对对z散点图,如图散点图,如图9.18所示:所示: 从散点图可以看出变换从散点图可以看出变换后的两变量的关系接近线后的两变量的关系接近线性,可以考虑建立线性回性,可以考虑建立线性回归模型归模型9.2.2 可化为线性回归的一元非线性回归可化为线性回归的一元非线性回归 3. 回归方程的比较回归方程的比较利利用
55、用实实验验9-1中中介介绍绍的的方方法法分分别别建建立立v和和u、y和和w及及y和和z线性回归方程为:线性回归方程为: (1) v = 0.0090 + 0.0008 u 模型的各项检模型的各项检验结果如图验结果如图9-19 9.2.2 可化为线性回归的一元非线性回归可化为线性回归的一元非线性回归 3. 回归方程的比较回归方程的比较 (2) y = 106.315 + 1.7140 w 模型的各项检验结果如图模型的各项检验结果如图9-20 图图9-20 模型模型29.2.2 可化为线性回归的一元非线性回归可化为线性回归的一元非线性回归 3. 回归方程的比较回归方程的比较 (3) y = 106
56、.301 + 1.1947 z 模型的各项检验结果如图模型的各项检验结果如图9-21 9.2.2 可化为线性回归的一元非线性回归可化为线性回归的一元非线性回归 3. 回归方程的比较回归方程的比较 从从上上面面三三个个结结果果看看,三三个个线线性性模模型型均均有有效效(这这里里略略去做残差分析,有兴趣的读者可以自己做一做)去做残差分析,有兴趣的读者可以自己做一做) 其其中中第第一一个个模模型型的的判判定定系系数数R2最最大大、标标准准误误差差最最小小, 即即第第一一个个方方程程拟拟合合得得最最好好,所所以以应应选选用用线线性性回回归归方方程程v = 0.0090 + 0.0008 u,原数据的回归方程为:,原数据的回归方程为:即即9.2.2 可化为线性回归的一元非线性回归可化为线性回归的一元非线性回归 3. 回归方程的比较回归方程的比较 由由本本例例可可以以看看到到,通通过过变变量量变变换换,使使新新变变量量之之间间具具有有线线性性关关系系,对对新新变变量量建建立立线线性性模模型型,从从而而得得到到用用原原变变量量表表达达的的非非线线性性模模型型的的方方法法是是一一种种建建立立非非线线性性模模型型有效方法有效方法9.2.2 可化为线性回归的一元非线性回归可化为线性回归的一元非线性回归