第9章相关与回归

上传人:人*** 文档编号:584319031 上传时间:2024-08-30 格式:PPT 页数:73 大小:1.26MB
返回 下载 相关 举报
第9章相关与回归_第1页
第1页 / 共73页
第9章相关与回归_第2页
第2页 / 共73页
第9章相关与回归_第3页
第3页 / 共73页
第9章相关与回归_第4页
第4页 / 共73页
第9章相关与回归_第5页
第5页 / 共73页
点击查看更多>>
资源描述

《第9章相关与回归》由会员分享,可在线阅读,更多相关《第9章相关与回归(73页珍藏版)》请在金锄头文库上搜索。

1、第第9章章 相关与回归相关与回归9.1 简单线性相关分析9.2 一元线性回归分析9.3 多元线性回归与复相关分析9.4 变量间非线性关系的回归9.1 简单线性相关分析简单线性相关分析一、变量之间的关系一、变量之间的关系 确定性关系、非确定性关系确定性关系、非确定性关系1.确定性关系(函数关系):变量之间依一定的函数形确定性关系(函数关系):变量之间依一定的函数形成的一一对应关系,若两个变量分别记做成的一一对应关系,若两个变量分别记做Y与与X,则当,则当Y与与X之间存在函数关系时,之间存在函数关系时,X值一旦被指定,值一旦被指定,Y值就是唯值就是唯一确定的。一确定的。2.非确定性关系(非确定性关

2、系(相关关系相关关系):两个变量之间存在):两个变量之间存在某种关系,但变量某种关系,但变量Y并不是由变量并不是由变量X唯一确定的,它唯一确定的,它们之间没有严格的一一对应关系。们之间没有严格的一一对应关系。两个变量之间若存在线性关系称为两个变量之间若存在线性关系称为线性相关线性相关,存在,存在非线性关系称为非线性关系称为曲线相关曲线相关,通常通过适当的变量变,通常通过适当的变量变换,曲线相关可转换为线性相关。换,曲线相关可转换为线性相关。3、相关的种类、相关的种类(1 1)按相关的程度分为)按相关的程度分为完全相关、不完全相关完全相关、不完全相关和不相关。和不相关。两种依存关系的标志,其中一

3、个标志的数量变两种依存关系的标志,其中一个标志的数量变化由另一个标志的数量变化所确定,则称化由另一个标志的数量变化所确定,则称完全完全相关,也称函数关系。相关,也称函数关系。两个标志彼此互不影响,其数量变化各自独立,两个标志彼此互不影响,其数量变化各自独立,称为称为不相关不相关。两个现象之间的关系,介乎完全相关与不相关两个现象之间的关系,介乎完全相关与不相关之间称之间称不完全相关。不完全相关。 (2 2)按相关的方向分为)按相关的方向分为正相关和负相关正相关和负相关正正相关相关指相关关系表现为因素标志和结果标志的数指相关关系表现为因素标志和结果标志的数量变动方向一致。量变动方向一致。负相关负相

4、关指相关关系表现为因素标志和结果标志的数指相关关系表现为因素标志和结果标志的数量变动方向是相反的。量变动方向是相反的。(3 3)按相关的形式分为)按相关的形式分为线性相关和非线性相关线性相关和非线性相关一种现象的一个数值和另一现象相应的数值在指教一种现象的一个数值和另一现象相应的数值在指教坐标系中确定为一个点,称为线性相关。坐标系中确定为一个点,称为线性相关。(4 4)按影响因素的多少分为)按影响因素的多少分为单相关和复相关单相关和复相关。如果研究的是如果研究的是一个一个结果标志同某一因素标志相关,结果标志同某一因素标志相关,就称单相关就称单相关。如果分析如果分析若干若干因素标志对结果标志的影

5、响,称为复因素标志对结果标志的影响,称为复相关或多元相关。相关或多元相关。二、总体相关系数二、总体相关系数三、样本相关系数三、样本相关系数xy正正 相相 关关xy负负 相相 关关xy曲线相关曲线相关xy不不 相相 关关使用年限使用年限x x维修费用(元)维修费用(元)y yxyxy2 25405404 4291600291600108010803 35205209 9270400270400156015604 46406401616409600409600256025604 47407401616547600547600296029605 560060025253600003600003000

6、30005 58008002525640000640000400040006 67007003636490000490000420042006 67607603636577600577600456045606 69009003636810000810000540054008 88408406464705600705600672067209 910801080818111640011640097209720合计合计585881208120348348626880062688004576045760计算结果表明,机床使用年限与维修费用之间为计算结果表明,机床使用年限与维修费用之间为高度正相关。高度

7、正相关。四、相关系数的显著性检验四、相关系数的显著性检验五、相关分析中应注意的问题五、相关分析中应注意的问题相关系数不解释两个变量间的因果关系,相关系数不解释两个变量间的因果关系,它只是表明了两个变量间互相影响的程度它只是表明了两个变量间互相影响的程度和方向。和方向。有时两变量之间不存在相关关系,但却可有时两变量之间不存在相关关系,但却可能出现较高的相关系数,要警惕虚假相关能出现较高的相关系数,要警惕虚假相关导致的错误结论。导致的错误结论。第二节第二节 一元线性回归分析一元线性回归分析回归分析是通过一个或一些变量的变化来解释另一变量回归分析是通过一个或一些变量的变化来解释另一变量的变化。的变化

8、。其其内容和步骤内容和步骤:1.根据理论和对问题的分析判断,区分自变量和因变量。根据理论和对问题的分析判断,区分自变量和因变量。2.设法找出合适的回归模型来描述变量间的关系。设法找出合适的回归模型来描述变量间的关系。3.对回归模型进行统计检验。对回归模型进行统计检验。4.利用回归模型,根据解释变量去估计、预测因变量。利用回归模型,根据解释变量去估计、预测因变量。一、一元线性回归的数学模型一、一元线性回归的数学模型随机干扰项的随机干扰项的主要内容主要内容有:有:1.未具体列入模型但又共同影响变量的种种因素未具体列入模型但又共同影响变量的种种因素2.变量的观测误差变量的观测误差3.随机误差随机误差

9、4.模型的设定误差模型的设定误差二、线性回归模型的含义二、线性回归模型的含义1.就变量而言,线性是指Y的条件期望是X的线性函数。如:2.就参数而言,线性是指Y的条件期望是参数i的线性函数。如:三、样本回归模型三、样本回归模型事实上,总体事实上,总体Y是未知的,我们所能取得的只能是与给定是未知的,我们所能取得的只能是与给定X值相对应的值相对应的Y的样本观测值,我们通过样本提供的信息来认的样本观测值,我们通过样本提供的信息来认识总体,找出总体回归模型的估计式。识总体,找出总体回归模型的估计式。可支配收入与消费支出的简单随机样本可支配收入与消费支出的简单随机样本x1x2x3x4x5x6x7x8x9x

10、1080100120140160180200220240260样本170659095110115120140155120样本255889080118120145135145175对散点分别拟合直线,是总体回归线的估计线对散点分别拟合直线,是总体回归线的估计线四、回归直线的拟合四、回归直线的拟合1.简单线性回归模型的统计假定简单线性回归模型的统计假定满足以上满足以上4条假设的线性回归模型称为条假设的线性回归模型称为古典或普通线性回归模型古典或普通线性回归模型,其参数估计所采用的最小平方法称作普通最小平方法其参数估计所采用的最小平方法称作普通最小平方法2.简单线性回归模型的参数估计简单线性回归模型

11、的参数估计-最小平方法最小平方法3.最小平方估计线和估计量的性质最小平方估计线和估计量的性质五五.回归模型的检验回归模型的检验1.拟合优度拟合优度如果如果SSR占的比例越大,则回归线对观察点拟合得越好。占的比例越大,则回归线对观察点拟合得越好。称作判定系数,可用于判断回归方程的拟合优度。称作判定系数,可用于判断回归方程的拟合优度。判定系数与样本相关系数判定系数与样本相关系数判定系数的平方根就是相关系数。判定系数的平方根就是相关系数。2.回归系数的显著性检验回归系数的显著性检验3.回归系数的显著性检验步骤回归系数的显著性检验步骤X与Y之间是否存在线性关系,可以利用方差分析的方法进行F检验。六、回

12、归分析的预测和推断六、回归分析的预测和推断 1.总体均值的预测和推断总体均值的预测和推断例例9.9 随机抽查了生产同种产品的随机抽查了生产同种产品的10个企业,个企业,得到它们的产量和生产费用的数据:得到它们的产量和生产费用的数据:企业编号12345678910产量40424855657988100120140生产费用1501401601701501621851651901851.建立生产费用对产量的回归方程建立生产费用对产量的回归方程2.预测当产量为预测当产量为80千克时,该类企业平均的生产费千克时,该类企业平均的生产费用的置信区间用的置信区间3.预测其产量为预测其产量为80千克的某企业的生

13、产费用的置信千克的某企业的生产费用的置信水平为水平为95的置信区间的置信区间解:解:1.作作X与与Y的散点图的散点图 2.估计回归方程估计回归方程 3.检验检验 (a.拟合优度检验拟合优度检验 b.回归系数检回归系数检 验验 c.回归方程检验)回归方程检验) 4.总体均值的置信区间预测总体均值的置信区间预测 5.总体个别值的置信区间预测总体个别值的置信区间预测作散点图作散点图从图中看出生产费用与产量之间的关系近似为线性从图中看出生产费用与产量之间的关系近似为线性解:解:1.作作X与与Y的散点图的散点图 2.估计回归方程估计回归方程 3.检验检验 (a.拟合优度检验拟合优度检验 b.回归系数检回

14、归系数检 验验 c.回归方程检验)回归方程检验) 4.总体均值的置信区间预测总体均值的置信区间预测 5.总体个别值的置信区间预测总体个别值的置信区间预测解:解:1.作作X与与Y的散点图的散点图 2.估计回归方程估计回归方程 3.检验检验 (a.拟合优度检验拟合优度检验 b.回归系数检回归系数检 验验 c.回归方程检验)回归方程检验) 4.总体均值的置信区间预测总体均值的置信区间预测 5.总体个别值的置信区间预测总体个别值的置信区间预测拟合优度检验拟合优度检验检验结果说明生产费用的变动有检验结果说明生产费用的变动有65.2可以由产量的变动解释可以由产量的变动解释解:解:1.作作X与与Y的散点图的

15、散点图 2.估计回归方程估计回归方程 3.检验检验 (a.拟合优度检验拟合优度检验 b.回归系数检回归系数检 验验 c.回归方程检验)回归方程检验) 4.总体均值的置信区间预测总体均值的置信区间预测 5.总体个别值的置信区间预测总体个别值的置信区间预测回归系数检验回归系数检验拒绝原假设,说明拒绝原假设,说明X与与Y存在线性关系存在线性关系解:解:1.作作X与与Y的散点图的散点图 2.估计回归方程估计回归方程 3.检验检验 (a.拟合优度检验拟合优度检验 b.回归系数检回归系数检 验验 c.回归方程检验回归方程检验) 4.总体均值的置信区间预测总体均值的置信区间预测 5.总体个别值的置信区间预测

16、总体个别值的置信区间预测回归方程检验回归方程检验即回归方程是高度显著的,即回归方程是高度显著的,X与与Y之间之间确实存在线性关系确实存在线性关系解:解:1.作作X与与Y的散点图的散点图 2.估计回归方程估计回归方程 3.检验检验 (a.拟合优度检验拟合优度检验 b.回归系数检回归系数检 验验 c.回归方程检验回归方程检验) 4.总体均值的置信区间预测总体均值的置信区间预测 5.总体个别值的置信区间预测总体个别值的置信区间预测总体均值的置信区间预测总体均值的置信区间预测即置信区间为(即置信区间为(158.844 ,174.321)说明了)说明了当企业的产量为当企业的产量为80千克时,生产费用平均

17、为千克时,生产费用平均为158844元到元到174321元之间,其可信度为元之间,其可信度为95解:解:1.作作X与与Y的散点图的散点图 2.估计回归方程估计回归方程 3.检验检验 (a.拟合优度检验拟合优度检验 b.回归系数检回归系数检 验验 c.回归方程检验回归方程检验) 4.总体均值的置信区间预测总体均值的置信区间预测 5.总体个别值的置信区间预测总体个别值的置信区间预测总体个别值的置信区间预测总体个别值的置信区间预测置信区间为(置信区间为(140.637,191.643)。对于产量为)。对于产量为80千克的某个企业而言,其生产费用在千克的某个企业而言,其生产费用在140637元元到到1

18、91643元之间,可能性为元之间,可能性为95七、相关分析与回归分析的关系七、相关分析与回归分析的关系(一)区别一)区别1 1、相关分析的任务是确定两个变量之间相关的方向、相关分析的任务是确定两个变量之间相关的方向和密切程度。回归分析的任务是寻找因变量对自变量和密切程度。回归分析的任务是寻找因变量对自变量依赖关系的数学表达式。依赖关系的数学表达式。2 2、相关分析不必确定两变量中哪个是自变量,哪个、相关分析不必确定两变量中哪个是自变量,哪个是因变量,而回归分析中必须区分因变量与自变量。是因变量,而回归分析中必须区分因变量与自变量。3 3、相关分析中两变量是对等的改变两者的地位,并相关分析中两变

19、量是对等的改变两者的地位,并不影响相关系数的数值,只有一个相关系数。而在回不影响相关系数的数值,只有一个相关系数。而在回归分析中,互为因果关系的两个变量可以编制两个独归分析中,互为因果关系的两个变量可以编制两个独立的回归方程。立的回归方程。4 4、相关分析中两变量可以都是随机的,而回归分析、相关分析中两变量可以都是随机的,而回归分析中因变量是随机的,自变量不是随机的。中因变量是随机的,自变量不是随机的。(二)联系二)联系1 1、相关分析是回归分析的基础和前提。只有在、相关分析是回归分析的基础和前提。只有在相关分析确定了变量之间存在一定相关关系的相关分析确定了变量之间存在一定相关关系的基础上建立

20、的回归方程才有意义。基础上建立的回归方程才有意义。2 2、回归分析是相关分析的继续和深化。只有建、回归分析是相关分析的继续和深化。只有建立了回归方程才能表明变量之间的依赖关系,立了回归方程才能表明变量之间的依赖关系,并进一步进行预测。并进一步进行预测。多元线性回归模型多元线性回归模型1多元线性回归模型的性质多元线性回归模型的性质与模型的确定与模型的确定二元线性回归模型:二元线性回归模型:总体多元线性回归模型的一般形式总体多元线性回归模型的一般形式Y的数学期望的数学期望E(Y)随机误差随机误差表明自变量表明自变量共同变动引起的共同变动引起的Y 的平均变动。也称总体的二元线性回归方差。的平均变动。

21、也称总体的二元线性回归方差。常数项,常数项,和和Y构成的平面与构成的平面与Y轴的截距轴的截距偏回归系数,表示在偏回归系数,表示在 固定时固定时 每变化一个单位引起的每变化一个单位引起的Y的平均变动;的平均变动;案例案例偏回归系数,表示在偏回归系数,表示在 固定时固定时 每变化一个单位引每变化一个单位引起的起的Y的平均变动;的平均变动;随机误差,其理论假定与一元线性回归模型中的随机误差,其理论假定与一元线性回归模型中的 一样。一样。在多元回归模型中,还要求各自变量之间不存在显著相在多元回归模型中,还要求各自变量之间不存在显著相关,或高度相关也即不得存在多重共线性。关,或高度相关也即不得存在多重共

22、线性。样本多元线性回归模型的一般形式样本多元线性回归模型的一般形式二元线性回归模型为:二元线性回归模型为:其数学期望其数学期望也称样本(或估计的)二元线性回归方程。也称样本(或估计的)二元线性回归方程。二元线性回归方程的确定二元线性回归方程的确定根据实际资料,用最小平方法,即使根据实际资料,用最小平方法,即使 ,分别对,分别对a、b1、b2求编导并令其为零,求得三个标准方求编导并令其为零,求得三个标准方程:程:解此联立方程便可得到解此联立方程便可得到a、b1、b2。2多元线性回归模型的判定系数和估计标准误多元线性回归模型的判定系数和估计标准误判定系数判定系数 0r21修正的判定余数:修正的判定

23、余数: r2和和Sy(x1、x2)都是对回归模型拟合优度的评价指标。都是对回归模型拟合优度的评价指标。 Sy(x1、x2)也是用自变量对因变量进行区间估计的抽样误差。也是用自变量对因变量进行区间估计的抽样误差。估计标准误(估计标准误(Sy(x1、x2)3多元回归模型的显著性检验多元回归模型的显著性检验对偏回归系数的对偏回归系数的t检验检验 H0: 1=0 , H1: 10;H0: 2=0,H1: 20。检验统计量:检验统计量:按显著性水平按显著性水平和自由度和自由度 (n-3)查查t表可得到临界值表可得到临界值t0模型整体的模型整体的F检验检验检验统计量:检验统计量:(k自变量个数)自变量个数

24、)或或 按给定的按给定的和自由度(和自由度(2)和(和(n-3)查)查F表可得到表可得到临界值临界值F4多元回归中的相关分析多元回归中的相关分析 复相关:指一个因变量同多个自变量的相关关系。复相关:指一个因变量同多个自变量的相关关系。复相关系数恒取正值。复相关系数恒取正值。偏相关(净相关)指各个自变量在其他自变量固定不变时,单偏相关(净相关)指各个自变量在其他自变量固定不变时,单个变量同因变量的相关关系。个变量同因变量的相关关系。 计算偏相关系数需借助相关系数矩阵表的资料。计算偏相关系数需借助相关系数矩阵表的资料。二元回归中的相关系数矩阵表二元回归中的相关系数矩阵表yyx1x1x2x2ry1r

25、y2r121.001.001.00 x1与与y的偏相关系数:的偏相关系数: x2与与y的偏相关系数:的偏相关系数:案例案例5应用多元回归方程进行区间估计应用多元回归方程进行区间估计Y的平均值的区间估计的平均值的区间估计Y的特点值的区间估计的特点值的区间估计式中,式中,是是即区间估计的抽样误差。即区间估计的抽样误差。的抽样分布的标准差,的抽样分布的标准差,式中,式中,是是的抽样分布的标准差,的抽样分布的标准差,即区间估计的抽样误差。即区间估计的抽样误差。 非线性回归模型非线性回归模型当自变量与因变量存在某种曲线相关关系时,可拟合曲线回归当自变量与因变量存在某种曲线相关关系时,可拟合曲线回归模型。

26、例如:模型。例如: 双曲线:双曲线:a0 b0a0 b0xxyy指数曲线:指数曲线:y=aebxb0 b0xxyy幂函数曲线:幂函数曲线:y=axba0 b0xyb1曲线模型的判别方法:曲线模型的判别方法:理论和经验判断;理论和经验判断;观察散点图观察散点图 曲线模型的确定方法:曲线模型的确定方法: 通常用变量代换法将曲线转换为直线。按线性模型求解参数,通常用变量代换法将曲线转换为直线。按线性模型求解参数,而后再变换为曲线模型。而后再变换为曲线模型。 例如:双曲线模型例如:双曲线模型指数曲线模型指数曲线模型9.4 变量间非线性关系的回归变量间非线性关系的回归一些常用的可化为线性方程的函数类型一些常用的可化为线性方程的函数类型双曲线双曲线a0 b0a0 b0xxyy幂函数幂函数a0 b0xyb1b0 b0xxyy指数函数指数函数对数曲线对数曲线多项式多项式曲线模型的判别方法:曲线模型的判别方法:理论和经验判断;理论和经验判断;观察散点图观察散点图

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号