统计学原理课件:第九章 相关与回归

上传人:s9****2 文档编号:592294092 上传时间:2024-09-20 格式:PPT 页数:69 大小:935.50KB
返回 下载 相关 举报
统计学原理课件:第九章 相关与回归_第1页
第1页 / 共69页
统计学原理课件:第九章 相关与回归_第2页
第2页 / 共69页
统计学原理课件:第九章 相关与回归_第3页
第3页 / 共69页
统计学原理课件:第九章 相关与回归_第4页
第4页 / 共69页
统计学原理课件:第九章 相关与回归_第5页
第5页 / 共69页
点击查看更多>>
资源描述

《统计学原理课件:第九章 相关与回归》由会员分享,可在线阅读,更多相关《统计学原理课件:第九章 相关与回归(69页珍藏版)》请在金锄头文库上搜索。

1、第九章第九章 相关与回归相关与回归n社会经济现象之间的数量社会经济现象之间的数量关系可分为:函数关系和关系可分为:函数关系和相关关系。相关关系。n函数关系函数关系反映着现象之间反映着现象之间严格的依存关系。(自变严格的依存关系。(自变量与因变量)量与因变量)n相关关系相关关系反映着现象之间反映着现象之间不确定、不严格的依存关不确定、不严格的依存关系。(随机性)(几个变系。(随机性)(几个变量)量)n(格林斯潘的理论)n n 据美国媒体10日报道,美国知名消费调查公司NPD的最新市场调查显示2012美国男性内裤销量比2011年增加6%,称这将预示美国经济正在回暖。 n 2009年就是一个明显的例

2、子。当年4月,据赫芬顿邮报报道,国际信息咨询巨头英敏特公司的研究显示,2009年男性内裤的销量下降2.3%。而此前的2008年11月,该公司预测内衣销量在2009年将增长2.6%。事后证明2009年经济衰退紧接而来。在经济不景气的形势下,男人不得不过度节省消费开支,甚至不再经常买新内裤。三年之后,随着经济缓慢复苏,尽管增长依然缓慢,他们总算可以稍微挥霍一下了。n (裙摆理论、口红效应 ) n口红效应n“口红效应”源自海外对某些消费现象的描述。每当经济不景气,人们的消费就会转向购买廉价商品,而口红虽非生活必需品,却兼具廉价和粉饰的作用,能给消费者带来心理慰藉。经济危机之下,消费者的购物心理和消费

3、行为等都发生了变化,普通消费者个个都变成了砍价高手,经济危机也使得如口红这类的廉价化妆品和文化类的产品出现了大卖。20世纪30年代美国经济大萧条时期首次提出的“口红效应”经济理论。n实例:n(美国的电影业(好莱坞的腾飞期正是大萧条时期)、中国的电影业(08年票房过亿的国产电影数量也历史性地超过了好莱坞大片,预计将达到9部之多。) n经济复苏的其他风向标经济复苏的其他风向标 :离婚离婚率上升率上升 、外出吃饭次数增多外出吃饭次数增多 、整形手术整形手术火了火了 、辞职的人多了辞职的人多了 、去美发的人多了去美发的人多了 。n回归:回归:研究自变量和因变量之间研究自变量和因变量之间关系形关系形式式

4、的分析方法。(起源于遗传性;农作的分析方法。(起源于遗传性;农作物产量和施肥量。)物产量和施肥量。)区别和联系:n区别:回归反映的现象之间的具体关系值固定,自变量和因变量一一对应;相关不固定,非一一对应,具有随机性。n相关分析是研究的都是随机变量,不分自变量和因变量;回归分析研究的变量要定出自变量与因变量,并且自变量是确定的普通变量,因变量是随机变量。n联系:回归的有些自变量由于观察或实验出现错误,其关系值不可能绝对固定,此时只能用相关来表示;当随机因素不存在时,相关就是回归。相关关系的分类相关关系的分类n1 1、单相关(简单相关关系,两、单相关(简单相关关系,两变量)与复相关(多元相关,变量

5、)与复相关(多元相关,三个及三个以上变量)三个及三个以上变量)n2 2、正相关(同向变动)和负相、正相关(同向变动)和负相关(反向变动)关(反向变动)n3 3、完全相关、不完全相关、不、完全相关、不完全相关、不相关相关n4 4、线性相关与非线性相关、线性相关与非线性相关直线相关直线相关n(一)相关图(一)相关图正相关图负相关图直线相关分析的特点n1、两个变量的地位是对等的,不反映任何自变量和因变量的关系n2、只能算出一个相关系数n3、相关系数有正有负n4、相关的两个变量必须都是随机变量n(二)相关系数(二)相关系数n相关系数相关系数R R:它是直线相关分析中用来衡量两个:它是直线相关分析中用来

6、衡量两个变量之间相关程度的重要指标。变量之间相关程度的重要指标。a)a)总变差求总变差求R:R:b) 积差法求相关系数化简得性质:性质:(1 1)相关系数的取值范围)相关系数的取值范围1 1 R 1R 1(2 2)R=0R=0,称零相关,称零相关(3 3)R R=1=1,称完全相关,称完全相关(4 4) 当当0 0R R1 1,称普通相关。,称普通相关。注注|R|R|0.80.8,称高度相关;,称高度相关;|R|0.3|R| , 故显著性水平上,检验通过,说明两变量之间相关关系显著。(二)回归分析(二)回归分析n一、模型判别一、模型判别n图图示示法法是是将将数数据据在在坐坐标标轴轴上上以以散散

7、点点图图或或折折线线图图的的形形式式画画出出来来,以以显显示示数数据据的的变变化化趋趋势势,通通过过观察选择预测模型的方法。观察选择预测模型的方法。n 如如果果数数据据的的分分布布近近似似直直线线形形状状,就就配配合合直直线线模型进行预测。模型进行预测。 n 如如果果数数据据的的分分布布不不属属于于直直线线型型的的,则则应应仔仔细细观观察察其其分分布布是是否否近近似似于于某某一一曲曲线线(如如抛抛物物线线、双双曲曲线线、指指数数曲曲线线、S S曲曲线线(逻逻辑辑斯斯蒂蒂曲曲线线,物物种种迁迁移移到到新新生生态态系系统统中中,数数量量发发生生变变化化)等等),然后配合相应的曲线模型进行预测。,然

8、后配合相应的曲线模型进行预测。简单直线回归模型简单直线回归模型设设y y为因变量,为因变量,x x为自变量,为自变量,y y与与x x之间存在某种之间存在某种线性关系线性关系 其中:其中:a a、b b称回归系数,为预测目标,称回归系数,为预测目标,x x 为影响因素(可控制或预先给定)。为影响因素(可控制或预先给定)。经济意义:经济意义:a a是作为因变量经济现象的起点值;是作为因变量经济现象的起点值;b b是回归系数是回归系数, ,作为自变量经济现象每增加或减少一个作为自变量经济现象每增加或减少一个单位,因变量经济现象也随之增加或减少单位,因变量经济现象也随之增加或减少b b个单位。个单位

9、。直线回归分析的特点n1、两个变量的地位不是对等关系,其中一个是自变量,一个是因变量;n2、因变量是随机变量,而自变量是非随机变量;n3、回归方程可据以利用自变量的给定值来推算因变量的相应值;n4、回归系数可正可负。二、参数估计二、参数估计OLS (Ordinary Least Squares)OLS (Ordinary Least Squares)估计即采用最小平方估计即采用最小平方法(最小二乘法)来估计模型的参数。法(最小二乘法)来估计模型的参数。 最小平方法的中心思想:是通过数学模型,配合最小平方法的中心思想:是通过数学模型,配合一条较为理想的趋势线。这条趋势线必须满足下列一条较为理想的

10、趋势线。这条趋势线必须满足下列两点要求两点要求:(1 1)原数列的观察值与模型的估计值的离差平方和为最小原数列的观察值与模型的估计值的离差平方和为最小(104104?)?);(2 2)原数列的观察值与模型的估计值的离差总和为零原数列的观察值与模型的估计值的离差总和为零。 用公式表示为:用公式表示为:n根据最小平方法的要求得到参数估计式为:根据最小平方法的要求得到参数估计式为:可得预测回归方程为可得预测回归方程为: :n如何求得?P256或207n例2:利用表1绘制相关图和适当的回归方程。n解:1)绘制相关图。n2)建立简单直线回归方程。n3)估计参数。利用公式得(表1)年份国内生产总值固定资产

11、投资完成额949596979899000102030405195210244264294314360432481567655704202026355256811311491632322023,9004,2006,3449,20015,28817,58429,16056,59271,66992,421151,960142,2084004006761,2252,7043,1366,56117,16122,20126,56953,82440,80438,02544,10059,53669,69686,43698,596129,600186,624231,361321,489429,025495,61

12、6合计4,7201,167600,566175,6612,190,104即n简单的直线回归方程为n故上式表明固定资产完成额每增加1亿,国内生产总值将增加2.2767亿元,即此相关为正相关关系。三、相关性的显著性检验三、相关性的显著性检验 原假设原假设H H0 0 :a=b=0a=b=0 备择假设备择假设H H1 1:a a、b b不全为零不全为零 (1) (1)计算相关系数计算相关系数R R; (2 2)根据回归模型的自由度()根据回归模型的自由度(n-mn-m)和给定显)和给定显著性水平著性水平 值,从相关系数表中查出临界值值,从相关系数表中查出临界值R R (n-mn-m)。)。 (3 3

13、)判别:若)判别:若R R R R (n-mn-m) ,表明两,表明两变量之间线性相关关系显著,检验通过,模型变量之间线性相关关系显著,检验通过,模型可用于预测;若可用于预测;若R R R R (n-mn-m),),表明两表明两变量之间线性相关关系不显著,检验不通过,变量之间线性相关关系不显著,检验不通过,模型不能用于预测。模型不能用于预测。估计估计标准误差标准误差n估计标准误差:也称剩余标准差,它是剩余估计标准误差:也称剩余标准差,它是剩余变差的平均数的方根。反映观测值与估计值变差的平均数的方根。反映观测值与估计值之间的平均离差程度。之间的平均离差程度。( (直线直线) )注:估计标准差与样

14、本标准差S, 标准差 之间的区别和联系?四、进行预测四、进行预测1 1、点估计:、点估计:其中其中2 2、区间估计:、区间估计:n注:n由正态分布的性质,对于固定的x,y取值是以 为中心而对称分布的,越靠近 的地方出现的机会越大,反之出现的机会越小,且实际观测值y:n1)落在 内地概率为68.27%;n2) 落在 内地概率为95.45%;n3) 落在 内地概率为99.73%.n它们与什么地方相似?是否似曾相识?n(P195)抽样平均误差(样本平均数(成数)的标准差)相关与回归分析的一般步骤n1、进行相关分析关系的定性分析;n2、确定回归方程;n3、计算相关系数或相关指数,对回归方程变量之间的相

15、关性进行显著性检验;n4、利用回归方程式进行推算和预测;n5、对推算和预测作出置信区间估计。例4:由表1数据,若2006年该市固定资产投资完成额为249亿元,试以95.45%的概率保证度估计2006年国内生产总值的置信区间!1)估计标准差误差:2) 预测06年该市国内生产总值。当x=249亿元时,代入简单直线回归方程得:n3) 3) 置信区间。置信区间。n当概率为当概率为95.45%95.45%时,该方程的置信区间为时,该方程的置信区间为n 例5n某工业企业某种产品产量与单位成本资料如下:年份93 94959697989900产量成本273372471373469568666765n要求n1)

16、根据上述资料,绘制相关图,判别数列相关与回归到种类;n2)配合适当的回归方程;n3)根据回归方程,指出每当产品产量增加1万件时,单位成本的变动情况;n4)计算相关系数,在显著性水平为0.05时,对回归方程进行显著性检验;n5)计算估计标准误差;n6)当产量为8万件时,在95.45%的概率保证程度下,对单位成本作区间估计。n解:1)根据相关图判断,该数列为线性关系,可配合简单直线回归方程。年份产量x 成本y932734532914694372951842169547116504128496373953292199746916476127698568254624340996663643563960

17、0765494225455合计34557164388492332n2)建立简单直线回归方程:n故n3)每当产量增加1万件时,单位成本就减少1.8077元。n4)相关系数:n当显著性水平为0.05时,自由度为nn-m=8-2=6, 查相关系数临界值得n 即n故在0.05的显著性水平上,检验通过,说明两变量之间相关关系显著。n5)估计标准差:n6)当产量为8万件时,单位成本为n即当概率为95.45%,该方程的置信区间为:n即当产量为8万件时,在95.45%概率保证程度下,单位成本的区间为61.1864.51元之间。五、观测值与回归方程之间的关系回归方程观测值与估计值之间没有固定的大小关系其中为任意

18、小的实数六、可线性化的曲线回归六、可线性化的曲线回归n双曲线模型双曲线模型 y yi i = = 1 1+ + 2 2(1/x1/xi i)+ + i in二次曲线模型二次曲线模型 y yi i = = 1 1+ + 2 2x xi i+ + 3 3x xi i2 2 + + i in对数模型对数模型 y yi i = = 1 1+ + 2 2lnxlnxi i+ + i in三角函数模型三角函数模型 y yi i = = 1 1+ + 2 2sinxsinxi i+ + i in指数模型指数模型 y = aby = abx x n幂函数模型幂函数模型 y = axy = axb b可线性化的

19、曲线回归方程n双曲线模型可化为:令1/xi i =xi i, 即n y yi i= = 1 1+ + 2 2x xi i+ + I In二次曲线模型二次曲线模型 令?令? n y yi i= = 1 1+ + 2 2x xi i+ + 3 3x xi i + + I Inn例6 某企业某产品91-00年利润与单位成本统计数量 如下:年份利润率(%)y单位成本(元/件)年份利润率(%)y单位成本(元/件)919100961679921095971775931188982070941384992268951580002566n要求:n1)根据上述数据,绘制相关图,判别该数列相关与回归的种类;n2)

20、配合适当的回归方程;n3)在显著性水平为0.01时,对回归方程进行显著性检验;n4)若该企业01年产品单位成本降至60元/件,产量为8万件时,预期可获多少利润?解:年份利润率单位成本(元) x9191000.01000.09000.00010819210950.01050.10500.000111009311880.01140.12540.000131219413840.01190.15470.000141699515800.01250.18750.000162259616790.01270.20320.000162569717750.01330.22610.000182899820700.0

21、1430.28600.000204009922680.01470.32340.000224840025660.01520.38000.00023625合计1580.12642.08130.001632750n1)根据相关图判断(图略),该数列属相关,应拟合曲线回归方程。n2)其中令n3)相关系数及检验即故检验通过。4)当x=60元时,总成本=8万件 60元/件=480万元,又利润/总产值=(总产值-总成本)/总产值=27.24%即总产值=480/(1-27.24%)=659.73万元总利润=总产值-总成本=659.73-480=179.73万元。n案例:随着人们收入的提高,越来越多的案例:随着

22、人们收入的提高,越来越多的家庭开始购买汽车,下面是我国家庭开始购买汽车,下面是我国19851985年到年到20032003年汽车销售量的资料。请根据以下资年汽车销售量的资料。请根据以下资料料n(1 1)作相关性分析。)作相关性分析。n(2 2)作回归分析。)作回归分析。n(3 3)对未来三年的汽车销售量做预测。)对未来三年的汽车销售量做预测。n我国我国19851985至至20032003年汽车销售量资料年汽车销售量资料(1 1)相关性分析)相关性分析SPSS操作步骤:Correlate Birariate(二随机变量)结果: Pearson Correlation=0.978皮尔逊相关系数=

23、0.978在显著性水平为0.01的情况下,汽车销售量与时间密切相关。(2 2)回归分析)回归分析n绘制散点图,确定回归方程的类型。绘制散点图,确定回归方程的类型。nSPSSSPSS操作步骤:操作步骤:n1 1、点击、点击Graphs Scatter Graphs Scatter n2 2、选择、选择SimpleSimple,单击,单击DefineDefine进入对话框;进入对话框;n3 3、将销售量、将销售量y y选入选入Y AxisY Axis,年次,年次x x选入选入X AxisX Axis;n4 4、单击、单击OKOK。(2 2)回归分析)回归分析结论:可以配合直线模型。(2 2)回归分

24、析)回归分析n拟合回归模型并进行预测分析。拟合回归模型并进行预测分析。nSPSSSPSS操作步骤:操作步骤:n1 1、点击、点击Analyze Regression LinearAnalyze Regression Linear;n2 2、将销售量、将销售量y y选入选入dependentdependent,年次,年次x x选入选入independentindependent;n3 3、单击、单击SaveSave进入保存对话框:进入保存对话框:n在在Predicted ValuesPredicted Values中的中的UnstandardizedUnstandardized前的前的 中打中打

25、,n在在Prediction IntervalPrediction Interval中的中的IndividualIndividual前的前的 中打中打。n4 4、单击、单击ContinueContinue,单击,单击OKOK。(2 2)回归分析)回归分析结果:结果:设设y y是销售量,是销售量,x x是年次是年次 回归模型:回归模型:y=5.161+12.478x y=5.161+12.478x R=0.978 R R=0.978 R2 2=0.956=0.956 标准误差标准误差=15.56651=15.56651 模型显著性检验模型显著性检验 查相关系数表得查相关系数表得R R 0.050

26、.05(17)=0.457 (17)=0.457 R=0.978 R=0.978 模型回归效果显著,可用于预测。模型回归效果显著,可用于预测。(3 3)预测)预测未来三年的预测值与未来三年的预测值与95%95%的置信区间是:的置信区间是:年份年份 预测值预测值 预测区间预测区间20042004 254.73 254.73 (218.33 218.33 ,291.12291.12)20052005 267.20 267.20 (230.27 230.27 ,304.14304.14)20062006 279.68 279.68 (242.16 242.16 ,317.20317.20)七、时间数

27、列自身相关与自身回归分析n时间数列:即时间序列,指将表明社会现象在不同时间发展变化的某种指标数值,按时间先后顺序排列而形成的数列。n如:广东省95-2009年的国内生产总值、第三产业值、国内生产总值中第三产业比重、职工人数和职工年平均工资依年份远近(近远)排列形成数列,即时间数列。n时间数列自身相关:指一个自身随时间的不同,其值在前后期(前一期或前几期)之间表现出一定的依存关系。n如:工业产品产量与上年产量有关,可用上年产品产量和本年产品产量的关系进行相关分析。n水果分大小年,今年的产量与去年和前几年的产量有关。n注:自身直线回归方程与一般的直线回归方程类似。其中自身相关系数与一般直线相关系数

28、和回归系数联系和区别?八、复相关与复回归n复相关:多个变量之间的依存关系,即一个因变量与两个或两个以上自变量之间的依存关系;n复回归:指根据某一因变量与两个或两个以上自变量之间的相关关系建立的回归关系式。回归方程n一、二元线性回归方程(一个因变量与两个自变量之间的线性相关关系)n二、三元线性回归方程n三、 元线性回归方程。二元回归方程为常数项, 为 对 的回归系数,表明固定了 时, 变动一个单位,引起 变动的平均值; 。系数的确定仍然依照最小二乘法原理。P207(256)n联立以下三方程可得方程的三个系数:复相关系数n单相关系数和复相关系数一样n表达的意义不一样。n二元线性回归的复相关系数的简

29、便公式n三元的相关系数n估计标准误差(一元)(二元相关系数)三元相关系数?例n某省1998-2010年的居民消费、国内生产总值和平均人口资料见P276或P222.九、应用相关与回归分析应注意的问题n一、相关与否要以定性分析为前提(判断变量之间确有相互依存关系)n例:卷烟销售量资料与人的平均寿命资料放在一起,得出正相关,相对荒谬!n二、回归分析要正确确定自变量和因变量n注意:单独进行相关分析时,可以不区分因变量和自变量,但相关和回归分析结合运用时,一定要区分二者,不能颠倒。n三、要选用正确的数学表达式n注:复相关和复回归分析中,既要注意选用与因变量关系密切的自变量,又要在众多的自变量中进行筛选留用自变量之间关系不密切的变量,舍弃关系密切的变量,以防止多重共线性的发生。n四、要注意回归分析应用的范围和条件n利用数学表达式取得的回归方程,均是根据一定范围内的有限资料计算的,其有效性只适用于该范围内,不适用于范围外。但是相关系数通过显著性检验,在一定的概率保证程度下,可作近期预测;若经过其他预测检验法的检验,也可作较长期的预测。本章的重点是直线相关与简单直线相关回归分析的计算,难点是曲线相关的计算。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号