《一元线性回归模型.ppt》由会员分享,可在线阅读,更多相关《一元线性回归模型.ppt(155页珍藏版)》请在金锄头文库上搜索。
1、第二章第二章 一元线性回归模型一元线性回归模型第一节第一节 相关分析和回归分析相关分析和回归分析一一. .经济变量之间的相互关系经济变量之间的相互关系: :经济变量之间的关系,大体可分为两类,一类经济变量之间的关系,大体可分为两类,一类是函数关系;另一类是统计相关关系是函数关系;另一类是统计相关关系 l函数关系是指变量之间存在着完全确定性的依存函数关系是指变量之间存在着完全确定性的依存关系关系 。例如,当价格不变时,销售量。例如,当价格不变时,销售量X与销售额与销售额Y之间的关系。之间的关系。l相关关系是指现象之间客观存在的非确定相关关系是指现象之间客观存在的非确定性数量性数量对应依存关系对应
2、依存关系 。例如,每亩耕地的施肥量例如,每亩耕地的施肥量X与与亩产量亩产量Y之间的关系之间的关系 。 函数关系与相关关系联系函数关系与相关关系联系l两两者者虽虽有有明明显显区区别别,但但两两者者之之间间并并无无严严格格的的界界限限,由由于于存存在在测测量量误误差差等等原原因因,函函数数关关系在实际中往往通过相关关系系在实际中往往通过相关关系表现表现出来出来;l在在研研究究相相关关关关系系时时,若若要要找找出出现现象象间间数数量量的的内内在在联联系系和和表表现现形形式式,往往往往又又需需要要借借助助函函数关系的形式来加以数关系的形式来加以描述描述;l因因此此,可可以以说说,相相关关关关系系是是相
3、相关关分分析析的的研研究究对象,函数关系是对象,函数关系是相关分析相关分析的工具。的工具。二、相关分析二、相关分析 研究一个变量与另一个(组)变量之间研究一个变量与另一个(组)变量之间相关方向和相关密切程度的一种统计分析方相关方向和相关密切程度的一种统计分析方法。法。相关分析目的:相关分析目的:l明确变量之间明确变量之间有无有无关系,关系,l确定相关关系的表现确定相关关系的表现形式形式(曲线与直线),(曲线与直线),l判定相关关系的判定相关关系的方向方向,l测定相关关系的密切测定相关关系的密切程度程度等。等。( (一一) )、相关关系的分类、相关关系的分类1.1.从变量之间相互关系的从变量之间
4、相互关系的方向方向来看,可以成来看,可以成为正相关与负相关;为正相关与负相关; 2.2.按相关关系涉及的变量(或因素)的按相关关系涉及的变量(或因素)的多少多少,可分为单相关与复相关、偏相关;可分为单相关与复相关、偏相关; 3.3.按变量之间相关关系的表现按变量之间相关关系的表现形式形式来看,可来看,可以分成为直线相关和曲线相关;以分成为直线相关和曲线相关; 4.4.按相关的按相关的程度程度来分,可以分为不相关,不来分,可以分为不相关,不完全相关和完全相关三类;完全相关和完全相关三类; 函数关系是相关关系的一种特殊情况。函数关系是相关关系的一种特殊情况。 (二)相关关系的度量(二)相关关系的度
5、量l在在相相关关分分析析中中,通通过过绘绘制制相相关关表表和和相相关关图图,可可以以对对现现象象之之间间存存在在的的相相关关关关系系的的方方向向、形形式式和和密密切切程程度度作直观的、大致的判断。作直观的、大致的判断。l1.1.相相关关表表:将将现现象象之之间间的的相相关关关关系系,用用表表格格来来反反映映,这这种种表表称称为为相相关关表表,分分为为简简单单相相关关表表和和分分组组相相关关表表。例例如如,某某农农场场试试验验田田在在七七次次试试验验中中,获获得得的的小小麦麦产产量与施肥量的观察资料量与施肥量的观察资料 表表2-1 2-1 施肥量与小麦产量的观察数据施肥量与小麦产量的观察数据试验
6、顺序试验顺序1 12 23 34 45 56 67 7X X施肥量(斤施肥量(斤/ /亩)亩)1515252530303636444450505555Y Y小麦产量(斤小麦产量(斤/ /亩)亩)3803804204204104104304304504504704704904902. .相关图:相关图:l将将变变量量之之的的关关系系,通通过过图图形形来来表表示示,这这种种图图形形为为相相关关图图。又又称称为为散散点点图图,通通过过相相关关图图,可可以以大大致致看看出出两两个个变变量量之之间间有有无无相相关关关关系系、相相关关的的形形态态、方向方向及密切及密切程度程度。 l图图2-1相关散点图相关
7、散点图 3.3.相关系数相关系数l通通通通过过过过线线线线性性性性相相相相关关关关图图图图、表表表表可可可可以以以以粗粗粗粗略略略略地地地地观观观观察察察察两两两两个个个个变变变变量量量量之之之之间间间间相相相相互互互互关关关关系系系系的的的的类类类类型型型型、方方方方向向向向以以以以及及及及相相相相关关关关的的的的密密密密切切切切程程程程度度度度,但但但但无无无无法法法法确切地确切地确切地确切地表明两个变量之间线性相关的程度。表明两个变量之间线性相关的程度。表明两个变量之间线性相关的程度。表明两个变量之间线性相关的程度。l英英英英 国国国国 著著著著 名名名名 统统统统 计计计计 学学学学
8、家家家家 卡卡卡卡 尔尔尔尔 皮皮皮皮 尔尔尔尔 逊逊逊逊 ( Karl Karl Karl Karl PearsonPearsonPearsonPearson)1890189018901890年年年年设设设设计计计计了了了了一一一一个个个个用用用用于于于于测测测测定定定定两两两两个个个个变变变变量量量量之之之之间间间间线线线线性性性性相相相相关关关关程程程程度度度度和和和和相相相相关关关关方方方方向向向向的的的的指指指指标标标标简简简简单单单单相相相相关关关关系系系系数数数数, , , ,也称为也称为也称为也称为PearsonPearsonPearsonPearson相关系数相关系数相关系数
9、相关系数。 (1 1 1 1)相关系数的定义)相关系数的定义)相关系数的定义)相关系数的定义 (2 2 2 2)相关系数的计算)相关系数的计算)相关系数的计算)相关系数的计算 (3 3 3 3)根据相关系数初步判定变量之间的关系)根据相关系数初步判定变量之间的关系)根据相关系数初步判定变量之间的关系)根据相关系数初步判定变量之间的关系 (4 4 4 4)简单相关系数的缺陷)简单相关系数的缺陷)简单相关系数的缺陷)简单相关系数的缺陷(1 1)相关系数的定义)相关系数的定义离差离差在在、象限象限:在在、象限:象限:(x,y符号相同符号相同)(x,y符号相反)符号相反)判断判断l如如果果所所有有的的
10、观观测测值值落落在在、象象限限,离离差差之之积积 为为正正,则则X、Y为为正正相相关关,如如果果所所有有观观测测值值在在、象象限限,离离差差之之积积 为为负负,则则X,Y为为负负相相关关,如如果果所所有有的的观观测测值值散散落落在在四四个个象象限限内内,则则正正的的和和负负的的乘乘积积 趋于互相抵消,其乘积之和将趋于趋于互相抵消,其乘积之和将趋于0。l如如果果所所有有变变量量值值X和和Y与与其其平平均均数数的的离离差差乘乘积积之之和和为正,则为正,则X和和Y之间就是正相关。用符号表示为:之间就是正相关。用符号表示为:l如如果果所所有有变变量量值值X和和Y与与其其平平均均数数的的离离差差乘乘积积
11、之之和和为负,则和之间是负相关。用符号表示为:为负,则和之间是负相关。用符号表示为:缺点:缺点:l离离差差乘乘积积之之和和 提提供供了了X和和Y之之间间的的一一个个相相关关度度量量。但但是是,这这样样来来度度量量相相关关关关系系,只只能能表表示示相相关关方方向向,要要表表示示具具体相关体相关程度程度还有还有缺点缺点:l受受观观测测值值数数目目n影影响响,观观测测值值数数目目n越多,越多, 越大,相关程度越强;越大,相关程度越强;l 受受X,Y计计量量单单位位的的影影响响,如如果果将将X和和Y的的单单位位改改为为吨吨,则则X,Y数数值值就就更更小小,同同样观测值,相关度量结果不同。样观测值,相关
12、度量结果不同。为了克服第为了克服第个缺点个缺点l用观测值数目用观测值数目n除除xy,即,即 叫做叫做X和和Y的协方差,的协方差,l协方差不仅能直接显示协方差不仅能直接显示X与与Y是正相关还是是正相关还是负相关;而且能反映负相关;而且能反映X与与Y两个变量的两个变量的“共变共变性性”。lSxy消除了样本单位数多少的影响,但仍然消除了样本单位数多少的影响,但仍然受观测值计量单位的影响;受观测值计量单位的影响;为了克服第为了克服第缺点缺点l给协方差除以给协方差除以X,Y各自的标准差:各自的标准差: Sx , Syl 这样便可消除变量计量量单位的影响。这样便可消除变量计量量单位的影响。l标准差标准差S
13、x和和Sy的作用,在于对的作用,在于对X,Y与各自与各自平均数的离差,分别用各自的标准差为尺平均数的离差,分别用各自的标准差为尺度,加以度,加以标准化标准化,然后再求标准差的协方,然后再求标准差的协方差,用符号差,用符号 表示,即:表示,即:相关系数相关系数定义式定义式皮尔逊相关系数的最简式皮尔逊相关系数的最简式其中:2.2.相关系数的计算相关系数的计算积差式积差式同理:同理:相关系数简捷式相关系数简捷式相关系数平均式相关系数平均式4.4.等级相关系数等级相关系数l也也称称为为斯斯皮皮尔尔曼曼 ( (SpearmanSpearman) ) 相相关关系系数数,用用来来度度量量定定序序变变量量之之
14、间间的的线线性性相相关关关关系系,就就是是把把有有联联系系的的定定量量变变量量或或定定性性变变量量的的具具体体表表现现按按等等级级次次序序排排列列,形形成成两两个个定定序序数数列列,再再测测定定标标志志等等级级与与标标志志等等级级间间的的相相关关程程度度的的一一种种方方法法,等等级级相相关关法法又又称称顺位相关法顺位相关法. .l用用r rs s表示。表示。 l式中,式中,n n为样本容量,为样本容量,D D为序列等级之差为序列等级之差, ,即即d=Xd=X等等级级-Y-Y等级等级 。SpearmanSpearman相关系数的适用范围较相关系数的适用范围较PearsonPearson相关系数要
15、广得多。相关系数要广得多。 (三)相关系数的范围(三)相关系数的范围1.相关系数的绝对值不超过相关系数的绝对值不超过1,即,即|r|1 2.根根据据相相关关系系数数的的符符号号,判判定定正正相相关关(正正比比例例)r 0、负相关(反比例)负相关(反比例)r0.3.根据相关系数的大小,判定:根据相关系数的大小,判定:当当r= 0时时,称称为为不不相相关关。或或者者不不存存在在直直线线相相关关,但可能存在其他类型的关系。但可能存在其他类型的关系。当当0 |r| 0.3时,时, 称为微弱相关。称为微弱相关。当当0.3 |r| 0.5时,称为低度相关。时,称为低度相关。当当0.5 |r| 0.8时,称
16、为中度相关。时,称为中度相关。当当0.8 |r| F ,小小概概率率事事件件发发生生了了,根根据据小小概概率率原原理理,小小概概率率事事件件在在一一次次试试验验中中是是不不可可能能发发生生的的,于于是是H0不不成成立立。就就不不能能认认为为X没没有有作作用用。则则直直线线是是有有意义的。可靠性意义的。可靠性=1- F F检验的意义检验的意义l对对这这种种假假设设进进行行F检检验验,实实质质上上就就是是对对一一元元线线性回归模型进行显著性检验。因为:性回归模型进行显著性检验。因为:l这这说说明明,F统统计计量量是是在在考考虑虑自自由由度度的的条条件件下下,已已解解释释变变差差的的平平方方和和相相
17、对对于于残残差差平平方方和和的的倍倍数数,就就回回归归模模型型整整体体来来说说,F统统计计量量越越大大,表表明明回回归归模模型型中中的的所所有有解解释释变变量量对对被被解解释释变变量量的解释程度越高。的解释程度越高。拟合优度与拟合优度与F F统计量之间的联系统计量之间的联系lF显著显著拟合优度必然显著拟合优度必然显著l可可以以直直观观地地看看出出,如如果果模模型型对对样样本本有有较较高高的的拟拟合合优优度度,则则F检检验验一一般般都都能能通通过过,即即越越容容易易拒拒绝绝原原假假设设 ,换换句句话话说说,样样本本回回归归函函数数对对样样本本数数据据的的拟拟合合程程度度好好,则则模模型型越越能能
18、准准确确地地反反映映总总体体特特征征。因因此此,用用来来判判断断估估计计的的回回归归方方程程显显著著性性的的F检检验验, 实实际际上上也也是是判判定定系系数数的的显显著著性性检检验验.实实际际应应用用中中不不必过分苛求必过分苛求R2值的大小。值的大小。 F F检验与检验与t t检验的关系检验的关系l在一元线性回归中,在一元线性回归中,F检验和检验和t检验是一致的,这检验是一致的,这是因为它们有相同的原假设是因为它们有相同的原假设 ,并且,并且t统计统计量和量和F统计量之间存在如下关系:统计量之间存在如下关系:l此时,对参数的显著性检验(此时,对参数的显著性检验(t检验)与对回归总检验)与对回归
19、总体线性的显著性检验(体线性的显著性检验(F检验)是等价的。检验)是等价的。第四节第四节 预测预测一一、预测的定义与种类、预测的定义与种类二、点预测二、点预测三、区间预测三、区间预测四、预测的精度四、预测的精度一、预测的定义与分类一、预测的定义与分类l预测是对于未来或未知的预计(估计)与推测;预测是对于未来或未知的预计(估计)与推测;l预测不是臆测,这里的预测是预测不是臆测,这里的预测是科学科学的预测,它是的预测,它是建立在对预测对象认识、分析和科学的推理基础建立在对预测对象认识、分析和科学的推理基础之上的。之上的。l预测是计量经济研究的目的之一,也是回归分析预测是计量经济研究的目的之一,也是
20、回归分析应用的主要方面。应用的主要方面。l一元线性回归模型预测,就是指由已知的或预先一元线性回归模型预测,就是指由已知的或预先测定的解释变量的数值,去估计被解释变量在所测定的解释变量的数值,去估计被解释变量在所观测的样本数据以外的数值。观测的样本数据以外的数值。预测的分类预测的分类l内内插插预预测测和和外外推推预预测测。在在解解释释变变量量值值属属于于已已知知的的样样本本区区间间的的情情况况下下预预测测相相应应的的被被解解释释变变量量值值,这这种种预预测测称称为为内内插插预预测测,也也可可以以看看成成是是对对被被解解释释变变量量在在同同一一时时间间不不同同空空间间状状态态的的静静态态预预测测;
21、通通常常用用内内插插预预测测来来检验检验样本回归方程的样本回归方程的预测能力预测能力。l当当解解释释变变量量在在样样本本区区间间以以外外但但可可以以用用其其他他方方法法先先估估计计预预测测期期的的解解释释变变量量的的情情况况下下预预测测某某个个被被解解释释变变量量值值,这这样样的的预预测测称称为为外外推推预预测测。这这种种预预测测可可以以看看成成是是对对被被解解释释变变量量未未来来时时期期的的动动态态预预测测,建建立立计计量量经经济济模模型型的的目目的的就就是是解解释释经经济济现现象象并并预预测测经经济济变变量量的的未来走势,因此在实际预测里,常常作未来走势,因此在实际预测里,常常作外推预测外
22、推预测。 二、点预测二、点预测1.1.基本思想基本思想l运运用用计计量量经经济济模模型型作作预预测测:指指利利用用所所估估计计的的样样本本回回归归函函数数,用用解解释释变变量量的的已已知知值值或或预预测测值值,对对预预测测期期或或样样本本以以外外的的被被解解释释变变量量数数值值可可能能取取值值或或可可能能取值范围取值范围作出定量的估计。作出定量的估计。l按按照照预预测测方方法法来来分分,预预测测可可以以分分为为点点预预测测和和区区间间预预测测两两种种;按按照照预预测测对对象象来来分分,点点预预测测和和区区间间预预测测又又都都可可以以进进一一步步分分为为个个别别值值预预测测和和平平均均值值预预测
23、测两种。两种。预测值、平均值、个别值的相互关系预测值、平均值、个别值的相互关系是真实平均值的点估计是真实平均值的点估计,也是对个别值的点估计也是对个别值的点估计个别值真实平均值点预测值2.2.被解释变量被解释变量Y Y 的点预测的点预测l 将解释变量特定值将解释变量特定值X0直接代入估计的方程直接代入估计的方程l 这这样样计计算算的的 是是一一个个点点估估计计值值,既既是是对对被被解解释释变变量量平平均均值值E(Y/X0)的的点点预预测测,也也是是对对个个别别值值Y0的点预测的点预测;l 由于存在随机扰动由于存在随机扰动u0 的影响的影响,Y的平均值并不等的平均值并不等于于Y的个别值。的个别值
24、。3.3.被解释变量均值的点预测被解释变量均值的点预测l由由于于总总体体回回归归函函数数是是 ,当当Xi=X0时时,相相应应的的总总体体均均值值 ,因因为为 和和 是是随随样样本本变变化化的的随随机机变变量量,又又因因为为 和和 分分别别是是 和和 的的最最佳佳线线性性无无偏偏估估计计(BLUE),所所以以,由由样样本本回回归归函函数数 计计算算的的 也也是是均均值值E(Y/ X0) 的的最最佳线性无偏估计。佳线性无偏估计。l1)线性性线性性:2)2)无偏性无偏性: :l即即 可表示成的无偏预测值。可表示成的无偏预测值。l3)有效性有效性:与证明参数估计量最小方差性同样的:与证明参数估计量最小
25、方差性同样的方法,也可以证明方法,也可以证明 是均值是均值E(Y/X0)的所有线性的所有线性无偏预测中方差最小的。无偏预测中方差最小的。l即:即: 4.4.个别值个别值Y Y0 0的点预测的点预测l由样本回归函数由样本回归函数 计算的计算的 作为当作为当Xi=X0时时, 对个别值对个别值 的预测值也是的预测值也是合理的;合理的;l但是,但是, 可见可见 不是不是 的无偏估计式。可是的无偏估计式。可是l在这个意义上,用在这个意义上,用 来估计来估计 ,并用,并用 作为作为 的的预测值也是合理的。预测值也是合理的。 三、区间预测三、区间预测l当当我我们们用用样样本本回回归归函函数数所所决决定定的的
26、被被解解释释变变量量的的值值来来估估计计总总体体均均值值和和个个别别值值时时,一一方方面面,由由于于存存在在抽抽样样波波动动,估估计计的的参参数数与与总总体体真真实实参参数数有有误误差差,那那么么由由样样本本回回归归函函数数求求出出的的被被解解释释变变量量预预测测值值 与与总总体体真真实实平平均均值值E(Y/X0)也也会会有有误误差差,两两者者之之差差称为称为预测误差预测误差。l另另一一方方面面,由由于于随随机机扰扰动动ui的的存存在在,当当用用被被解解释释变变量量预预测测值值 在在预预测测个个别别值值Y0和和平平均均值值E(Y/X0)时时,其其相相对对个个别别值值的的预预测测误误差差必必定定
27、大大于于其其相相对对均均值值的的预预测测误误差差,所所以以还还有有必必要要对对均均值值和和个个别别值值的的置置信信区间作出区间预测。区间作出区间预测。 1. 1. Y Y 平均值的区间预测平均值的区间预测基本思想:基本思想:l由由于于存存在在抽抽样样波波动动,预预测测的的平平均均值值 不不一一定定等等于于真真实实平平均均值值E(Y/X0) ,还还需需要要对对E(Y/X0) 作作区区间间估估计。计。l为为对对E(Y/X0)作作区区间间预预测测,必必须须确确定定预预测测值值 的的抽抽 样样分分布布,必必须须找找出出与与 和和E(Y/X0) 都都有有关关的的统统计计量量.的抽样分布的抽样分布l由前面
28、分析知,由前面分析知, 是是 和和 的最佳线性无偏估计,的最佳线性无偏估计,所以,所以, 也是也是E(Y/X0)的最佳线性无偏估计,而且的最佳线性无偏估计,而且由于由于 均服从正态分布,作为其线性函数的均服从正态分布,作为其线性函数的 也必然服从正态分布也必然服从正态分布。l由于,由于,l以及以及均值均值E(Y/X0)E(Y/X0)的预测区间的预测区间l所以:所以:l则有:则有:l给定显著性水平给定显著性水平 ,可查,可查t分布表确立临界值分布表确立临界值 ,于是于是 l从而在从而在1- 的置信度下,均值的置信度下,均值E(Y/X0)的预测区间的预测区间为为:2.2.个别值的预测区间:个别值的
29、预测区间:l已知剩余项已知剩余项 e0= Y0- 是与预测值是与预测值 及个别及个别值值Y0都有关的变量都有关的变量,由于由于Y0和和 都服从正态分布都服从正态分布,显然显然e0也也服从正态分布,且可证明服从正态分布,且可证明l E(e0)=E()=E(+)-=0l l因此,因此,e0的标准误差为的标准误差为:l而且而且 e0N(0,Var(e0),标准化后,标准化后: l当用当用 代替代替 时,对时,对 e0标准化标准化的统计量的统计量 t为为:l给定显著性水平给定显著性水平 ,可查,可查t分布表确立临界值分布表确立临界值 ,于是于是 l从而在从而在1- 的置信度下,个别值的置信度下,个别值
30、 的预测区间为的预测区间为:构建个别值的预测区间构建个别值的预测区间 被解释变量被解释变量Y Y 区间预测的特点区间预测的特点 1、 平均值的预测值与真实平均值有误差,主要是平均值的预测值与真实平均值有误差,主要是 受受抽样波动抽样波动影响影响 个别值的预测值与真实个别值的差异个别值的预测值与真实个别值的差异,不仅受抽不仅受抽 样波动影响,而且还受随机扰动项的影响样波动影响,而且还受随机扰动项的影响2、平均值和个别值预测区间都不是常数,是随平均值和个别值预测区间都不是常数,是随 的的变变化化而而变变化化的的,特特别别当当 时时,此此时时 预预测测区区间间最最窄窄, 离离 越越远远, 越越大大,预预测测区区间间越宽,预测精度会下降。越宽,预测精度会下降。3、预测区间上下限与样本容量有关,当样本容、预测区间上下限与样本容量有关,当样本容 量量 时个别值的预测误差只决定于随机时个别值的预测误差只决定于随机 扰动的方差扰动的方差 被解释变量被解释变量Y Y 区间预测的特点区间预测的特点SRF各种预测值的关系各种预测值的关系Y的个别值的置信区间Y均值的置信区间