《简单线性回归模型》PPT课件.ppt

资源描述

《《简单线性回归模型》PPT课件.ppt》由会员分享，可在线阅读，更多相关《《简单线性回归模型》PPT课件.ppt（89页珍藏版）》请在金锄头文库上搜索。

1、计量经济学计量经济学第第二二章章简单线性回归模型从从2004中国国际旅游交易会上获悉，到中国国际旅游交易会上获悉，到2020年，中国年，中国旅游业总收入将超过旅游业总收入将超过3000亿美元，相当于国内生产总亿美元，相当于国内生产总值的值的8%至至11%。（资料来源：国际金融报（资料来源：国际金融报2004年年11月月25日第二版）日第二版）是什么决定性的因素能使中国旅游业总收入到是什么决定性的因素能使中国旅游业总收入到2020年达到年达到3000亿美元？亿美元？旅游业的发展与这种决定性因素的数量关系究竟是旅游业的发展与这种决定性因素的数量关系究竟是什么？什么？怎样具体测定旅游业发展与这种

2、决定性因素的数量怎样具体测定旅游业发展与这种决定性因素的数量关系关系?引子引子:中国旅游业总收入将超过3000亿美元吗？2应当考虑的问题：应当考虑的问题：（1）确定作为研究对象的经济变量）确定作为研究对象的经济变量（如中国旅游业总收入）（如中国旅游业总收入）（2）分析影响研究对象变动的主要因素）分析影响研究对象变动的主要因素（如中国居民收入的增长）（如中国居民收入的增长）（3）分析各种影响因素与所研究经济现象的相互关系）分析各种影响因素与所研究经济现象的相互关系（决定相互联系的数学关系式）（决定相互联系的数学关系式）（4）确定所研究的经济问题与影响因素间具体的数量关系）确定所研究的经济问题与影

3、响因素间具体的数量关系（需要特定的方法）（需要特定的方法）（5）分析并检验所得数量结论的可靠性）分析并检验所得数量结论的可靠性（需要统计检验）（需要统计检验）（6）运用数量研究结果作经济分析和预测）运用数量研究结果作经济分析和预测（对数量分析的实际应用）（对数量分析的实际应用）3一、回归与相关（对统计学的回顾）1、经济变量间的相互关系确定性的函数关系确定性的函数关系Y=f(X)不确定性的统计关系相关关系相关关系Y=f（X）+(为随机变量)没有关系没有关系第一节第一节回归分析与回归方程回归分析与回归方程42 2、相关关系、相关关系相关关系的描述相关关系最直观的描述方式相关关系最直观的描述方式坐

4、标图（坐标图（散布图） Y X5相关关系的相关关系的类型从涉及的从涉及的变量数量看看简单相关简单相关多重相关（复相关）多重相关（复相关）从变量相关关系的从变量相关关系的表现形式看看线性相关相关散布图接近一条直线散布图接近一条直线非线性相关相关散布图接近一条曲线散布图接近一条曲线从变量相关关系变化的从变量相关关系变化的方向看看正相关变量同方向变化，同增同减变量同方向变化，同增同减负相关变量反方向变化，一增一减变量反方向变化，一增一减不相关63、相关程度的度量相关系数X和Y的总体线性相关系数：其中：Var(X)-X的方差Var(Y)-Y的方差Cov（X，Y）-X和Y的协方差X和Y的样本线性相关系

5、数：其中：和分别是变量X和Y的样本观测值，和分别是变量X和Y样本值的平均值7X和和Y都是相互都是相互对称的随机变量，随机变量，线性性相相关关系系数数只反映变变量量间间的的线性相关程程度度，不不能能说明非线性相关关系说明非线性相关关系样样本本相相关关系系数数是是总总体体相相关关系系数数的的样样本本估估计计值值，由由于于抽抽样样波波动动，样样本本相相关关系系数数是个随机变量，其其统统计计显显著性有待检验著性有待检验相相关关系系数数只只能能反反映映线线性性相相关关程程度度，不能确定因果关系，不能说明相关关系具体接近哪条直线，不能说明相关关系具体接近哪条直线计量经济学关心：变量间的因果关系及隐藏在随机

6、计量经济学关心：变量间的因果关系及隐藏在随机性后面的统计规律性，这有赖于回归分析方法性后面的统计规律性，这有赖于回归分析方法使用相关系数时应注意使用相关系数时应注意:84 4、回归分析、回归分析回归的古典意义古典意义：高尔顿遗传学的回归概念(父母身高与子女身高的关系)回归的现代意义现代意义：一个应变量对若干解释变量依存关系的研究回归的目的（实质）目的（实质）：由固定的解释变量去由固定的解释变量去估计应变量的平均值估计应变量的平均值9Y的条件分布：当当解解释释变变量量X取取某某固固定定值值时时（条条件件），Y的的值值不不确确定定，Y的不同取值形成一定的分布，这是的不同取值形成一定的分布，这是Y的

7、条件分布。的条件分布。Y的条件期望：对于对于X的每一个取值，的每一个取值，Y对对Y所形成的分布确所形成的分布确定其期望或均值，称定其期望或均值，称为为Y的条件期望或条的条件期望或条件均值件均值E（Y ）注意几个概念10回归线与回归函数回归线与回归函数回归线：回归线：对于每一个对于每一个X的取值的取值，都有都有Y的条件期望的条件期望E（Y ）与之对应，代表这些与之对应，代表这些Y的条件期望的点的的条件期望的点的轨迹所形成的直线或曲线，称为回归线。轨迹所形成的直线或曲线，称为回归线。回归函数：回归函数：应变量应变量Y的条件期望的条件期望E（Y ）随解释随解释变量变量X的的变化而有规律的变化，如果把

8、的的变化而有规律的变化，如果把Y的条件期的条件期望望E（Y ）表现为表现为X的某种函数的某种函数E（Y ）=f()这个函数称为回归函数。这个函数称为回归函数。回归函数分为：总体回归函数回归函数分为：总体回归函数样本回归函数样本回归函数11每月家庭可支配收入 X100015002000250030003500400045005000550082096211081329163218422037227524642824888102412011365172618742110238825893038932112112641410178619062225242627903150每96012

9、1013101432183510682319248828563201月125913401520188520662321258729003288家132414001615194321852365265030213399庭1448165020372210239827893064消1489171220782289248728533142费1538177821792313251329343274支160018412298239825383110出17021886231624232567Y1900238724532610201224982487271025892586900115014001650190

10、021502400265029003150举例：假如已知100个家庭构成的总体二、总体回归函数（PRF）12 1、总体回归函数的概念前前提提：假如已已知知所所研研究究的的经经济济现现象象的的总体应应变变量量Y和和解解释释变变量量X的的每每个个观观测测值值,可可以以计计算算出出总体应应变变量量Y的的条件均值E（Y ），并并将其表现为解释变量将其表现为解释变量X的某种函数的某种函数这个函数称为这个函数称为总体回归函数（PRF）二、总体回归函数（PRF）13 2、总体回归函数的表现形式（1）条件均值表现形式表现形式假假如如Y的的条条件件均均值值E（Y ）是是解解释释变变量量X的的线线性性函函数，可表

11、示为：数，可表示为：（2）个别值表现形式（随机设定形式）表现形式（随机设定形式）对于一定的对于一定的，Y的各个别值的各个别值分布在分布在的的周周围围，若若令令各各个个别别值值与与条条件件均均值值的的偏差为偏差为,显然显然是随机变量是随机变量则有则有14实实际际的的经经济济研研究究中中总总体体回回归归函函数数通通常常是是未知的的，只只能能根根据据经经济济理理论论和和实实践践经经验验去去设定。“计计量量”的的目目的就是寻求的就是寻求PRFPRF。总总体体回回归归函函数数中中Y Y与与X X的的关关系系可是线性的的，也也可可是是非线性的。的。 3、注意几点 15就变量而言就变量而言就变量而言就变量而

12、言是线性的是线性的 YY的条件均值是的条件均值是X X的线性函数的线性函数就参数而言就参数而言就参数而言就参数而言是线性的是线性的 YY的条件均值是参数的条件均值是参数的线性函数的线性函数判断：变量、参数均变量、参数均” ”线性线性” ” 参数参数“ “线性线性” ”，变量，变量” ”非线非线性性” ” 变量变量“ “线性线性” ”，参数，参数” ”非线非线性性” ”计量经济学中线性回归模型主要指就参数是“线性”对线性回归模型“线性线性” ” 的两种解释的两种解释：16三、随机扰动项u概念各个各个值与条件均值值与条件均值的偏差的偏差代表排除在模型以外的代表排除在模型以外的所有因素对所有因素

13、对Y的影响。的影响。性质：是期望为是期望为0有一定分布的有一定分布的随机变量重要性：随机扰动项的性质决定着计量经济方法的选择随机扰动项的性质决定着计量经济方法的选择17引入随机扰动项的原因引入随机扰动项的原因未知未知影响因素的代表影响因素的代表无法取得数据无法取得数据的已知影响因素的代表的已知影响因素的代表众多细小影响因素众多细小影响因素的综合代表的综合代表模型的模型的设定误差设定误差变量的变量的观测误差观测误差变量内在变量内在随机性随机性18四、样本回归函数（SRF）样本回归线：对于对于X的一定值，取得的一定值，取得Y的的样本观测值，可计算其可计算其条件均值，样本观测值条件均值的轨迹，称为样

14、本回归线。样本观测值条件均值的轨迹，称为样本回归线。样本回归函数：如果把应变量如果把应变量Y的样本条件均值表示为解释变量的样本条件均值表示为解释变量X的某种函数，的某种函数，这个函数称为样本回归函数（这个函数称为样本回归函数（SRF）。）。YX19SRF的特点每次抽样都能获得一个样本，就可以拟合一条样本回归每次抽样都能获得一个样本，就可以拟合一条样本回归线，所以样本回归线随线，所以样本回归线随抽样波动而而变化，可以有许多，可以有许多条条（SRF不唯一）不唯一）。YSRF1SRF2X样本回归函数的函数形式应与样本回归函数的函数形式应与设定的总体回归函数的的总体回归函数的函数形式一致。样本回归线还

15、不是总体回归线，至多只是未知总体回归样本回归线还不是总体回归线，至多只是未知总体回归线的线的近似表现。表现。20样本回归函数如果为线性函数，可表示为样本回归函数如果为线性函数，可表示为其中：其中：是与是与相对应的相对应的Y的样本条件均值的样本条件均值和和分别是样本回归函数的参数分别是样本回归函数的参数应应变变量量Y的的实实际际观观测测值值不不完完全全等等于于样样本本条条件件均均值值，二者之差用二者之差用表示表示,称为称为剩余项或或残差项残差项：或者或者样本回归函数的表现形式样本回归函数的表现形式21对样本回归的理解对样本回归的理解如果能够获得如果能够获得和和的数值，显然的数值，显然:和和是对总

16、体回归函数参数是对总体回归函数参数和和的估计的估计是对总体条件期望是对总体条件期望E（Y ）的估计的估计在概念上类似总体回归函数中的在概念上类似总体回归函数中的，可，可视为对视为对的估计。的估计。22样本回归函数与总体回归函数的关系样本回归函数与总体回归函数的关系SRFPRFAX23回归分析的目的回归分析的目的：用样本回归函数SRF去估计总体回归函数PRF。由于样本对总体总是存在代表性误差，SRF总会过高或过低估计PRF。要解决的问题要解决的问题：寻求一种规则和方法，规则和方法，使得到的SRF的参数和尽可能“接近”总体回归函数中的参数和。这样的这样的“规则和方法规则和方法”有多种，最常用的是最

17、小二有多种，最常用的是最小二乘法乘法24第二节简单线性回归模型的最小二乘估计用用样样本本去去估估计计总总体体回回归归函函数数,除除了了样样本本以以外外,还还需需要要一一些前提条件些前提条件假定条件假定条件一简单线性回归的基本假定为什么要作基本假定？模模型型中中有有随随机机扰扰动动，估估计计的的参参数数是是随随机机变变量量，只只有有对对随随机机扰扰动动的的分分布布作作出出假假定定，才才能能确定所所估估计计参参数数的的分布性质，也才可能进行假设检和区间估计也才可能进行假设检和区间估计只有具备一定的假定条件，所作出的估计才只有具备一定的假定条件，所作出的估计才具有较好的具有较好的统计性质。25基

18、本假定的内容对对模型和变量的假定的假定对随机扰动项的假定对随机扰动项的假定1 1、对、对模型和变量的假定的假定假定解释变量假定解释变量X是是非随机的，或者虽然是随的，或者虽然是随机的，但机的，但与扰动项u是不相关的。的。假定解释变量假定解释变量X在重复抽样中为在重复抽样中为固定值。假定变量和模型假定变量和模型无设定误差。262、对随机扰动项u的假定又称高斯假定、古典假定又称高斯假定、古典假定假定1：零均值假定:在给定在给定X的条件下的条件下，的条件期望为零的条件期望为零E（X）=0假定2：同方差假定:在给定在给定X的条件下，的条件下，的条件方差为某个常数的条件方差为某个常数27 假定假定

19、3 3：无自相关假定无自相关假定:随机扰动项的逐次值互不相关Cov(,)=E-E()-E()=E()=0假定假定4 4：随机扰动随机扰动与解释变量与解释变量不相关不相关Cov(,)=E-E()-E()=028（顺便提出）（顺便提出）假定5：对随机扰动项分布的对随机扰动项分布的正态性假定即假定即假定服从均值为零、方差为服从均值为零、方差为的正的正态分布态分布uN(0,)（说明：正正态态性性假假定定不不影影响响对对参参数数的的点点估估计计，所所以以可可不不列列入入基基本本假假定定，但但这这对对确确定定所所估估计计参参数数的的分分布布性性质质是是需需要要的的。且且根根据据中中心心极极限限定定理理，当

20、当样样本本容容量量趋趋于于无无穷穷大大时时，的的分分布布会会趋趋近于正态分布。所以正态性假定是合理的）近于正态分布。所以正态性假定是合理的）29Y的分布性质的分布性质由于由于的分布性质决定了的分布性质决定了的分布性质。的分布性质。对对的一些假定可以等价地表示为对的一些假定可以等价地表示为对的假定：的假定：假定假定1：零均值假定。：零均值假定。假定假定2：同方差假定。：同方差假定。Var( )=假定假定3：无自相关假定。：无自相关假定。Cov(,)=0假定假定5：正态性假定。：正态性假定。N30二、普通最小二乘法二、普通最小二乘法（OLS）（rdinaryLeastSquares)OLS的基本思

21、想：的基本思想：不同的估计方法可得到不同的样本回归参数和，所估计的也不同。理想的估计方法应使与的差即剩余越小越好因可正可负，所以可以取最小即31取偏导数为取偏导数为0，得，得正规方程用克莱姆法则求解得观测值形式的用克莱姆法则求解得观测值形式的OLS估计式：32为表达得简洁，或者用离差形式OLS估计式估计式：注意注意其中：33三、三、OLS回归线的性质可以证明可以证明：（见（见P26P27证明）证明）回归线通过样本均值回归线通过样本均值估计值估计值的均值等于实的均值等于实际观测值际观测值的均值的均值剩余项剩余项的均值为零n34应变量应变量估计值与剩余项与剩余项不不相关相

22、关解释变量与剩余项不相关35（一）参数估计式的评价标准（一）参数估计式的评价标准 1 1、无偏性、无偏性前提：重复抽样中估计方法固定、样本数不变、经重复抽样的观测值,可得一系列参数估计值参数估计值的分布称为的抽样分布，其密度函数记为f( ) 如果 E( ) =称是参数的无偏估计式，否则称是有偏的，其偏倚偏倚为E( )- （见图12）四、参数估计式的统计性质36概概率率密密度度估计值估计值偏倚偏倚图图 1 . 237前提：前提：样本相同、用不同的方法估计参数，样本相同、用不同的方法估计参数，可以找到若干个不同的估计式可以找到若干个不同的估计式目标目标:努力寻求其抽样分布具有最小方差的

23、努力寻求其抽样分布具有最小方差的估计式估计式最小方差准则，或称最佳最小方差准则，或称最佳性准则性准则（见图（见图1313）既是无偏的同时又具有最小方差的估计既是无偏的同时又具有最小方差的估计式，称为最佳无偏估计式。式，称为最佳无偏估计式。2、最小方差性、最小方差性38概概率率密密度度估计值估计值图图 1 . 339 3 3、渐近性质、渐近性质（大样本性质）（大样本性质）思想:当样本容量较小时当样本容量较小时, ,有时很难找到最佳无偏估计，有时很难找到最佳无偏估计，需要考虑样本扩大后的性质需要考虑样本扩大后的性质（估计方法不变，样本数逐步增大（估计方法不变，样本数逐步增大, ,分析其性质是否

24、改善）分析其性质是否改善）一致性：当样本容量当样本容量 n n 趋于无穷大时，如果估计式趋于无穷大时，如果估计式依概率收依概率收敛于总体参数的真实值，就称这个估计式敛于总体参数的真实值，就称这个估计式是是的一的一致估计式。即致估计式。即或或 P Lim =P Lim = nn （渐近无偏估计式是当样本容量变得足够大时其偏倚趋于（渐近无偏估计式是当样本容量变得足够大时其偏倚趋于零的估计式）零的估计式）(见图见图1.4)40概概率率密密度度估计值估计值图图 1 . 441（二）（二）OLS估计式的统计性质由由OLS估计式可以看出估计式可以看出由可观测的样本值由可观测的样本值和和唯一表示

25、。唯一表示。因存在抽样波动，因存在抽样波动，OLS估计估计是随机变量是随机变量OLS估计式是点估计式估计式是点估计式422、无偏特性特性（证明见（证明见P28）3、最小方差特性特性（证明见（证明见P48附录附录21）在所有的线性无偏估计中，在所有的线性无偏估计中，OLS估计估计具有具有最小方差最小方差结论：结论：OLS估计式是最佳线性无偏估计式最佳线性无偏估计式（BLUE）（高斯定理）1、线性特征特征是是Y的线性函数的线性函数43第四节拟合优度的度量概念：样本回归线是对样本数据的样本回归线是对样本数据的一种拟合，不同估计方法可一种拟合，不同估计方法可拟合出不同的回归线，拟合拟合出不同的回

26、归线，拟合的回归线与样本观测值总有的回归线与样本观测值总有偏离。样本回归线对样本观偏离。样本回归线对样本观测数据拟合的优劣程度测数据拟合的优劣程度拟合优度拟合优度拟合优度的度量建立在对总变差分解的基础上拟合优度的度量建立在对总变差分解的基础上44一、总变差的分解分析分析Y的观测值、估计值与平均值的关系的观测值、估计值与平均值的关系因为因为,将上式两边平方加总，可证得将上式两边平方加总，可证得（TSS）（ESS）（RSS）总变差（TSS）：应变应变量量Y的观测值与其平均值的离差平方和（总的观测值与其平均值的离差平方和（总平方和）平方和）解释了的变差（ESS）：应变量应变量Y的估计值与其

27、平均值的离差平方的估计值与其平均值的离差平方和（回归平方和）和（回归平方和）剩余平方和（RSS）：应变量观测值与估计值之差的平方和应变量观测值与估计值之差的平方和（未解释的平方和）（未解释的平方和）45YnX46二、可决系数二、可决系数以以TSS同除总变差等式两边：同除总变差等式两边：或或定义：定义：回归平方和（解释了的变差回归平方和（解释了的变差ESS）在总变差在总变差（TSS）中所占的比重称为可决系数用中所占的比重称为可决系数用表示表示:或或47可决系数的作用可决系数的作用:可决系数越大，说明在总变差中由模型作出了解释的部可决系数越大，说明在总变差中由模型作出了解释的部分占的比重越大，模型

28、拟合优度越好。反之可决系数越小，分占的比重越大，模型拟合优度越好。反之可决系数越小，说明模型对样本观测值的拟合程度越差。说明模型对样本观测值的拟合程度越差。可决系数的特点：可决系数取值范围：可决系数取值范围：随抽样波动，样本可决系数随抽样波动，样本可决系数是随抽样而变动的随是随抽样而变动的随机变量机变量可决系数是非负的统计量可决系数是非负的统计量48可决系数与相关系数的关系：可决系数与相关系数的关系：联系：联系：数值上可决系数是相关系数的平方数值上可决系数是相关系数的平方区别：区别：可决系数可决系数相关系数相关系数就模型而言就模型而言就两个变量而言就两个变量而言说明解释变量对应变说明解释变量对

29、应变说明两变量线性依存程度说明两变量线性依存程度量的解释程度量的解释程度度量的不对称的因果关系度量的不对称的因果关系度量的不含因果关系度量的不含因果关系的对称相关关系的对称相关关系取值取值有非负性有非负性取值取值-1r1可正可负可正可负49运用可决系数时应注意：运用可决系数时应注意：可决系数只是说明列入模型的所有解释变量对可决系数只是说明列入模型的所有解释变量对应变量的联合的影响程度，不说明模型中每个解应变量的联合的影响程度，不说明模型中每个解释变量的影响程度（在多元中）释变量的影响程度（在多元中）回归的主要目的如果是经济结构分析，不能只回归的主要目的如果是经济结构分析，不能只追求高的可决

30、系数，而是要得到总体回归系数可追求高的可决系数，而是要得到总体回归系数可信的估计量。可决系数高并不一定每个回归系数信的估计量。可决系数高并不一定每个回归系数都可信任。都可信任。如果建模目的只是为了预测应变量值，不是为如果建模目的只是为了预测应变量值，不是为了正确估计回归系数，一般可考虑有较高的可决了正确估计回归系数，一般可考虑有较高的可决系数。系数。50 第三节回归系数的区间估计和假设检验为什么要作区间估计？为什么要作区间估计？OLSOLS估计只是通过样本得到的估计只是通过样本得到的点估计，不一定等于，不一定等于真实参数，还需要找到真实参数的可能范围，并真实参数，还需要找到真实参数的可能范

31、围，并说明其可靠性说明其可靠性为什么要作假设检验？为什么要作假设检验？OLS OLS 估计只是用样本估计的结果，是否可靠？估计只是用样本估计的结果，是否可靠？是否抽样的偶然结果？还有待统计检验。是否抽样的偶然结果？还有待统计检验。区间估计和假设检验都是建立在确定参数估计值区间估计和假设检验都是建立在确定参数估计值概率分布性质的基础上。概率分布性质的基础上。51 一、OLS估计的分布性质基本思想是是随随机机变变量量，必必须须确确定定其其分分布布性性质质才才可可能能进进行行区间估计和假设检验区间估计和假设检验是是服服从从正正态态分分布布的的随随机机变变量量,决决定定了了也也是是服服从从正态分布

32、的随机变量正态分布的随机变量,是是的线性函数，决定了的线性函数，决定了也是服从正态分布的随机变量也是服从正态分布的随机变量只要确定只要确定的期望和方差，即可确定的期望和方差，即可确定的分布性质的分布性质52的期望：(无偏估计）的方差和标准误差(标准误差是方差的平方根)注意：注意：以上各式中以上各式中未知，其余均是样本观测值未知，其余均是样本观测值的期望和方差的期望和方差53对随机扰动项方差对随机扰动项方差的估计：的估计：可以证明（见附录2.2)其无偏估计为(n-2为自由度,即可自由变化的样本观测值个数)54在在已知时已知时将作标准化变换：55当当未知时，未知时，（1）当样本为小样本时，可

33、用）当样本为小样本时，可用代替代替去估计参数的标准去估计参数的标准误差，用估计的参数标准误差对误差，用估计的参数标准误差对作标准化变换，所得作标准化变换，所得的的t统计量不再服从正态分布（这时分母也是随机变量），统计量不再服从正态分布（这时分母也是随机变量），而是服从而是服从t分布：分布：（2）当样本为大样本时，用估计的参数标准误差对）当样本为大样本时，用估计的参数标准误差对作标作标准化变换，所得准化变换，所得Z统计量仍可视为标准正态变量。（根据中统计量仍可视为标准正态变量。（根据中心极限定理）心极限定理）56二、回归系数的区间估计二、回归系数的区间估计概念：概念：对参数作出的点估计是随机变量

34、，虽然是无偏估计，但还不能说明估计的可靠性和精确性，需要找到包含真实参数的一个范围，并确定这个范围包含参数真实值的可靠程度。在确定参数估计式概率分布性质的基础上在确定参数估计式概率分布性质的基础上,可找到两个可找到两个正数正数和和（01），），使得区间使得区间包含真实包含真实的概率为的概率为1，即即这样的区间称为所估计参数的置信区间。这样的区间称为所估计参数的置信区间。讨论：讨论：怎样正确理解置信区间？怎样正确理解置信区间？57一般情况下一般情况下,总体方差总体方差未知，用无偏估计未知，用无偏估计去代替去代替,由于由于样本容量较小，统计量样本容量较小，统计量t不再服从正态分布，而服从不再服从正

35、态分布，而服从t分布。可用可用t分布去建立参数估计的置信区间。分布去建立参数估计的置信区间。选定选定，查查t分布表得显著性水平为分布表得显著性水平为/2，自由自由度为度为n-2的临界值的临界值(n-2)，则有则有即即回归系数区间估计的方法回归系数区间估计的方法58三、回归系数的假设检验1、假设检验的基本思想基本思想为什么要作假设检验？为什么要作假设检验？所估计的估计的回归系数、和方差都是通过样本估计的，都是随抽样而变动的随机变量，它们是否可靠？是否抽样的偶然结果呢？还需要加以检验。59从哪些方面检验？从哪些方面检验？（回顾“导论”）经济意义检验经济意义检验：用先验理论检验，看是否与经济理论一致

36、，是否合乎情理统计推断检验统计推断检验：各个回归系数的显著性检验回归总显著性检验模型拟合程度检验计量经济学检验计量经济学检验：是否符合估计方法的基本假定预测检验预测检验：将估计的模型用于实际经济过程的预测，检验其预测效果60对回归系数假设检验的方式对回归系数假设检验的方式目的：目的：对简单线性回归，判断判断解释变量X是否是是否是被解释变量Y的的一个显著的影响因素。在一个显著的影响因素。在一元线性模型中，就是要判断中，就是要判断X是是否对否对Y具有显著的线性性影响。这就需要进行具有显著的线性性影响。这就需要进行变量的显著性检验。思想：思想：变量的显著性检验的方法是变量的显著性检验的方法是假设检验

37、假设检验。假设检验采用的假设检验采用的逻辑推理方法是反证法。先假定原假设正确，然后根据样本逻辑推理方法是反证法。先假定原假设正确，然后根据样本信息，观察由此假设而导致的结果是否合理，从而判断是否信息，观察由此假设而导致的结果是否合理，从而判断是否接受原假设。判断结果合理与否，是基于接受原假设。判断结果合理与否，是基于“小概率事件不易小概率事件不易发生发生”的原理。的原理。计量经济学中计量经济学中，主要是针对变量的参数真值是否为零来进行显，主要是针对变量的参数真值是否为零来进行显著性检验的。著性检验的。61一般情况下一般情况下, 总体方差总体方差未知，未知，只能用去代替，可利用t分布作t检验：

38、给定,查t分布表得如果或者（小概率事件发生）则拒绝原假设，而接受备择假设如果（大概率事件发生）则接受原假设2、回归系数的检验方法、回归系数的检验方法62用P值判断参数的显著性假设检验的假设检验的 p p 值值：p p 值是根据既定的样本数据所计算的统计量，值是根据既定的样本数据所计算的统计量，拒绝原假设的最小显著性水平统计分析软件中通常都给出了检验的统计分析软件中通常都给出了检验的 p p 值值方法：将给定的显著性水平将给定的显著性水平与与 p p 值比较：值比较：若若值，则在显著性水平值，则在显著性水平下拒绝原假设下拒绝原假设，即认为，即认为对对 Y Y 有显著影响有显著影响若若

39、值，则在显著性水平值，则在显著性水平下接受原假设下接受原假设，即认为，即认为对对 Y Y 没有显著影响没有显著影响规则：当时，P值越小，越能拒绝原假设63第五节第五节回归模型预测回归模型预测一、回归分析结果的报告一、回归分析结果的报告经过模型的估计、检验，得到一系列重要的数据，为了经过模型的估计、检验，得到一系列重要的数据，为了简明、清晰、规范地表述这些数据，计量经济学通常采用以简明、清晰、规范地表述这些数据，计量经济学通常采用以下规范化的方式：下规范化的方式：例如：回归结果为例如：回归结果为=244545+05091（64138）（）（00357）标准误差标准误差SEt=(38128

40、)(142605)t统计量统计量=09621df=8可决系数和自由度可决系数和自由度F=20287DW=2.3F统计量统计量DW统计量统计量64二、应变量平均值预测1、基本思想运运用用计计量量经经济济模模型型作作预预测测是是利利用用所所估估计计的的样样本本回回归归函函数数，用用解解释释变变量量的的已已知知值值或或预预测测值值，对对预测期或样本以外的应变量数值作出定量的估计。的应变量数值作出定量的估计。计量经济预测是一种计量经济预测是一种条件预测：条件：模型模型设定的关系式式不变所估计的所估计的参数不变解释变量在预测期的在预测期的取值已作出预测对应变量的预测分为平均值预测和个别值预测对应变量的

41、预测分为平均值预测和个别值预测对应变量的预测又分为点预测和区间预测对应变量的预测又分为点预测和区间预测65预测值、平均值、个别值的相互关系：预测值、平均值、个别值的相互关系：Y是真实平均值的点估计,也是对个别值的点估计个别值个别值真实平均值真实平均值点预测值点预测值662、Y平均值的点预测将解释变量预测值直接代入估计的方程将解释变量预测值直接代入估计的方程这样计算的这样计算的是一个点估计值是一个点估计值673、Y平均值的区间预测基本思想：由于存在由于存在抽样波动，预测的平均值，预测的平均值不一定不一定等于真实平均值等于真实平均值，还需要对，还需要对作区间估计作区间估计为对为对Y作区间预测，必

42、须确定平均值预测值作区间预测，必须确定平均值预测值的抽样分布的抽样分布必须找出与必须找出与和和都有关的统计量都有关的统计量68具体作法（从（从的分布分析）的分布分析）已知已知可以证明可以证明服从正态分布(为什么?)，将其标准化,当未知未知时，只得用代替，这时有69给给定定显显著著性性水水平平，查查t分分布布表表，得得自自由由度度n2的的临临界值界值则有则有Y平均值的置信度为平均值的置信度为的预测区间为的预测区间为70三、应变量个别值预测基本思想：既是对既是对Y平均值的点预测，也是对平均值的点预测，也是对Y个别值的点预测。个别值的点预测。由于存在由于存在随机扰动的影响，Y的平均的平均值并不等于值

43、并不等于Y的个别值的个别值为了为了对对Y的个别值的个别值作区间预测，需要作区间预测，需要寻找与预测值寻找与预测值和个别值和个别值有关的统计量，有关的统计量，并要明确其概率分布并要明确其概率分布71具体作法：已知剩余项已知剩余项是与预测值是与预测值和个别值和个别值都有关的变量都有关的变量,并且已知并且已知服从正态分布，服从正态分布，且可证明且可证明当用当用代替代替时时,对对标准化标准化的变量的变量t为为72构建个别值置信区间给定显著性水平给定显著性水平，查查 t t 分布表得自由度为分布表得自由度为N N2 2的临界值的临界值，则有，则有因此，一元回归时因此，一元回归时Y Y的个别值的置信

44、度为的个别值的置信度为1 1的的预测区间上下限为预测区间上下限为 73应变量Y区间预测的特点区间预测的特点：1、Y平均值的预测值与真实平均值有误差，主要是受抽样波动影响Y个别值的预测值与真实个别值的差异,不仅受抽样波动影响，而且还受随机扰动项的影响2、平均值和个别值预测区间都不是常数，是随的变化而变化的3、预测区间上下限与样本容量有关，当样本容量n时,个别值的预测误差只决定于随机扰动的方差。74各种预测值的关系Y平均值预测区间Y个别值的预测区间75第六节第六节案例分析案例分析提出问题：提出问题：改革开放以来随着中国经济的快速发展，居民的消费水平也不断增长。但全国各地区经济发展速度不同，居

45、民消费水平也有明显差异。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素，并分析影响因素与消费水平的数量关系，可以建立相应的计量经济模型去研究。研究范围：研究范围：全国各省市2002年城市居民家庭平均每人每年消费截面数据模型。理论分析：理论分析：影响各地区城市居民人均消费支出的因素有多种，但从理论和经验分析，最主要的影响因素应是居民收入。从理论上说可支配收入越高，居民消费越多，但边际消费倾向大于0，小于1。建立模型：建立模型：其中：Y城市居民家庭平均每人每年消费支出(元)X城市居民人均年可支配收入(元)76数据收集：数据收集：从从2002年年中国统计年鉴中国统计年鉴中得到数据中得到数

46、据：地区城市居民家庭平均每人每年消费支出(元)Y城市居民人均年可支配收入(元)X北京天津河北山西内蒙古辽宁吉林黑龙江上海江苏浙江安徽福建江西山东河南湖北10284.607191.965069.284710.964859.885342.644973.884462.0810464.006042.608713.084736.526631.684549.325596.324504.685608.9212463.929337.566679.685234.356051.066524.526260.166100.5613249.808177.6411715.606032.409189.366334.647

47、614.366245.406788.5277（接上页数据表）（接上页数据表）地区城市居民家庭平均每人每年消费支出(元)Y城市居民人均年可支配收入(元)X湖南广东广西海南重庆四川贵州云南西藏陕西甘肃青海宁夏新疆5574.728988.485413.445459.646360.245413.084598.285827.926952.445278.045064.245042.526104.925636.406958.5611137.207315.326822.727238.046610.805944.087240.568079.126330.846151.446170.526067.446899.6

48、478估计参数：估计参数：假定模型中随机扰动满足基本假定，可用OLS法。具体操作：使用EViews软件包。估计结果：79表示为模型检验模型检验：1、可决系数：模型整体上拟合好。2、系数显著性检验：给定，查t分布表，在自由度为n-2=29时临界值为因为t=20.44023说明“城镇人均可支配收入”对“城镇人均消费支出”有显著影响。3、用P值检验：p=0.0000（287.2649）(0.036928)t=(0.982520)(20.54026)F=421.9023df=29804、经济意义检验：估计的X的系数为0758511，说明城镇居民人均可支配收入每增加1元，人均年消费支出平均将增加0758

49、511元。这符合经济理论对边际消费倾向的界定。5、经济预测：经济预测：点预测：点预测：西部地区的城市居民人均年可支配收入第一步争取达到1000美元(按现有汇率即人民币8270元)，代入估计的模型得第二步再争取达到1500美元(即人民币12405元)，利用所估计的模型可预测这时城市居民可能达到的人均年消费支出水平81平均值区间预测上下限：区间预测：区间预测：即是说：平均值置信度95%的预测区间为（6393.03，6717.23）元。平均值置信度95%的预测区间为（9292.33，10090.83）元。个别值区间预测（略）个别值区间预测（略）82第二章小结第二章小结1、变量间的关系：、变量间的关系

50、：函数关系函数关系相关关系。相关关系。相关系数相关系数对变量间线性相关程度的度量。对变量间线性相关程度的度量。2、现代意义的回归：、现代意义的回归：一个被解释变量对若干个解释变量依存关一个被解释变量对若干个解释变量依存关系的研究系的研究回归的实质：回归的实质：由固定的解释变量去估计被解释变量的平均值。由固定的解释变量去估计被解释变量的平均值。3、总体回归函数（、总体回归函数（PRF）：）：将总体被解释变量将总体被解释变量Y的条件均值表的条件均值表现为解释变量现为解释变量X的某种函数。的某种函数。样本回归函数（样本回归函数（SRF）：）：将被解释变量将被解释变量Y的样本条件均值表的样本条件均值表

51、示为解释变量示为解释变量X的某种函数。的某种函数。总体回归函数与样本回归函数的区别与联系。总体回归函数与样本回归函数的区别与联系。834、随机扰动项：、随机扰动项：被解释变量实际值与条件均值的偏差，代表排被解释变量实际值与条件均值的偏差，代表排除在模型以外的所有因素对除在模型以外的所有因素对Y的影响。的影响。5、简单线性回归的基本假定：、简单线性回归的基本假定：对模型和变量的假定：对模型和变量的假定：对随机扰动项对随机扰动项u的假定：的假定：零均值假定零均值假定:同方差假定同方差假定:无自相关假定无自相关假定:随机扰动与解释变量不相关假定随机扰动与解释变量不相关假定:正态性假定正态性假定:84

52、6、普通最小二乘法（、普通最小二乘法（OLS）估计参数的基本思想及估计式；估计参数的基本思想及估计式；OLS估计式的分布性质估计式的分布性质期望期望方差方差标准误差标准误差OLS估计式是最佳线性无偏估计式。估计式是最佳线性无偏估计式。857、的无偏估计8、对回归系数区间估计的思想和方法、对回归系数区间估计的思想和方法。9、拟合优度：、拟合优度：样本回归线对样本观测数据拟合的优劣程度，样本回归线对样本观测数据拟合的优劣程度，可决系数：可决系数：在总变差分解基础上确定的，模型解释了的变差在总变差分解基础上确定的，模型解释了的变差在总变差中的比重在总变差中的比重可决系数的计算方法、特点与作用。可决系

53、数的计算方法、特点与作用。8610、对回归系数的假设检验、对回归系数的假设检验假设检验的基本思想假设检验的基本思想对回归系数对回归系数t检验的思想与方法检验的思想与方法用用P值判断参数的显著性值判断参数的显著性11、对被解释变量的预测、对被解释变量的预测被解释变量平均值预测与个别值预测的关系，被解释变量平均值预测与个别值预测的关系，被解释变量平均值的点预测和区间预测的方法，被解释变量平均值的点预测和区间预测的方法，87被解释变量个别值区间预测的方法。被解释变量个别值区间预测的方法。12、运用、运用EViews软件实现对简单线性回归模型的估计和检验。软件实现对简单线性回归模型的估计和检验。88第第二二章章结结束束了了！89

展开阅读全文

《简单线性回归模型》PPT课件.ppt

最新文档