《第二章简单线性回归模型》由会员分享,可在线阅读,更多相关《第二章简单线性回归模型(84页珍藏版)》请在金锄头文库上搜索。
1、第二章第二章 简单线性回归模型简单线性回归模型(一)经济变量间的相互关系(一)经济变量间的相互关系第一节第一节 回归分析与回归函数回归分析与回归函数一、相关分析与回归分析一、相关分析与回归分析n n 确定性关系确定性关系或或函数关系函数关系n n 统计依赖关系统计依赖关系或或相关关系相关关系经济变量之间的关系,大体可分为两类:经济变量之间的关系,大体可分为两类:例例2.1 假如有一个乡村由假如有一个乡村由20户人家构成的总体,我们研户人家构成的总体,我们研究每月家庭的平均消费支出究每月家庭的平均消费支出 Y 与平均可支配收入与平均可支配收入 X 之之间的关系,统计数据如下:间的关系,统计数据如
2、下:500500 600600 750750 800800 1000100012001200 12501250 15001500 16501650 175017501800180020002000平平平平均均均均消消消消费费费费支支支支出出出出 Y Y4244244804805225226056056626626326327707707057058088089209209509508938931039103911581158129512951033103311441144124712471300130013551355每月家庭平均可支配收入每月家庭平均可支配收入 X(单位:元)单位:元)经济变
3、量之间的相关关系可用经济变量之间的相关关系可用散点图散点图描述。描述。50075010001250150017502000250250500750100012501500YX0YYYXXX不完全相关不完全相关完全相关完全相关不相关不相关1.1.按变量数目分按变量数目分相关关系的类型相关关系的类型简单相关:两个变量简单相关:两个变量简单相关:两个变量简单相关:两个变量多重相关:三个及以上变量多重相关:三个及以上变量多重相关:三个及以上变量多重相关:三个及以上变量2.2.按表现形式分按表现形式分线性相关:散点图接近直线线性相关:散点图接近直线线性相关:散点图接近直线线性相关:散点图接近直线3.3.
4、按变化方向分按变化方向分正相关:同增同减正相关:同增同减正相关:同增同减正相关:同增同减非线性相关:散点图接近曲线非线性相关:散点图接近曲线非线性相关:散点图接近曲线非线性相关:散点图接近曲线负相关:相反负相关:相反负相关:相反负相关:相反4.4.按相关程度分按相关程度分完全相关:实际是函数关系完全相关:实际是函数关系完全相关:实际是函数关系完全相关:实际是函数关系不完全相关不完全相关不完全相关不完全相关不相关不相关不相关不相关YYXX负负相关相关正相关正相关YYXX非线性相关非线性相关线性相关线性相关( (二二) )简单线性相关关系的度量简单线性相关关系的度量总体相关系数总体相关系数:样本相
5、关系数样本相关系数:1. rx,y=ry,x注意:注意:2.2.不能说明非线性关系不能说明非线性关系3.3.不能确定因果关系不能确定因果关系4.4. r 是随抽样变动的随机变量是随抽样变动的随机变量(三)(三)回归分析回归分析相关分析相关分析主要是用相关系数去描述变量间相主要是用相关系数去描述变量间相互依存的性质和程度,但不能说明变量间相互依存的性质和程度,但不能说明变量间相互关系的具体形式,从而不能从一个变量的互关系的具体形式,从而不能从一个变量的变化去推测另一个变量的变化,要做到这一变化去推测另一个变量的变化,要做到这一点,还需要进行点,还需要进行回归分析回归分析。回归回归( Regres
6、sion)“回归回归”一词最先由一词最先由 F.高尔顿高尔顿(F. Galton)在在家庭身材相似性家庭身材相似性一文中提出。一文中提出。高尔顿高尔顿发现:发现: 虽然有一个趋势虽然有一个趋势,父母高父母高,儿女也高儿女也高;父母矮父母矮,儿女也矮。但给定父母的身高儿女也矮。但给定父母的身高,儿女辈的身高儿女辈的身高却趋向或者却趋向或者回归回归到全体人口的平均身高。到全体人口的平均身高。n n高尔顿高尔顿称之为称之为“回归到中等回归到中等”。 “回归回归” 的现代释义的现代释义n n通过一个或多个通过一个或多个解释变量解释变量在重在重复抽样中的已知值,去估计复抽样中的已知值,去估计被被解释变量
7、解释变量的的总体均值总体均值。二、总体回归函数二、总体回归函数 例:假定武汉市某小区的人口总体由例:假定武汉市某小区的人口总体由 60户户家庭组成,要研究每月家庭消费家庭组成,要研究每月家庭消费 支出支出 Y 和收入和收入 X 之间的关系之间的关系。n n现在假设我们得到该小区总体现在假设我们得到该小区总体60户家户家 庭的收入支出数据,见下表庭的收入支出数据,见下表:表2 每月家庭收入支出表(元) 800800100010001200120014001400160016001800180020002000220022002400240026002600每每月月家家庭庭消消费费支支出出5505
8、506506507907908008001020102011001100120012001350135013701370150015006006007007008408409309301070107011501150136013601370137014501450152015206506507407409009009509501100110012001200140014001400140015501550175017507007008008009409401030103011601160130013001440144015201520165016501780178075075085085098
9、098010801080118011801350135014501450157015701750175018001800- -880880- -113011301250125014001400- -160016001890189018501850- - - -11501150- - - -16201620- -19101910YXx(收入收入)y图图图图1 1 不同收入的消费分布(散点图)不同收入的消费分布(散点图)不同收入的消费分布(散点图)不同收入的消费分布(散点图)80010001200 1400 1600 1800 2000 2200 2400 2600100015002000( (消
10、费)消费) 从散点图看出消费与收入之间存在不确从散点图看出消费与收入之间存在不确定性的定性的相关关系相关关系,给定收入,给定收入X的条件下,消的条件下,消费费Y形成一定的分布,称为形成一定的分布,称为X取某一值时取某一值时Y的的条件分布条件分布。当。当X取某一值时,取某一值时, Y取各种值的取各种值的概率,称为概率,称为Y的的条件概率条件概率。由。由Y 的条件分布的条件分布和条件概率可计算和条件概率可计算Y的的条件数学期望条件数学期望或或条件条件均值均值。 表2 与表2对应的条件概率 8008001000100012001200140014001600160018001800200020002
11、20022002400240026002600Y Y的的条条件件概概率率1/51/51/61/61/51/51/71/71/61/61/61/61/51/51/71/71/61/61/71/71/51/51/61/61/51/51/71/71/61/61/61/61/51/51/71/71/61/61/71/71/51/51/61/61/51/51/71/71/61/61/61/61/51/51/71/71/61/61/71/71/51/51/61/61/51/51/71/71/61/61/61/61/51/51/71/71/61/61/71/71/51/51/61/61/51/51/71/7
12、1/61/61/61/61/51/51/71/71/61/61/71/7- -1/61/6- -1/71/71/61/61/61/6- -1/71/71/61/61/71/7- - - -1/71/7- - - -1/71/7- -1/71/7均均值值65065077077089089010101010 11301130 12501250 13701370 14901490 16101610 17301730x(收入收入)y图图图图2 2 条件均值的散点图条件均值的散点图条件均值的散点图条件均值的散点图80010001200 1400 1600 1800 2000 2200 2400 2600
13、100015002000( (消费)消费)该函数称为该函数称为总体回归函数总体回归函数 (Population Regression Function,PRF),它描述了,它描述了平均平均消费支出消费支出(总体均值)(总体均值)与与收入收入之间的之间的关系关系。对对X的每一个值的每一个值Xi ,都有,都有Y的条件均值与之对的条件均值与之对应,即应,即x(收入收入)y图图图图3 3 总体回归直线图总体回归直线图总体回归直线图总体回归直线图80010001200 1400 1600 1800 2000 2200 2400 2600100015002000总体回归函总体回归函数(数(PRF)( (消
14、费)消费)n n一般来说,收入相同的家庭的支出与支出的一般来说,收入相同的家庭的支出与支出的 均值均值是有差异的。令是有差异的。令三、随机扰动项三、随机扰动项或或则则ui是随机变量,称为是随机变量,称为随机扰动项随机扰动项或或随机误随机误差项差项。Why does the stochastic error term exist n n在解释变量中被忽略因素的影响;在解释变量中被忽略因素的影响;n n变量观测值误差的影响;变量观测值误差的影响;n n模型数学形式设置误差的影响;模型数学形式设置误差的影响;n n其他随机因素的影响。其他随机因素的影响。对于大多数实际问题,总体回归函数是无法对于大多
15、数实际问题,总体回归函数是无法得到的!得到的!怎么办?怎么办?抽样!抽样!总体总体 (population)样本样本 (sample)四、样本回归函数四、样本回归函数n n假设在上例中我们得到的两个随机样本:假设在上例中我们得到的两个随机样本:表表3 表表2总体的一个随机样本总体的一个随机样本y yx x700700800800650650100010009009001200120095095014001400110011001600160011501150180018001200120020002000140014002200220015501550240024001500150026002
16、600表表4 表表2总体的另一个随机样本总体的另一个随机样本y yx x550550800800880880100010009009001200120080080014001400118011801600160012001200180018001450145020002000135013502200220014501450240024001750175026002600 如果把如果把Y的样本条件均值表示成的样本条件均值表示成X的某种函的某种函数,这个函数称为数,这个函数称为样本回归函数样本回归函数(Sample Regression Function, SRF),),其图形称为其图形称为样本回
17、归线。样本回归线。 一般地说,从不同的样本会得到不同的一般地说,从不同的样本会得到不同的样样本回归线。本回归线。x(收入收入)y(支支出出)图图4 根据两个不同样本的回归线根据两个不同样本的回归线800 1000 120014001600 18002000 22002400 2600500100015002000第一个样本回第一个样本回归线归线第一个样本(表第一个样本(表3)第二个样本(表第二个样本(表4)第二个样本回第二个样本回归线归线n n同样,家庭的实际消费支出并不完全等于同样,家庭的实际消费支出并不完全等于 样本条件均值样本条件均值,令,令或或则则ei是随机变量,称为是随机变量,称为剩
18、余项剩余项或或残差残差。注意:注意:1、总体回归函数总体回归函数虽然未知,但是确定的;虽然未知,但是确定的;2、样本回归函数样本回归函数随抽样波动,不止一条;随抽样波动,不止一条;3、总体回归函数总体回归函数中的参数是确定的常数,中的参数是确定的常数, 而而样本回归函数样本回归函数中的参数是随抽样变中的参数是随抽样变 化的随机变量;化的随机变量;4、总体回归函数总体回归函数中的中的ui是不可观测的,而是不可观测的,而 样本回归函数样本回归函数中的中的ei是可以计算的。是可以计算的。YXPRFSRF0uieiYi第二节第二节 简单线性回归模型参数的估计简单线性回归模型参数的估计一、简单线性回归的
19、基本假定一、简单线性回归的基本假定称为称为一元线性回归模型一元线性回归模型或或简单线性回归模型简单线性回归模型.这里的这里的线性线性实际上是针对参数来说的。实际上是针对参数来说的。由于随机项由于随机项u的存在,使得模型中的参的存在,使得模型中的参数数 b b1 1和和b b2 2的数值不能严格算出,只能进的数值不能严格算出,只能进行估计。行估计。在计量经济学中,能否成功地估计出这在计量经济学中,能否成功地估计出这些参数值,取决于随机项些参数值,取决于随机项u 和自变量和自变量X的性质。的性质。随机项随机项u和自变量和自变量X的统计假定:的统计假定:假定假定2:同方差假定,即同方差假定,即假定假
20、定1:零均值假定,即零均值假定,即假定假定3:无自相关无自相关( (无序列相关无序列相关) )假定假定。或或或或或或假定假定4:非随机变量假定,即解释变量非随机变量假定,即解释变量X是是 确定性变量,与随机项确定性变量,与随机项u不相关。不相关。假定假定5:正态性假定,即正态性假定,即以上假定也称以上假定也称高斯假定高斯假定或或古典假定古典假定。或或在不知道在不知道总体回归直线总体回归直线的情况下,利用样本信的情况下,利用样本信息建立的息建立的样本回归函数样本回归函数应尽可能接近应尽可能接近总体回归总体回归函数函数,有多种方法。,有多种方法。普通最小二乘法普通最小二乘法(Ordinary Le
21、ast Squares)由德国数学家由德国数学家高斯高斯(C.F.Gauss)提出。提出。二、普通最小二乘法二、普通最小二乘法XY对于给定的对于给定的 Y 和和 X的观测值,我们希望这的观测值,我们希望这样决定样决定SRF,使得使得SRF上的值尽可能接近上的值尽可能接近实际的实际的 Y。就是使得残差平方和就是使得残差平方和即使得即使得这样就得到这样就得到PRF的一个样本估计的一个样本估计 SRF:记记则则称为称为Xi的的离差离差称为称为Yi的的离差离差三、三、OLS回归线的性质回归线的性质1.1.1.1.样本回归直线通过样本均值,即样本回归直线通过样本均值,即样本回归直线通过样本均值,即样本回
22、归直线通过样本均值,即由下式即得由下式即得由下式即得由下式即得2. Y 的真实值和估计值有的真实值和估计值有相同的均值,即相同的均值,即3. . 残差和残差和及及残差均值残差均值为为0 0,即,即n n由前面方程组中的:由前面方程组中的:4. Y 的估计值与残差的估计值与残差e不相关不相关, ,即即5. 解释变量解释变量X与残差与残差e不相关不相关, ,即即(1)无偏性)无偏性四、四、OLS估计式的统计性质估计式的统计性质(2 2)最小方差性最小方差性最小方差性是指在参数的所有无偏估计量中,最小方差性是指在参数的所有无偏估计量中,最小方差性是指在参数的所有无偏估计量中,最小方差性是指在参数的所
23、有无偏估计量中,OLSOLS估计量具有最小方差。标准差为估计量具有最小方差。标准差为估计量具有最小方差。标准差为估计量具有最小方差。标准差为(3 3)线性性线性性线性性是指参数估计式是线性性是指参数估计式是线性性是指参数估计式是线性性是指参数估计式是Y Y的线性函数,即的线性函数,即的线性函数,即的线性函数,即 在古典假定条件下,总体回归函数参数的最在古典假定条件下,总体回归函数参数的最 小二乘估计量具有小二乘估计量具有线性性线性性、无偏性无偏性和和最佳性最佳性, 我们把总体参数的最小二乘估计量叫做我们把总体参数的最小二乘估计量叫做最佳最佳 线性无偏估计量线性无偏估计量(Best Linear
24、 Unbiased Estimator BLUE )。第三节第三节 拟合优度的度量拟合优度的度量 样本回归线是对样本数据的一种拟合,样本回归线是对样本数据的一种拟合,从散点图上看,回归线上的值(计算值)与从散点图上看,回归线上的值(计算值)与实际样本观测值总是存在或正或负的偏差。实际样本观测值总是存在或正或负的偏差。所谓所谓拟合优度拟合优度就是指拟合的优劣程度。怎样就是指拟合的优劣程度。怎样度量?若仅用度量?若仅用残差残差来度量并没有反映来度量并没有反映Y的变的变化在多大程度上可以用化在多大程度上可以用X的变化来解释。的变化来解释。一、总变差的分解一、总变差的分解该式为该式为0 0,见,见P3
25、4P34 TSS=RSS+ESS且三个且三个平方和的自由度有如下关系平方和的自由度有如下关系:dfT = dfR +dfE在在一元回归问题中一元回归问题中: dfT = n-1, dfR = 1, dfE = n-2。总离差平方和总离差平方和记记回归平方和回归平方和残差平方和残差平方和1.什么是自由度什么是自由度模型中样本值可以自由变动的个数,称为模型中样本值可以自由变动的个数,称为自由度自由度自由度自由度=样本个数样本个数- 样本数据受约束条件样本数据受约束条件(方程)的个数(方程)的个数例如:样本数据个数例如:样本数据个数=n,它们受它们受k个方程个方程的约束(这的约束(这n个数必须满足这
26、个数必须满足这k个方程)个方程) 自由度自由度df = n-k。关于自由度2.对应于平方和分解的自由度的分解dfT=n-1dfR=1 dfE= dfT dfR=n-1-1=n-2约束方程为约束方程为TSS=RSS+ESS dfT=dfR+dfE只有一个解释变量只有一个解释变量 从回归平方和从回归平方和RSS与残差平方和与残差平方和ESS的意义的意义 可知,在可知,在TSS中中RSS所占的比重越大,则样所占的比重越大,则样 本回归直线与样本观测值拟合程度就越好。本回归直线与样本观测值拟合程度就越好。二、可决系数(判定系数)二、可决系数(判定系数) R2称为称为可决系数可决系数或或判定系数判定系数
27、,R2越大,表明越大,表明回归直线与样本观测值拟合越好。回归直线与样本观测值拟合越好。或1. 可决系数是非负统计量可决系数是非负统计量注意:注意:2. 2. 0R213.3. 它它是随抽样变动的随机变量是随抽样变动的随机变量三、可决系数与相关系数的关系三、可决系数与相关系数的关系 在数值上,在数值上,在数值上,在数值上,事实上事实上1. 度量的意义不同度量的意义不同但二者是两个不同的概念:但二者是两个不同的概念:2. 2. 一个是不对称的因果关系一个是不对称的因果关系 一个是对称的相关关系一个是对称的相关关系3.3. 取值的范围不同取值的范围不同第四节第四节 回归系数的区间估计与假设检验回归系
28、数的区间估计与假设检验 在古典假定条件下,在古典假定条件下,在古典假定条件下,在古典假定条件下,一、一、OLS估计的分布性质估计的分布性质 而而而而 是是是是Y Yi i的线性函数,故它们也的线性函数,故它们也的线性函数,故它们也的线性函数,故它们也服从正态分布服从正态分布服从正态分布服从正态分布,且,且,且,且 作区间估计时,需作标准化变换:作区间估计时,需作标准化变换:作区间估计时,需作标准化变换:作区间估计时,需作标准化变换:而而而而s s s s2 2 2 2是未知的,只能由是未知的,只能由是未知的,只能由是未知的,只能由 得到得到得到得到s s s s2 2 2 2的无偏估计值。的无
29、偏估计值。的无偏估计值。的无偏估计值。在大样本情况下,用在大样本情况下,用在大样本情况下,用在大样本情况下,用 代替代替代替代替s s s s2 2 2 2,计算的,计算的,计算的,计算的z z1 1和和和和z z2 2仍视为仍视为仍视为仍视为服从正态分布。服从正态分布。服从正态分布。服从正态分布。在小样本情况下,在小样本情况下,在小样本情况下,在小样本情况下, 用用用用OLSOLS得到的参数值是对总体回归参数的得到的参数值是对总体回归参数的得到的参数值是对总体回归参数的得到的参数值是对总体回归参数的点估计点估计点估计点估计值,尽管在重复抽样中可以预期它的期望值等于参数值,尽管在重复抽样中可以
30、预期它的期望值等于参数值,尽管在重复抽样中可以预期它的期望值等于参数值,尽管在重复抽样中可以预期它的期望值等于参数的真实值,但这并不能说明点估计值的可靠性。而参的真实值,但这并不能说明点估计值的可靠性。而参的真实值,但这并不能说明点估计值的可靠性。而参的真实值,但这并不能说明点估计值的可靠性。而参数估计值的标准误差也只是说明点估计值与其均值的数估计值的标准误差也只是说明点估计值与其均值的数估计值的标准误差也只是说明点估计值与其均值的数估计值的标准误差也只是说明点估计值与其均值的离散程度。于是需要找到参数值的一个范围,使得这离散程度。于是需要找到参数值的一个范围,使得这离散程度。于是需要找到参数
31、值的一个范围,使得这离散程度。于是需要找到参数值的一个范围,使得这个范围包含参数真实值具有给定的可靠程度。个范围包含参数真实值具有给定的可靠程度。个范围包含参数真实值具有给定的可靠程度。个范围包含参数真实值具有给定的可靠程度。二、回归系数的区间估计二、回归系数的区间估计 以以以以b b b b2 2为例,对于为例,对于为例,对于为例,对于b b b b2 2的区间估计,就是对于给定的的区间估计,就是对于给定的的区间估计,就是对于给定的的区间估计,就是对于给定的a a a a (0(0(0(0a a a a 1) 1) 1) 1),要找到正数,要找到正数,要找到正数,要找到正数 d d d d,
32、使得区间,使得区间,使得区间,使得区间包含参数包含参数包含参数包含参数b b b b2 2的真值的概率为的真值的概率为的真值的概率为的真值的概率为1-1-a a a a,即:,即:,即:,即:这里:这里:这里:这里:a a a a 称为称为称为称为显著性水平显著性水平显著性水平显著性水平 1- 1- 1- 1- a a a a ,称为,称为,称为,称为置信水平置信水平置信水平置信水平上式称为上式称为上式称为上式称为b b b b2 2 2 2的的的的区间估计式区间估计式区间估计式区间估计式分别称为分别称为分别称为分别称为置信下限置信下限置信下限置信下限和和和和置信下限置信下限置信下限置信下限称
33、为称为称为称为b b b b2 2 2 2的的的的置信区间置信区间置信区间置信区间分三种情况,求分三种情况,求分三种情况,求分三种情况,求b b b b2 2的置信区间:的置信区间:的置信区间:的置信区间:1 1)总体方差)总体方差)总体方差)总体方差s s s s2 2已知,由于已知,由于已知,由于已知,由于给定给定给定给定a a a a ,查正态分布表,可得,查正态分布表,可得,查正态分布表,可得,查正态分布表,可得z z的的的的临界值临界值临界值临界值z z0 0 0 0,有,有,有,有于是于是于是于是b b b b2 2的置信水平为的置信水平为的置信水平为的置信水平为1-1-a a a
34、 a 的置信区间为:的置信区间为:的置信区间为:的置信区间为:2 2)总体方差)总体方差)总体方差)总体方差s s s s2 2未知,且样本容量较大时,可用无未知,且样本容量较大时,可用无未知,且样本容量较大时,可用无未知,且样本容量较大时,可用无 偏估计偏估计偏估计偏估计 代替代替代替代替s s s s2 2,仍可认为:,仍可认为:,仍可认为:,仍可认为:同同同同1 1),可求得),可求得),可求得),可求得b b b b2 2的置信水平为的置信水平为的置信水平为的置信水平为1-1-a a a a 的置信区间为:的置信区间为:的置信区间为:的置信区间为:3 3)总体方差)总体方差)总体方差)
35、总体方差s s s s2 2未知,且样本容量较小时,当用无未知,且样本容量较小时,当用无未知,且样本容量较小时,当用无未知,且样本容量较小时,当用无 偏估计偏估计偏估计偏估计 代替代替代替代替s s s s2 2时,由于时,由于时,由于时,由于给定给定给定给定a a a a ,查,查,查,查t t分布表可得自由度为分布表可得自由度为分布表可得自由度为分布表可得自由度为n n-2-2-2-2的的的的临界值临界值临界值临界值t t0 0 0 0,有,有,有,有于是于是于是于是b b b b2 2的置信水平为的置信水平为的置信水平为的置信水平为1-1-a a a a 的置信区间为:的置信区间为:的置
36、信区间为:的置信区间为: 参数的参数的参数的参数的区间估计区间估计区间估计区间估计主要回答什么样的区间包含总体主要回答什么样的区间包含总体主要回答什么样的区间包含总体主要回答什么样的区间包含总体回归参数真实值可以达到给定的可靠程度问题,而假回归参数真实值可以达到给定的可靠程度问题,而假回归参数真实值可以达到给定的可靠程度问题,而假回归参数真实值可以达到给定的可靠程度问题,而假设检验是要根据已知的样本值,判断是否与对总体参设检验是要根据已知的样本值,判断是否与对总体参设检验是要根据已知的样本值,判断是否与对总体参设检验是要根据已知的样本值,判断是否与对总体参数的某个假设相一致。数的某个假设相一致
37、。数的某个假设相一致。数的某个假设相一致。三、回归系数的假设检验三、回归系数的假设检验 对回归系数的对回归系数的对回归系数的对回归系数的假设检验假设检验假设检验假设检验的基本思想,是基于的基本思想,是基于的基本思想,是基于的基本思想,是基于“ “小小小小概率事件不易发生概率事件不易发生概率事件不易发生概率事件不易发生” ”的原理,给定显著性水平,构造的原理,给定显著性水平,构造的原理,给定显著性水平,构造的原理,给定显著性水平,构造一个小概率事件,可以认为小概率事件在一次观测中一个小概率事件,可以认为小概率事件在一次观测中一个小概率事件,可以认为小概率事件在一次观测中一个小概率事件,可以认为小
38、概率事件在一次观测中基本不会发生,如果竟然发生了,就认为原假设不真。基本不会发生,如果竟然发生了,就认为原假设不真。基本不会发生,如果竟然发生了,就认为原假设不真。基本不会发生,如果竟然发生了,就认为原假设不真。 以以以以b b b b2 2为例,原假设为为例,原假设为为例,原假设为为例,原假设为按检验目的分两种情况:按检验目的分两种情况:按检验目的分两种情况:按检验目的分两种情况:备择假设为备择假设为备择假设为备择假设为2 2)检验解释变量对被解释变量影响的显著性:检验解释变量对被解释变量影响的显著性:检验解释变量对被解释变量影响的显著性:检验解释变量对被解释变量影响的显著性:1 1)检验估
39、计的参数的显著性:检验估计的参数的显著性:检验估计的参数的显著性:检验估计的参数的显著性:给定给定给定给定a a a a,查正态分布表,得临界值,查正态分布表,得临界值,查正态分布表,得临界值,查正态分布表,得临界值z z0 0。当样本容量较大时,统计量当样本容量较大时,统计量当样本容量较大时,统计量当样本容量较大时,统计量1 1)Z Z 检验检验检验检验若若若若则接受原假设则接受原假设则接受原假设则接受原假设若若若若就拒绝原假设就拒绝原假设就拒绝原假设就拒绝原假设按样本大小分两种情况:按样本大小分两种情况:按样本大小分两种情况:按样本大小分两种情况:给定给定给定给定a a a a,查自由度为
40、,查自由度为,查自由度为,查自由度为n n-2-2的的的的 t t 分布表,得临界值分布表,得临界值分布表,得临界值分布表,得临界值t t0 0当样本容量较小时,统计量当样本容量较小时,统计量当样本容量较小时,统计量当样本容量较小时,统计量2 2)t t 检验检验检验检验若若若若则接受原假设则接受原假设则接受原假设则接受原假设若若若若就拒绝原假设就拒绝原假设就拒绝原假设就拒绝原假设检验解释变量对被解释变量影响的显著性类似。检验解释变量对被解释变量影响的显著性类似。检验解释变量对被解释变量影响的显著性类似。检验解释变量对被解释变量影响的显著性类似。回归系数的回归系数的P值值 给定的给定的给定的给
41、定的显著性水平显著性水平显著性水平显著性水平不同时,对检验所得的结论可不同时,对检验所得的结论可不同时,对检验所得的结论可不同时,对检验所得的结论可能不同,甚至是相反的结论。能不同,甚至是相反的结论。能不同,甚至是相反的结论。能不同,甚至是相反的结论。a a a a 越大,越大,越大,越大,接受域接受域接受域接受域越小。越小。越小。越小。 用样本值计算出了统计量以后,把不能拒绝原假用样本值计算出了统计量以后,把不能拒绝原假用样本值计算出了统计量以后,把不能拒绝原假用样本值计算出了统计量以后,把不能拒绝原假设,如设,如设,如设,如 的最大显著性水平,称为的最大显著性水平,称为的最大显著性水平,称
42、为的最大显著性水平,称为b b b b2 2的的的的P P 值值值值。 显然,若给定的显然,若给定的显然,若给定的显然,若给定的 a a a a 大于大于大于大于P P值值值值,则在显著性水平,则在显著性水平,则在显著性水平,则在显著性水平 a a a a下,应拒绝下,应拒绝下,应拒绝下,应拒绝HH0 0 ,反之,若,反之,若,反之,若,反之,若 a a a a 小于小于小于小于P P值值值值,则接受,则接受,则接受,则接受HH0 0 。第四节第四节 回归模型预测回归模型预测一、回归分析结果的报告一、回归分析结果的报告广泛采用下列规范格式:广泛采用下列规范格式:广泛采用下列规范格式:广泛采用下
43、列规范格式:(76.5826) (0.0216)t =(4.5963) (24.5902)R2 =0.9869df =8的估计,所以的估计,所以的估计,所以的估计,所以 表示的是表示的是表示的是表示的是Y Y的真实均值的近似值;的真实均值的近似值;的真实均值的近似值;的真实均值的近似值;二、被解释变量取值的预测二、被解释变量取值的预测 预测预测预测预测就是用已知或预先测定的解释变量的值就是用已知或预先测定的解释变量的值就是用已知或预先测定的解释变量的值就是用已知或预先测定的解释变量的值X Xf f去去去去估计被解释变量的值估计被解释变量的值估计被解释变量的值估计被解释变量的值Y Yf f 。如
44、果我们通过将。如果我们通过将。如果我们通过将。如果我们通过将X Xf f代入用样代入用样代入用样代入用样本观测值估计的样本回归函数,得到:本观测值估计的样本回归函数,得到:本观测值估计的样本回归函数,得到:本观测值估计的样本回归函数,得到:那么一方面样本回归函数只是对总体回归函数那么一方面样本回归函数只是对总体回归函数那么一方面样本回归函数只是对总体回归函数那么一方面样本回归函数只是对总体回归函数另一方面另一方面另一方面另一方面又表示又表示又表示又表示Y Y真实个值的近似值;真实个值的近似值;真实个值的近似值;真实个值的近似值;但又都不是真值。但又都不是真值。但又都不是真值。但又都不是真值。预
45、测分为预测分为预测分为预测分为点预测点预测点预测点预测和和和和区间预测区间预测区间预测区间预测。1、对、对 Y 平均值的点预测平均值的点预测2、对、对 Y 平均值的区间预测平均值的区间预测 因为因为因为因为 是随机变量,所以是随机变量,所以是随机变量,所以是随机变量,所以 也是随机变量,也是随机变量,也是随机变量,也是随机变量,为了由预测值为了由预测值为了由预测值为了由预测值 去对总体真实均值去对总体真实均值去对总体真实均值去对总体真实均值 E E( (Y Yf fX Xf f) ) 作区间作区间作区间作区间估计,需要知道估计,需要知道估计,需要知道估计,需要知道 的分布及相关统计量。的分布及
46、相关统计量。的分布及相关统计量。的分布及相关统计量。所以均值的点预测是无偏的。所以均值的点预测是无偏的。所以均值的点预测是无偏的。所以均值的点预测是无偏的。于是于是于是于是由于由于由于由于s s s s2 2 2 2未知,当用无偏估计未知,当用无偏估计未知,当用无偏估计未知,当用无偏估计代替代替代替代替s s s s2 2 2 2 时时时时给定显著性水平给定显著性水平给定显著性水平给定显著性水平a a a a,查,查,查,查t t 分布表,得临界值分布表,得临界值分布表,得临界值分布表,得临界值t t0 0 ,可得,可得,可得,可得均值均值均值均值E E( (Y Yf fX Xf f) ) 置
47、信度为置信度为置信度为置信度为1-1-1-1-a a a a 的预测区间为的预测区间为的预测区间为的预测区间为3、对、对 Y 个别值的区间预测个别值的区间预测为了由预测值为了由预测值为了由预测值为了由预测值 去对总体真实个值去对总体真实个值去对总体真实个值去对总体真实个值 Y Yf f 作区间作区间作区间作区间估计,也需要知道相关的分布及统计量。可以估计,也需要知道相关的分布及统计量。可以估计,也需要知道相关的分布及统计量。可以估计,也需要知道相关的分布及统计量。可以考虑考虑考虑考虑由于由于由于由于s s s s2 2 2 2未知,当用无偏估计未知,当用无偏估计未知,当用无偏估计未知,当用无偏
48、估计代替代替代替代替s s s s2 2 2 2 时时时时给定显著性水平给定显著性水平给定显著性水平给定显著性水平a a a a,查,查,查,查t t 分布表,得临界值分布表,得临界值分布表,得临界值分布表,得临界值t t0 0 ,可得,可得,可得,可得Y Y的真实值的真实值的真实值的真实值Y Yf f 的置信度为的置信度为的置信度为的置信度为1-1-1-1-a a a a 的预测区间为的预测区间为的预测区间为的预测区间为当当当当 时,预测区间最窄,它们越是远离,时,预测区间最窄,它们越是远离,时,预测区间最窄,它们越是远离,时,预测区间最窄,它们越是远离,从以上预测,可以看出下列特点:从以上
49、预测,可以看出下列特点:从以上预测,可以看出下列特点:从以上预测,可以看出下列特点:1 1 1 1、个别值预测区间比均值预测区间要宽;、个别值预测区间比均值预测区间要宽;、个别值预测区间比均值预测区间要宽;、个别值预测区间比均值预测区间要宽;2 2 2 2、预测区间随、预测区间随、预测区间随、预测区间随X Xf f变化而变化,变化而变化,变化而变化,变化而变化,预测区间最宽,所以预测区间最宽,所以预测区间最宽,所以预测区间最宽,所以X Xf f取值不宜偏离均值太远;取值不宜偏离均值太远;取值不宜偏离均值太远;取值不宜偏离均值太远;3 3 3 3、样本容量越大,不仅、样本容量越大,不仅、样本容量
50、越大,不仅、样本容量越大,不仅n n越大,且越大,且越大,且越大,且越大,越大,越大,越大,两个方差越小,预测区间越窄,预测精度越高。两个方差越小,预测区间越窄,预测精度越高。两个方差越小,预测区间越窄,预测精度越高。两个方差越小,预测区间越窄,预测精度越高。当当当当n n00时,对均值的预测误差趋于时,对均值的预测误差趋于时,对均值的预测误差趋于时,对均值的预测误差趋于0 0,对个值的,对个值的,对个值的,对个值的预测误差取决于预测误差取决于预测误差取决于预测误差取决于s s s s2 2。练习题练习题练习题练习题1.1.请由请由请由请由(2.26)(2.27)(2.26)(2.27)式证明
51、式证明式证明式证明(2.28)(2.29)(2.28)(2.29)式。式。式。式。2. 2. 证明:证明:证明:证明:3.3.假设估计消费函数结果如下:假设估计消费函数结果如下:假设估计消费函数结果如下:假设估计消费函数结果如下:t =(3.1) (18.7)R2 =0.98df =171 1)检验假设:)检验假设:)检验假设:)检验假设:b b b b2 2=0=0(a a a a=0.05)=0.05)=0.05)=0.05);2 2)确定参数估计量的标准差;)确定参数估计量的标准差;)确定参数估计量的标准差;)确定参数估计量的标准差;3 3)构造)构造)构造)构造b b b b2 2的的的的95%95%的置信区间。的置信区间。的置信区间。的置信区间。