[理学]第四章回归技术与需求估计

资源描述

《[理学]第四章回归技术与需求估计》由会员分享，可在线阅读，更多相关《[理学]第四章回归技术与需求估计（41页珍藏版）》请在金锄头文库上搜索。

1、第四章回归技术与需求估计,回归技术,需求估计,回归分析中的问题,回归技术,动因：根据假设（理论）模型，使用变量的已有（历史）数据，确定模型中的参数。,思路：拟合,先以青歌赛歌手得分为例。,90,1,2,3,4,5,6,7,8,9,10,95,85,得分均值=90分,90,1,2,3,4,5,6,7,8,9,10,95,85,得分均值=90分,90,1,2,3,4,5,6,7,8,9,10,95,85,得分均值=90分,相比较而言，水平参差不齐,90,歌手数,90,歌手,歌手得分,歌手总得分,90,规律曲线,下面以成本函数为例说明如何得到规律曲线,成本,产量,成本函数的一般形式：曲线式（

2、见第7章）,成本函数的简化形式：直线式,总成本和总产量数据,以直线函数式表示： Y=a+bX, b0 其中，系数a为截距。,截距a,系数b为直线斜率。对(X1,Y1)和(X2,Y2)两点， b=(Y2-Y1)/(X2-X1),但是这个直线的得出靠目测等简单的方法，不科学。,估计系数,参考“方差”和“标准差”的思路，利用已知的X、Y系列数据，用合理的方式构造出直线的方程，求出系数a和b。,希望得到的直线,希望得到的直线，称为“估计曲线”，或“拟合（fit）曲线”。,“拟合曲线”的拟合原则，是使直线尽可能贴近所有的散点，总偏差最小。,哪一条曲线是最合适的拟合曲线？,?,?,?,局部放

3、大，选择2个点观察,Yi到拟合曲线的离差0,Yi到拟合曲线的离差0,“拟合曲线”的拟合原则，是使直线尽可能贴近所有的散点，总偏差最小。而“总偏差”的表示方式是：各点和直线离差的平方和。这种方式，称为“最小二乘（平方）”法。,使用各点与拟合直线离差平方和的方法，将所有正、负离差都充分表达出来，并要求其总和最小，综合考虑，可使拟合直线充分“靠近”离散点，并“照顾”了各点之间的分布形状。由此得到的拟合曲线，又称“回归曲线”。,如何实现“总偏差最小”？,拟合直线,最小二乘回归估计（least-squares regression estimation）,希望这直线和n个点距离（的平方）之

4、和越小越好。,主要任务是求出次回归曲线的2个系数。,系数b就是Y对X的一阶导数,欲解使,须先分别求函数,对a和b的一阶偏导数。,的a和b，,使用复合函数求导法，令,知,而,故,则,最小二乘回归估计（least-squares regression estimation）,回归曲线系数是下列方程组的解：,代入,其中，注意到,同样,最小二乘回归估计（least-squares regression estimation）,其中，注意分子,在上述过程中，将Y置换为X，可知分母为,所以,在n组数据已知的情况下，为常数，其乘积也为常数常数连加n次，等于乘以n,（见教材P97）,主要计算过程,例：

5、估计龙虾晚餐的需求,0,4, 2,0,8,0,0,0,5,7, 30,9,3, 10,6, 60,9, 3,20,5, 20,4, 2,10,4, 45,9,3, 15,3, 20,4,2, 10,2,0,1, 1,0,1,城市,估计需求函数Qd=a+bP的参数,求得：,另外，可求需求的价格弹性,使用软件计算,仍用估计龙虾晚餐需求的例子,使用Microsoft Office Excel,先输入原始数据。再选择函数： INTERCEPT：截距a； SLOPE：系数b。函数中(A1:A8)代表导入A1A8八个数据。,估计需求函数Qd=a+bP的参数,（coefficient of determ

6、ination）在因变量的总变差中，已由回归方程解释的部分所占的比重。,相应于Xi，回归曲线上的点越靠近实际值Yi，说明回归曲线拟合度越优，此时R2取值越接近1。反之， R2取值接近0，拟合度最差。此时因变量Y和自变量Xi的变化没有关系。,可决系数R2评价回归曲线的总体拟合优度,检验回归估计（之一）,对于回归方程,312.23,24083.94,392.33,29880.58,4.37,17100.79,376.91,17651.78,1618.45,1094.95,270.23,50.98,949.87,781.76,209.18,8.18,613.06,2743.66,184.76

7、,5950.58,3.50,7922.78,148.13,7593.38,166.93,22518.00,87.08,18807.38,未解释变差,已解释变差,总变差,Yi,可决系数R2评价回归曲线的总体拟合优度,Xi,Yi,评估方式的设计思路,先一某一点Yi为例,如果对于一组原始数据，用不同的办法拟合出两条直线,沿此思路，将“距离”表达为离差平方，并综合考虑所有原始数据（求和），可以构造评估方案。,可决系数R2评价回归曲线的总体拟合优度,定义Y的变差如下：任一Yi和Y均值之间离差的平方。总变差就是所有Yi离差的平方和。将其分解如下：,其含义是：总变差可以分为两部分，一部分是实际

8、点到拟合直线的变差，另一部分是拟合直线到均值之间的变差。,评估方式的设计思路,可决系数R2评价回归曲线的总体拟合优度,O,Y,X,Xi,总变差,未解释变差（总误差）,已解释变差,所谓“已解释变差”，指回归直线上点到均值的变差，是由于自变量Xi变化引起的变差。 “已解释变差”，又被称为“回归离差”。总变差减去已解释变差，就是“未解释变差”，又被称为“总误差”。,评估方式的设计思路,可决系数R2评价回归曲线的总体拟合优度,T统计量评测评价单个自变量的解释能力,几个概率统计概念,随机变量x的概率分布f(x),正态分布,标准正态分布,记为XN(0,1),均值=0, 标准差= 1,检验回归估计（之

9、二）,随机变量X1N(0,1), X2N(0,1), XnN(0,1)，且彼此相互独立，则：,n称为“自由度”，表示Xi2中有n个随机变量项可以自由取值。,t分布,XN(0,1)，，且X、Y相互独立，则随机变量,XN(0,1),Tt(n),=0, =n/(n-2),T统计量评测评价单个自变量的解释能力,几个概率统计概念,样本的考察指标有样本均值、样本方差、样本标准差,在回归方程例中，,T统计量评测评价单个自变量的解释能力,几个概率统计概念,构造变量,由分布理论得知，此t服从自由度为n-k-1的t分布，即,自由度为n-k-1的t分布数值，可以查表得到，记为t0，若经计算tt0，则拟合的系

10、数b表征了拟合曲线和样本的关系，即回归直线是统计上显著的。,在回归方程例中，,t=12.211.19=10.26 这个数大于查自由度为7-1-1=5的t分布表的t值tn-k-1=2.571，统计上显著。,n为原始数据的组数，k为方程中自变量的数目。,（查表：教材P549附表III）,T统计量评测评价单个自变量的解释能力,或用如下方式来估计b的95%的置信区间：,b的95%的置信区间= =12.21-2.571*1.19, 12.21+2.571*1.19 =9.15, 15.27 或： b的95%的置信区间为9.15 15.27,T统计量评测评价单个自变量的解释能力,利用回归方程进行预测

11、,对于回归方程,只要给定自变量X的值，就可以求出在回归曲线上Y的值。例如，当X=20时，Y=87.08+12.21*20=331.28,因为给定自变量X并非此前真实存在，所以这时求出的Y值称拟合值，或称理论值、预测值。而实际上，如此精确的结果并非有实用价值，可以变通一下，给出当给定自变量X时，Y的可能区间。称区间估计。,度量预测值可能的误差，用估计值标准差Se,Y的95%置信区间为：,利用回归方程进行预测,例如X=22，代入回归方程，Y=87.08+12.21*22=355.70,而,所以生产22个单位产品成本的95%的置信区间为：,355.702.571*27.14,即：285.92

12、 425.48,多变量回归例如Y=A+bX+cZ 假定其他变量不变，某一自变量（X或Z）单独发生变化时，其一单位变化对因变量的影响为系数b、c的含义。,多元回归,需求估计, 建立理论模型收集数据选择函数形式估计和解释结果,建立理论模型,注意每个变量的内涵和关联关系,收集数据, 调查问卷调查电话调查网络调查入室调查市场实验查询档案资料企业资料政府统计资料行业统计资料, 时间序列数据：纵向，按时间进程排列横断面数据：横向，同一时间点上,选择函数形式, 解释系数计算弹性 ,模型,线性方程,幂函数方程,不能直接用最小二乘法来估计，求对数后可以使用：,一种选择是：,另一种

13、选择是：,使用幂函数及其对数方程，可方便地将系数和弹性建立关系,两侧同乘以P/Qd,同样，aI、aO、aT分别是需求的收入弹性、交叉弹性和偏好弹性。,估计和解释结果,对某线性函数, 系数取值的意义标准差表示估计值的准确度 t-统计量的得出（系数除以标准差）用以假设检验可决系数R2表示模型的总解释能力,回归分析中的问题, 变量遗漏识别问题多重共线性,变量遗漏,S= 484.42+15.54K R2=0.44 (5.32) (2.51) K越高，S越大，不合常理修正： S= 462.81.28K+17.14H R2=0.92 (3.71) ( 0.33) (6.44),（见教材例）,多重

14、共线性,问题：变量太多，自身高度相关,G=50.00+0.40H+0.02P R2=0.80 (2.80) (0.80) (1.35),H和P高度相关，可以通过相关系数r反映删掉一个变量H G=60.00+0.03P R2=0.75 (2.70) (3.00),（见教材例）,识别问题,S1,S2,S3,产生根源：供给曲线和需求曲线存在变动的同时性。使用计量经济学工具解决。识别方式：需求、供给中各加入不同的影响变量。,原始数据,认为需求固定，由于供给曲线变动形成一系列P-Q对应数据。,事实上，可能D曲线与S曲线同时都移动了。,例如：汽油的市场均衡模型： Qd=B+d1Pg （Pg为汽油价格

15、） Qs=C+s1Pg Qd=Qs 前两个方程的自变量相同（Pg），而第三个等式决定了前两个方程可以合成一个等式，故“无法识别”：无法通过回归统计得到参数B, d1, C, S1（特别是需求方程中的B和d1）的值。解决办法如下：需求方程中加入自变量“收入I”，供给方程中加入另一自变量“相关商品原油的供给价格Pc”： Qd=B+d1Pg+d2I Qs=C+s1Pg+s2Pc Qd=Qs 称为“结构型模型”。可得： B+d1Pg+d2I=C+s1Pg+s2Pc，求Pg的表达式：,称为“约简型”方程：线性；右边只有I和PC两个自变量，可用最小二乘法估计。,将其带入结构型模型的需求方程表达式，,Q=A+g1Pc+g2I,习题讨论题 7 练习题（一）4、8 练习题（二）1,

展开阅读全文

[理学]第四章 回归技术与需求估计

[理学]第四章回归技术与需求估计