第三节-最小二乘估计量性质

资源描述

《第三节-最小二乘估计量性质》由会员分享，可在线阅读，更多相关《第三节-最小二乘估计量性质（26页珍藏版）》请在金锄头文库上搜索。

1、第三节最小二乘估计量的性质三大性质：线性特性、无偏性和最小偏差性一、线性特性的含义线性特性是指参数估计值和分别是观测值或者是扰动项的线性组合，或者叫线性函数，也可以称之为可以用或者是来表示。1、的线性特征证明（1）由的计算公式可得：需要指出的是，这里用到了因为不全为零，可设，从而，不全为零，故。这说明是的线性组合。（2）因为，所以有这说明是的线性组合。需要指出的是，这里用到了以及2、的线性特征证明（1）因为，所以有这里，令，则有这说明是的线性组合。（2）因为回归模型为，所以因为。而所以，这说明是的线性组合。至此，参数的线性特性证明完毕。问题参数估计值线性特性的深层次含义是什么？要根据被解释

2、变量、随机扰动项和的随机性来理解。二、无偏性的含义所谓无偏性是指估计值的均值等于真实值。在这里，无偏性是指参数估计值和的期望值分别等于总体参数和。其数学上要求是和。证明：根据参数估计值的线性特征，我们推导出：，所以有：相似地，所以有三、最优性（有的书本上直接称之为最小方差性）的含义最优性是指用最小二乘法得到的参数估计值和在各种线性无偏估计中得到的方差最小。根据上述的定义，我们可以任意假设是用其他方法得到的总体参数的一个线性无偏估计。因为具有线性特性，我们可以得到：，又因为是用其他方法得到的总体参数的一个无偏估计，所以有所以由上述两个结果，可以得到：上述式子要成立，必须同时满足两个条件，

3、即和现在求的方差：因为根据假设条件（常数方差和非自相关，即和所以，有方差的最后一项为这是因为和因此，有很明显，当时，方差最小，此时，最小值为。而在此时，有即两个估计值相等。因为的最小方差等于的方差，即，因此，我们说，在所有线性无偏估计中的方差最小，且最小方差为：同理，我们可以证明，在所有线性无偏估计中的方差最小，且参数估计值的方差为：。由此，说明，最小二乘估计具有BLUE(best linear unbiased estimation)性质。从而在统计学和计量经济学中得到广泛应用。第四节系数的显著性检验一、系数估计值的特性：1、根据系数估计值的线性特性，我们知道系数估计值是和的线性组合。又

4、因为和都服从正态分布，所以，我们可以自然得到两点：一是系数估计值是随机变量（这里是在数学上再次予以证明）；二是系数估计值服从正态分布。从而，可以用随机变量的一些数字特征来表示。通常，我们采用的是均值与方差。系数估计值的均值是多少呢？根据系数估计值的无偏性，我们知道，。这说明系数估计值和这两个随机变量的数学期望（均值）分别等于总体参数（实际值）。系数估计值的方差又是多少呢？根据系数估计值的最小方差性的证明，我们得到了其方差，即有，。至此，我们可以用随机变量的数学期望和方差来刻画和这两个随机变量的分布，即有：服从均值为、方差为的正态分布；而服从均值为、方差为的分布。用数学的语言可以描述为：和

5、。可以明显看出的是，在系数的描述中，方差中含有随机扰动项的方差，其他我们可以得到。随机扰动项是总体回归模型中的误差项，无法得到，只能对其估计。二、随机误差项方差的估计因为总体回归模型为：而样本回归模型为：从形式上看，样本回归模型中的残差可以看作随机扰动项的估计值。进一步，残差的方差可以作为随机扰动项的方差的估计值。样本回归模型为：样本回归直线为：样本回归模型的左右两边减去样本回归直线的左右两边，可得：，把这个式子重新安排一下，可以得到：现在，重点要求的是的两个部分，即和。这两部分知道之后，才能求的方差。对样本回归模型两边分别对t求和，再除以n,有：由前边的正规方程组，我们曾经知道，点在样本

6、回归直线上，用数学的语言来讲，就有：，因此，有，进而，有对总体回归模型两边分别对t求和，再除以n,有：所以，由，可得，将两部分结合起来，现在，我们可以得到：可以得到：，（从这个式子我们可以看出什么呢？）至此，已经将残差与扰动项联系起来了。由此，我们可以得到：进一步，有：在这三项当中，有：所以，第一项为第二项为：第三项为：故有，也就是说如令，则意味着。这说明是的无偏估计量。前面，我们已经求得和。在和的方差中都含有未知量。这里，我们证明了是的无偏估计量，因此，可以用作为的估计值，这样，代入得到和的方差的估计值分别为：和，分别称为回归模型的标准差、参数估计值和的标准差。知道了估计值的方差估计值，就可

7、以对参数进行显著性检验，也可以估计总体参数的置信区间。二参数估计的显著性检验以上一节家庭消费支出和收入之间的关系的例子来说明，通过选取样本，我们得到了总体参数和的估计值分别为和。通过这个估计值，我们知道了家庭消费支出和收入的具体数量关系。现在，需要知道的是，通过样本得到的估计值能够正确地反映总体参数吗？这需要通过假设检验来做出判断。1、关于假设检验假设检验指利用样本得到的信息来判断总体是否具有某种制定的特征。例如：某药品生产线上规定，每片药片的净重是400毫克，标准差是4毫克。今连续检查20片药片，平均药片重量为395.4毫克。问药片的重量是否已经偏离了额定净重值？假设：对总体分布特征的假

8、设假设检验：根据样本信息来判断总体分布是否具有指定的特征，这个过程叫假设检验。就家庭消费支出而言，我们关注的是家庭消费支出与收入之间是否真的存在回归关系，也就是说我们关注总体参数和是否不等于零。因此，我们这里的假设是对总体参数的假设，我们这里的检验是对总体参数的假设检验，我们要运用的假设检验的工具是用样本工具得到的与和有关的检验的工具。这就是用样本信息来推断总体。1、对总体均值的假设检验因为我们关注的是解释变量和被解释变量之间的关系是否真实存在，因此，我们需要检验的是总体均值是否为零。对总体均值的假设检验可分三种情况：(1) 总体服从正态分布，总体方差已知，样本大小无限制(2) 总体总体分布

9、未知，总体方差未知，大样本(3) 总体服从正态分布，总体方差未知，小样本我们这里符合的是总体服从正态分布，总体方差未知，小样本。2、用什么来检验？（检验工具，统计量）我们已经知道，参数估计值满足：和，要尽可能利用关于和的信息。将和由正态分布转化为标准正态分布统计量：和在这两个统计量中，和我们都不知道，原因在于未知。但我们前边已经证明是的无偏估计量。因此，对于大样本情况，我们可以用代替，进而求得和以及，。这样，和可以进一步转化为：和。从而可以利用这两个统计量对总体参数和进行检验。（什么含义）就是说，我们可以对比如进行检验。如何检验呢？就是考察我们算出来的统计量是否服从正态分布。对于一元线性回归

10、模型而言，我们关心的是解释变量能否解释被解释变量，在数学上这表现为是否成立。因此，我们可以进行下假设：零假设备择假设在零假设条件下，服从标准正态分布，我们用这个统计量进行检验。在一般情况下，样本容量不满足大样本条件，这时要用t统计量，所做的检验称之为t分布检验。这时t统计量为：，其服从自由度为（n-2）的t分布。关于t分布t分布的含义是随机变量落入一定区域的概率。给定显著性水平和自由度（n-2）,则t落入区间内的概率为：t落在区域之外的概率为，也可以写作：，此式子等价于和。见下图。 -ta (n-2) 0 ta (n-2) 很显然，如果计算出来的这时t统计量为：（即t统计量小于临界值），则

11、可以认为原假设成立，即。反之，如果计算出来的这时t统计量为：，则可以认为备择假设成立，即。因此，我们通常的希望是t统计量值大于临界值。t统计量值我们可以根据样本计算出来，而临界值可以通过查表得到。问题：t值与P值的关系是什么？相应地，我们可以对总体参数值进行检验。过程为：零假设为：备择假设为：计算统计量查t分布表，得出临界值。若，则拒绝零假设，接受备择假设，即认为。三、总体参数的置信区间1、的置信区间由，将代入概率公式，可得：用概率表述为：总体参数在区间内的概率为。统计表述：区间包含总体参数的概率为。通常说，总体参数的置信区间为：2、相似地，总体参数的置信区间为：由这两个区间，可以推断总体

12、回归线所处的区域。四、决定系数（可决系数）评价回归直线对观察值拟合的好坏，拟合优度是一个重要的指标。显然，若观测点离回归直线近，则拟合程度好，反之，则拟合程度差。测量拟合优度的统计量是可决系数（决定系数）现由一个恒等式开始。这个式子把解释变量的总偏差分解成两部分：回归偏差或者叫可解释偏差（和残差两部分之和。可解释偏差是由样本回归直线决定的，残差则是随机的。显然，由样本回归直线解释的部分越大，则残差越小，样本回归直线与样本值的拟合优度就越好。而要从总体上反映样本回归方程对所有样本点的拟合的好坏，必须求和，考虑到正负抵消的问题，可以求平方和。总离差平方和：回归平方和：残差平方和：现在推导三者

13、之间的关系：这里有：所以有。即：总离差平方和=回归平方和+残差平方和。用公式表示为：，表示可以由解释变量说明的偏差部分，表示可以由残差说明的偏差部分。显然，在中所占的比例越大，所占的比例越小，则参数估计值的显著性越强，样本回归直线与样本观测值拟合得越好。因此，可以用在中所占的比例说明回归直线与样本观测值的拟合程度。也即总离差中可以由回归方程说明的部分。可决系数或拟合优度可以定义为：可决系数的取值范围为：变化的含义是什么？四、相关分析1、回归分析和相关分析的区别回归分析：性质、变量要求相关分析：相关关系，不是因果关系。变量要求不同2、相关分析的分类:线性相关：直观上讲，样本点集中分布在一条

14、直线附近。直线斜率为正，为正相关。直线斜率为负，则为负相关。非线性相关：样本点分布在一条曲线周围。3、相关程度的度量一般用相关系数表示X和Y的相关程度。总体相关系数定义为。总体相关系数的取值范围：总体相关系数与样本相关系数之间的关系。样本相关系数一般用来表示，且定义：这里有：4、相关分析与回归分析的关系这里特指在一元线性回归分析和简单相关分析中的关系。这里可决系数与相关系数有如下关系：，即。5、计量回归分析的规范表达第五节预测和预测区间关于预测预测对两种样本数据的作用。对于时间序列数据的估计的目的是预测。对截面数据估计的目的是为了推测未知数据。预测是计量经济学的一项主要任务。一、预测的点估计首先回顾四个方程式总体回归模型：总体回归直线：样本回归模型：样本回归直线：对于样本外的符合假定条件的一点而言，代入总体回归模型和总体回归直线，我们可以得到：和然而，由于和我们并不知道，因此，无从获得和。但是，利用样本回归直线，我们可以得到的估计值，即，求期望有：这说明是的无偏估计量。同时，故，这说明不是的无偏估计量。由可得：这说明在多次观察中，平均值趋于零，从而以作为的估计中心是合理的。二、预测的区间估计1、的置信区间2、的置信区间先求的置信区间因为，

展开阅读全文