第2章:一元线性回归方法

上传人:cn****1 文档编号:465593786 上传时间:2022-09-20 格式:DOCX 页数:20 大小:104.04KB
返回 下载 相关 举报
第2章:一元线性回归方法_第1页
第1页 / 共20页
第2章:一元线性回归方法_第2页
第2页 / 共20页
第2章:一元线性回归方法_第3页
第3页 / 共20页
第2章:一元线性回归方法_第4页
第4页 / 共20页
第2章:一元线性回归方法_第5页
第5页 / 共20页
点击查看更多>>
资源描述

《第2章:一元线性回归方法》由会员分享,可在线阅读,更多相关《第2章:一元线性回归方法(20页珍藏版)》请在金锄头文库上搜索。

1、第2章:一元线性回归方法20问题导入在前述游乐场猜体重的事例中,经营者获得了一个身高与体重的样本观察数据(见表 2-0),你如何利用这个观测数据集合来改善你的经营业绩呢?表2-0身高与体重的样本观察数据身高超过5英尺以上的X.(单位:英寸)1体重(单位:磅)5140915713205121981016211174815091651017012180111709162101651218081609155101651519013185111552.1回归模型概述对于我们所关心的因变量r而言,如果我们猜测解释变量x是对其惟一存在系统性影 响的因素,或二者之间存在均衡关系,而且这种影响或均衡关系是线性

2、的,则一元线性总体 回归模型可设定为如下的形式:Y = P 0 + P1X + u其中,P 0和P 分别为一常系数,u为一随机变量,并至少应满足E(u|X) = 0。在上述设 定下,显然有:(2-1-2)(2-1-2)被称为总体回归方程。作为一个简单的推广,多元线性总体回归模型可设定为:(2-1-3)Y = P 0 + P1X1 +P 2 X 2 + + P X + u其中u至少应满足E(u|XX2,Xk) = 0,总体回归方程自然为:E(y|X ,X,,X ) = B +P X +P X + +P X(2-1-4)112k 01122k k接下来,我们希望通过获得因变量和解释变量的一个容量为

3、 n的样本观测数据集 (匕,X,): i = 1,2,n,来对模型(2-1-1 )中的参数8和七做出正确的估计。在多元情形 中,样本数据集表示为:I、, X, X,2,,X化):i = 1,2,.,n,待估计参数为:P,吟,,Pk。我们如何找到这样一种估计方法呢?假定我们找到了一种估计方法(正确与否暂时还无法判断),利用样本数据,我们对模型(2-1-1)参数P和P给出的估计量(值)为P和P。显然,P和P不能通过简单地 010101将如,Xj): i = 1,2,代入(2-1-1)而解出。但与(2-1-1)相对应,我们可以建立相应的样 本回归模型:Y =6 +6 X + u i = 1,2, ,

4、n(2-1-5)i 01 i i其中,P和P是(假定)根据样本数据求出的对P和P的估计值,而u则称为样本回归0101i模型的残差或剩余,它可以被理解为利用样本数据对u的可能取值的一种估计。需要特别 指出的是,相对于给定的样本数据(数据是确定的),(2-1-5)是一个确定性方程,而相对于 给定容量的样本(数据是未确定的),(2-1-5)则是一个随机性方程。与(2-1-5)所对应的样本 回归方程被定义为:Y=P+P X i = 1,2, ,n(2-1-6)i 01 i,显然应该有:人人u = Y - Y(2-1-7)在多元情形中,样本回归模型为:Y = P +P X +P X + + P X +

5、U (2-1-8)i 01 i12 i 2k ik i样本回归方程为:Y =P +P X +P X + +P X(2-1-9)i 01 i12 i 2k ik不难看出,样本回归模型(方程)与总体回归模型(方程)的设定既存在一定的差异又 有一定的联系。那是因为,总体回归模型(方程)是根据应变量与解释变量所有可能的取值 而确定的,而样本回归模型(方程)则是根据其中的一组特定的取值而确定的。一个依据总 体情况,而一个则依据部分情况。依据部分对总体的一个推断,自然不敢肯定一定符合总体。 因此,回归分析的真正含义是,根据有限的部分情况(样本数据),通过“取伪存真、由此 及彼、由表及里”性的分析,发现(回

6、归到)事物的真理(真值所以,Pn, P,,P就01 k是对真值P0, P2, , Pk的一种估计值(量)。现在,我们需要在(2-1-5)设定的基础上,寻找到一种估计方法,得出关于P 0和P 1的 一种合理、有效的估计(计算)公式:P = f (Y , Y,Y , X , X,X )(2-1-10)012 n 12 n人P = g (Y, Y,Y , X , X,X )(2-1-11)112 n 12 n这就是下一小节的任务。2.2模型参数的普通最小二乘估计方法(OLS)普通最小二乘估计方法(OLSOrdinary L P , P,,P east Squares)是最基础的参数01 k估计方法。

7、它不是参数估计的唯一方法,比如,还存在最大或然法(ML)、矩估计方法等。普通最小二乘估计方法的基本思路是:对于一个给定的样本,P , P,,P的选定值应使 01k得由(2-1-9)确定的样本回归方程(直线)对样本数据拟合得最好。如何确立具体的拟合标准 呢?对容量为n的样本,普通最小二乘估计法给出的拟合最好的标准是:(2-2-1)Q = X U 2 = min ii=1在一元情形中,(2-2-1)意味着:Q = X (Y - Y )2 =X (Y -P P X )2 = min(2-2-2)i ii 01 ii=1i=1显然,对于给定的样本数据而言,Q = f (P , P ),即P和P的选定值

8、不同,Q的取值也 0101不同,它是P和P的一个二元二次函数。 01P0和P1选什么值可以使(2-2-1)中的残差平方和最小呢?微积分学中的极值原理告诉我们,(2-2-1)存在最小值,其充分必要条件是:-S-=-2X (Y - P- P x)=-2X u =0aP,01 i,5 1 寸寸(2-2-3)g = -2X(Y -P -P X )X =-2XX U = 0aPi 01 i ii i【2由(2-2-3)得正规方程组:nP+ (XX )P =ZY(2-2-4) U V i 2 人(XX )P1 + (XX2)P2 =XXY解(2-2-4)得:.XX2XY-XX XXYP = Y -P X

9、=(2-2-5)01nXX2 - (XX )2*7iiEXYX EYS-L_i iiX 2 (L X )2E (X X )(Y Y)(2-2-6)L(x - X)2L Lyi lL x 2i其中,X LX /n , Y LY /n,称为样本的均值;x X X , y Y Y,称为 iii ii i样本(对均值)的离差。因此,今后一定要注意大、小写字母含义的区别。(2-2-5)和(2-2-6) 就是根据普通最小二乘原理得出的一元线性回归模型的(普通最小二乘)参数估计公式(方 法)。普通最小二乘估计方法的结果的三个重要特征值得一提。从(2-2-3)中的第一个方程可知 Lu 0,说明该方法所选定的g

10、和g的值,使各样本点偏离样本回归直线的正负距离 01之和等于零,或“均衡地”分布在样本回归直线两侧,这满足我们对E(u) 0的要求;从 第二个方程我们又知道LX U 0,这意味着从样本来看,解释变量X与u不相关(线性 i i无关)。而从(2-2-5)可知,Y = g0 + BX,与样本回归方程(2-1-6)比较,说明我们求出的样本回归方程肯定穿过样本均值点(X,Y)。上述两点,为我们根据样本点确定回归直线,提供了一个参考标准。现在,我们可以对(2-2-5)和(2-2-6)给出两种不同说法:对于给定的一个样本数据 年,Xj): i = 1,2,n而言,(2-2-5)和(2-2-6)给出了两个(确

11、定的)估计值,此时我们所 强调的是将*匕,X,): i = 1,2,n作为具体的数据代入(2-2-5)和(2-2-6)后所计算出的具体数值;而对于任一个容量为n的样本而言,由于在此种条件下匕和X,对于我们来讲都是随 机变量,故(2-2-5)和(2-2-6)给出了两个(随机的)估计量,此时我们所强调的是由随机性的 样本作为自变量、由(2-2-5)和(2-2-6 )作为计算公式而确定的两个随机变量(函数)。做一简短的总结就是,一个估计量实际上是一个(样本)统计量,它给出了一个规则、 公式或方法,告诉人们怎样利用手中任意给定(容量)的样本数据去估计总体的参数。而 一个估计值则是指将一个给定的样本数据

12、代入一个特定的估计量之后计算出的具体数值。值得强调的是,OLS估计方法不仅能对(狭义的)变量之间的线性模型进行估计,也 能对(广义的)针对参数而言的线性模型进行估计。对于下述(广义的)一元线性模型:(2-2-17)g (Y) = g 0 + gJ (X) + uOLS方法的估计结果为:B = gw)= B f= Zf(X-Zi(X:(Xn乙 f (X )-(乙 f (X )2ii(2-2-18)=2 f(X)g(匕)-诲(Xj) g(Y.)1nE f (X.) - (S f (X. )2(2-2-19)上述方法的实质是,先将(2-2-17)变换为:Y * = P 0 + P1X * + u(2

13、-2-20)其中 Y*= g(Y), X *= f (X),然后对(2-2-20)进行 OLS 估计。2.3样本回归方程的拟合优度(优劣测度)对于样本回归模型(2-1-5)而言,给定一个容量为n的样本(Y., X): i = 1,2, ,n,普通最小二乘法给出了一个对数据最佳拟合的(样本)回归方程2-1-5);若再给定另一容量为 n的样本,普通最小二乘法同样也能给出一个对数据最佳拟合的(样本)回归方程。这两个 样本回归方程不会一定相同。现在我们要问:哪个样本回归方程对各自所依据的样本数据的 拟合更好呢?为回答这一问题,需要对用普通最小二乘法给出的样本回归方程对样本数据的拟合优劣程度进行测度,具

14、体测度指标用判定系数R 2表示。该拟合优度还可以回答这样的问题:给定一个容量为n的样本(7,X),用最小二乘法给出两个不同形式的样本回归方程,例如Y =& +B X和Y = B +B X2,谁对样本数据的拟合更好呢?1112 i i 2122对于一个用普通最小二乘法给出的样本回归方程(2-1-5),判定系数R2的测度定义通过分析恒等式(2-3-1 )而获得:.八.Y -Y = (Y -Y) + (Y -Y)由(2-3-1),对所有样本数据平方求和后得:E (Y Y )2 =E (Y Y )2 +E(2-3-1)(Y Y )2 + 2E (Y Y )(Y Y ) (2-3-2) iiiii由于=B +Bx ,01 iy = B +B x01所以(2-3-3)以及 (Y - Y )(Y - Y) = & (X - X )Uii i_1ii=B (x - x)u1 i _V(2-3-4)=。( X u - X u )=0 1因

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号