元线性回归方法

上传人:豆浆 文档编号:37436780 上传时间:2018-04-16 格式:DOC 页数:15 大小:595KB
返回 下载 相关 举报
元线性回归方法_第1页
第1页 / 共15页
元线性回归方法_第2页
第2页 / 共15页
元线性回归方法_第3页
第3页 / 共15页
元线性回归方法_第4页
第4页 / 共15页
元线性回归方法_第5页
第5页 / 共15页
点击查看更多>>
资源描述

《元线性回归方法》由会员分享,可在线阅读,更多相关《元线性回归方法(15页珍藏版)》请在金锄头文库上搜索。

1、1第第 2 章:一元线性回归方法章:一元线性回归方法2.0 问题导入问题导入在前述游乐场猜体重的事例中,经营者获得了一个身高与体重的样本观察数据(见表 2-0) ,你如何利用这个观测数据集合来改善你的经营业绩呢?表表 2-0 身高与体重的样本观察数据身高与体重的样本观察数据身高超过 5 英尺以上的(单位:英寸)ix体重(单位:磅)59131210118910121191012891015131114015720519816217415016517018017016216518016015516519018515522.1 回归模型概述回归模型概述对于我们所关心的因变量而言,如果我们猜测解释变量

2、是对其惟一存在系统性影YX 响的因素,或二者之间存在均衡关系,而且这种影响或均衡关系是线性的,则一元线性总总 体回归模型体回归模型可设定为如下的形式:(2-1-1)uXY10其中,和分别为一常系数,为一随机变量,并至少应满足 。在上述01u0)(XuE设定下,显然有:(2-1-2)XXYE10)(2-1-2)被称为总体回归方程总体回归方程。 作为一个简单的推广,多元线性总体回归模型可设定为:(2-1-3) uXXXYkkLL221103其中至少应满足,总体回归方程自然为:u0),(21kXXXuEL(2-1-4)kkkXXXXXXYELLL2211021),(接下来,我们希望通过获得因变量和解

3、释变量的一个容量为的样本观测数据集n,来对模型(2-1-1)中的参数和做出正确的估计。在多元情形niXYii, 2 , 1: ),(L01中,样本数据集表示为:,待估计参数为:niXXXYikiii, 2 , 1: ),(21LL。我们如何找到这样一种估计方法呢?k,10L假定我们找到了一种估计方法(正确与否暂时还无法判断) ,利用样本数据,我们对模型(2-1-1)参数和给出的估计量(值)为和。显然,和不能通过简单010101地将代入(2-1-1)而解出。但与(2-1-1)相对应,我们可以建立相应的niXYii, 2 , 1: ),(L样本回归模型样本回归模型:(2-1-5)niuXYiii,

4、 2 , 1 10L其中,和是(假定)根据样本数据求出的对和的估计值,而则称为样本回0101iu 归模型的残差残差或剩余剩余,它可以被理解为利用样本数据对的可能取值的一种估计。需要特iu别指出的是,相对于给定的样本数据(数据是确定的) ,(2-1-5)是一个确定性方程,而相对 于给定容量的样本(数据是未确定的) ,(2-1-5)则是一个随机性方程。与(2-1-5)所对应的样样 本回归方程本回归方程被定义为:(2-1-6)niXYii, 2 , 1 10L显然应该有:(2-1-7)iiiYYu在多元情形中,样本回归模型为:(2-1-8)iikkiiiuXXXY22110LL样本回归方程为:(2-

5、1-9)ikkiiiXXXY 22110LL不难看出,样本回归模型(方程)与总体回归模型(方程)的设定既存在一定的差异 又有一定的联系。那是因为,总体回归模型(方程)是根据应变量与解释变量所有可能的 取值而确定的,而样本回归模型(方程)则是根据其中的一组特定的取值而确定的。一个 依据总体情况,而一个则依据部分情况。依据部分对总体的一个推断,自然不敢肯定一定 符合总体。因此,回归分析的真正含义是,根据有限的部分情况(样本数据) ,通过“取伪存真、由此及彼、由表及里”性的分析,发现(回归到)事物的真理(真值) 。所以,, 04就是对真值的一种估计值(量) 。k, 1Lk,20L现在,我们需要在 (

6、2-1-5) 设定的基础上,寻找到一种估计方法,得出关于和0的一种合理、有效的估计(计算)公式:1(2-1-10),( 21210nnXXXYYYfLL(2-1-11),( 21211nnXXXYYYgLL这就是下一小节的任务。2.2 模型参数的普通最小二乘估计方法(模型参数的普通最小二乘估计方法(OLS)普通最小二乘估计方法(OLSOrdinary Least Squares)是最基础的参, 0k, 1L数估计方法。它不是参数估计的唯一方法,比如,还存在最大或然法(ML) 、矩估计方法等。普通最小二乘估计方法的基本思路是:对于一个给定的样本,的选定值, 0k, 1L应使得由(2-1-9)确定

7、的样本回归方程(直线)对样本数据拟合得最好。如何确立具体的拟 合标准呢?对容量为的样本,普通最小二乘估计法给出的拟合最好的标准是:n(2-2-1) niiuQ12min在一元情形中, (2-2-1)意味着:(2-2-2) niiiniiiXYYYQ12 10 12min)()(显然,对于给定的样本数据而言,即和的选定值不同,的取值),(10fQ 01Q也不同,它是和的一个二元二次函数。和选什么值可以使(2-2-1)中的残差平方0101和最小呢?微积分学中的极值原理告诉我们,(2-2-1)存在最小值,其充分必要条件是:(2-2-3) 02)(202)(2102101iiiiiiiiuXXXYQu

8、XYQ由(2-2-3)得正规方程组:(2-2-4) iiiiii YXXXYXn22 121 )()()(解(2-2-4)得:5(2-2-5) 22210)(iiiiiii XXnYXXYXXY(2-2-6)22221)()()(iiiiiiiiiiiixyxXXYYXXXXnYXYXn其中,称为样本的均值;,称nYYnXXii/,/YYyXXxiiii,为样本(对均值)的离差。因此,今后一定要注意大、小写字母含义的区别。(2-2-5)和(2- 2-6)就是根据普通最小二乘原理得出的一元线性回归模型的(普通最小二乘)参数估计公 式(方法) 。 普通最小二乘估计方法的结果的三个重要特征值得一提。

9、从(2-2-3)中的第一个方程可知,说明该方法所选定的和的值,使各样本点偏离样本回归直线的正负距 0iu01离之和等于零,或“均衡地”分布在样本回归直线两侧,这满足我们对的要求;0)(uE从第二个方程我们又知道,这意味着从样本来看,解释变量与不相关 0iiuXXu(线性无关) 。而从(2-2-5)可知,与样本回归方程(2-1-6)比较,说明我们XY10求出的样本回归方程肯定穿过样本均值点() 。上述两点,为我们根据样本点确定回YX,归直线,提供了一个参考标准。 现在,我们可以对(2-2-5)和(2-2-6)给出两种不同说法:对于给定的一个样本数据而言,(2-2-5)和(2-2-6) 给出了两个

10、(确定的)估计值估计值,此时我们niXYii, 2 , 1: ),(L所强调的是将作为具体的数据代入(2-2-5)和(2-2-6)后所计算出的具niXYii, 2 , 1: ),(L体数值;而对于任一个容量为的样本而言,由于在此种条件下和对于我们来讲都niYiX是随机变量,故(2-2-5)和(2-2-6)给出了两个(随机的)估计量估计量,此时我们所强调的是由随 机性的样本作为自变量、由(2-2-5)和(2-2-6)作为计算公式而确定的两个随机变量(函数) 。 做一简短的总结就是,一个估计量实际上是一个(样本)统计量,它给出了一个规则、一个估计量实际上是一个(样本)统计量,它给出了一个规则、 公

11、式或方法,告诉人们怎样利用手中任意给定(容量)的样本数据去估计总体的参数。而公式或方法,告诉人们怎样利用手中任意给定(容量)的样本数据去估计总体的参数。而 一个估计值则是指将一个给定的样本数据代入一个特定的估计量之后计算出的具体数值一个估计值则是指将一个给定的样本数据代入一个特定的估计量之后计算出的具体数值。值得强调的是,值得强调的是,OLS 估计方法不仅能对(狭义的)变量之间的线性模型进行估计,也估计方法不仅能对(狭义的)变量之间的线性模型进行估计,也 能对(广义的)针对参数而言的线性模型进行估计能对(广义的)针对参数而言的线性模型进行估计。对于下述(广义的)一元线性模型:(2-2-17)u

12、XfYg)()(106OLS 方法的估计结果为:(2-2-18) 22_1_0) )()()()()()()()()(iiiiiii XfXfnYgXfXfYgXfXfYg(2-2-19)21) )()()()()()( iiiiii XfXfnYgXfYgXfn上述方法的实质是,先将(2-2-17)变换为:(2-2-20)uXY 10其中,然后对(2-2-20)进行 OLS 估计。)(),(XfXYgY2.3 样本回归方程的拟合优度样本回归方程的拟合优度(优劣测度优劣测度)对于样本回归模型(2-1-5)而言,给定一个容量为的样本,普nniXYii, 2 , 1: ),(L通最小二乘法给出了一

13、个对数据最佳拟合的(样本)回归方程(2-1-5);若再给定另一容量 为的样本,普通最小二乘法同样也能给出一个对数据最佳拟合的(样本)回归方程。这n 两个样本回归方程不会一定相同。现在我们要问:哪个样本回归方程对各自所依据的样本 数据的拟合更好呢?为回答这一问题,需要对用普通最小二乘法给出的样本回归方程对样本数据的拟合优劣程度进行测度,具体测度指标用判定系数判定系数表示。该拟合优度还可以回2R答这样的问题:给定一个容量为的样本,用最小二乘法给出两个不同形式的样n),(iiXY本回归方程,例如和,谁对样本数据的拟合更好呢?iiXY21112 2212 iiXY对于一个用普通最小二乘法给出的样本回归

14、方程(2-1-5),判定系数的测度定义通过2R 分析恒等式(2-3-1)而获得:(2-3-1)()(iiiiYYYYYY由(2-3-1),对所有样本数据平方求和后得:(2-3-2)(2)()()(222 iiiiiiiYYYYYYYYYY由于XYXYii1010,所以(2-3-3)( 1XXYYii以及7(2-3-4)0)()()()(111iiiiiiiiiiuXuXuXXuXXYYYY因此,如果定义:总离差平方和总离差平方和(Total Sum of Squares)为,回归平方和回归平方和(Explained 2)(YYTSSiSum of Squares )为,残差平方和残差平方和(Residual Sum of Squares)为2)(YYESSi,则由(2-3-2)和(2-3-4)可得:2)(iiYYRSS(2-3-5)RSSESSTSS 所以有:(2-3-6)1TSSRSS TSSESS(2-3-5) 和(2-3-6)是一个对用普通最小二乘法求出的样本回归方程所成立的恒等式。给定样本数据,是个固定值,不随样本回归模型设定的不同而变化。而相对于不同的样本回TSS 归方程,相应的和的取值不同。由于,所以,和ESSRSS0RSSESSTSS和ESS之间存在此长彼消的关系,且,是一个无量纲的系数。由于是样RSS10TSSESSRSS

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号