定量分析之回归分析

上传人:第*** 文档编号:55934655 上传时间:2018-10-08 格式:DOC 页数:38 大小:1.47MB
返回 下载 相关 举报
定量分析之回归分析_第1页
第1页 / 共38页
定量分析之回归分析_第2页
第2页 / 共38页
定量分析之回归分析_第3页
第3页 / 共38页
定量分析之回归分析_第4页
第4页 / 共38页
定量分析之回归分析_第5页
第5页 / 共38页
点击查看更多>>
资源描述

《定量分析之回归分析》由会员分享,可在线阅读,更多相关《定量分析之回归分析(38页珍藏版)》请在金锄头文库上搜索。

1、1第十三章第十三章 回归分析回归分析“回归”(regression)是由英国著名生物学家兼统计学家高尔顿(Francis Galton)在研究人类遗传问题时提出来的。为了研究父代与子代身高的关系,高尔顿搜集了 1078 对父亲及其儿子的身高数据,他发现这些数据的散点图大致呈直线状态,也就是说,总的趋势是父亲的身高增加时,儿子的身高也倾向于增加。但是,高尔顿对试验数据进行了深入的分析,发现了一个很有趣的现象回归效应。当父亲高于平均身高时,他们的儿子身高比他更高的概率要小于比他更矮的概率;父亲矮于平均身高时,他们的儿子身高比他更矮的概率要小于比他更高的概率。它反映了一个规律,即这两种身高(父亲的身

2、高和儿子的身高)有向他们父辈的平均身高回归的趋势。对于这个一般结论的解释是:大自然具有一种约束力,使人类身高的分布相对稳定而不产生两极分化,这就是所谓的回归效应。回归分析和相关分析都是对多个变量之间依存关系的分析。只有存在相关的变量才能进行回归分析,相关程度愈高,回归效果越好。相关分析与回归分析的不同点:相关分析是研究变量之间的依存关系,但不区分哪个是自变量,哪个是因变量;而回归分析不仅研究变量之间的依存关系,而且要根据研究对象和目的,确定哪个是自变量(解释变量) ,哪个是因变量(被解释变量) 。相关分析主要是研究变量之间关系的密切程度和变化的方向;而回归分析要通过建立回归模型和控制自变量来进

3、行估计和预测。比如说,从相关分析中我们可以得知“质量”和“用户满意度”变量密切相关,但是这两个变量之间到底是哪个变量受哪个变量的影响,影响程度如何,则需要通过回归分析方法来确定。回归分析研究的主要内容有:确定变量之间的相关关系和相关程度,建立回归 模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的 拟合实测数据;如果能够很好的拟合,则可以根据自变量作进一步预测。第一节 一元线性回归一、一元线性回归模型的基本概念若有两个变量x和y,其中x为非随机变量(即可控变量) ,y为随机变量。且x和y有相关关系,则可用数学模型 近似地表示它们之间的关系。exfy)(式中 是随机变量。方

4、程 )(xfy 称为回归方程(回归模型) 。e2若一元回归方程是线性的,称为一元线性回归。其数学模型为:=+。这个回归模型中的随机误差,要求满足如下的高斯基本假设:yiabixeiei(1)应当是服从正态分布的随机变量,即满足“正态性”(normal)的ei 假设。(2)的均值为零,即 E()0,我们称满足“无偏性”的假设。eieiei(3)的方差等于某个常数,即=,这就是说,所有的分布的方差都ei ieVaruei相同(equal variance),即满足“共方差性”的假设。(4)各个间相互独立,即对于任何两个随机误差和其协方差等于eieiejij零,即,Cov(,)=0, )这称之为满足

5、“独立性”(independent)的假设。eiejij综上所述,随机误差必须服从独立的相同分布。ei基于上述假定,随机变量的数学期望和方差分别是: E()=+ =,yiabxi ieVaru由此: N(+,)yiabxiu这就意味着,当 X=时,是一个服从正态分布的随机变量的某一个取值。如xiyi 果不考虑式中的误差项,就可以得到简单的方程:=+ yiabxi这一方程就称为 Y 对 X 的一元线性回归方程。依据这一方程在直角坐标系中所作的直线就称为回归直线。其中 a、b 通常称为回归模型的参数,a 是回归直线的截距;b 是回归直线的斜率(回归系数) 。二、一元线性回归模型的参数估计回归模型中

6、的参数与 在一般情况下都是未知数,必须根据样本数据(,)来abxiyi 估计。确定参数与 值的原则是要使得样本的回归直线同观察值的拟合状态最好,ab 即要使得偏差最小。为此,可以采普通最小二乘法(Ordinary Least Square,OLS)来 解决这个问题。 对应于每一个,根据回归直线方程可以求出一个,它就是的一个估计值。xi yiyi估计值和观察值之间的偏差。有 n 个观察值就有相应的 n 个偏差。要使eyyiii 模型的拟合状态最好,就是说要使 n 个偏差的总和最小。但为了计算方便起见,我们 以误差的平方和最小为标准来确定回归模型的参数。这就要求Qyyyabxi inii in 1

7、212是个极小值。根据微积分中的极值定理,要使上式取极小值,其对与 所求的偏导数ab 应为 0,即3 Q ayabxQ byabxxiiiii 2020经整理后可得:ynabxx yaxbxiiiiii 2解上式,可得: bx ynxyxnxaynbxniiiiiiii 1122记 。XxnYynii,SxxxnxSxx yyx ynxySyyynyXXiiiXYiiiiiiYYiii222222111于是,得到参数与 的简单表达形式如下:abbSSaybxXYXX 求出参数与 以后,就可以得到回归模型ab yabx由此,只要给定了一个值,就可以根据回归模型求得一个来作为实际值xi yi 的预

8、测值。yi 我们以研究与开发(R&D)投入与国内生产总值(GDP)的关系为例来说明 一元线性回归模型的求解问题。1989-2006 年,中国 R&D 投入与 GDP 相关统计数 据如表 13-1 所示。表 13-1:1989-2006 年中国 R&D 投入与 GDP 相关数据序号年 份GDP (亿元)R&D(亿元)12006209407294322005183084.8236732004159878.31966.642003135822.81539.6452002120332.71287.662001109655.21042.57200099214.6895.78199989677.1678.

9、99199884402.3551.110199778973.0481.4711199671176.6404.4812199560793.734913199448197.922214199335333.919615199226923.516916199121781.5142.317199018667.8125.4318198916992.3112.31将观察值,(i=1,18)在平面直角坐标系中用点标出,所得的图称为ixiy散点图。从图 13-1 可以看出,y(GDP)与 x(R&D 投入)之间大致呈现线性相关关系,可见一元线性回归模型适用于对 y 与 x 关系的回归分析。0.00500.001

10、000.001500.002000.002500.003000.00x0.0050000.00100000.00150000.00200000.00y图 13-1:y(GDP)与 x(R&D 投入)关系的散点分布图根据上述求解回归系数的公式,可以求得与 的值。这里 n=18ab99272102 . 2,109 . 1,105 . 21570315,99.15473 iiiiiiyxyxyx595632215559)1570315(181109 . 11804870325)1570315()99.15473(181102 . 2112193047)99.15473(181105 . 212922

11、92722iiYYiiiiXYiiXXynySyxnyxSxnxS72.3039118* 18128.66iixxxyxbyxbyaSSb由此得到 y(GDP)对 x(R&D 投入)的一元线性回归模型:xy691.30391128.66三、一元非线性回归模型的线性处理方法由于线性回归方模型比较简单,所以在遇到非线性回归模型时,最好通过变换 将其转换为线性回归模型。一些常用的非线性回归模型转换方法如下:(1)成长曲线模模型成长曲线模型为: 即xbeay1xbeay1令 yy1xex则成长曲线模型就可转换为: bxay (2)双曲线模型双曲线模型为: xbay1令 xxyy1,1则双曲线模型转换为

12、:y=a+bx(3)幂函数模型幂函数模型为:y=axb 或 y=ax-b (b0)对幂函数两边取对数nxbnany作变换 naanxxnyy,则幂函数模型转换为: xbay6(4)指数函数模型言之指数函数模型为:y=aebx 或 y=ae-bx(b0)两边取对数 bxnayn 令 nnyy,则指数函数模型转换为:bxy(5)倒指数函数模型倒指数函数模型为:或 (b0,a0)xb aeyxb aey 两边取对数后作变换y, ,nynaaxx,1则倒指数函数模型转换为: xbay(6)对数函数模型对数函数模型为:y=a+bxn作变换x, 则有 y=a+bnxx第二节 多元线性回归在公共管理研究中,

13、很多情况下研究的变量是多个的,这就需要用多元的方法才能更好地描述变量间的关系。就方法的实质来说,处理多元线性回归(multiple linear regression)的方法与处理一元线性回归的方法是基本相同的,只是多元线性回归的方法复杂些,计算量大些,我们通常都运用统计软件来进行处理。一、数学模型和回归方程的求法。设因变量 y 与自变量x1,x2,xk之间有关系式:), 0(.2110 Neexbxbbykk通过取样得到 n 组观测数据:(y1;x11,x21,xk1)7(y2;x12,x22,xk2)(yn;x1n,x2n,xkn)其中xij是自变量 xi的第 j 个观测值,yj是因变量

14、y 的第 j 个值,代入上式得到模型的数据结构式:。N。exbxbxbbyexbxbxbbyexbxbxbbynnknknnnkkkk2 2122110222211210211212111010.,.独立同分布上述方程式为 k 元正态线性回归模型,其中 b0,b1,bk及 2是未知待估的参数。多元线性回归模型也需要符合多元回归的高斯假设条件。我们同样可以采用最小二乘法来估计回归系数 b0,b1,bk., 称使达到最小的为参数21221101, 0 ).(),.,( ntktktttkxbxbxbbybbbQkbbb,., 10(b0,b1,bk)的最小二乘估计。利用微积分知识,最小二乘估计就是对如下方程组进行求解:kkkykkkkkykkykkxbxbxbybLblblblLblblblLblblbl.221022112222212111212111其中 ),.,2 , 1(1,111kixnxynyntitintt ),.,2 , 1,()( )(11kjiLxxxxnLjijjtntiitij ),.,2 , 1()( , )(11kiyyxxnLtntiitiy 通常称上述的方程组为正规方程组,其中前 k 个方程的系数矩阵记为当 L*可逆时,正规方程组有解,便可得 b0,b1,bk的最小二乘估计 ,)(*kkijlL8kbbb, 10即kkykykxbx

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号