多元回归分析法的介绍及具体应用

上传人:新** 文档编号:458027702 上传时间:2023-03-06 格式:DOCX 页数:11 大小:53.17KB
返回 下载 相关 举报
多元回归分析法的介绍及具体应用_第1页
第1页 / 共11页
多元回归分析法的介绍及具体应用_第2页
第2页 / 共11页
多元回归分析法的介绍及具体应用_第3页
第3页 / 共11页
多元回归分析法的介绍及具体应用_第4页
第4页 / 共11页
多元回归分析法的介绍及具体应用_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《多元回归分析法的介绍及具体应用》由会员分享,可在线阅读,更多相关《多元回归分析法的介绍及具体应用(11页珍藏版)》请在金锄头文库上搜索。

1、多元回归分析法的介绍及具体应用在数量分析中,经常会看到变量与变量之间存在着一定的联系。要了解变量 之间如何发生相互影响的,就需要利用相关分析和回归分析。回归分析的主要类 型:一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间 序列的曲线估计、含虚拟自变量的回归分析以及逻辑回归分析等。这里主要讲的 是多元线性回归分析法。1. 多元线性回归的定义 说到多元线性回归分析前,首先介绍下医院回归线性分析,一元线性回归分 析是在排除其他影响因素或假定其他影响因素确定的条件下,分析某一个因素 (自变量)是如何影响另一事物(因变量)的过程,所进行的分析是比较理想化 的。其实,在现实社会生活中,

2、任何一个事物(因变量)总是受到其他多种事物 (多个自变量)的影响。一元线性回归分析讨论的回归问题只涉及了一个自变量,但在实际问题中, 影响因变量的因素往往有多个。例如,商品的需求除了受自身价格的影响外,还 要受到消费者收入、其他商品的价格、消费者偏好等因素的影响;影响水果产量 的外界因素有平均气温、平均日照时数、平均湿度等。因此,在许多场合,仅仅考虑单个变量是不够的,还需要就一个因变量与多 个自变量的联系来进行考察,才能获得比较满意的结果。这就产生了测定多因素 之间相关关系的问题。研究在线性相关条件下,两个或两个以上自变量对一个因变量的数量变化关 系,称为多元线性回归分析,表现这一数量关系的数

3、学公式,称为多元线性回归 模型。多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归 模型类似,只是在计算上更为复杂,一般需借助计算机来完成。2. 多元回归线性分析的运用 具体地说,多元线性回归分析主要解决以下几方面的问题。(1)、确定几个特定的变量之间是否存在相关关系,如果存在的话,找出它们之间合适的数学表达式;(2)、根据一个或几个变量的值,预测或控制另一个变量的取值,并且可以 知道这种预测或控制能达到什么样的精确度;(3)、进行因素分析。例如在对于共同影响一个变量的许多变量(因素)之 间,找出哪些是重要因素,哪些是次要因素,这些因素之间又有什么关系等等。3. 多元线性回归分

4、析3.1 多元线性回归分析的原理回归分析是一种处理变量的统计相关关系的一种数理统计方法。回归分析的 基本思想是: 虽然自变量和因变量之间没有严格的、确定性的函数关系,但可 以设法找出最能代表它们之间关系的数学表达形式。3.2 多元线性回归模型及其矩阵表示设 y 是一个可观测的随机变量,它受到 p 个非随机因索 x , x , x 和随机1 2 p因素的影响,若y与x , x ,,x有如下线性关系:1 2 py =x + + P x + (1.1)0 1 1 p p其中0 , 0,0是p + 1个未知参数,是不可测的随机误差,且通常假定 01pN (0, C 2).我们称式(1.1)为多元线性回

5、归模型.称y为被解释变量(因变量),x (i = 1,2,p)为解释变量(自变量).i称E(y) = 0 +P x + - + P x(1.2)01 1p p为理论回归方程.对于一个实际问题,要建立多元回归方程,首先要估计出未知参数00, 01,0,为此我们要进行n次独立观测,得到n组样本数据(x , x ,x ; y ),pi 1 i 2ip ii = 1,2,n,他们满足式(1.1),即有y = 0+0 x +0 x + + 0 x + 101 112 12p 1 p1y = 0 + 0 x + 0 x + + 0 x + V 20121222p 2 p2(13)y = 0 + 0 x +

6、 0 x + + 0 x + n01n12n 2p npn其中8 ,8,,8相互独立且都服从N(0,b 2).1 2 n式(1.3)又可表示成矩阵形式:Y = X卩+8(1.4)这里,Y 二(y , y ,y )T,卩二(卩,卩,,卩),8 二(8 ,8,,8 ),1 2 n 0 1 p 1 2 n8N (0,b21 ), I为n阶单位矩阵.nn n1 x x x11121p1xxxX = .21222 p1xxxn1n 2npnx (p +1)阶矩阵X称为资料矩阵或设计矩阵,并假设它是列满秩的,即 rank (X) = p +1.由模型(1.3)以及多元正态分布的性质可知,Y仍服从n维正态分

7、布,它的 期望向量为X0,方差和协方差阵为b 21,即YN (XP,b21 ).nnn33参数的最小二乘估计及其表示1.参数的最小二乘估计与一元线性回归时的一样,多元线性回归方程中的未知参数0 ,0,,0仍然01p可用最小二乘法来估计,即我们选择0= (0 , 0,,0 )T使误差平方和01pQ(0)=工8 2 =T = (Y - X0)T (Y - X0)ii=1=工(y - 0 - 0 x - 0 x 0 x )2i 01 i 12 i 2p ipi=1达到最小.由于Q(0)是关于0 , 0,,0的非负二次函数,因而必定存在最小值,01p利用微积分的极值求法,得= -2(y - p -px

8、 -px p x ) = 0api01i12i 2pip八0i=1ap1aQ(p)=2(y p p x p xp x)x= 0i 01i12 i 2p ip i1i=1apkaQ(p) =2(y p p x p x p x )x = 0i 01 i12 i 2p ip iki=1aQ(P) =2(y p p x p x p x )x = 0ap i 0 1 i12 i 2p ip ippi=1这里p (i = 0,1,p)是p (i = 0,1,p)的最小二乘估计上述对Q(p )求偏导, ii求得正规方程组的过程可用矩阵代数运算进行,得到正规方程组的矩阵表 示:Xt (Y Xp) = 0移项得

9、XTXp = XtY(1.5)称此方程组为正规方程组依据假定R (X) = p +1,所以R ( XtX ) = R (X) = p +1 .故(XtX )-1存在.解正 规方程组(1 .5)得p =(XTX)1XTY(1.6)称y = p +px + p x +p x为经验回归方程.01 12 2p p2.误差方差b 2的估计 将自变量的各组观测值代入回归方程,可得因变量的估计量(拟合值)为Y = (y,y ,)2 = Xp12p向量 e = Y Y = Y Xp= I X ( XtX )-1 Xt Y = (I H )Y 称为残差向量,其nn中H = X(XtX)-1 Xt为n阶对称幂等矩

10、阵,I为n阶单位阵.n称数eTe = Yt(I H)Y = YtY p tXtY 为残差平方和(Error Sum of Squares, n简写为 SSE).由于 E(Y) = Xp 且(I H)X = 0,贝VnE (e Te) = EtreT t (I H )eT = tr( I H) E (eTe t )nn=b 2trI - X(XtX)-iXtn=b 2n-tr(XtX)-1 XtX=o 2(n-p-1)从而a 2二1 eTe为a 2的一个无偏估计.n- p -13.4 逐步回归当自变量的个数不多时,利用某种准则,从所有可能的回归模型中寻找最优 回归方程是可行的.但若自变量的数目较

11、多时,求出所有的回归方程式很不容易 的.为此,人们提出了一些较为简便实用的快速选择最优方程的方法,我们先根 据“前进法”和“后退法”的思想,再详细介绍“逐步回归法”。1.前进法和后退法前进法:设所考虑的回归问题中,对因变量y有影响的自变共有m个,首先将这m个自变量分别与y建立m个一元线性回归方程,并分别计算出这m个一元回归方程的偏F检验值,记为F(i), F,F(1),若其中偏F值最大者(为方12m便叙述起见,不妨设为 F (1) )所对应的一元线性回归方程都不能通过显著性检验,1则可以认为这些自变量不能与 y 建立线性回归方程;若该一元方程通过了显著性检验,则首先将变量x引入回归方程;接下来

12、由y与x以及其他自变量x .(j主1)11j建立m-1个二元线性回归方程对这m-1个二元回归方程中的x ,x ,x的回归23m系数做偏F检验,检验值记为F(2),F,,F,若其中最大者(不妨设为F)23m2通过了显著性检验,则又将变量 x 引入回归方程,依此方法继续下去,直到所有2未被引入方程的自变量的偏 F 值都小于显著性检验的临界值,即再也没有自变量能够引入 回归方程为止.得到的回归方程就是最终确定的方程.后退法:首先用m个自变量与y建立一个回归方程,然后在这个方程中剔除 一个最不重要的自变量,接着又利用剩下的 m-1 个自变量与 y 建立线性回归方程,再剔除一个最不重要的自变量,依次进行

13、下去,直到没有自变量能够剔除为 止.前进法和后退法都有其不足,人们为了吸收这两种方法的优点,克服它们的 不足,提出了逐步回归法.2.逐步回归法 逐步回归法的基本思想是有进有出,具体做法是将变量一个一个得引入,引 入变量的条件是通过了偏F统计量的检验同时,每引入一个新的变量后,对已 入选方程的老变量进行检验,将经检验认为不显著的变量剔除,此过程经过若干 步,直到既不能引入新变量,又不能剔除老变量为止.设模型中已有l-1个自变量,记这l-1个自变量的集合为A,当不在A中的 一个自变量x加入到这个模型中时,偏F统计量的一般形式为k匸 SSE(A) - SSE(A, x ) SSR(x A)F = =

14、k(2.1)SSE(A, x ); n -1 -1 MSE(A, x )k k如下逐步回归法的具体步骤:首先,根据一定显著水平,给出偏 统计量的两个临界值,一个用作选取自 变量,记为 F ;E另一个用作剔除自变量,记为F 一般地,取F F,然后按下列步骤进行.DE D第一步:对每个自变量x (1 i m),拟合m个一元线性回归模型iy = B + B x +e(2.2)0 i i这时,相当于统计量(2.1)中集合A为空集,因此,SSE(A) = SST,故SSR(x|A) = SSR(x ),MSE(A, x )二 MSE(x ),对每一个i,计算iiii2.3)匸SSR (x). 1 2F =i, i = 1,2,,miMSE(x)iF =maxF i11i1 F,则选择含自变量x.的回归模型为当前模型,否则,没有自变量i1Ei1能进入模型,选择过程结束,即认为所有自变量对的影响均不显著.第二步:在第一步的选出模型的基础上,再将其余的m-1个自变量分别加入到此模型中个,得到m -1个二元回归方程,计算F(2)iSSR (x x )15

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号