线性回归分析的基本步骤

上传人:博****1 文档编号:454763818 上传时间:2023-04-30 格式:DOC 页数:18 大小:378KB
返回 下载 相关 举报
线性回归分析的基本步骤_第1页
第1页 / 共18页
线性回归分析的基本步骤_第2页
第2页 / 共18页
线性回归分析的基本步骤_第3页
第3页 / 共18页
线性回归分析的基本步骤_第4页
第4页 / 共18页
线性回归分析的基本步骤_第5页
第5页 / 共18页
点击查看更多>>
资源描述

《线性回归分析的基本步骤》由会员分享,可在线阅读,更多相关《线性回归分析的基本步骤(18页珍藏版)》请在金锄头文库上搜索。

1、步骤一、建立模型知识点:1、总体回归模型、总体回归方程、样本回归模型、样本回归方程 总体回归模型:研究总体之中自变量和因变量之间某种非确定依赖关系 的计量模型。Y = Xp + U特点:由于随机误差项U的存在,使得Y和X不在一条直线/平面上。例1:某镇共有60个家庭,经普查,60个家庭的每周收入(X)与每周消 费(Y)数据如下:每周收入(X)每周消费支出(Y)80556065707510065707480858812079849094981408093951031081131151601021071101161181251801101151201301351402001201361401441

2、45220135137140152157160162240137145155165175189260150152175178180185191作出其散点图如下:200 -180 -160 -140 -120 -100 -80 -60 -40 -4080120160200240280X总体回归方程(线)由于假定EU = 0,因此因变量的均值与自变量 总处于一条直线上,这条直线E(TIX)= Xp就称为总体回归线(方程)。 总体回归方程的求法:以例 1的数据为例1)对第一个X,求出E(Y|X)。ii每周收入(X)每周消费支出(Y)E(Y|X)1805560657075651006570748085

3、8877120798490949889140809395103108113115101160102107110116118125113180110115120130135140125200120136140144145137220135137140152157160162149240137145155165175189161260150152175178180185191173由于E (r IXp0 + pX,因此任意带入两个X和其对应的E (YIX)值,i i01 iii即可求出p0和P,并进而得到总体回归方程。如 将 X = 100,E(Y IX )= 77和X = 200,E(Y IX

4、)= 137 代 入22277777 =P + 100P01 n V137 =P + 200p01P = 170P = 0.61以上求出 方程为:E(Y IX )=P +P X 可得i i01 i 样本回归模型:总体通常难以得到,因此只能通过抽样得到样本数据。如在例1中,通过抽样考察,我们得到了 20个家庭的样本数据:每周收入(X)每周消费支出(Y)8055100657012079841408093160102107110180110200120136220135137240137145260150152175那么描述样本数据中因变量 Y 和自变量 X 之间非确定依赖关系的模型Y = X f

5、+ e就称为样本回归模型。 样本回归方程(线:通过样本数据估计出Q,得到样本观测值的拟合 值与解释变量之间的关系方程扌=X称为样本回归方程。如下图所示:i:总体回归模型建立在总体数据之上,它描述的是因变量Y和自变量X 之间的真实的非确定型依赖关系;样本回归模型建立在抽样数据基础之 上,它描述的是因变量Y和自变量X之间的近似于真实的非确定型依赖关 系。这种近似表现在两个方面:一是结构参数Q是其真实值卩的一种近 似估计;二是残差是随机误差项U的一个近似估计;ii:总体回归方程是根据总体数据得到的,它描述的是因变量的条件均值E(Y|X)与自变量X之间的线性关系;样本回归方程是根据抽样数据得到 的,它

6、描述的是因变量Y样本预测值的拟合值Y与自变量X之间的线性关 系。iii:回归分析的目的是试图通过样本数据得到真实结构参数卩的估计值, 并要求估计结果B足够接近真实值卩。由于抽样数据有多种可能,每一 次抽样所得到的估计值B都不会相同,即卩的估计量0是一个随机变量。 因此必须选择合适的参数估计方法,使其具有良好的统计性质。2、随机误差项U存在的原因: 非重要解释变量的省略 人的随机行为 数学模型形式欠妥 归并误差(如一国GDP的计算) 测量误差等3、多元回归模型的基本假定 随机误差项的期望值为零E(U ) = 0i 随机误差项具有同方差性Var(u ) = o 2i = 1,2ni 随机误差项彼此

7、之间不相关Cov(u ,u ) = 0 i工j ; i, j = 1,2ni j 解释就变量X1,X2, ,Xk为确定型变量,与随机误差项彼此不相 关。Cov(X ,u ) = 0 i = 1,2,.,k j = 1,2,.,n i j 解释就变量X1,X2,-,Xk之间不存在精确的(完全的)线性关系, 即解释变量的样本观测值矩阵X为满秩矩阵:rank(X)=k+1iik工C 一 y ) /kii残差平方和ESS馬一 Y)iin-k-1Z(y 一 Y)/iin-k-1例 2:下表列出了三变量(二元)模型的回归结果:方差来源平方和(SS)自由度均方值离差平方和TSS6604214回归平方和RSS

8、65965残差平方和ESS1) 样本容量为多少解:由于TSS的自由度为n-1,由上表知n-1=14,因此样本容量n=15。2)求 ESS 解:由于 TSS = ESS+RSS,故 ESS=TSS-RSS=773)ESS和RSS的自由度各为多少解:对三变量模型而言,k=2,故ESS的自由度为n-k-1=12RSS的自由度为k=24)求R 2和R 2解:TSS_ 65965=66042_ 0.9988 ,ESS / n 一 k 一 1TSS / n -1_ 0.9986 回归方程的显著性检验(F检验)目的:检验模型中的因变量与自变量之间是否存在显著的线性关系 步骤:1、提出假设:】;至少有二覚=k

9、1j2、构造统计量:F_RSS / kESS / n - k -1 F (k, n 一 k 一 1)3、给定显著性水平a,确定拒绝域F F a,n - k -1)a4、计算统计量值,并判断是否拒绝原假设例3: 就例2中的数据,给定显著性水平a “,对回归方程进行显著性检验。解:由于统计量值F二RSS/k= 65965/2 =,ESS / n 一 k -177/12又 F (2,12 )= 6.93,而 F = 5140.13 F (2,12 )= 6.930.01 0.01故拒绝原假设,即在 1%的显著性水平下可以认为回归方程存在显著的线性关系。附:R2与F检验的关系:亠R2=RSS由于 TS

10、Sa F =RSS a RSS = R ESS ESS + RSS1 一 R2又 F =RSS /kESS / n 一 k 一 1 J 解释变量的显著性检验(t检验) 目的:检验模型中的自变量是否对因变量存在显著影响。知识点:多元回归:S人工e xC,其中C为(XX)-1中位于第i+1行血 n - k -1 i+1,i+1i+1,i+1和 i+1 列的元素;一元回归:I X e 2 久卞- 2)x另X变量显著性检验的基本步骤:1、提出假设:H :卩=0 H : 0丰00 i1 i2、构造统计量:/ =卜 t(n 一 k -1)03、给定显者性水平a,确定拒绝域同 t (n - k -1)4、计

11、算统计量值,并判断是否拒绝原假设例 4:根据 19 个样本数据得到某一回归方程如下:Y = -58.9+0.2X 一 0.1X12se (0.0092) (0.084)试在5%的显著性水平下对变量X 和X的显著性进行检验。12解:由于t (n -k -1) = t(16) = 2.12,故t检验的拒绝域为tl 2.12。0.20.0092/20.025对自变量X而言,其t统计量值为t =住=02 = 21.74 2.12,落入1S 0.0092卩 1拒绝域,故拒绝p = 0的原假设,即在5%的显著性水平下,可以认为自变1量x对因变量有显著影响;1对自变量X?而言,其t统计量值为|t| =0.10.084=119 v 2.12 , 未落入拒P 2S 阳绝域,故不能拒绝卩=0的原假设,即在5%的显著性水平下,可以认为自2变量x对因变量

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 建筑/环境 > 建筑资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号