《spss线性回归分析》由会员分享,可在线阅读,更多相关《spss线性回归分析(87页珍藏版)》请在金锄头文库上搜索。
1、,第十章 线性回归分析过程,第一节 回归分析概述,1.回归方程,回归分析是处理变量x与y之间统计关系的一种统计方法和技术。如果要由x预测y的值,就要利用x与y的观察值,即样本观测值(x1,y1),(x2,y2),(xn,yn)来建立一个公式,当给定x值后,就代入此公式中算出一个y值,这个值就称为y的预测值。 如何建立这个公式? 1.绘制散点图 2.建立线性函数:y= +x,2.建立实际问题回归模型的过程,一、根据研究的目的,设置指标变量 二、搜集整理统计数据 三、确定理论回归模型的数学形式 四、模型参数的估计 五、模型的检验与修改 六、回归模型的运用,具体(社会经济)问题,设置指标变量,搜集整
2、理数据,构造理论模型,估计模型参数,模型 检验,模型运用,经济变量控制,经济因素分析,经济决策预测,修改,建立 实际 问题 回归 模型 过程,第一步:绘制散点图选择估计模型,线 性 模 型,分 段 模 型,曲 线 模 型,第二步:建立回归方程,线性方程式y= +x中的参数 ,还不知道,这就需要由样本数据来进行估计,估计出 ,的值后,以估计值分别代替线性方程式中的 ,得到方程 这个方程就称为回归方程。这里因为因变量y与自变量x的关系呈线性关系,因此我们也称上述方程为线性回归方程, 是线性回归方程所画出的直线在y轴上的截距 ,为直线的斜率,它们分别被称作回归常数与回归系数。,第二节 一元线性回归,
3、一元线性回归是描述两个变量之间统计关系的最简单的回归模型。 例1 假定一保险公司希望确定居民住宅火灾造成的损失数额与该住户到最近的消防站的距离之间的相关关系,以便准确地确定出保险金额,表1列出了15起火灾事故的损失及火灾发生地与最近的消防站的距离。,一、根据研究的目的,设置指标变量,试验指标:火灾损失 试验因素:距离消防站的距离 因此建立两个变量: x距离消防站的距离 y火灾损失,二、获取相关数据 三、确定理论回归模型的数学形式,1.判断x变量与y变量之间的关系是否为线性相关关系? 判断方法:1)散点图2)相关系数法 2.如果是显著线性相关关系,可以选择一元回归方程做为理论回归模型。,1)绘制
4、散点图,线 性 相 关,线 性 回 归 模 型,2)相关系数,2.一元线性回归模型的数学形式,参数的估计,(xi,yi),四、模型参数的估计,应用Spss软件进行回归参数的估计,1、执行Analyze Regression Linear命令,打开对话框,(1)从源文件量清单中选择一个数值型变量移入 Dependent框中,选择一个变量作为自变量移入Independent 框中 (2)点击OK,多元线性回归模型,一、多元线性回归模型的一般形式,二、多元线性回归方程的解释,以p2为例。在建立空调机销售量的预测模型时,用y来表示空调机的销售量,用x1表示空调机的价格,用x2表示消费者可用于支配的收入
5、。则可以建立二元线性回归模型:,三、 回归参数的估计,回归参数可以应用普通最小二乘估计。 具体计算可以通过spss软件进行。,未标准化回归方程为: y=35316.885+6.696x1+0.097x2 标准化回归方程为: y=0.809x1+0.18x2,四、模型的检验与修改,4.1 相关系数的显著性检验 4.2 F检验 4.3 t检验 4.4 样本决定系数 4.5 残差分析,4.1相关系数的显著性检验,由于一元线性回归方程讨论的是变量x与y之间的线性关系,所以我们可以用变量x与y之间的相关系数来检验回归方程的显著性。 当 r = 0 时,说明变量之间不存在线性相关关系;当 0 r 1时,说
6、明变量之间存在一定程度的正相关关系;当 -1 r 0时,说明变量之间存在一定程度的负相关关系;当r =1 或 r = -1 时说明变量之间完全正相关或完全负相关。,设总体 X 和 Y 的相关系数为 r,则检验的原假设和对立假设为:其中零假设表示:假设变量之间不存在线性相关关系。检验时采用的统计量为:,4.2回归方程的显著性检验,检验因变量与所有自变量之间的线性关系是否显著,是否可以用线性模型来描述因变量和自变量之间的关系。也就是检验所有回归系数是否同时与零无显著差异。应用F检验法加以检验。注:检验是否可以用回归方程方法进行模型估计,也就是回归方程是否有效?,回归方程的显著性检验F检验,F检验是
7、根据平方和分解式,直接从回归效果检验回归方程的显著性。,F检验,总平方和反映因变量y的波动程度或称不确定性,在建立了y对x的线性回归后,总平方和SST就分解成回归平方和SSR与残差平方和SSE这两个组成部分,其中SSR是由回归方程确定的,也就是由自变量x的波动引起的,SSE是不能用自变量解释的波动,是由x之外的未加控制的因素引起的。这样,总平方和SST中,能够由自变量解释的部分为SSR,不能由自变量解释的部分为SSE。这样,回归平方和SSR越大,回归效果就越好,可以据此构造F检验统计量:,在零假设 成立的情况下,F 统计量服从F分布,第一个自由度为1,第二个自由度为n 2 ,即 F F(1,n
8、 2)。决策的规则是:对于给定的显著水平 ,若F F(1,n 2) 就拒绝原假设。,回归平方和SSR841.766,残差平方和SSE69.751 总平方和SST 841.766 69.751911.517SIG=0.0000.05,拒绝原来的假设, 表示所有的回归系数不同时为0,也就是说, 回归方程总体达到显著程度,即回归方程是有效的。,5.3 t检验,回归方程显著性检验只能检验所有系数是否同时与零有显著性差异。如果检验出所有回归系数不同时为零,仍然不能保证方程中仍存在与零无显著差异的回归系数,也就是说不能保证所有回归系数同时不为零。 回归系数的显著性检验就是要检验是否所有自变量xi对因变量y
9、的影响程度均显著。如果原假设 成立,则因变量y与自变量x1之间并没有真正的线性关系,也就是说 自变量x1的变化对因变量y并没有影响。构造的t检验统计量为:,SPSS统计结果中对回归系数是否显著为0的t检验,SPSS统计结果中对多元回归系数是否显著为0的t检验,5.4回归方程的拟合优度检验,就是要检验样本数据点聚集在回归直线周围的密集程度,从而评价回归方程对样本数据的代表程度。一般用判别系数R2实现。 因变量总的变差平方和由自变量引起的因变量变差的平方和由其他随机因素引起的因变量变差的平方和 用数学语言表示为:式中:由自变量引起的变差平方和能够由回归方程表示,称为回归平方和,由其他随机因素引起的
10、变差平方和无法用回归方程表示,称为残差平方和或剩余平方和。,样本决定系数,由回归平方和与残差平方和的意义我们知道,如果在总的离差平方和中,回归平方和所占的比重越大,则线性回归效果就越好,这说明回归直线与样本观测值拟合优度就越好;如果残差平方和所占比重大,则回归直线与样本观测值拟合得就不理想。这里把回归平方和与总离差平方和之比定义为样本决定系数,记为:,性质1:决定系数r2是一个回归直线与样本观测值拟合优度的相对指标,反映了因变量的波动中能用自变量解释的比例。r2的值总是在0和1之间,也可以用百分数表示。一个线性回归模型如果充分利用了x的信息,因变量不确定性的绝大部分能由回归方程解释,则r2越接
11、近于1,拟合优度就越好,反之亦然。 性质2:回归方程的显著性检验与r2值的大小是一致的,即检验越显著,r2就越大,但是这种关系并不是完全确定的,在样本容量n很大时,对高度显著的检验结果仍然可能得到一个小的r2。导致r2小的可能原因有两个,第一是线性回归不成立,第二是y与x之间的确符合线性模型,只是误差项方差大导致r2小,这时在样本容量n很大时,检验结果仍然可能得出线性回归显著的结论。,5.5 残差分析,一个线性回归方程通过了t检验或F检验,只是表明变量y与x之间的线性关系是显著的,或者说线性回归方程是有效的,但不能保证数据拟合得很好,也不能排除由于意外原因而导致的数据不完全可靠。只有当与模型中
12、的残差项有关的假定满足时,才表明模型有效。 2.5.1 残差的概念:实际观测值y与通过回归方程给出的回归值之差, 残差ei可以看做是误差项的估计值。,5.5.2残差图分析模型的有效性。,一般认为,如果一个回归模型满足所给出的基本假定,所有残差应是在e0附近随机变化,并在变化幅度不大的一条带子内。 残差图:以自变量x作横轴,以残差为纵坐标,将相应的残差点画在直角坐标系上,就可以得到残差图。具体作法: 1.计算残差:回归分析主对话框中选择save按钮,Residuals选项下的Unstandardized选项,按continue,在原数据文件中加入残差值, 2.画残差图。GraphScatter
13、例:火灾损失与距离消防站的远近的回归分析,回归方程检验的小结,1.回归方程是否存在的检验F检验是检验自变量全体对因变量y是否产生显著影响 2.所有自变量是否都对因变量有显著影响的检验当一个回归方程通过了F检验之后,并不能说明这个回归方程中所有的自变量都对因变量y有显著影响,因此,还要对回归系数进行检验。 3.回归方差是否有效性的检验样本决定系数与残差分析。,3. 回归系数的区间估计,当我们用最小二乘法得到0,1的点估计后,在实际应用中往往还希望给出回归系数的估计精度,即给出其置信水平为1的置信区间。这个区间以1的概率包含参数0,1。置信区间的长度越短,说明估计值与0,1接近的程度越好,估计值就
14、越精确。 应用spss软件计算回归系数的区间估计: 在线性回归对话框中,点击StatisticsConfidence interval,这样,在回归系数表中就增加了回归系数的区间估计。,六、回归模型的运用,建立回归模型的目的是为了应用,而预测和控制是回归模型最重要的应用。 4.1 单值预测 4.2 区间预测4.2.1因变量新值的区间预测4.2.2因变量新值的平均值的区间估计4.3控制问题,4.1单值预测,单值预测就是用单个值作为因变量的预测值。即当x0新值时,求出y0的预测值。 单值预测只是一个大概值,我们除了想知道预测值外,还希望知道预测值的精度,这就要作区间估计。,4.2区间预测,给一个预
15、测范围比只给出单个预测值更可信,这个问题也就是:,应用SPSS软件直接计算预测值,1.单值预测:在计算回归之前,把自变量新值x0输入样本数据中,在回归分析主对话框中点击Save按钮在save对话框中点击Predicted ValuesUnstandardized 2.因变量新值的区间预测:在save对话框中点击Predicted intervalsIndividual 3.因变量新值平均值的区间预测 在save对话框中点击Predicted intervalsmean,单值预测,区间预测,例:火灾损失与距离消防站远近,x03.5公里,预测火灾损失额。,实习2,1.应用实习1的数据,对回归系数与
16、回归常数做点估计与区间估计。 2.预测在贷款余额为380时,不良贷款的估计值和估计区间。,6.一元线性回归模型建立小结,第一步,提出因变量与自变量 第二步,搜集数据 第三步,根据数据画散点图 第四步,设定理论模型 第五步,用SPSS软件计算,输出计算结果 第六步,回归诊断,分析输出结果,实习3:,下表为四组数据,分别对此四组数据进行回归分析,并做显著性检验。 实验数据文件为:回归显著性比较.sav,7.多元回归方法,回归自变量的选择是建立回归模型的一个极为重要的问题。应用spss软件中回归方法的选择可以进行自变量的选择。 一、前进法(Forward) 二、后退法(Backward) 三、逐步回归法(Stepwise),