SPSS第8章 回归分析演示教学

上传人:yulij****0329 文档编号:141464142 上传时间:2020-08-08 格式:PPT 页数:44 大小:951.50KB
返回 下载 相关 举报
SPSS第8章 回归分析演示教学_第1页
第1页 / 共44页
SPSS第8章 回归分析演示教学_第2页
第2页 / 共44页
SPSS第8章 回归分析演示教学_第3页
第3页 / 共44页
SPSS第8章 回归分析演示教学_第4页
第4页 / 共44页
SPSS第8章 回归分析演示教学_第5页
第5页 / 共44页
点击查看更多>>
资源描述

《SPSS第8章 回归分析演示教学》由会员分享,可在线阅读,更多相关《SPSS第8章 回归分析演示教学(44页珍藏版)》请在金锄头文库上搜索。

1、1,SPSS统计软件,回归分析,2,在教育研究中,常常会遇到彼此有关系的两列或多列变量。根据不同的目的,可以从不同的角度去分析变量之间的关系。 上一章介绍的相关分析,旨在分析变量之间关系的强度,可以找到一个度量这种关系强度的指标相关系数。,3,假设两个变量X和Y的相关显著,说明这两个变量有某种程度的共变关系,现希望通过X的值去预测Y的值,或者希望了解Y的变化在多大程度上可以由X的变化来解释。这时,称Y为因变量(dependent variable),X为自变量(independent variable)或预测变量。 如果我们的目的是确定变量之间数量关系的可能形式,并用一个数学模型来表示这种关系

2、形式,叫做回归分析(regression analysis)。,5,这一回归方程表明父母身高每增加一个单位时,其成年儿子的身高也平均增加0.516个单位。这个结果表明,虽然高个子父辈有生高个子儿子的趋势,但父辈身高增加一个单位,儿子身高仅增加半个单位左右。反之,矮个子父辈的确有生矮个子儿子的趋势,但父辈身高减少一个单位,儿子身高仅减少半个单位左右。 平均来说,一群高个子父辈的儿子们在同龄人中平均仅为略高个子;一群矮个子父辈的儿子们在同龄人中平均仅为略矮个子,即父辈偏离中心的部分在子代被拉回来一些。 正是因为子代的身高有回到同龄人平均身高的这种趋势,才使人类的身高在一定时间内相对稳定,没有出现父

3、辈个子高,其子女更高,父辈个子矮,其子女更矮的两极分化现象。 高尔顿引进了回归这个词来描述父辈身高与子代身高的关系。,6,回归分析的应用非常广泛,建立了变量之间关系的数学模型,实际上就等于确定了自变量与因变量的关系模型,利用这个数学模型,可以从一个变量的变化来预测或估计另一个变量的变化。,在实际应用中,根据变量的个数、变量的类型以及变量之间的相关关系,回归分析有很多种类型。我们主要介绍比较常用的一元线性回归分析。,当然,如今的回归分析已远远超过当年高尔顿使用该词时的涵义,已成为统计学中一个专用的名词。其根本目的,是要借助于因变量和自变量的分类,在概率统计的意义上,把变量间的相关关系用精确的数学

4、公式伴以其他手段加以进一步的定量刻画。,7,8.1.1 回归线 前一章介绍了相关散点图,可以发现各点不都在一条直线上。但如果散点的分布有明确的直线趋势,我们就可以配置一条最能代表散点图上分布趋势的直线,这条最优拟合线就称为回归线。,8.1 回归分析的基本原理,常用的拟合这条回归线的原则,就是使各点与该线纵向距离的平方和最小。,8,8.1,9,8.1.2 回归方程 回归分析的数学模型是:,基本假设:因变量 y 受到我们已知的的 k 个自变量 x1,x2,x3,xk 的影响,同时还受到一些未知因素或随机因素的影响。,10,每一组实际观察值yi,x1i,x2i,x3i,xki,服从均数为零的正态分布

5、 因变量 y 也服从正态分布,其平均数记为:,上式称为回归方程,确定回归线的方程即为回归方程。 回归分析的主要任务就是要求出这个回归方程右边的函数表达式,也就是求回归方程。,11,在回归分析中,根据所求回归方程函数类型的不同,可分为线性回归分析和非线性回归分析两个大类;又可根据内含自变量个数为一个还是多个而分为一元回归分析和多元回归分析两大类。,12,8.1.3 一元线性回归方程,一元线性回归方程的通式为:,式中a回归线在Y轴上的截距;b是回归线的斜率,称回归系数。 一旦b和a这两个关键的统计量的值,根据实测数值计算出来之后,这个方程就确定了。,13,回归方程的求法: 最小二乘法,就是应该使误

6、差的平方和最小。,当我们做出散点图后,发现无论哪条直线也不可能使所有的散点都在其上。那么哪条直线最有代表性呢,根据最小二乘法,如果每一点沿Y轴方向到直线的距离的平方和最小,则这条直线在所有的直线中代表性是最好的,它的表达式就是所要求的回归方程。,14,根据上面所说的最小二乘法,其公式为:,把,代入上式,得:,15,求回归方程就是求当上式达到最小时a与b的值,而要使上式最小,需分别对a与b求偏导数,并令其等于零。,由于这部分涉及到高数里的内容,我们不过多介绍,只需明白原理就行了。最后求得b和a的公式分别是:,16,求出a和b之后,可以列出回归方程式:,17,8.1.4 一元线性回归方程的检验,根

7、据样本数据计算出的回归方程可能有一定的抽样误差。为了考查这两个变量在总体上是否存在线性关系,以及回归方程对估计预测因变量的有效性如何,在回归方程应用之前,首先应进行显著性检验。,18,一元线性回归方程的显著性,有以下三种等效的检验方法: (1)对回归方程进行方差分析。 (2)对两个变量的相关系数进行与总体零相关的显著性检验。若相关系数显著,则回归方程也显著,即表明两个变量存在线性关系,否则则反之。 (3)对回归系数进行显著性检验。,19,以回归系数的显著性为例来说明回归方程检验的意义。 回归系数是根据样本数据计算出来的,即使从总体回归系数=0的总体中随机抽出的样本,由于抽样误差的影响,计算出的

8、回归系数b也可能不等于零。因此不能根据样本回归系数b的大小判断X与Y之间是否存在线性关系,而应当看样本的b在以=0为中心的抽样分布上出现的概率如何。,20,如果样本的b在其抽样分布上出现的概率较大,则b与=0的总体无显著性差异,即样本的b是来自于=0的总体,这时,即使b数值再大,也不能认为X与Y存在线性关系; 反之,如果样本b在其抽样分布上出现的概率小到一定程度,则b与=0有显著性差异,即样本的b不是来自于=0的总体,这时,即使b再小,也只有承认X与Y存在线性关系。,21,8.1.5 回归方程有效性高低的指标决定系数,回归方程经检验有显著性,这只表明从总体上说X和Y两个变量之间存在线性关系。但

9、是回归方程估计、预测的效果如何,即X与Y线性关系的程度如何,还需进一步加以考查。,因变量Y的总平方和等于回归平方和与误差平方和之和。,总平方和 回归平方和 误差平方和,22,上式进行变换得:,23,从上式可见,若回归平方和在总平方和中所占比率越大,而误差平方和所占比率越小,则预测效果越好;若回归平方和在总平方和中所占比率小,而误差平方和所占比率大,则预测效果越差。 当总平方和全由回归平方和所造成,表明预测极好,没有误差。当回归平方和为零,表明预测无效果。,24,通过对X和Y变量的相关系数r的公式变换,可得:,也就是说X和Y两个变量的相关系数的平方等于回归平方和在总平方和中所占比率。 如果r2=

10、0.64,表明变量Y的变异中有64%是由变量X的变异引起的,或者说有64%可以上X的变异推测出来,所以r2叫做测定系数。,25,8.2 一元线性回归分析的SPSS操作,一元线性回归分析只涉及一个自变量的回归问题。设有两个变量X和Y,变量Y的取值随变量X的取值的变化而变化,则称Y为因变量,X为自变量。 一元线性回归假设因变量和自变量之间为线性关系,用一定的线性回归模型来拟合因变量和自变量的数据,并通过确定模型参数来得到回归方程。,26,例题: 现有107个国家的城巿化率和识字率的数据,变量“urban”存放城巿化率值;“literacy”存放识字率,数据文件名为“EG8-1.sav”。将识字率作

11、为自变量,城巿化率作为因变量,分析和建立识字率与城巿化率之间的线性函数关系。,27,统计分析过程:,作数据散点图 在进行回归分析之前,最好先作数据散点图,观察因变量与自变量之间关系是否有线性特点。,按顺序GraphsScatter单击,打开Scatterplot散点图主对话框。,选择Simple按钮:,28,将变量城巿化率、识字率依次选入Y轴与X轴,单击OK按钮。,29,生成的图形如下,其Y轴为城巿化率,X轴为识字率。,从图中可以看出城巿化率与识字率存在线性关系,可以判定建立线性回归方程是适合的。,30,选择分析菜单下的回归分析下线性回归分析选项,回归模型的建立:,31,打开对话框:,32,将

12、城巿化率调入“Dependent:”下的文本框中,作为因变量;将识字率调入“Independent (s):”下的文本框中,作为自变量。,33,在“Method”右侧的列表框中可以选择多元线性回归分析的自变量筛选方法,其中选项有:Enter, Stepwise, Remove, Forward, Backward。,34,Enter强行进入法,所选择的自变量全部进入回归模型 Stepwise逐步回归法,是向前选择法与向后剔除法的结合 Remove消去法,建立回归方程时,根据设定条件从回归方程中剔除部分自变量 Forward向前选择法,根据在“Options”对话框中所设定的判据,从无自变量开始

13、,在拟合过程中,每次将一个最符合判据的变量引入模型,直至所有符合判据的变量都进入模型为止。 Backward向后剔除法,根据在“Options”对话框中所设定的判据,每次剔除一个最不符合进入模型判据的变量直到回归方程中不再含有不符合判据的自变量为止。,我们了解Enter法和Stepwise法就可以了。,这个例子选用Enter法。,35,单击Statistics按钮,弹出对话框。,Regression Coefficients选项区:有关回归系数的选项 与模型拟合及其拟合效果有关的选项:,36,Estimates:SPSS默认的输出项。输出与回归系数相关的统计量,回归系数、回归系数的标准误、标准

14、化回归系数、对回归系数进行检验的T值、以及T值的双侧检验的显著性概率 Model fit:SPSS默认的输出项。输出产生方程过程中引入模型及从模型中剔除的变量、提供相关系数R、R2及其修正值、估计值的标准误、ANOVA方差分析表。,37,单击Options按钮,弹出对话框。,在回归方程中包含常数项,默认选项。,缺失值处理,38,Stepping Method Criteria栏,设置变量引入模型或从模型剔除的判据。 Use probability of F选项,采用F检验的概率值作为判据。 系统默认Entry值0.05,Removal值0.10。可以在其后的编辑框中输入自定义值。 当一个变量的

15、Sig值Entry值时,应拒绝H0,认为该变量对因变量影响是显著的,应被引入回归方程中;当一个变量的Sig值Removal值时,则不能拒绝H0,可以认为该变量对因变量影响是不显著的,该变量从回归方程中剔除。 注意,Entry值要小于Removal值,而且它们都必须大于0。,Use F Value选项,采用F值作为变量进入模型或从模型剔除的判据。,39,结果和讨论:,引入或从模型中剔除的变量,自左向右各列含义为:Model为拟合过程步骤编号,Variables Entered为引入回归方程的自变量,Variables Removed为从回归方程中被剔除的自变量,Method为自变量引入或剔除出方

16、程的判据。 可以看出,1个被选择的自变量经过强行进入法进入回归方程,没有被剔除的变量。,40,拟合过程小结,自左向右各列含义为:Model为回归方程模型编号;R为相关系数;R2为相关系数的平方即测定系数;Adjusted R Square为校正的相关系数的平方;Std. Error of the Estimate为标准估计误差。,r2 = SS回归 / SS总,41,方差分析检验显示了回归拟合过程中每一步的方差分析结果。 表中显示方差来源、平方和、自由度、均方、F值以及显著性水平。方差来源Regression(回归)、Residual(残差)和Total(总和)。,H0: = 0,即城巿化率和识字率间无直线关系。,结论:F = 78.185,P =0.0000.01,拒绝H0。可以认为城巿化率和识字率之间有直线关系。,42,回归结果分析,Model为回归方程模型编号,Unstandardized Coefficients为非标准化回归系数, Standardized Coefficients为标准化回归系数。,43,结论:t = 8.842

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件 > 高中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号