SPSS数据分析教程 工业和信息化普通高等教育“十二五”规划教材立项项目 教学课件 ppt 作者 李洪成 姜宏华 8-线性回归分析

上传人:E**** 文档编号:89389812 上传时间:2019-05-24 格式:PPT 页数:41 大小:673.50KB
返回 下载 相关 举报
SPSS数据分析教程 工业和信息化普通高等教育“十二五”规划教材立项项目  教学课件 ppt 作者  李洪成 姜宏华 8-线性回归分析_第1页
第1页 / 共41页
SPSS数据分析教程 工业和信息化普通高等教育“十二五”规划教材立项项目  教学课件 ppt 作者  李洪成 姜宏华 8-线性回归分析_第2页
第2页 / 共41页
SPSS数据分析教程 工业和信息化普通高等教育“十二五”规划教材立项项目  教学课件 ppt 作者  李洪成 姜宏华 8-线性回归分析_第3页
第3页 / 共41页
SPSS数据分析教程 工业和信息化普通高等教育“十二五”规划教材立项项目  教学课件 ppt 作者  李洪成 姜宏华 8-线性回归分析_第4页
第4页 / 共41页
SPSS数据分析教程 工业和信息化普通高等教育“十二五”规划教材立项项目  教学课件 ppt 作者  李洪成 姜宏华 8-线性回归分析_第5页
第5页 / 共41页
点击查看更多>>
资源描述

《SPSS数据分析教程 工业和信息化普通高等教育“十二五”规划教材立项项目 教学课件 ppt 作者 李洪成 姜宏华 8-线性回归分析》由会员分享,可在线阅读,更多相关《SPSS数据分析教程 工业和信息化普通高等教育“十二五”规划教材立项项目 教学课件 ppt 作者 李洪成 姜宏华 8-线性回归分析(41页珍藏版)》请在金锄头文库上搜索。

1、SPSS数据分析-第7讲,SPSS数据分析教程,主要内容,线性回归分析的基本概念 线性回归的前提条件并能进行验证 线性回归分析结果的解释 多重共线性的判别和处理 用线性回归模型进行预测,回归分析的基本概念,什么是回归分析,回归分析是研究变量之间相关关系的一种统计方法 如果两个变量之间的Pearson相关系数绝对值较大,从散点图看出变量间线性关系显著,那么下一步就是应用回归分析的方法来找出变量之间的线性关系。 例如,房屋的价格和房屋的面积,地理位置,房龄和房间的个数都有关系。又比如,香烟的销量和许多地理和社会经济因素有关,像消费者的年龄,教育,收入,香烟的价格等。,回归方程,回归关系一般用下列方

2、程表示 Y=f(X1,X2,Xp)+ () Y被称作因变量,或者响应变量;而X1,X2,Xp称作自变量、控制变量、解释变量或者预测变量;而f(.)则称为回归函数, 为随机误差或随机干扰,它是一个分布与自变量无关的随机变量,我们常假定它是均值为0的正态变量。,回归分析的分类,根据回归函数的形式,回归分析可以分为线性回归和非线性回归: 线性回归: Y= 0 +1 X1+2 X2 + +p Xp + (y) 非线性回归 如果预测变量和响应变量之间有上页()所示的关系,但是不能表示为(y)所示的线性方程的形式,我们称该回归关系为非线性回归。,回归术语,对于有一个响应变量的线性回归,当p=1时,我们称为

3、简单线性回归(Simple Linear Regression,或称为一元线性回归),当 p2 时我们称为多元线性回归(Multiple Linear Regression)。,回归和相关分析,回归分析是在相关分析的基础上,确定了变量之间的相互影响关系之后,准确的超出这种关系的数量方法。因此,一般情况下,相关分析要先于回归分析进行,确定出变量间的关系是线性还是非线性,然后应用相关的回归分析方法。在应用回归分析之前,散点图分析是常用的探索变量之间相关性的方法。,应用回归分析的步骤,步骤1:写出研究的问题和分析目标 步骤2:选择潜在相关的变量 步骤3:收集数据 步骤4:选择合适的拟合模型 步骤5:

4、模型求解 步骤6:模型验证和评价 步骤7:应用模型解决研究问题,简单线性回归,简单线性回归的形式为: Y = 0 +1 X + 其中变量X为预测变量,它是可以观测和控制的;Y为因变量或响应变量,它为随机变量; 为随机误差。 通常假设 N(0,2),且假设与X无关。,回归模型的主要问题,进行一元线性回归主要讨论如下问题: (1) 利用样本数据对参数0, 1和2,和进行点估计,得到经验回归方程 (2) 检验模型的拟合程度,验证Y与X之间的线性相关的确存在,而不是由于抽样的随机性导致的。 (3) 利用求得的经验回归方程,通过X对Y进行预测或控制。,简单回归方程的求解,我们希望根据观测值估计出简单回归

5、方程中的待定系数0和1,它们使得回归方程对应的响应变量的误差达到最小,该方法即为最小二乘法。 也就是求解0和1,使得 达到最小。 把得到的解记为 ,则回归方程为,或者 预测误差为 SPSS在输出回归系数的估计值的同时还会给出回归系数估计值的标准误差值;SPSS 还可以给出预测值和各种预测误差,回归方程拟合程度检验,回归方程的检验也就是验证两个变量之间的线性关系的确在统计上显著。一般进行如下的假设检验 ,它包括 1)常数项的t检验 H0: 0 = 0 常数项的估计值的标准误差为 。检验统计量为:,回归系数显著性检验,2)回归系数的显著性检验 H0: 1 =0 检验统计量为:,回归的三个平方和,我

6、们把拟合值和真实值的差值的平方和称为残差平方和,记为SSE;把由于采用拟合回归直线后预测值较采用响应变量均值提高的部分的平方和称为回归平方和,记为SSR;真实值和响应变量均值的平方和称为总平方和,记为SST。,决定系数R2,平方和定义 三者之间的关系为: SST = SSR +SSE R2 = SSR /SST,R2的解释,决定系数R2的大小反映了回归方程能够解释的响应变量总的变差的比例,其值越大,回归方程的拟合程度越高。 一般情况下,随着预测变量个数的增大,决定系数的值也变大,因此在多重回归分析中,需要反映回归方程中预测变量的个数,即引入了调整的决定系数。,回归模型的显著性的F检验,总平方和

7、SST反映因变量Y的波动程度或者不确定性,在建立了Y对X的回归方程后,总平方和SST分解成回归平方和SSR与参差平方和SSE两部分。其中SSR是由回归方程确定的,SSE是不能由自变量X解释的波动,是由X之外的未加控制的因素引起的。这样,SST中能够由自变量解释的部分为SSR,不能由自变量解释的部分为SSE。这样回归平方和越大,回归的效果越好,据此构造F检验统计量,SPSS在回归输出结果的ANOVA表中给出SSR,SSE,SST和F统计量的取值,同时给出F值的显著性值(即p值)。,用回归方程预测,在一定范围内,对任意给定的预测变量取值,可以利用求得的拟合回归方程进行预测。其预测值为: SPSS可

8、以提供标准化的预测值和调整的预测值,简单线性回归举例,一家计算机服务公司需要了解其用电话进行客户服务修复的计算机零部件的个数和其电话用的时间的关系。经过相关分析,认为二者之间有显著的线性关系。下面我们用线性回归找到这两个变量之间的数量关系。,SPSS回归分析,在SPSS中打开数据文件ComputerRepair.sav,变量Units记录了修复的零部件的个数;变量Minuts记录了服务所占用的电话时间。 选择【分析】【回归】【线性】。把Units选入到自变量框中;把Minuts选入到因变量框中。其他选项保留默认值。,SPSS回归分析,回归分析的结果及其解释,拟合优度检验,多元线性回归,实际应用

9、中,很多情况要用到多个预测变量才能更好地描述变量间的关系,如果这些预测变量在预测方程中的系数为线性,那么回归方程称为多元线性回归方程。就方法的实质来说,处理多个预测变量的方法与处理一个预测变量的方法基本相同。,多元线性回归的模型,多元线性回归的模型为: Y = 0 +1 X1 + 2 X2 + +p Xp + 回归系数的估计和简单线性回归一样,仍然应用最小二乘法,回归方程的显著性检验,与一元的情形一样,上面的讨论是在响应变量Y与预测变量X之间呈现线性相关的前提下进行的,所求的经验方程是否有显著意义,还需对X与Y间是否存在线性相关关系作显著性假设检验,与一元类似,回归方程是否有显著意义,需要对回

10、归参数0,1,p进行检验。,检验每个回归系数是否显著 H0:i =0, i=0,1,2, p 这里和一元线性回归的检验一样,检验统计量为t统计量。 检验所有回归系数都不显著,即 H0:0 =1=p 这里的检验统计量为,F检验的被拒绝,并不能说明所有的自变量都对因变量Y有显著影响,我们希望从回归方程中剔除那些统计上不显著的自变量,重新建立更为简单的线性回归方程,这就需要对每个回归系数做显著性检验。 即使所有的回归系数单独检验统计上都不显著,而F检验有可能显著,这时我们不能够说模型不显著。这时候,尤其需要仔细对数据进行分析,可能分析的数据有问题,譬如共线性等。,调整的R2,随着自变量个数的增多,不

11、管增加的自变量是否和因变量的关系密切与否,R方都会增大;调整的R方是根据回归方程中的参数的个数进行调整的R方,它对参数的增多进行惩罚,调整R方它没有直观的解释意义,它的定义为,应用举例,数据文件performance.sav记录了一项企业心理学研究的数据。它调查了一个大型金融机构的雇员,记录了他们和主管的交互情况的评价和对主管的总的满意情况。我们希望该调查来了解主管的某些特征和对他们的总的满意情况的相互关系。,打开数据文件performance.sav,选择【分析】【回归】【线性】,如图8-3所示。把变量Y选入到因变量框中,把变量X1到X6选入到自变量框中,其他选项保留默认值。单击【确定】。,

12、结果及其解释,“t”列记录了各回归系数t检验的t统计量,而Sig.列记录了相应的显著性值。这里,只有X1和X3的显著性值小于0.1,注意到回归方程的常数项也不显著。然而,大部分情况下不显著的预测变量都要从回归方程中移除,而回归常数代表了响应变量的基本水平,不管显著与否,大部分情况都保留在回归方程中。因此,我们可以仅仅考虑Y和X1、X3之间的关系而忽略其他预测变量。,简约回归模型,简约回归模型结果及解释,动手练习,数据文件world95.sav记录了1995年统计的各个国家的生育率(fertility)和妇女的平均预期寿命(lifeexpf)等数据。 1)探索性分析这两个变量,探察两个变量中是否存在异常点。 2)做出这两个变量的散点图,建立两个变量的线性回归模型,判断得到的模型的合理性。 3)利用生育率来预测妇女的预期寿命。并设置相关选项,以进一步检验关于线性回归的假定条件。判断该数据是否满足线性回归的假定条件。 4)并进行回归诊断,对模型的系数进行解释。从输出结果,判断妇女多要一个小孩对她的寿命的影响情况。,集体项目,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号