回归分析2ppt课件－金锄头文库

资源描述

《回归分析2ppt课件》由会员分享，可在线阅读，更多相关《回归分析2ppt课件（32页珍藏版）》请在金锄头文库上搜索。

1、SPSS16.0与统计数据分析第九章回归分析1SPSS16.0与统计数据分析主要内容主要内容9.0 回归分析概述回归分析概述9.1线性回归分析线性回归分析9.2 曲线估计曲线估计9.3 非线性回归分析非线性回归分析2SPSS16.0与统计数据分析9.0 回归分析概述回归分析概述(1) 确定性关系与非确定性关系变量与变量之间的关系分为确定性关系和非确定性关系，函数表达确定性关系。研讨变量间的非确定性关系，构造变量间阅历公式的数理统计方法称为回归分析。(2) 回归分析根本概念回归分析是指经过提供变量之间的数学表达式来定量描画变量间相关关系的数学过程，这一数学表达式通常称为阅历公式。我们不仅可以

2、利用概率统计知识，对这个阅历公式的有效性进展断定，同时还可以利用这个阅历公式，根据自变量的取值预测因变量的取值。假设是多个要素作为自变量的时候，还可以经过要素分析，找出哪些自变量对因变量的影响是显著的，哪些是不显著的。3SPSS16.0与统计数据分析主要内容主要内容9.0 回归分析概述回归分析概述9.1线性回归分析线性回归分析9.2 曲线估计曲线估计9.3 非线性回归分析非线性回归分析4SPSS16.0与统计数据分析9.1线性回归分析线性回归分析(1) 根本概念线性回归假设因变量与自变量之间为线性关系，用一定的线性回归模型来拟合因变量和自变量的数据，并经过确定模型参数来得到回归方程。根据自变

3、量的多少，线性回归可有不同的划分。当自变量只需一个时，称为一元线性回归，当自变量有多个时，称为多元线性回归。(2) 统计原理一元回归方程和多元回归方程一元线性和多元线性回归分析的中心义务就是估计其中的参数。5SPSS16.0与统计数据分析9.1线性回归分析线性回归分析(3) 分析步骤第1步确定回归方程中的因变量和自变量；第2步确定回归模型：根据函数拟合方式，经过察看散点图确定应经过哪种数学模型来概括回归方程。假设被解释变量与解释变量之间存在线性关系，那么应进展线性回归分析，建立线性回归模型；反之，建立非线性回归模型。第3步建立回归方程：根据搜集到的数据以及第2步所确定的回归模型，在一定

4、的统计拟合准那么下估计出模型中的各个参数，得到一个确定的回归方程。第4步对回归方程进展各种检验：拟合优度检验；回归方程的显著性检验；回归系数的显著性检验。第5步利用回归方程进展预测。 6SPSS16.0与统计数据分析9.1线性回归分析线性回归分析(4)SPSS实现举例(5)【例9-1】现有1992年2006年国家财政收入和国民消费总值的数据如下表所示，请研讨国家财政收入和国民消费总值之间的线性关系。年份国内消费总值单位：亿元财政收入单位：亿元年份国内消费总值单位：亿元财政收入单位：亿元199226923.53483.37200099214.613395.23199335333.943

5、48.952001109655.216386.04199448197.95218.102002120332.718903.64199560793.76242.202003822.821715.25199671176.67407.992004159878.326396.47199778973.08651.142005183867.931649.29199884402.39875.952006210871.038760.20199989677.111444.087SPSS16.0与统计数据分析9.1线性回归分析线性回归分析第1步分析：这是一个因变量和一个自变量之间的问题，故应该思索用一元线性回归

6、处理。第2步数据组织：定义三个变量，分别为“year年份、“x国内消费总值、“y财政收入。第3步一元线性回归分析设置：将变量“y作为因变量，“x作为自变量。在 Plots对话框中选用DEPENDENT和*ZPRED作图。并且选择Histogram复选框给出正态曲线和Normal probability plot复选框输出规范化残差的正态概率图。并作相应的保管选项设置。8SPSS16.0与统计数据分析9.1线性回归分析线性回归分析第4步主要结果及分析。引入或剔除表ModelVariables EnteredVariables RemovedMethod1国内消费总值a.Entera. A

7、ll requested variables entered.b. Dependent Variable: 财政收入表中显示回归模型编号、进入模型的变量、移出模型的变量和变量的挑选方法。可以看出，进入模型的自变量为“x国内消费总值。 u模型综述表 ModelRR SquareAdjusted R SquareStd. Error of the Estimate1.989a.979.9771621.66312a. Predictors: (Constant), 国内消费总值b. Dependent Variable: 财政收入R=0.989，阐明自变量与因变量之间的相关性很强。R2=0.979，

8、阐明自变量x可以解释因变量y的97.9%的差别性。 9SPSS16.0与统计数据分析9.1线性回归分析线性回归分析u方差分析表表中显示因变量的方差来源、方差平方和、自在度、均方、F检验统计量的观测值和显著性程度。从表中可以看出，方差来源有回归Regression、残差Residual和总和Total，F统计量的观测值为592.25，显著性概率为0.000，即检验假设“H0：回归系数B=0成立的概率为0.000，从而应回绝零假设，阐明因变量和自变量的线性关系是非常显著的，可建立线性模型。ModelSum of SquaresdfMean SquareFSig.1Regression1.557E9

9、11.557E9592.250.000aResidual3.419E7132629791.290Total1.592E914a. Predictors: (Constant), 国内消费总值b. Dependent Variable: 财政收入10SPSS16.0与统计数据分析9.1线性回归分析线性回归分析u回归系数表表中显示回归模型的常数项Constant、回归系数Unstandardized CoefficientsB值及其规范误差Std.Error、规范化的回归系数Standardized CoefficientsBeta值、统计量t值以及显著性程度Sig.。从表中可看出，回归模型的常数

10、项为-4993.281，自变量“国内消费总值的回归系数为0.197。因此，可以得出回归方程为：财政收入=-4993.281+0.197国内消费总值。ModelUnstandardized CoefficientsStandardized CoefficientstSig.BStd. ErrorBeta1(Constant)-4993.281919.356-5.431.000国内消费总值.197.008.98924.336.000a. Dependent Variable: 财政收入11SPSS16.0与统计数据分析主要内容主要内容9.0 回归分析概述回归分析概述9.1线性回归分析线性回归分析9

11、.2 曲线估计曲线估计9.3 非线性回归分析非线性回归分析12SPSS16.0与统计数据分析9.2 曲线估计曲线估计(1) 根本概念曲线估计曲线拟合、曲线回归那么是研讨两变量间非线性关系的一种方法，选定一种用方程表达的曲线，使得实践数据与实际数据之间的差别尽能够地小。假设曲线选择得好，那么可以提示因变量与自变量的内在关系，并对因变量的预测有一定的意义。在曲线估计中，需求处理两个问题：一是选用哪种实际模型，即用哪种方程来拟合观测值；二是当模型确定后，如何选择适宜的参数，使得实际数据和实践数据的差别最小。13SPSS16.0与统计数据分析9.2 曲线估计曲线估计(2) 统计原理在曲线估计中，

12、有很多的数学模型，选用哪一种方式的回归方程才干最好地表示出一种曲线的关系往往不是一个简单的问题，可以用数学方程来表示的各种曲线的数目几乎是没有限量的。在能够的方程之间，以吻合度而论，也许存在着许多吻合得同样好的曲线方程。因此，在对曲线的方式的选择上，对采取什么方式需求有一定的实际，这些实际是由问题本质决议的。(3) 分析步骤首先，在不能明确终究哪种模型更接近样本数据时，可在上述多种可选择的模型中选择几种模型；其次，SPSS自动完成模型参数的估计，并输出回归方程显著性检验的F值和概率p值、断定系数R2等统计量；最后，以断定系数为主要根据选择其中的最优模型，并进展预测分析等。14SPSS16.0与

13、统计数据分析9.2 曲线估计曲线估计(4) SPSS实现举例【例9-2】下表是1989年2001年国家保费收入与国民消费总值的数据，请研讨保费收入与国民消费总值的关系。年度保费收入国民消费总值年度保费收入国民消费总值19804.64517.81991239.721662.519817.84860.3199237826651.9198210.35301.8199352534560.5198313.25957.41994630466701984207206.7199568357494.9198533.18989.1199677666850.5198645.810201.4199710807314

14、2.7198771.0411954.519981247.376967.21988109.514922.319993.2280579.41989142.616917.820001595.988228.11990178.518598.420012109.3694346.415SPSS16.0与统计数据分析9.2 曲线估计曲线估计第1步分析：先用散点图的方式进展分析，看终究能否具有一元线性关系，假设具有一元线性关系，那么用一元线性回归分析，否那么采用曲线估计求解。第2步数据组织：定义为三个变量，分别是：“year年度、“y保费收入和“x国民收入，输入数据并保管。第3步作散点图初步断定变量的分布

15、趋势：费收入y随着国民消费总值x的提高而逐渐提高，而且当国民消费总值到达一定程度后，保费收入的增幅更加明显，因此用线性回归模型表示x,y的关系是不恰当的。由于不知道哪种拟合效果更好，于是应先找拟合效果好的模型。 16SPSS16.0与统计数据分析9.2 曲线估计曲线估计第4步进展曲线估计：按顺序选择AnalyzeRegression Curve Estimation，将Models下的模型全选上，看哪种模型拟合效果更好(主要看拟合优度R2)，其一切模型的拟合优度R2如下表所示。模型称号R SquareR2直线Linear0.941二次曲线Quadratic0.973复合曲线Compound0

16、.789生长曲线Growth0.789对数曲线Logarithmic0.772三次曲线Cubic0.990S曲线S0.946指数曲线Exponential0.789逆函数Inverse0.481幂函数Power0.972逻辑函数Logistic0.789从拟合优度(R Square即R2)来看，三次曲线Cubic效果最好(由于其R2值较大)，并且方差分析的显著性程度为0，故重新进展上面的过程，只选Cubic一种模型。17SPSS16.0与统计数据分析9.2 曲线估计曲线估计第5步结果与分析。三次曲线模型拟合效果的检验表RR SquareAdjusted R SquareStd. Error

17、of the Estimate.995.990.98964.883The independent variable is 国民消费总值.相关系数R=0.995，R Square=0.990，经校正后的R平方值为0.989，故可判别保费收入与国民消费总值之间有较显著的三次曲线关系。u方差分析表 Sum of SquaresdfMean SquareFSig.Regression7800612.5593 2600204.186617.659.000Residual75775.960184209.776Total7876388.51821The independent variable is 国民消

18、费总值.相伴概率Sig.=0.000阐明模型具有显著的统计学意义。 18SPSS16.0与统计数据分析9.2 曲线估计曲线估计第5步结果与分析。回归系数表Unstandardized CoefficientsStandardized CoefficientstSig.BStd. ErrorBeta国民消费总值.029.0051.5065.836.000国民消费总值 * 2-5.364E-7.000-2.554 -4.277.000国民消费总值 * 35.022E-12.0002.093.(Constant)-166.43045.399-3.666.002从表中可知因变量与自变量的三次回归模型

19、为：y=-166.430+0.029x-5.364E-7x2+5.022E-12x319SPSS16.0与统计数据分析9.2 曲线估计曲线估计第5步结果与分析。拟合效果图从图形上看出其拟合效果非常好。20SPSS16.0与统计数据分析主要内容主要内容9.0 回归分析概述回归分析概述9.1线性回归分析线性回归分析9.2 曲线估计曲线估计9.3 非线性回归分析非线性回归分析21SPSS16.0与统计数据分析9.3 非线性回归分析非线性回归分析(1) 根本概念非线性回归分析Nonlinear Regression Analysis是寻求因变量与一组自变量之间的非线性相关模型的统计方法。线性回归限

20、制模型估计必需是线性的，非线性回归可以估计因变量与自变量之间具有恣意关系的模型。(2) 统计原理非线性回归分析Nonlinear Regression Analysis是寻求因变量与一组自变量之间的非线性相关模型的统计方法。线性回归限制模型估计必需是线性的，非线性回归可以估计因变量与自变量之间具有恣意关系的模型。22SPSS16.0与统计数据分析9.3 非线性回归分析非线性回归分析(3)分析步骤针对呈非线性关系的情况，可以采用两种战略：一是对规范的线性模型做一些修正，使之能处置各种异常情况，但方法仍在线性回归的范畴内，SPSS软件中包含了一些常见的非线性回归模型及其变换方式；二是彻底突破原

21、有模型的束缚，采用非线性模型来拟合。非线性回归过程是公用的非线性回归模型拟合过程，它采用迭代方法对用户设置的各种复杂曲线模型进展拟合，同时将残差的定义从最小二乘法向外扩展，为用户提供了极为强大的分析才干，不仅可以拟合SPSS的回归分析过程提供的全部模型，还可以拟合文件回归、多项式回归、百分位数回归等各种非常复杂的模型。 23SPSS16.0与统计数据分析9.3 非线性回归分析非线性回归分析(4)SPSS实现举例【例9-3】某企业1990年1998年年产值统计资料见下表。根据企业设备才干、产品的市场占有率及数据散点图分析，以为该企业的消费才干曾经趋于稳定，假定产品可以全部销售出去。试根据数据资料

22、进展非线性回归分析。年份1990 1991 1992199319941995199619971998年份序号123456789产值4.845.21 6.788.028.759.549.629.910.1524SPSS16.0与统计数据分析9.3 非线性回归分析非线性回归分析第1步分析：这显然是一个非线性回归的问题。第2步数据组织：定义三个变量：“Year年份“t年份编号，“Products年产值，输入数据并保管。第3步进展非线性回归分析：选Log-Modified曲线为回归模型，并在参数对话框中将a,b,c的参数依次设为-4、63和0.4。 1由于非线性回归的模型很多，在对详细问题进展

23、分析时终究选择何种数据模型，普通是经过先作散点图，根据散点图的情况，再进展适当的模型选择；2对详细模型参数值的初始设置在很大程度上是根据阅历进展的，当然也可以先大致设置一个数，而后交系统进展迭代处置，最后根据迭代的情况再设置一个适宜的参数值。25SPSS16.0与统计数据分析9.3 非线性回归分析非线性回归分析第4步主要结果及分析。参数估计表 Parameter Estimate Std. Error95% Confidence IntervalLower Bound Upper Bounda-3.73951.421-129.562122.084b62.084102.600-188.968

24、313.c.372.096.607。根据参数估计值，可以建立回归方程为： u相关系数表 abca1.000-.956.946b-.9561.000-.999c.946-.9991.000左表给出了各变量之间的相关系数情况。 26SPSS16.0与统计数据分析9.3 非线性回归分析非线性回归分析u方差分析表u 。SourceSum of SquaresdfMean SquaresRegression620.7463206.915Residual1.2646.211Uncorrected Total622.0109Corrected Total32.9778Dependent variable:

25、Productsa. R squared = 1 - (Residual Sum of Squares) / (Corrected Sum of Squares) = .962.可以看出，复相关系数的平方和为0.962，也就是说模型可以解释因变量96.2%的变异，这阐明了非线性估计的效果是非常好的。27SPSS16.0与统计数据分析logistic回归回归logistic回归又称logistic回归分析，主要在流行病学中运用较多，比较常用的情形是探求某疾病的危险要素，根据危险要素预测某疾病发生的概率，等等。例如，想讨论胃癌发生的危险要素，可以选择两组人群，一组是胃癌组，一组是非胃癌组，两组人群

26、一定有不同的体征和生活方式等。这里的因变量就是能否胃癌，即“是或“否，为两分类变量，自变量就可以包括很多了，例如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是延续的，也可以是分类的。经过logistic回归分析，就可以大致了解究竟哪些要素是胃癌的危险要素。28SPSS16.0与统计数据分析logistic回归与多重线性回归实践上有很多一样之处，最大的区别就在于他们的因变量不同，其他的根本都差不多，正是由于如此，这两种回归可以归于同一个家族，即广义线性模型generalized linear model。这一家族中的模型方式根本上都差不多，不同的就是因变量不同，假设是延续的，就是多重线性

27、回归，假设是二项分布，就是logistic回归，假设是poisson分布，就是poisson回归，假设是负二项分布，就是负二项回归，等等。只需留意区分它们的因变量就可以了。29SPSS16.0与统计数据分析logistic回归的因变量可以是二分类的，也可以是多分类的，但是二分类的更为常用，也更加容易解释。所以实践中最为常用的就是二分类的logistic回归。logistic回归的主要用途：一是寻觅危险要素，正如上面所说的寻觅某一疾病的危险要素等。二是预测，假设曾经建立了logistic回归模型，那么可以根据模型，预测在不同的自变量情况下，发生某病或某种情况的概率有多大。三是判别，实践上跟预测有

28、些类似，也是根据logistic模型，判别某人属于某病或属于某种情况的概率有多大，也就是看一下这个人有多大的能够性是属于某病。这是logistic回归最常用的三个用途，实践中的logistic回归用途是极为广泛的，logistic回归几乎曾经成了流行病学和医学中最常用的分析方法，由于它与多重线性回归相比有很多的优势。 30SPSS16.0与统计数据分析练习题1.标题给出了X省交通客运量与人均GDP的数据，该数据记录了从1980到2003年的情况，部分相关数据如以下图所示数据文件：第一题.sav)。试采用曲线回归的方法，为交通运输量与人均GDP的关系拟合一条适宜的曲线。31SPSS16.0与统计数据分析2.为了调查果汁饮料销售量能否遭到其他类型饮料销售的影响，调查者调查了碳酸饮料销售量、茶饮料销售量、固体冲泡饮料销售量和咖啡类饮料的销售量。观测数据部分如下数据文件：第二题.sav) 利用线性回归分析方法分析其他饮料的销售对果汁饮料销售的影响。32

展开阅读全文

回归分析2ppt课件

最新文档