SPSS第07章回归分析培训课件

资源描述

《SPSS第07章回归分析培训课件》由会员分享，可在线阅读，更多相关《SPSS第07章回归分析培训课件（23页珍藏版）》请在金锄头文库上搜索。

1、单击此处编辑母版标题样式单击此处编辑母版副标题样式*1第7章回归分析w 1、回归分析的概念和模型w 2、回归分析的过程回归分析的概念w寻求有关联（相关）的变量之间的关系w主要内容：n从一组样本数据出发，确定这些变量间的定量关系式n对这些关系式的可信度进行各种统计检验n从影响某一变量的诸多变量中，判断哪些变量的影响显著，哪些不显著n利用求得的关系式进行预测和控制回归分析的模型w按是否线性分：线性回归模型和非线性回归模型w按自变量个数分：简单的一元回归，多元回归w基本的步骤：利用SPSS得到模型关系式，是否是我们所要的，要看回归方程的显著性检验（F检验）和回归系数b的显著性检验(T检验)，还要看

2、拟合程度R2 (相关系数的平方,一元回归用R Square，多元回归用Adjusted R Square)7.1 线性回归(Liner)w一元线性回归方程: y=a+bxna称为截距nb为回归直线的斜率n用判定系数（R2）判定一个线性回归直线的拟合程度：用来说明用自变量解释因变量变异的程度（所占比例）w多元线性回归方程: y=b0+b1x1+b2x2+bnxnnb0为常数项nb1、b2、bn称为y对应于x1、x2、xn的偏回归系数n用调整判定系数（Adjusted R2 ）判定一个多元线性回归方程的拟合程度：用来说明用自变量解释因变量变异的程度（所占比例）w一元线性回归模型的确定:一般先做散点

3、图(Graphs -Scatter-Simple),以便进行简单地观测（如：Salary与Salbegin的关系)w若散点图的趋势大概呈线性关系，可以建建立线性方程，若不呈线性分布，可建立其它方程模型，并比较R2 (-1)来确定一种最佳方程式（曲线估计）w多元线性回归一般采用逐步回归方法-Stepwise 逐步回归方法的基本思想w对全部的自变量x1,x2,.,xp,按它们对Y贡献的大小进行比较，并通过F检验法，选择偏回归平方和显著的变量进入回归方程，每一步只引入一个变量，同时建立一个偏回归方程。当一个变量被引入后，对原已引入回归方程的变量，逐个检验他们的偏回归平方和。如果由于引入新的变量而使得

4、已进入方程的变量变为不显著时，则及时从偏回归方程中剔除。在引入了两个自变量以后，便开始考虑是否有需要剔除的变量。只有当回归方程中的所有自变量对Y都有显著影响而不需要剔除时，在考虑从未选入方程的自变量中，挑选对Y有显著影响的新的变量进入方程。不论引入还是剔除一个变量都称为一步。不断重复这一过程，直至无法剔除已引入的变量，也无法再引入新的自变量时，逐步回归过程结束。线性回归分析实例w实例：建立一个以初始工资Salbegin 、工作经验prevexp 、工作时间jobtime 、工作种类jobcat 、受教育年限edcu等为自变量，当前工资Salary为因变量的回归模型。1.先做数据散点图,观测因变

5、量Salary与自变量Salbegin之间关系是否有线性特点nGraphs -Scatter-SimplenX Axis： SalbeginnY Axis： Salary2.若散点图的趋势大概呈线性关系，可以建立线性回归模型wAnalyze-Regression-LinearwDependent: SalarywIndependents: Salbegin,prevexp,jobtime,jobcat,edcu等变量wMethod: Stepwisew比较有用的结果：n拟合程度Adjusted R2：越接近1拟合程度越好n回归方程的显著性检验Sign回归系数表Coefficients的Mod

6、el最后一个中的回归系数B和显著性检验Sign得模型： Salary=-15038.6+1.37Salbegin+5859.59jobcat- 19.55prevexp+154.698jobtime+539.64edcu7.2 曲线估计(Curve Estimation)w对于一元回归，若散点图的趋势不呈线性分布，可以利用曲线估计方便地进行线性拟合(liner)、二次拟合(Quadratic)、三次拟合(Cubic)等。采用哪种拟合方式主要取决于各种拟合模型对数据的充分描述(看修正Adjusted R2 -1)不同模型的表示模型名称回归方程相应的线性回归方程Linear(线性)Y=b0+b1t

7、Quadratic(二次)Y=b0+b1t+b2t2Compound(复合)Y=b0(b1t)Ln(Y)=ln(b0)+ln(b1)tGrowth(生长)Y=eb0+b1tLn(Y)=b0+b1tLogarithmic(对数)Y=b0+b1ln(t)Cubic(三次)Y=b0+b1t+b2t2+b3t3SY=eb0+b1/tLn(Y)=b0+b1 / tExponential(指数)Y=b0 * eb1*tLn(Y)=ln(b0)+b1tInverse(逆)Y=b0+b1/tPower(幂)Y=b0(tb1 )Ln(Y)=ln(b0)+b1ln(t)Logistic(逻辑 )Y=1/(1/u+

8、b0b1t)Ln(1/Y-1/u)=ln(b0+ln(b1)t)10.2.3 曲线估计(Curve Estimation)分析实例w实例P247 Data11-01 ：有关汽车数据，看mpg(每加仑汽油行驶里程)与weight(车重)的关系n先做散点图(Graphs -Scatter-Simple)：weight(X)、mpg(Y)，看每加仑汽油行驶里程数mpg(Y)随着汽车自重weight(X)的增加而减少的关系，也发现是曲线关系n建立若干曲线模型（可试着选用所有模型Models)wAnalyze-Regression- Curve EstimationwDependent: mpgwInd

9、ependent: weightwModels: 全选(除了最后一个逻辑回归)w选Plot models：输出模型图形w比较有用的结果：各种模型的Adjusted R2，并比较哪个大，结果是指数模型Compound的Adjusted R2=0.70678最好（拟合情况可见图形窗口）, 结果方程为：mpg=60.15*0.999664weightw说明：Growth和Exponential的结果也相同，也一样。10.3二项逻辑回归(Binary Logistic)w在现实中，经常需要判断一些事情是否将要发生，候选人是否会当选？为什么一些人易患冠心病？为什么一些人的生意会获得成功？此问题的特点是因

10、变量只有两个值，不发生(0)和发生(1)。这就要求建立的模型必须因变量的取值范围在01之间。wLogistic回归模型nLogistic模型：在逻辑回归中，可以直接预测观测量相对于某一事件的发生概率。包含一个自变量的回归模型和多个自变量的回归模型公式：其中： z=B0+B1X1+BpXp(P为自变量个数）。某一事件不发生的概率为Prob(no event)1-Prob(event) 。因此最主要的是求B0,B1,Bp(常数和系数)n数据要求：因变量应具有二分特点。自变量可以是分类变量和定距变量。如果自变量是分类变量应为二分变量或被重新编码为指示变量。指示变量有两种编码方式。n回归系数：几率和

11、概率的区别。几率=发生的概率/不发生的概率。如从52张桥牌中抽出一张A的几率为(4/52)/(48/52)=1/12，而其概率值为4/52=1/13 根据回归系数表，可以写出回归模型公式中的z。然后根据回归模型公式Prob(event) 进行预测。10.3.3二项逻辑回归(Binary Logistic)实例w实例P255 Data11-02 ：乳腺癌患者的数据进行分析，变量为：年龄age,患病时间time,肿瘤扩散等级pathscat（3种）, 肿瘤大小pathsize, 肿瘤史histgrad（3种）和癌变部位的淋巴结是否含有癌细胞ln_yesno，建立一个模型，对癌变部位的淋巴结是否含有

12、癌细胞ln_yesno的情况进行预测。nAnalyze-Regression- Binary LogisticnDependent: ln_yesnonCovariates: age, time,pathscat,pathsize, histgradn比较有用的结果：在Variables in Equation表中的各变量的系数（B），可以写出z=-0.86-0.331pathscat+0.415pathsize 0.023age+0.311histgrad。根据回归模型公式Prob(event)=1/(1+e-z)，就可以计算一名年龄为60岁、pathsize为1、histgrad为1、p

13、athscat为1的患者，其淋巴结中发现癌细胞的概率为1/(1+e-(-1.845)=0.136(Prob(event) 0.5 预测事件将会发生）补充：回归分析w以下的讲义是吴喜之教授有关回归分析的讲义，很简单，但很实用定量变量的线性回归分析 w对例1(highschoo.sav)的两个变量的数据进行线性回归，就是要找到一条直线来最好地代表散点图中的那些点。检验问题等w对于系数b1=0的检验w对于拟合的F检验wR2(决定系数)及修正的R2.单击此处编辑母版标题样式单击此处编辑母版副标题样式*17多个自变量的回归如何解释拟合直线?什么是逐步回归方法? 自变量中有定性变量的回归 w例1(hig

14、hschoo.sav)的数据中,还有一个自变量是定性变量“收入”,以虚拟变量或哑元(dummy variable)的方式出现;这里收入的“低”,“中”,“高”，用1,2,3来代表.所以,如果要用这种哑元进行前面回归就没有道理了. w以例1数据为例,可以用下面的模型来描述:自变量中有定性变量的回归 w现在只要估计b0, b1,和a1, a2, a3即可。w哑元的各个参数a1, a2, a3本身只有相对意义，无法三个都估计，只能够在有约束条件下才能够得到估计。w约束条件可以有很多选择，一种默认的条件是把一个参数设为0，比如a3=0，这样和它有相对意义的a1和a2就可以估计出来了。w对于例1，对b0

15、, b1, a1, a2, a3的估计分别为28.708, 0.688, -11.066, -4.679, 0。这时的拟合直线有三条，对三种家庭收入各有一条: SPSS实现(hischool.sav)wAnalizeGeneral linear modelUnivariate，w在Options中选择Parameter Estimates，w再在主对话框中把因变量（s1）选入Dependent Variable，把定量自变量(j3)选入Covariate，把定量因变量（income）选入Factor中。w然后再点击Model，在Specify Model中选Custom，w再把两个有关的自变量

16、选入右边，再在下面Building Term中选Main effect。wContinue-OK，就得到结果了。输出的结果有回归系数和一些检验结果。注意 w这里进行的线性回归，仅仅是回归的一种，也是历史最悠久的一种。w但是，任何模型都是某种近似；w线性回归当然也不另外。w它被长期广泛深入地研究主要是因为数学上相对简单。w它已经成为其他回归的一个基础。w总应该用批判的眼光看这些模型。SPSS的回归分析w自变量和因变量都是定量变量时的线性回归分析：n菜单：AnalizeRegressionLinearn把有关的自变量选入Independent，把因变量选入Dependent，然后OK即可。如果自变量有多个（多元回归模型，选Method: Stepwise ），只要都选入就行。SPSS的回归分析w自变量中有定性变量（哑元）和定量变量而因变量为定量变量时的线性回归分析 (hischool.sav) n菜单：AnalizeGeneral linear modelUnivariate，n在Options中选择Parameter Estimates，n再在主对话框中把因变量（s1）选入Depende

展开阅读全文

SPSS第07章回归分析培训课件

最新文档