回归分析线性回归Logistic回归对数线性模型讲义教材

资源描述

《回归分析线性回归Logistic回归对数线性模型讲义教材》由会员分享，可在线阅读，更多相关《回归分析线性回归Logistic回归对数线性模型讲义教材（64页珍藏版）》请在金锄头文库上搜索。

1、回归分析线性回归Logistic回归对数线性模型,2,回归分析,顾客对商品和服务的反映对于商家是至关重要的,但是仅仅有满意顾客的比例是不够的,商家希望了解什么是影响顾客观点的因素以及这些因素是如何起作用的。一般来说，统计可以根据目前所拥有的信息（数据）建立人们所关心的变量和其他有关变量的关系（称为模型）。假如用Y表示感兴趣的变量，用X表示其他可能有关的变量（可能是若干变量组成的向量）。则所需要的是建立一个函数关系Y=f(X)。这里Y称为因变量或响应变量，而X称为自变量或解释变量或协变量。建立这种关系的过程就叫做回归。,3,回归分析,一旦建立了回归模型可以对各种变量的关系有了进一步的定量

2、理解还可以利用该模型（函数）通过自变量对因变量做预测。这里所说的预测，是用已知的自变量的值通过模型对未知的因变量值进行估计；它并不一定涉及时间先后的概念。,5,还有定性变量,该数据中，除了初三和高一的成绩之外，还有一个定性变量它是学生在高一时的家庭收入状况；它有三个水平：低、中、高，分别在数据中用1、2、3表示。,6,还有定性变量,下面是对三种收入对高一成绩和高一与初三成绩差的盒形图,7,例1：相关系数,8,SPSS的相关分析,相关分析(hischool.sav）利用SPSS选项：AnalizeCorrelateBivariate 再把两个有关的变量(这里为j3和s1)选入，选择Pea

3、rson，Spearman和Kendall就可以得出这三个相关系数和有关的检验结果了(零假设均为不相关)。,9,定量变量的线性回归分析,对例1中的两个变量的数据进行线性回归，就是要找到一条直线来最好地代表散点图中的那些点。,10,检验问题等,对于系数b1=0的检验对于拟合的F检验 R2 (决定系数) SSR/SST,可能会由于独立变量增加而增加(有按自由度修正的决定系数：adjusted R2)，简单回归时R等于相关系数,11,回到例1：R2等,12,SPSS的回归分析,自变量和因变量都是定量变量时的线性回归分析(hischool.sav) 利用SPSS选项：AnalizeRegressi

4、onLinear 再把有关的自变量选入Independent，把因变量选入Dependent，然后OK即可。如果自变量有多个（多元回归模型），只要都选入就行。,多个自变量的回归,如何解释拟合直线?,什么是逐步回归方法?,14,例子：RISKFAC.sav,不算序号和(192个)国家有21个变量包括地区(Region)、(在城镇和乡村)使用干净水的、生活污水处理的、饮酒量(litre/yearperson)、(每万人中)内科医生数目、护士和助产士数、卫生工作者数、病床数、护士助产士和内科医生之比、卫生开支占总开支的、占政府开支的、人均卫生开支$、成人识字率、人均收入$、每千个出生中5岁前死亡人

5、数、人口增长率、(男女的)预期寿命(年)、每10万生育的母亲死亡数,15,16,例子：RISKFAC.sav,该数据有许多相关的变量和许多缺失值假定要用各种变量描述每千个出生中5岁前死亡人数(因变量) 可以先做两两相关也可以做定量变量的两两散点图等等或者用逐步回归淘汰变量目的在于摸清关系的底细,17,例子：RISKFAC.sav:相关,18,例子：RISKFAC.sav:逐步回归,选中女性预期寿命和农村干净水的作为自变量（第二个自变量相对不那么显著pvalue=0.019）,模型：女性预期寿命模型：农村干净水的,19,RISKFAC.sav：散点图及自变量相关性Pearson相关,2

6、0,RISKFAC.sav：散点图及自变量相关性非参数度量KendallSpearman,21,介绍三个检查异常点的统计量,残差（Residual).(本例用SPSS中的一种)，它描述了样本点到回归直线的远近程度。杠杆值(Levarage)。它描述距离数据总体的远近。高杠杆点对回归的参数影响较大，但其残差通常较小。 Cook统计量。它结合了残差和杠杆值，因此反映了残差和杠杆二者的影响（较全面）,全模型(两个自变量：女性预期寿命和农村干净水的),23,RISKFAC.sav：全模型异常点诊断：残差,96(Lesotho ),23(Botswana),153(Sierra Leone ),19

7、2(Zimbabwe ),模型：女性预期寿命模型：农村干净水的,24,RISKFAC.sav：全模型异常点诊断高杠杆点,23(Botswana),140(Romania ),192 (Zimbabwe ),模型：女性预期寿命模型：农村干净水的,25,RISKFAC.sav：全模型异常点诊断Cook距离,23(Botswana),96(Lesotho),192 (Zimbabwe ),140(Romania ),模型：女性预期寿命模型：农村干净水的,26,模型1 因变量和自变量之一的散点图 X：女性预期寿命(年) Y：每千个出生中5岁前死亡人数,27,RISKFAC.sav：只用女性预期寿

8、命作为自变量,模型：全模型模型：农村干净水的,28,RISKFAC.sav模型1异常点诊断残差,23(Botswana),96(Lesotho),192 (Zimbabwe ),模型：全模型模型：农村干净水的,29,RISKFAC.sav：模型1异常点诊断高杠杆点不太突出,模型：全模型模型：农村干净水的,30,RISKFAC.sav：模型1异常点诊断Cook距离,192 (Zimbabwe ),96(Lesotho),23(Botswana),模型：全模型模型：农村干净水的,31,模型2 因变量和自变量之一的散点图 X：农村干净水使用 Y：每千个出生中5岁前死亡人数,32,RISKFA

9、C.sav：只用农村净水使用,模型：全模型模型：女性预期寿命,33,140(Romania ),RISKFAC.sav模型2异常点诊断残差,模型：全模型模型：女性预期寿命,34,RISKFAC.sav：模型2异常点诊断高杠杆点不太突出,模型：全模型模型：女性预期寿命,35,RISKFAC.sav：模型2异常点诊断Cook距离,140(Romania ),模型：全模型模型：女性预期寿命,36,对该例子(RISKFAC.sav)的结果解释,单独用第一个自变量比单独用第二个较好模型1（相应于模型）的“异常点”为一些非洲国家；它们可能不适合用这个模型。模型2（相应于模型）的“异常点”为Ro

10、mania；它可能不适合用这个模型。从散点图来看，第一个模型更加线性。两个自变量的模型的“异常点”为单独模型“异常点”的混合。其实，用一个自变量就够了。这两个自变量是相关的。当然是用第一个了。可能把异常点排除后再重新建模更好。,37,自变量中有定性变量的回归,例1的数据中,还有一个自变量是定性变量“收入”,以虚拟变量或哑元(dummy variable)的方式出现;这里收入的“低”,“中”,“高”，用1,2,3来代表.所以,如果要用这种哑元进行前面回归就没有道理了. 以例1数据为例,可以用下面的模型来描述:,38,自变量中有定性变量的回归,现在只要估计b0, b1,和a1, a2, a3

11、即可。哑元的各个参数a1, a2, a3本身只有相对意义，无法三个都估计，只能够在有约束条件下才能够得到估计。约束条件可以有很多选择，一种默认的条件是把一个参数设为0，比如a3=0，这样和它有相对意义的a1和a2就可以估计出来了。对于例1，对b0, b1, a1, a2, a3的估计分别为28.708, 0.688, -11.066, -4.679, 0。这时的拟合直线有三条，对三种家庭收入各有一条:,39,例子：RISKFAC.sav：因变量：成人识字率，自变量：区域（属性变量）、人口增长率、人均收入,40,41,SPSS实现(hischool.sav),AnalyzeGeneral

12、 linear modelUnivariate，在Options中选择Parameter Estimates，再在主对话框中把因变量（s1）选入Dependent Variable，把定量自变量(j3)选入Covariate，把定量因变量（income）选入Factor中。然后再点击Model，在Specify Model中选Custom，再把两个有关的自变量选入右边，再在下面Building Term中选Main effect。 Continue-OK，就得到结果了(系数和检验等),SPSS Syntax:UNIANOVA s1 BY income WITH j3 /METHOD =

13、 SSTYPE(3) /INTERCEPT = INCLUDE /CRITERIA = ALPHA(.05) /DESIGN = income j3 .,43,注意,这里进行的线性回归，仅仅是回归的一种，也是历史最悠久的一种。但是，任何模型都是某种近似；线性回归当然也不另外。它被长期广泛深入地研究主要是因为数学上相对简单。它已经成为其他回归的一个基础。总应该用批判的眼光看这些模型。,44,例2 这是200个不同年龄和性别的人对某项服务产品的认可的数据(logi.sav). 年龄是连续变量,性别是有男和女(分别用1和0表示)两个水平的定性变量,而(定性)变量“观点”则为包含认可(用1表

14、示)和不认可(用0表示)两个水平的定性变量。,从这两张图又可以看出什么呢?,45,Logistic 回归,例2是关于200个不同年龄,性别的人对某项服务产品的观点(二元定性变量)的数据(logi.sav). 这里观点是因变量, 只有两个值;所以可以把它看作成功概率为p的Bernoulli试验的结果. 但是和单纯的Bernoulli试验不同，这里的概率p为年龄和性别的函数. 可以假定下面的(logistic回归)模型,46,Logistic 回归,为了循序渐近，先拟合没有性别作为自变量（只有年龄x）的模型,47,Logistic模型拟合结果,依靠计算机，很容易得到b0和b1的估计分别为2.380

15、和-0.069。拟合的模型为,48,Logistic模型拟合结果,再加上性别变量进行拟合,得到的b0, b1和a0, a1的估计(同样事先确定为a1=0)分别为1.722, -0.072, 1.778, 0.可以看出年龄影响对男女混和时(0.069)差不多,而女性相对于男性认可的可能性大(a0-a1=1.778)。,49,拟合的年龄-概率图,50,拟合优度检验 Hosmer-Lemeshow-goodness-of-fit,这里p值=0.602(不显著)。注意:在这里“显著”意味着拟合不好！,51,SPSS的Logistic回归(logi.sav),自变量为定量变量时：利用SPSS选项：Ana

16、lizeRegressionBinary Logistic，再把因变量(opinion)选入DependentVariable，把自变量（age）选入Covariates，OK即可得到结果。自变量为定量变量及定量变量时：利用SPSS选项：AnalizeRegressionBinary Logistic，再把因变量(opinion)选入DependentVariable，把自变量（age和sex）选入Covariates，然后点Categorical，再把定性变量sex选入Categorical Covariate，回到主对话框，可在options选择Hosmer-Lemeshow-goodness-of-fit检验（检验拟合优度）点击OK即可得到结果。,对数线性模型,多项分布对数线性模型 Poisson对数线性模型,53,高维列联表和多项分布对数线性模型,前面例子原始数据是个三维列联表，对三维列联表的检验也类似。但高维列联表在计算机软件的选项可有所不同，而且可以构造一个所谓(多项分布)对数线性模型(loglinear model)来进行分析。利用对数线性模型的好处是不仅

展开阅读全文