spsslogistic回归分析及其应用图文

上传人:第*** 文档编号:59743138 上传时间:2018-11-11 格式:PPT 页数:63 大小:570.50KB
返回 下载 相关 举报
spsslogistic回归分析及其应用图文_第1页
第1页 / 共63页
spsslogistic回归分析及其应用图文_第2页
第2页 / 共63页
spsslogistic回归分析及其应用图文_第3页
第3页 / 共63页
spsslogistic回归分析及其应用图文_第4页
第4页 / 共63页
spsslogistic回归分析及其应用图文_第5页
第5页 / 共63页
点击查看更多>>
资源描述

《spsslogistic回归分析及其应用图文》由会员分享,可在线阅读,更多相关《spsslogistic回归分析及其应用图文(63页珍藏版)》请在金锄头文库上搜索。

1、Logistic回归分析 及其应用,iData数据分析工作室 QQ:3030566369,概述,一般概念 一元直线回归 y = a + b x 多元直线回归 y = a + b1x1 + b2x2 + + bkxk (曲线估计),-4.00,-2.00,0.00,2.00,4.00,X:自变量,0.00,0.25,0.50,0.75,1.00,F(y) :因变量的logit值,如果一定要进行直线回归也可以做出结果,但此时效果不佳。当自变量取一定值时,因变量的预测值可能为负数。,Logistic回归曲线,一般直线回归难以解决的问题,因变量为分类变量,分类变量间的差距是不等距的 如果因变量表示事件

2、发生的概率,通常与自变量之间不存在线性关系 不能保证在自变量的各种组合下,因变量的取值仍限制在01内,寻找合适的模型,进行logit变换:,其中:p为因变量取值为1(y=1)的概率,p/(1-p)称为发生比(OR),最终可得p值:,概述小结,logistic回归对因变量的发生比的对数值( logit值)建立模型 因变量的logit值的改变与多个自变量的加权和呈线性关系 因变量呈二项分布,Logistic回归模型的估计方法,最大似然估计法(Maximum likelihood estimation,MLE)。最大似然估计法通过最大化对数似然值(log likelihood)估计参数。(对应于最小

3、二乘法OLS) 最大似然估计法是一种迭代算法,它以一个预测估计值作为参数的初始值,根据算法确定能增大对数似然值的参数的方向和变动。估计了该初始函数后,对残差进行检验并用改进的函数进行重新估计,直到收敛为止(即对数似然不再显著变化)。,理解“似然”,似然(likelihood)即概率,特别是由自变量观测值预测因变量观测值的概率。与任何概率一样,似然的取值范围在0、1 之间。对数似然值(log likelihood,LL)是它的自然对数形式,由于取值范围在0,1之间的数的对数值负数,所以对数似然值的取值范围在0 至-之间。对数似然值通过最大似然估计的迭代算法计算而得。,Logistic回归模型的检

4、验,-2logL(似然比检验,Omnibus Test):检验全部自变量的作用是否显著。较为可靠。适用于含连续性变量的情况。模型拟合好, 值大,P值小。 Hosmer-Lemeshow检验:评价估计概率和观察概率接近的程度。适用于含连续性变量的情况。模型好, 值小,P值大。 Goodness-of-fit:模型好,P值小。(只有当每个协变量模式含有大量的观测量时,才能使用该统计量。),模型中回归系数的含义,回归系数表示当其他自变量取值保持不变时,该自变量取值增加一个单位引起发生比(OR)自然对数值的变化量 用发生比(OR=p/(1-p)测量自变量xi变化对发生概率的影响程度,分析的一般步骤,变

5、量的编码 哑变量的设置和引入(设置参照类) 各个自变量的单因素分析 变量的筛选 交互作用的引入 建立多个模型 选择较优的模型 模型应用条件的评价 输出结果的解释,Logistic回归的分类,二项Logistic回归 (Binary Regression) 多分变量Logistic回归 (Multinominal Regression),二项Logistic回归,因变量只取两个值,表示一种决策、一种结果的两种可能性。例如,某个人能否拥有房子,受到多种因素的影响,如家庭情况、工龄、收入情况等,但最终的可能性只有两个,要么拥有住房,要么没有住房。我们把y=1 定义为拥有住房,y=0 定义为其它情况,

6、即,y =,1 拥有住房,0 其它情况,从模型角度出发,不妨把事件发生的情况定义为y=1,事件未发生的情况定义为y=0,这样取值为0、1 的因变量可以写为下式: 线性函数对x的变化在p=0或p=1的附近是不敏感的、缓慢的,且非线性的程度较高。于是我们寻找一个p的函数,使得它在p=0或p=1附近时变化幅度较大,而函数的形式又不是很复杂。因此,我们引入p的logit变换。,y =,1 事件发生,0 事件未发生,建立回归模型:,其中,p=p(y=1),y =,1 拥有住房,0 其它情况,打开二项Logistic命令,二项Logistic过程主对话框,选项对话框,起始模型卡方检验表,最终模型的拟合优度

7、检验,Hosmer-Lemeshow检验表,Hosmer-Lemeshow 检验的列联表,最终观测量分类表,最终模型统计量,预测方程,依据预测概率的观测量分组表,多分变量Logistic回归,如果因变量y 有J 个值(即y 有J 类) , 以其中一个类别作为参考类别(baseline category) , 其他类别都同它相比较可生成J - 1 个非冗余(nonredundant) 的logit 变换模型。例如以y = J 作为参考类别, 则对于y = i, 其logit 模型为: 而对于参考类别, 其模型中的所有系数均为0。,最后,求得第i类的概率值: 另:参数估计表(Parameter E

8、stimates) 中的Exp(B) 表示某因素(自变量) 内该类别是其相应参考类别具有某种倾向性的倍数。,以99年某地区中小学视力监测结果为例, 视力低下程度分轻、中、重三类。在SPSS 数据文件内, 建立三个变量:“低下程度”、“性别”、“年龄”。 “低下程度”中的1 代表轻度, 2 代表中度, 3 代表重度; “性别”中, 1 代表男性, 2 代表女性; “年龄”为定距变量。 根据所建模型中的系数可估计出一个学生某种视力低下程度的可能性大小。,Analyze Regression Multinomial Logistic Regression Dependent: 低下程度 Factor

9、 (s) : 性别(分类变量) Covariate (s) : 年龄(连续性变量) Model Main effect (默认) Statistics Likelihood ratio test,可见性别与视力低下程度有关系(p =0. 034) , 而年龄与视力低下程度似无关(p = 0. 362) , 但这有可能是因为两者呈非线性关系而引起的, 而非真的没有关系。,解决方案: 将年龄(连续性变量) 分为几个水平,并产生一个分类变量“学习阶段”: 0= 小学, 1= 初中, 2= 高中。删掉“年龄”变量, 将变量“性别”和“学习阶段”都选入Factor ( s) 中, 其他过程同上, 得表2

10、.,由表2可见,学习阶段与视力低下程度的关系有显著性意义(p 0. 001)。,引入全模型: Model Full factorial (包括交互作用的全因素模型) Statistics Likelihood ratio test 得表3。 可见性别和学习阶段间无交互作用(p = 0. 612) , 因此下面的 分析仍然只考虑主效应(Main Effect)。,由 Parameter estimates (默认) 项可得表4。,表4中共有两套Logistic 回归系数, 分别针对轻度和中度视力低下。重度作为因变量中的参考类别, 其所有系数都是0。“性别= 2”和“学习阶段= 2”分别作为其相应

11、自变量中的参考类别, 因而其系数也均为0。 由sig 一栏可见, 两套系数中, “性别= 1”与“性别= 2”相比均有显著性差异(p 0. 001) ;“学习阶段= 0”与“学习阶段= 2”相比在轻度中有显著性差异, p =0. 002, 在中度中无显著性差异p = 0. 202,“学习阶段= 1”与“学习阶段= 2”在两种程度中均有有显著性差异, p值分别为0. 029 和0. 006 。,由表4 中的系数, 我们可估计出某个学生视力低下程度的概率。例如对一个初中男生来说, 其“性别= 1”,“学习阶段= 1”, 根据表4 中的系数B: 对于轻度, 对于中度, 由于重度是因变量中的参考组,

12、其所有系数均为0, 所以g 3= 0。,根据公式 ,得,因此,该初中男生轻度视力低下的概率为0. 413, 中度视力低下的概率为0. 205, 重度视力低下的概率为0. 382。,表4 中的exp (B) 表示某因素(自变量) 内该类别是其相应参考类别具有某种倾向性的倍数, 如exp (B) = 1. 581 指对于视力低下为轻度而不是重度这种情况, 男性是女性的1. 581 倍; exp (B) =2. 233 指对于视力低下为中度而不是重度这种情况, 初中生是高中生的2. 233 倍。 可见, 多分类Logistic 回归分析不仅可同时分析所有的影响因素, 还能对各因素的影响程度进行一定的

13、量化。,在对话框中选择 Statistics Cell Probabilities 可得表5。(经过整理,表5中只列出了初中男生的情形。) 表中的Pearson Residual 可用于评估模型拟和的优劣, 其值的绝对值大于2 时,说明模型拟合不佳,则应考虑是否有其他原因影响了模型的拟和。,分析的一般步骤,变量的编码 哑变量的设置和引入(设置参照类) 各个自变量的单因素分析 变量的筛选 交互作用的引入 建立多个模型 选择较优的模型 模型应用条件的评价 输出结果的解释,1.变量的编码,变量的编码要易于识别 注意编码的等级关系 改变分类变量的编码,其分析的意义并不改变。 牢记编码 使用变量数值标识

14、(value labels) 记录编码内容,变量的编码,变量名 变量标签 变量值 值标识 SEX 性别 1 男 2 女 EDU 教育程度 0 文盲 1 小学 2 初中及以上,2.哑变量的设置和引入,哑变量,又称指示变量或设计矩阵。 有利于检验等级变量各个等级间的变化是否相同。 一个k分类的分类变量,可以用k-1个哑变量来表示。,哑变量的设置,教育程度:文盲,小学,初中,高中以上,以高中作为参照,SPSS提供的方法,Indicator: 默认。以第1 或最后1类作对照,其他每类与对照比较; Sample: 以第1 或最后1类作对照,其他每类与对照比较,但反映平均效应。 Difference: 除

15、第1类外各分类与其前各类平均效应比较; Helmert: 除最后1类外各分类与其前各类平均效应比较; Repeated: 除第1类外各分类与其前一类比较; Polynomial: 假设类间距相等,用于数值型变量。 Deviation: 以第1 或最后1类作对照,其余每类与总效应比较。,3.自变量的单因素分析,了解自变量与因变量的分布 检验是否符合建立模型的应用条件 偏离应用条件时,进行数据变换 各个自变量两组间的比较 计数资料 计量资料 双变量分析,4.变量的筛选,变量筛选的原则 专业上考虑 测量上考虑 共线性问题:计算相关矩阵,相关系数0.8-0.9,则选其一。 缺失数据少、测量误差低的优先

16、选择 经验上考虑 双变量分析中有显著性的自变量(P .15) 选择那些改变主效应的自变量,变量的筛选,变量筛选的可用方法 逐步logistic回归:自动选择有显著性的自变量,不仅用于自变量的剔选,也用于交互作用项是否显著的判断。 前进法:逐个引入模型外的变量 后退法:放入所有变量,再逐个筛选 理论上看,前进法选择变量的经验公式缺乏总体概念,当用于因素分析时,建议用后退法。当变量间有完全相关性时,后退法无法使用,可用前进法。,5.交互作用的引入,交互作用的定义 当自变量和因变量的关系随第三个变量的变化而改变时,则存在交互作用 交互作用项的引入 基于大量观测实际认为对结果有重要影响 基于模型应用条件的分析 引入两个自变量的乘积项 交互作用的检验 交互作用的解释,6.建立多个模型,饱和模型 自定义的模型 从饱和模型中选择自变量 再建立模型,7.选择较优的模型,模型拟合优度检验 -2

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 教学课件 > 高中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号