二分类与多分类Logistic回归模型 (2)

上传人:平*** 文档编号:13939613 上传时间:2017-10-26 格式:DOC 页数:13 大小:340.27KB
返回 下载 相关 举报
二分类与多分类Logistic回归模型 (2)_第1页
第1页 / 共13页
二分类与多分类Logistic回归模型 (2)_第2页
第2页 / 共13页
二分类与多分类Logistic回归模型 (2)_第3页
第3页 / 共13页
二分类与多分类Logistic回归模型 (2)_第4页
第4页 / 共13页
二分类与多分类Logistic回归模型 (2)_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《二分类与多分类Logistic回归模型 (2)》由会员分享,可在线阅读,更多相关《二分类与多分类Logistic回归模型 (2)(13页珍藏版)》请在金锄头文库上搜索。

1、1二分类 Logistic 回归模型在对资料进行统计分析时常遇到反应变量为分类变量的资料,那么,能否用类似于线性回归的模型来对这种资料进行分析呢?答案是肯定的。本章将向大家介绍对二分类因变量进行回归建模的 Logistic 回归模型。第一节 模型简介一、模型入门在很多场合下都能碰到反应变量为二分类的资料,如考察公司中总裁级的领导层中是否有女性职员、某一天是否下雨、某病患者结局是否痊愈、调查对象是否为某商品的潜在消费者等。对于分类资料的分析,相信大家并不陌生,当要考察的影响因素较少,且也为分类变量时,分析者常用列联表(contingency Table)的形式对这种资料进行整理,并使用检验来进行

2、分析,汉存在分类的混杂因素时,还可应用 Mantel-Haenszel 检验进行统2 2计学检验,这种方法可以很好地控制混杂因素的影响。但是这种经典分析方法也存在局限性,首先,它虽然可以控制若干个因素的作用,但无法描述其作用大小及方向,更不能考察各因素间是否存在交互任用;其次,该方法对样本含量的要求较大,当控制的分层因素较多时,单元格被划分的越来越细,列联表的格子中频数可能很小甚至为 0,将导致检验结果的不可靠。最后, 检验无法对连续性自变量的影响进行分析,而这将大大限制其应2用范围,无疑是其致使的缺陷。那么,能否建立类似于线性回归的模型,对这种数据加以分析?以最简单的二分类因变量为例来加以探

3、讨,为了讨论方便,常定义出现阳性结果时反应变量取值为 1,反之则取值为 0 。例如当领导层有女性职员、下雨、痊愈时反应变量 ,而没有女性职员、y未下雨、未痊愈时反应变量 。记出现阳性结果的频率为反应变量 。0y()P首先,回顾一下标准的线性回归模型: A1mYx如果对分类变量直接拟合,则实质上拟合的是发生概率,参照前面线性回归方程 ,很自然地会想到是否可以建立下面形式的回归模型: 1mPx显然,该模型可以描述当各自变量变化时,因变量的发生概率会怎样变化,可以满足分析的基本要求。实际上,统计学家们最早也在朝这一方向努力,并考虑到最小二乘法拟合时遇到的各种问题,对计算方法进行了改进,最终提出了加权

4、最小二乘法来对该模型进行拟合,至今这种分析思路还偶有应用。既然可以使用加权最小二乘法对模型加以估计,为什么现在又放弃了这种做法呢?原因在于有以下两个问题是这种分析思路所无法解决的:(1)取值区间:上述模型右侧的取值范围,或者说应用上述模型进行预报的范围为整 个实数集 ,而模型的左边的取值范围为 ,二者并不相符。模型本身(,)01P2不能保证在自变量的各种组合下,因变量的估计值仍限制在 01 内,因此可能分析者会得到这种荒唐的结论:男性、30 岁、病情较轻的患者被治愈的概率是 300%!研究者当然可以将此结果等价于 100%可以治愈,但是从数理统计的角度讲,这种模型显然是极不严谨的。(2)曲线关

5、联:根据大量的观察,反应变量 P 与自变量的关系通常不是直线关系,而是 S 型曲线关系。这里以收入水平和购车概率的关系来加以说明,当收入非常低时,收入的增加对购买概率影响很小;但是在收入达到某一阈值时,购买概率会随着收入的增加而迅速增加;在购买概率达到一定水平,绝大部分在该收入水平的人都会购车时,收入增加的影响又会逐渐减弱。如果用图形来表示,则如图 1 所示。显然,线性关联是线性回归中至关重要的一个前提假设,而在上述模型中这一假设是明显无法满足的。图 1 S 型曲线图以上问题促使统计学家们不得不寻求新的解决思路,如同在曲线回归中,往往采用变量变换,使得曲线直线化,然后再进行直线回归方程的拟合。

6、那么,能否考虑对所预测的因变量加以变换,以使得以上矛盾得以解决?基于这一思想,又有一大批统计学家在寻找合适的变换函数。终于,在 1970 年,Cox 引入了以前用于人口学领域的 Logit 变换(Logit Transformation),成功地解决了上述问题。那么,什么是 Logit 变换呢?通常的把出现某种结果的概率与不出现的概率之比称为比值(odds,国内也译为优势、比数 ),即 ,取其对数 。1Odsln()l1Ods这就是 logit 变换。下面来看一下该变换是如何解决上述两个问题的,首先是因变量取值区间的变化,概率是以 0.5 为对称点,分布在 01 的范围内的,而相应的 logi

7、t(P)的大小为:0logit()ln/).50.51lit()l1/)显然,通过变换,Logit( )的取值范围就被扩展为以 0 为对称点的整个实数域,这使得在任何自变量取值下,对 值的预测均有实际意义。其次,大量实践证明,Logit( )往往和自变量呈线性关系,换言之,概率和自变量间关系的 S 形曲线往往就符合 logit 函数关系,从而可以通过该变换将曲线直线化。因此,只需要以 Logit( )为因变量,建立包含 p3个自变量的 logistic 回归模型如下: 01logit()pPx以上即为 logistic 回归模型。由上式可推得:01exp()pPx 01e()pPx上面三个方程

8、式相互等价。通过大量的分析实践,发现 logistic 回归模型可以很好地满足对分类数据的建模需求,因此目前它已经成为了分类因变量的标准建模方法。通过上面的讨论,可以很容易地理解二分类 logistic 回归模型对资料的要求是:(1)反应变量为二分类的分类变量或是某事件的发生率。(2)自变量与 Logit( )之间为线性关系。(3)残差合计为 0,且服从二项分布。(4)各观测值间相互独立。由于因变量为二分类,所以 logistic 回归模型的误差应当服从二项分布,而不是正态分布。因此,该模型实际上不应当使用以前的最小二乘法进行参数估计,上次均使用最大似然法来解决方程的估计和检验问题。二、一些基

9、本概念由于使用了 logit 变换,Logistic 模型中的参数含义略显复杂,但有很好的实用价值,为此现对一些基本概念加以解释。1. 优势比如前所述,人们常把出现某种结果的概率与不出现的概率之比称为比值(odds) ,即。两个比值之比称为优势比(odds Ratio,简称 OR) 。首先考察 OR 的特性:1Pods若 ,则2122Podsods若 ,则1P122若 ,则2122Podsods显然,OR 是否大于 1 可以用作两种情形下发生概率大小的比较。2. Logistic 回归系数的意义从数学上讲, 和多元回归中系数的解释并无不同,代表 改变一个单位时 logit(P)的x平均改变量,

10、但由于 odds 的自然对数即为 logit 变换,因此 Logistic 回归模型中的系数和OR 有着直接的变换关系,使得 Logistic 回归系数有更加贴近实际的解释,从而也使得该模型得到了广泛的应用。下面用一个实例加以说明:以 4 格表资料为例具体说明各回归系数的意义:4表 1 4 格表资料治疗结果(outcome)治疗方法(treat) 治愈(1) 未治愈(0) 合计 治愈率新疗法(1) 60 (a) 21 (c) 81 74.07%传统疗法(0) 42 (b) 27 (d) 69 60.87%合计 102 48 130 68.00%该资料如果拟合 Logistic 回归模型,则结果

11、如下(操作步骤详见后述):01(|)0.42.68LogitPucmetreatrea(1)常数项:表示自变量取全为 0(称基线状态)时,比数(Y=1 与 Y=0 的概率之比)的自然对数值,本例中为 ,0.42ln(/69)(7/)ln(/7l(/)bd 即传统疗法组的治愈率与未治愈率之比的自然对数值。在不同的研究设计中,常数项的具体含义可能不同,如基线状态下个体患病率、基线个体发病率、基线状态中病例所占比例等,但这些数值的大小研究者一般并不关心。(2)各自变最的回归系数: 表示自变量 每改变一个单位,优势比的i(1,)p ix自然对数值改变量,而 即 OR 值,表示自变量 每变化一个单位,阳

12、性结果出现exp()i i概率与不出现概率的比值是变化前的相应比值的倍数,即优势比(注意:不是出现阳性结果的概率为变化前的倍数,即优势比并不等同于相对危险度) 。本例中自变量治疗方法的回归系数 ,为两组病人的治愈率与未治愈率之比10.68的对数值之差,即 。因此,ln(60/8)(2/)ln(42/9)(7/6)ln(/)adbc对于四格表资料而言,所建立的 Logistic 回归模型也可以写成:logit(|1)l(/)l(/)l(/)l()PucmebdabctreORtre由以上关系可知, 表示传统疗法组的治愈率与未治愈之比值。 则表0xp 1xp示治疗方法增加一个单位,即将疗法从传统疗

13、法改为新疗法时,新疗法组病人治愈率与未治愈率之比值相对于传统疗法组病人的治愈率与未治愈率比值的倍数。而两组病人的治愈率之比 ,并不完全相同。但是,当研究结果出现阳性的概率(60/81)(42/69)1.7较小时(一般认为小于 0.1 ,反之当概率大于 0.9 时亦可) ,OR 值大小和发生概率之比非常接近,此时可以近似地说一组研究对象的阳性结果发生率是另一组研究对象发生率的OR 值倍,即用 OR 值的大小来挖地表示相对危险度的大小。三、简单分析实例SPSS 中通过 regression 模块中的 Binary Logistic 过程实现结果变量为二分类的 Logistic回归,下面通过一个实例

14、分析,具体讲解相应的操作和结果解释。例 1 某医师希望研究病人的年龄(岁) 、性别(0 为女性,1 为男性) 、心电图检验是否5异常(ST 段压低,0 为正常、 1 为轻度异常、2 为重度异常)与患冠心病是否有关。调用 SPSS 中的 Binary Logistic 过程:图 2 Logistic 回归主对话框本例中涉及的对话框界面如图 9.2 所示,注意对话框中部有一个以前未出现过的 a*b按钮、用于纳入交互作用,只要先将相应变量选中,然后单击此按钮,相应的交互项就会被纳入模型。本例因较为简单,未用到此功能。性别虽为分类变量,但仅有两个取值水平,所以可以直接引入模型,结果仍然可以被正常解释。

15、结果如下:首先输出分析中使用的记录数汇总,此处略。表2 Dependent Variable EncodingOriginal Value Internal Value未患病 0患病 1表2为因变量的取值水平编码,SPSS拟合模型时默认取值水平高的为阳性结果,对于本例来讲,拟合的模型是logit(P|y=患病)。随后进行模型拟合,首先给出的是模型不含任何自变量,而只有常数项(即无效模型)时的输出结果,标题为:“Block 0: Beginning Block”。此时的模型为:00exp()exp(.103)log().13, .527itpP表3 Classification Tablea,b

16、Observed Predicted6是否患冠心病未患病 患病Percentage Correct未患病 0 37 .0是否患冠心病患病 0 41 100.0Step 0Overall Percentage 52.6a. Constant is included in the model.b. The cut value is .500表9.3输出的是模型中仅含有常数项(见表4)时计算的预测分类结果,SPSS根据p值是否大于0.5将观察对象判断为是否出现阳性结果,即是否患冠心病。由于模型中仅含有常数项,因此所有人的预测概率均为样本率估计值P0.5257,将所有的观察对象均判断为冠心病。判断正确率为52.6%,实际上就是全部研究对象的患病率41、780.5256(细小差别为四舍五入产生)。也就是说,由于当前样本中

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号