第8章 logistic回归模型

资源描述

《第8章 logistic回归模型》由会员分享，可在线阅读，更多相关《第8章 logistic回归模型（98页珍藏版）》请在金锄头文库上搜索。

1、第八章,Logistic回归模型,许多社会科学的观察都只分类而不是连续的比如，政治学中经常研究的是否选举某候选人又如，经济学研究中所涉及的是否销售或购买某种商品、是否签订个合同等等这种选择量度通常分为两类，即“是与“否” 在社会学和人口研究中，人们的社会行为与事件的发生如犯罪、逃学、迁移、结婚、离婚、患病等等都可以按照二分类变量来测量。,线性回归模型在定量分析中也许是最流行的统计分析方法，然而在许多情况下，线性回归会受到限制.比如，当因变量是一个分类变量，不是一个连续变量时，线性回归就不适用,严重违反假设条件. 分类变量分析通常采用对数线性模型(Log-linear model), 而因变量

2、为二分变量时, 对数线性模型就变成Logistic回归模型.,logistic回归是一个概率型模型，因此可以利用它预测某事件发生的概率。例如在临床上可以根据患者的一些检查指标，判断患某种疾病的概率有多大。,目的：作出以多个自变量（危险因素）估计应变量（结果因素）的logistic回归方程。属于概率型非线性回归。,资料：1. 应变量为反映某现象发生与不发生的二值变量；2. 自变量宜全部或大部分为分类变量，可有少数数值变量。分类变量要数量化。,用途：研究某种疾病或现象发生和多个危险因素（或保护因子）的数量关系。,1.成组（非条件）logistic回归方程。2.配对（条件）logistic回归方程。

3、,第八章,第一节,机动目录上页下页返回结束,logistic回归模型,一、两分类因变量与Logistic回归模型,事件发生的条件概率P(yi=1|xi)与xi之间的非线性关系通常是单调函数，假设有一个理论上存在的连续反应变量yi代表事件发生的可能性，其值域为负无穷至正无穷当该变量的值跨越一个临界点c(比如co)，使导致事件发生于是有：,这里，yi是实际观察到的反应变量, yi1表示事件发生 yi0表示事件未发生如果假设在反应变量yi* 和自变量xi之间存在一种线性关系，即,如果假设在反应变量yi* 和自变量xi之间存在一种线性关系，即,这里，yi是实际观察到的反应变量,yi1 表

4、示事件发生yi0 表示事件未发生,由上面的式子得到：,通常，假设公式中误差项i有logistic分布或标准正态分布由于logistic分布和标准正态分布都是对称的，得到：,如果i为logistic分布，就得到logistic模型;如果i为标准正态分布，就得到probit模型.,其中F为累积分布函数.,当i为logistic分布时:,上式可以变换为:,记条件概率,得logistic回归模型,pi是xi的非线性函数，可以转换为线性函数,定义不发生事件的条件概率为:,那么事件发生概率与不发生概率之比为:,这个比率成为事件的发生比（the odds of theexperiencing an even

5、t ）,简称odds，对odds取对数，可以得到对数发生比：,上面的式子由于做了对数变换，被称作logit形式，也称作y的logit,即logit(y).,当有k个自变量时，相应的logistic 回归模型将有如下形式：,其中，pi=P(yi=1|x1i,x2i,xki)为在给定系列自变量x1, x2,xki的值时事件发生概率。,第八章,第二节,机动目录上页下页返回结束,Logistic回归模型估计,最大似然估计(Maximum Likelihood Estimation),最大似然估计法既可以用于线性模型，也可以用于更为复杂的非线性估计,方法: 首先要建立似然函数(Likeliho

6、od function) 将观测数据的概率表示为未知模型的参数选择能够使这一函数达到最大的参数估计,一、建立似然函数,假设有由N个案例构成的总体、Yl，YN，从中随机抽取n个案例作为样本，观测值标注为Yl, , yn, 设piP(yi=1|xi)为给定xi的条件下得到结果yi1的条件概率。,而在同样条件下得到结果yi0的条件概率为1-pi,于是得到一个观测值的概率为：,其中yi=0或1 ，联合分布可以表示为各个边际分布的乘积：,似然函数取对数为了求最大的估计参数, 得到回归模型的对数似然函数:,分别对，求偏导，令它等于0，可以得到似然方程组:,由于方程是和的非线性函数,求解是通过计算机迭代计

7、算完成的. 得到和的最大似然估计值,从上面的两个公式的得到的，的值估计就是最大似然估计。按照惯例，用表示估计值，p表示条件概率的估计值,这个值是在给定x i的条件下yi=1的条件概率的估计。它代表了logistic模型的拟合值或预测值，令偏导函数等于0时，,这意味着观测值之和等于预测概率之和，这一性质在评价模型拟和情况时非常有用。,二、模型估计的假设条件,1.数据必须来自于随机样本,2.因变量Yi被假设为K个自变量Xki的函数,3.Xi对多重共线性敏感,自变量之间存在的多重共线性会导致标准误的膨胀。,4.因变量是分类变量,5.因变量和各自变量之间的关系是非线性的,6.在OLS回归中要假设方差不

8、变，类似的假设在logistic中不需要,7. 没有关于自变量分布的假设条件，自变量可以是连续变量，也可以使离散变量，还可以是虚拟变量，并且不需要假设它们之间存在多元正态分布,三、最大似然估计的性质,logistic的最大似然估计与OLS估计的性质几乎完全相同，即logistic的最大似然估计有:,一致性，渐进有效性渐进正态性,四、模型估计的样本规模,最大似然估计具有的一致性、有效性和正态性都是一些很好的统计件质，然而保持这些性质的条件为样本规模要很大,但是，这并不等于说最大似然估计在小样本时统计性质就定不好简单而言，我们通常并不知道在小样本时的统计性质究竞如何。,更实际的问题是，样本在多大

9、时就可以应用最大似然化计，或多大样本可以保证统计检验得到显著的结果这个问题现无明确的答案许多研究者在没有其他方法可供选择的条件下，便无论对大样本还是对小样本都用最大似然估计方法,根据一些资深研究人员的看法，最大似然估计的大样本性质维持得较好，即使在中等规模样本(比如M100)的条件下也能够接受。Long (1997)提到，在样本规模小于100时使用最大似然估计风险较大样本大于500时就显得比较充分了。,第八章,第三节,机动目录上页下页返回结束,Logistic回归模型的评价,模型估计完成以后，我们需要评价模型如何有效地描述反应金旦及模型匹配配观测数据的程度如果模型的预测值能够与对应的

10、观测值有较高的一致性，就认为这一模型拟和数据否则，将不能接受这一模型，就需要对模型重新设置。,一、拟和优度,检验预测值与观测值之间差别,在开始讨论具体拟合优度统计指标之前，先介绍一下协变类型的概念, 这一概念又称为子总体. 协变类型描述的是模型中协变量不同值的特定组合.,如果模型中只包括两个分类变量,比如性别和重点大学, 出于性别和重点大学都是二分类变量，因此模型中只有4种(即2x 2)可能的协变类型组合,即协变类型或子总体为4个。,在固定样本规模n情况下，协变类型越多，每个类型(即每个子总体)中的案例数nj就越少在每个协变类型中，预测的事件发生频数表示为nj*，其中是第j种协变类型中事件发生

11、的模型预测概率。与此类似，我们也可以计算每种协变类型中事件末发生的频数.,二、皮尔逊,皮尔逊可以用通过比较模型预测的和观测的事件发生和不发生的频数检验模型成立的假设.,将观测频数和预测频数代入标准计算公式,J是协变类型的种类数目,Oj和Ej分别为第j类协变类型中的观测频数和预测频数,卡方值很小,意味着预测值与观测值之间没有显著差别,卡方值很大,意味着预测值与观测值之间有显著差别,拟合不佳,三、偏差,观测值和预测值的比较还可以根据对数似然函数表示，以作为模型所估计得最大似然值，它概括了样本数据由这一模型所拟和的程度，由于这一统计量不能独立于样本规模，因此不能根据它的值估计模型的拟和优度,对于同

12、一套数据还必须有一个基准模型作为比较所设模型拟和优度的标准。一种基准模型为保和模型，它的最大似然值为，通过比较和，便可以估计所设模型代表数据的充分程度。,通常采用-2乘以设定模型和饱和模型的最大似然值的对数：,D统计量被称为偏差，D值越小，拟和优度越好。,四、Hosmer-Lemeshow拟合优度指标,当自变量数量增加时，尤其是连续自变量纳入模型之后，协变类型的数量便会很大，于是许多协变类型只有很少的观测案例结果，偏差和皮尔逊卡方值不再适用于估计拟合优度Hosmer-Lemeshow研究了一种对logistic模型拟和优度的检验方法。,Hosmer-Lemeshow指标(记为HL)是一种类

13、似于皮尔逊2统计量的指标.它可以从观测频数和预测频数构成的2*G交互表中求得其统计公式如下:,其中G代表分组数，且G10 ,ng为第n组中的案例数；yg为第g组事件的观测数量；为第g组的预测事件概率；ng 为事件的预测数，实际上它等于第g组的预测概率之和,五、信息测量类指标,另一种估计logistic回归模型的拟合优度的指标是信息测量类的指标这些指标也可以用来比较不同模型的优劣其中一种著名的信息测量指标是Aknike信息标准。它的定义如下:,其中K为模型中自变量的个数；S是反应变量类别总数减1（对于logistic回归有S=2-1），n是观测数量，是所设模型的估计最大似然值的自然对数, 其值

14、较大表示拟合较好.,其他条件不变的情况下,较小的AIC值表示拟合模型较好.AIC指标还常常应用于比较不同样本的模型,或应用于比较非嵌套关系的模型,而这些模型的比较不能采用似然比(L.R.)检验.,六、Logistic回归模型的预测准确性类R2指标,线性回归的R2有一种十分诱人的解释特性，即它描述因变量的变动中模型的自变量所“解释”的百分比但是，在logistic回归分析中却没有相应的统计指标,不过，在模型似然值对数的基础上，可以为logistic同归模型计算某种类似R2的指标，表示如下：,与R2类似，LRI在0到1之间。当自变量与因变量完全不相关时（即所有的回归系数为0），LRI=0。当模型的

15、拟合程度提高时，LRI值增加，拟合得越好，LRI越接近1。,七、模型卡方统计,线性回归及AN0VA模型中常用自由度分别为K和n-K-1的F检验(来检验“除常数项外的所有系数都等于0”的无关假设。,logistic回归中服务于同一目的的检验却是似然比检验，它可以用来检验logistic回归模型是否统计件显著,似然比统计量近似地服从于卡方分布。,实际上，模型卡方与多元线性回归中的F检验十分类似.,模型卡方作为一种卡方统计量来检验可以提供关于零假设(即除常数项外的所有系数都等于0的假设，通常以公式表示为: H0: B1=B2=Bk=0,第八章,第四节,机动目录上页下页返回结束,Logistic回归系数的解释,当logistic回归模型能够较好地拟合数据时，便可以对模型的系数进行解释了类似于线性同归系数，logistic回归系数也可以被解释为对应自变量一个单位的变化所导致的因变量上的变化.,logistic回归模型的系数如果是正值且统计显著，意味着在控制其他自变量的条件下对数发生比随对应自变量值增加而增加;,相反，一个显著的负系数代表对数发生比随对应自变量的增加而减少;,如果系数的统计性不显著，说明对应自变量的作用在统计上与0无差异.,

展开阅读全文