逻辑回归模型分析见解

上传人:公**** 文档编号:474326411 上传时间:2023-01-07 格式:DOCX 页数:7 大小:37.51KB
返回 下载 相关 举报
逻辑回归模型分析见解_第1页
第1页 / 共7页
逻辑回归模型分析见解_第2页
第2页 / 共7页
逻辑回归模型分析见解_第3页
第3页 / 共7页
逻辑回归模型分析见解_第4页
第4页 / 共7页
逻辑回归模型分析见解_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《逻辑回归模型分析见解》由会员分享,可在线阅读,更多相关《逻辑回归模型分析见解(7页珍藏版)》请在金锄头文库上搜索。

1、考虑具有p个独立变量的向量设条件概率-/为根据观测量相对于某事件发生的概率。逻辑回归模型可表示为1.1上式右侧形式的函数称为称为逻辑函数。下列图给出其函数图象形式。其中-l+C。如果含有名义变量,则将其变为dummy变量。一个具有k个取值的名义变量,将变为k-1个dummy变量。这样,有eW=AWWmi1.2定义不发生事件的条件概率为那么,事件发生与事件不发生的概率之比为刊“小)1沖简称为odds。因为这个比值称为事件的发生比(theoddsofexperiencinganevent),0p0。对odds取对数,即得到线性函数,gJ;1鬲一炉齐_T,+i0気心11.5假设有n个观测样本,观测值

2、分别为设I-为给定条件下是,得到X的概率。在同样条件下得到的条件概率为I-。得到一个观测值的概率为1.6因为各项观测独立,所以它们的联合分布可以表示为各边际分布的乘积。71.7上式称为n个观测的似然函数。我们的目标是能够求出使这一似然函数的值最大的参数估计。于是,最大似然估计的关键就是求出参数1丄,使上式取得最大值。对上述函数求对数迺仙討如;11!v.jL:叙UM1.8上式称为对数似然函数。为了估计能使取得最大的参数的值。对此函数求导,得到p+1个似然方程。3a讥-JL-_3-1.9i十抑-曲朴r心.,j=1,2,.,p.上式称为似然方程。为了解上述非线性方程,应用牛顿-拉斐森进行迭代求解。(

3、Newton-Raphson)方法1.3牛顿-拉斐森迭代法对”求二阶偏导数,即Hessian矩阵为勰备心)1.10如果写成矩阵形式,1Xu*以H表示Hessian矩阵,X表示1.11好1-(1则二二y。再令然方程的矩阵形式。1理1坷戸1-11心-呵,1111_1%必-%1.12(注:前一个矩阵需转置),即似得牛顿迭代法的形式为1.13注意到上式中矩阵H为对称正定的,求解对H进行cholesky分解。最大似然估计的渐近方差asymptotic即为求解线性方程HX=U中的矩阵X。varianee和协方差(covarianee)可以由信息矩阵informationmatrix的逆矩阵估计出来。而信息

4、矩阵实际上是二阶导数的负值,表示为儿。估计值的方差和协方差表示为-::5=,也就是说,估计值,八的方差为矩阵I的逆矩阵的对角线上的值,而估计值和的协方差为除了对角线以外的值。然而在多数情况,我们将使用估计值-的标准方差,表示为forj=0,1,2.,p1.14下面讨论在逻辑回归模型中自变量?l是否与反应变量显著相关的显著性检验。零假设门=0表示自变量r对事件发生可能性无影响作用。如果零假设被拒绝,说明事件发生可能性依赖于*的变化。Waldtest对回归系数进行显著性检验时,通常使用Wald检验,其公式为卽喊右)F2.1上海卜其中,广为厂的标准误差。这个单变量Wald统计量服从自由度等于1的分布

5、。如果需要检验假设J2::-=0,计算统计量2.2其中,L为去掉:所在的行和列的估计值,相应地,料小A为去掉所在的行和列的标准误差。这里,Wald统计量服从自由度等于p的分布。如果将上式写成矩阵形式,=ceATe3)eTL(e3)2.3矩阵Q是第一列为零的一常数矩阵。例如,如果检验Wald然而当回归系数的绝对值很大时,这一系数的估计标准误就会膨胀,于是会导致统计值变得很小,以致第二类错误的概率增加。也就是说,在实际上会导致应该拒绝零假设时却未能拒绝。所以当发现回归系数的绝对值很大时,就不再用Wald统计值来检验零假设,而应该使用似然比检验来代替。2.1 似然比Likelihoodratiote

6、st丨检验在一个模型里面,含有变量二与不含变量J的对数似然值乘以-2的结果之差,服从一分布。这一检验统计量称为似然比(likelihoodratio),用式子表示为2.4计算似然值采用公式1.8。%儿-0,计算统计量亡-才工咒口=14.一-理:曲1-M山們!一绍疋*门一好血.曲1、2.52.2 上式中,表示二=0的观测值的个数,而表示二=1的观测值的个数,那么n就表示所有观测值的个数了。实际上,上式的右端的右半部分|二一!y二表示只含有J的似然值。统计量G服从自由度为p的厂分布Score检验在零假设八:r=0下,设参数的估计值为,即对应的=0。计算Score统计量的公式为上式中表示在J=0下的

7、对数似然函数1.9丨的一价偏导数值,而n表示在门=0下的对数似然函数1.9的二价偏导数值。Score统计量服从自由度等于1的一分布。2.3 模型拟合信息模型建立后,考虑和比较模型的拟合程度。有三个度量值可作为拟合的判断根据。-2LogLikelihood-7仙r=+ci-Z15k(1-一(2.7)Akaike信息准则AkaikeInformationCriterion,简写为AIC=或+2黑+小幼其中K为模型中自变量的数目,S为反应变量类别总数减1,对于逻辑回归有S=2-仁1-2LogL的值域为0至,其值越小说明拟合越好。当模型中的参数数量越大时,似然值也就越大,-2LogL就变小。因此,将2

8、(K+S)加到AIC公式中以抵销参数数量产生的影响。在其它条件不变的情况下,较小的AIC值表示拟合模型较好。(3)Schwarz准则这一指标根据自变量数目和观测数量对-2LogL值进行另外一种调整。SC指标的定义为=十2徑+曲刖其中ln(n)是观测数量的自然对数。这一指标只能用于比较对同一数据所设的不同模型。在其它条件相同时,一个模型的AIC或SC值越小说明模型拟合越好。odds=p/(1-p),即事件发生的概率与不发生的概率之比。而发生比率(oddsration),OR=即nddSiodds连续自变量。对于自变量J,每增加一个单位,oddsration为OR(3.1)二分类自变量的发生比率。

9、变量的取值只能为0或1,称为dummyvariable。当-取值为1,对于取值为0的发生比率为二/(3.2)亦即对应系数的幕。(3)分类自变量的发生比率。如果一个分类变量包括m个类别,需要建立的dummyvariable的个数为m-1,所省略的那个类别称作参照类(refereneecategory)。设dummyvariable为;,其系数为;,对于参照类,其发生比率为皿。3.2逻辑回归系数的置信区间对于置信度1-二,参数叱的100%1-上的置信区间为瓦土兀X恥札73.3冬隔A上式中,为与正态曲线下的临界乙值criticalvalue,、为系数估计的标A-兀x号rS矢准误差,和-两值便分别是置

10、信区间的下限和上限。当样本料较大时,匚r的95%置信区间为3.44.1前向选择forwardselection:在截距模型的基础上,将符合所定显著水平的自变量一次一个地加入模型。具体选择程序如下1常数即截距进入模型。2根据公式2.6丨计算待进入模型变量的Score检验值,并得到相应的P值。3找出最小的p值,如果此p值小于显著性水平-,则此变量进入模型。如果此变量是某个名义变量的单面化(dummy)变量,则此名义变量的其它单面化变理同时也进入模型。不然,说明没有变量可被选入模型。选择过程终止。4回到(2)继续下一次选择。4.2后向选择backwardselection:在模型包括所有候选变量的基

11、础上,将不符合保留要求显著水平的自变量一次一个地删除。(1) 具体选择程序如下所有变量进入模型。(2) 根据公式2.1丨计算所有变量的Wald检验值,并得到相应的p值。找出其中最大的p值,如果此P值大于显著性水平才,则此变量被剔除。对于某个名义变量的单面化变量,其最小p值大于显著性水平:“,则此名义变量的其它单面化变量也被删除。不然,说明没有变量可被剔除,选择过程终止。(3) 回到(2)进行下一轮剔除。4.3逐步回归(stepwiseselection)基本思想:逐个引入自变量。每次引入对Y影响最显著的自变量,并对方程中的老变量逐个进行检验,把变为不显著的变量逐个从方程中剔除掉,最终得到的方程

12、中既不漏掉对Y影响显著的变量,又不包含对Y影响不显著的变量。筛选的步骤:首先给出引入变量的显著性水平、和剔除变量的显著性水平,然后按下列图筛选变量。w珀邛一上、”补-3I胪班I厂焉心祚J些十”丸匕才,一程=上1J初虎谊测审谛丘皇I逐步筛选法的基本步骤逐步筛选变量的过程主要包括两个基本步骤:一是从不在方程中的变量考虑引入新变量的步骤;二是从回归方程中考虑剔除不显著变量的步骤。假设有p个需要考虑引入回归方程的自变量.设仅有截距项的最大似然估计值为。对p个自变量每个分别计算Score检验值,设有最小p值的变量为r-,且有对于单面化(dummy)变量,也如此。假设-?,则此变量进入模型,不然停止。如果

13、此变量是名义变量单面化(dummy)的变量,则此名义变量的其它单面化变量也进入模型。其中为引入变量的显著性水平。 为了确定当变量在模型中时其它p-1个变量也是否重要,将-分别与进行拟合。对p-1个变量分别计算Score检验值,其p值设为八,。设有最小p值的变量为7且有丿“厂.假设匸、f,则进入下一步,不然停止。对于单面化变量,其方式如同上步。 此步开始于模型中已含有变量与。注意到有可能在变量被引入后,变量:不再重要。本步包括向后删除。根据(2.1)计算变量厂与、:的Wald检验值,和相应的p值。设为具有最大p值的变量,即=max(),一-二.如果此p值大于,则此变量从模型中被删除,不然停止。对于名义变量,如果某个单面化变量的最小p值大于,则此名义变量从模型中被删除。如此进行下去,每当向前选择一个变量进入后,都进行向后删除的检查。循环终止的条件是:所有的p个变量都进入模型中或者模型中的变量的p值小于,不包含在模型中的变量的p值大于o或者某个变量进入模型后,在下一步又被删除,形成循环。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 活动策划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号