逻辑回归模型分析见解

资源描述

《逻辑回归模型分析见解》由会员分享，可在线阅读，更多相关《逻辑回归模型分析见解（7页珍藏版）》请在金锄头文库上搜索。

1、考虑具有p个独立变量的向量设条件概率-/为根据观测量相对于某事件发生的概率。逻辑回归模型可表示为1.1上式右侧形式的函数称为称为逻辑函数。下列图给出其函数图象形式。其中-l+C。如果含有名义变量，则将其变为dummy变量。一个具有k个取值的名义变量，将变为k-1个dummy变量。这样，有eW=AWWmi1.2定义不发生事件的条件概率为那么，事件发生与事件不发生的概率之比为刊“小)1沖简称为odds。因为这个比值称为事件的发生比(theoddsofexperiencinganevent),0p0。对odds取对数，即得到线性函数，gJ;1鬲一炉齐_T,+i0気心11.5假设有n个观测样本，观测值

2、分别为设I-为给定条件下是，得到X的概率。在同样条件下得到的条件概率为I-。得到一个观测值的概率为1.6因为各项观测独立，所以它们的联合分布可以表示为各边际分布的乘积。71.7上式称为n个观测的似然函数。我们的目标是能够求出使这一似然函数的值最大的参数估计。于是，最大似然估计的关键就是求出参数1丄，使上式取得最大值。对上述函数求对数迺仙討如；11!v.jL:叙UM1.8上式称为对数似然函数。为了估计能使取得最大的参数的值。对此函数求导，得到p+1个似然方程。3a讥-JL-_3-1.9i十抑-曲朴r心.，j=1,2,.,p.上式称为似然方程。为了解上述非线性方程，应用牛顿-拉斐森进行迭代求解。(

3、Newton-Raphson)方法1.3牛顿-拉斐森迭代法对”求二阶偏导数，即Hessian矩阵为勰备心）1.10如果写成矩阵形式,1Xu*以H表示Hessian矩阵，X表示1.11好1-(1则二二y。再令然方程的矩阵形式。1理1坷戸1-11心-呵,1111_1%必-%1.12（注：前一个矩阵需转置），即似得牛顿迭代法的形式为1.13注意到上式中矩阵H为对称正定的，求解对H进行cholesky分解。最大似然估计的渐近方差asymptotic即为求解线性方程HX=U中的矩阵X。varianee和协方差（covarianee）可以由信息矩阵informationmatrix的逆矩阵估计出来。而信息

4、矩阵实际上是二阶导数的负值,表示为儿。估计值的方差和协方差表示为-：:5=,也就是说，估计值，八的方差为矩阵I的逆矩阵的对角线上的值，而估计值和的协方差为除了对角线以外的值。然而在多数情况，我们将使用估计值-的标准方差，表示为forj=0,1,2.,p1.14下面讨论在逻辑回归模型中自变量?l是否与反应变量显著相关的显著性检验。零假设门=0表示自变量r对事件发生可能性无影响作用。如果零假设被拒绝，说明事件发生可能性依赖于*的变化。Waldtest对回归系数进行显著性检验时，通常使用Wald检验，其公式为卽喊右）F2.1上海卜其中，广为厂的标准误差。这个单变量Wald统计量服从自由度等于1的分布

5、。如果需要检验假设J2:：-=0,计算统计量2.2其中，L为去掉：所在的行和列的估计值，相应地,料小A为去掉所在的行和列的标准误差。这里，Wald统计量服从自由度等于p的分布。如果将上式写成矩阵形式,=ceATe3）eTL（e3）2.3矩阵Q是第一列为零的一常数矩阵。例如，如果检验Wald然而当回归系数的绝对值很大时，这一系数的估计标准误就会膨胀，于是会导致统计值变得很小，以致第二类错误的概率增加。也就是说，在实际上会导致应该拒绝零假设时却未能拒绝。所以当发现回归系数的绝对值很大时，就不再用Wald统计值来检验零假设,而应该使用似然比检验来代替。2.1 似然比Likelihoodratiote

6、st丨检验在一个模型里面，含有变量二与不含变量J的对数似然值乘以-2的结果之差，服从一分布。这一检验统计量称为似然比(likelihoodratio)，用式子表示为2.4计算似然值采用公式1.8。%儿-0,计算统计量亡-才工咒口=14.一-理：曲1-M山們！一绍疋*门一好血.曲1、2.52.2 上式中，表示二=0的观测值的个数，而表示二=1的观测值的个数，那么n就表示所有观测值的个数了。实际上，上式的右端的右半部分|二一!y二表示只含有J的似然值。统计量G服从自由度为p的厂分布Score检验在零假设八：r=0下，设参数的估计值为，即对应的=0。计算Score统计量的公式为上式中表示在J=0下的

7、对数似然函数1.9丨的一价偏导数值，而n表示在门=0下的对数似然函数1.9的二价偏导数值。Score统计量服从自由度等于1的一分布。2.3 模型拟合信息模型建立后，考虑和比较模型的拟合程度。有三个度量值可作为拟合的判断根据。-2LogLikelihood-7仙r=+ci-Z15k(1-一(2.7)Akaike信息准则AkaikeInformationCriterion,简写为AIC=或+2黑+小幼其中K为模型中自变量的数目，S为反应变量类别总数减1,对于逻辑回归有S=2-仁1-2LogL的值域为0至，其值越小说明拟合越好。当模型中的参数数量越大时，似然值也就越大，-2LogL就变小。因此，将2

8、(K+S)加到AIC公式中以抵销参数数量产生的影响。在其它条件不变的情况下，较小的AIC值表示拟合模型较好。(3)Schwarz准则这一指标根据自变量数目和观测数量对-2LogL值进行另外一种调整。SC指标的定义为=十2徑+曲刖其中ln(n)是观测数量的自然对数。这一指标只能用于比较对同一数据所设的不同模型。在其它条件相同时，一个模型的AIC或SC值越小说明模型拟合越好。odds=p/(1-p)，即事件发生的概率与不发生的概率之比。而发生比率(oddsration),OR=即nddSiodds连续自变量。对于自变量J，每增加一个单位，oddsration为OR(3.1)二分类自变量的发生比率。

9、变量的取值只能为0或1，称为dummyvariable。当-取值为1，对于取值为0的发生比率为二/(3.2)亦即对应系数的幕。(3)分类自变量的发生比率。如果一个分类变量包括m个类别，需要建立的dummyvariable的个数为m-1,所省略的那个类别称作参照类(refereneecategory)。设dummyvariable为；，其系数为；，对于参照类，其发生比率为皿。3.2逻辑回归系数的置信区间对于置信度1-二，参数叱的100%1-上的置信区间为瓦土兀X恥札73.3冬隔A上式中，为与正态曲线下的临界乙值criticalvalue,、为系数估计的标A-兀x号rS矢准误差，和-两值便分别是置

10、信区间的下限和上限。当样本料较大时，匚r的95%置信区间为3.44.1前向选择forwardselection：在截距模型的基础上，将符合所定显著水平的自变量一次一个地加入模型。具体选择程序如下1常数即截距进入模型。2根据公式2.6丨计算待进入模型变量的Score检验值，并得到相应的P值。3找出最小的p值，如果此p值小于显著性水平-,则此变量进入模型。如果此变量是某个名义变量的单面化(dummy)变量，则此名义变量的其它单面化变理同时也进入模型。不然，说明没有变量可被选入模型。选择过程终止。4回到(2)继续下一次选择。4.2后向选择backwardselection：在模型包括所有候选变量的基

11、础上，将不符合保留要求显著水平的自变量一次一个地删除。(1) 具体选择程序如下所有变量进入模型。(2) 根据公式2.1丨计算所有变量的Wald检验值，并得到相应的p值。找出其中最大的p值，如果此P值大于显著性水平才，则此变量被剔除。对于某个名义变量的单面化变量，其最小p值大于显著性水平：“，则此名义变量的其它单面化变量也被删除。不然，说明没有变量可被剔除，选择过程终止。(3) 回到(2)进行下一轮剔除。4.3逐步回归(stepwiseselection)基本思想：逐个引入自变量。每次引入对Y影响最显著的自变量，并对方程中的老变量逐个进行检验，把变为不显著的变量逐个从方程中剔除掉，最终得到的方程

12、中既不漏掉对Y影响显著的变量，又不包含对Y影响不显著的变量。筛选的步骤：首先给出引入变量的显著性水平、和剔除变量的显著性水平，然后按下列图筛选变量。w珀邛一上、”补-3I胪班I厂焉心祚J些十”丸匕才,一程=上1J初虎谊测审谛丘皇I逐步筛选法的基本步骤逐步筛选变量的过程主要包括两个基本步骤：一是从不在方程中的变量考虑引入新变量的步骤；二是从回归方程中考虑剔除不显著变量的步骤。假设有p个需要考虑引入回归方程的自变量.设仅有截距项的最大似然估计值为。对p个自变量每个分别计算Score检验值，设有最小p值的变量为r-,且有对于单面化(dummy)变量，也如此。假设-?,则此变量进入模型，不然停止。如果

13、此变量是名义变量单面化(dummy)的变量，则此名义变量的其它单面化变量也进入模型。其中为引入变量的显著性水平。为了确定当变量在模型中时其它p-1个变量也是否重要，将-分别与进行拟合。对p-1个变量分别计算Score检验值，其p值设为八，。设有最小p值的变量为7且有丿“厂.假设匸、f，则进入下一步，不然停止。对于单面化变量，其方式如同上步。此步开始于模型中已含有变量与。注意到有可能在变量被引入后，变量：不再重要。本步包括向后删除。根据(2.1)计算变量厂与、：的Wald检验值，和相应的p值。设为具有最大p值的变量，即=max()，一-二.如果此p值大于，则此变量从模型中被删除，不然停止。对于名义变量，如果某个单面化变量的最小p值大于，则此名义变量从模型中被删除。如此进行下去，每当向前选择一个变量进入后，都进行向后删除的检查。循环终止的条件是：所有的p个变量都进入模型中或者模型中的变量的p值小于，不包含在模型中的变量的p值大于o或者某个变量进入模型后，在下一步又被删除，形成循环。

展开阅读全文