逻辑回归模型－金锄头文库

资源描述

《逻辑回归模型》由会员分享，可在线阅读，更多相关《逻辑回归模型（10页珍藏版）》请在金锄头文库上搜索。

1、博客园首页逻辑回归模型作者：zgw21cn来源：博客园发布时间：2008-08-29 17:21阅读：7161次原文链接收藏1逻辑回归模型1.1逻辑回归模型考虑具有p个独立变量的向量Ea心），设条件概率= F为根据观测量相对于某事件发生的概率。逻辑回归模型可表示为P(y = I|x) = Xx) = _l_(1.1)上式右侧形式的函数称为称为逻辑函数。下图给出其函数图象形式。其中E二矗+朋+恥+必帝。如果含有名义变量，则将其变为dummy变量。一个具有k个取值的名义变量，将变为k-1个dummy变量。这样，有（1.2）定义不发生事件的条件概率为r(r - n - j - ft -11

2、 j!4-；(1.3)那么，事件发生与事件不发生的概率之比为严）这个比值称为事件的发生比（the odds of expe rie nci ng an eve nt）,简称为odds。因为 Ovpvl,故odds0。对odds取对数，即得到线性函数，(1.5)如J:-爲： 2 為心“哄-p 1歹：1.2极大似然函数假设有n个观测样本,观测值分别为h入设戸二=1丨丙）为给定条件下得到戸=1的概率。在同样条件下得到戸=的条件概率为尸=丨吗）=1-凤。于是, 得到一个观测值的概率为(1.6)因为各项观测独立，所以它们的联合分布可以表示为各边际分布的乘积。0） = 1斑界1-牴町严（1.7）上式称为n

3、个观测的似然函数。我们的目标是能够求出使这一似然函数的值最大的参数估计。于是，最大似然估计的关键就是求出参数弘久用F，使上式取得最大值。对上述函数求对数(1.8)上式称为对数似然函数。为了估计能使取得最大的参数弘况用$的值。对此函数求导，得到P+1个似然方程。13仇知-弋叶”严严(1.9)L*1=1-，j = 1,2,.,p.上式称为似然方程。为了解上述非线性方程，应用牛顿一拉斐森（Newto n-Raphso n）方法进行迭代求解。1.3牛顿一拉斐森迭代法对求二阶偏导数，即Hessian矩阵为-迟沪內（1-馅）2-1(1.10):-乞咛丸（1-坯）2-1如果写成矩阵形式，以H表示Hess

4、ian矩阵，X表示(1.11)（I(1.12)则H = g。再令然方程的矩阵形式。得牛顿迭代法的形式为1忑11%尹1 一汀11也1% 九一花_1耳1备兔口一疳（注：前一个矩阵需转置），即似（“3）注意到上式中矩阵H为对称正定的，求解H1U即为求解线性方程HX = U中的矩阵X。对H进行cholesky分解。最大似然估计的渐近方差（asymptotic va ria nee ）和协方差（cova ria nee）可以由信息矩阵（information matrix）的逆矩阵估计出来。而信息矩阵实际上是（闻二阶导数的负值, 表示为。炖毘。估计值的方差和协方差表示为沁（阶厂，也就是说，估计值炖的

5、方差为矩阵I的逆矩阵的对角线上的值，而估计值冋和煜的协方差为除了对角线以外的值。然而在多数情况，我们将使用估计值的标准方差，表示为for j = 0,1,2，,p (1.14)2 .显著性检验下面讨论在逻辑回归模型中自变量心是否与反应变量显著相关的显著性检验。零假设丹o :负=0 （表示自变量忑对事件发生可能性无影响作用）。如果零假设被拒绝，说明事件发生可能性依赖于忑的变化。2.1 Wald test对回归系数进行显著性检验时，通常使用Wald检验，其公式为貶“齐磁（玄）（2.）其中，能为的标准误差。这个单变量Wald统计量服从自由度等于1的/分布。如果需要检验假设凤：煜=屁=M =0,

6、计算统计量册=釦验费）（2.2）其中，庐为去掉矗所在的行和列的估计值，相应地，敬的为去掉储所在的行和列的标准误差。这里，Wald统计量服从自由度等于p的，分布。如果将上式写成矩阵形式，有琢=（qEnq仙（3）qt（q3）（2.3）0 1 0Q =矩阵Q是第一列为零的一常数矩阵。例如，如果检验煜二炖，则 L 1。然而当回归系数的绝对值很大时，这一系数的估计标准误就会膨胀，于是会导致Wald 统计值变得很小，以致第二类错误的概率增加。也就是说，在实际上会导致应该拒绝零假设时却未能拒绝。所以当发现回归系数的绝对值很大时，就不再用Wald统计值来检验零假设, 而应该使用似然比检验来代替。2.2

7、似然比（Likelihood ratio test）检验_ _ 2在一个模型里面，含有变量丙与不含变量丙的对数似然值乘以-2的结果之差，服从尸分布。这一检验统计量称为似然比（likelihood ratio），用式子表示为G=-21n(不含再似然含有吗似然(2.4)计算似然值采用公式（1.8）。倘若需要检验假设丹:矗=色=爲=0,计算统计量-Til.:； J ：J| _Ti：:； | ,1 :J_TlI, ：?：1(2.5)上式中，表示H=0的观测值的个数，而旳表示耳=1的观测值的个数，那么n就表示所有观测值的个数了。实际上，上式的右端的右半部分旳城旳)+砧勉)止個表示只含有储的似然值。

8、统计量G服从自由度为p的*分布2.3 Score 检验在零假设%=0下，设参数的估计值为即对应的级=0。计算Score统计量的公式为上式中，卩(尿)表示在A=0下的对数似然函数(1.9)的一价偏导数值，而何表示在図=0下的对数似然函数(1.9)的二价偏导数值。Score统计量服从自由度等于1的，分布。2.4模型拟合信息模型建立后，考虑和比较模型的拟合程度。有三个度量值可作为拟合的判断根据。(1) -2LogLikelihood- 7九中J刀也1“(三+门-1-1Jj(2.7)(2) Akaike 信息准则(Akaike Information Criterion,简写为 AIC)AlC =

9、 -2LQgL + 2(K + ) (28)其中K为模型中自变量的数目，S为反应变量类别总数减1,对于逻辑回归有S = 2-1 = 1。 -2LogL的值域为0至其值越小说明拟合越好。当模型中的参数数量越大时，似然值也就越大，-2LogL就变小。因此，将2(K+S)加到AIC公式中以抵销参数数量产生的影响。在其它条件不变的情况下，较小的AIC值表示拟合模型较好。(3) Schwa rz 准则这一指标根据自变量数目和观测数量对-2LogL值进行另外一种调整。SC指标的定义为$7 = -2口或 + 2(庄 + )*血0) (29)其中ln(n)是观测数量的自然对数。这一指标只能用于比较对同一

10、数据所设的不同模型。在其它条件相同时，一个模型的AIC或SC值越小说明模型拟合越好。3. 回归系数解释3.1发生比odds=p/(1-p) =，即事件发生的概率与不发生的概率之比。而发生OR比率(odds ratio n),即oddsiodds(1)连续自变量。对于自变量忑，每增加一个单位，odds ration为+ - +A(轧 +1 闪-g.0R = -B血+戶曲+ - +问皿+- %(3.1)(2) 二分类自变量的发生比率。变量的取值只能为0或1,称为dummy variable。当忑取值为1,对于取值为0的发生比率为它血擀血+-*!+ - 阳.尺=血+曲兀+妒土勺+卯口二能(3.2

11、)亦即对应系数的幕。(3) 分类自变量的发生比率。如果一个分类变量包括m个类别，需要建立的dummy variable的个数为m-1,所省略的那个类别称作参照类(reference category)。设dummy variable为忑，其系数为編, 对于参照类，其发生比率为$血。3.2逻辑回归系数的置信区间对于置信度1-口，参数炕的100% (1-口)的置信区间为(3.3)上式中，耳为与正态曲线下的临界Z值(critical value)，朋为系数估计恳的标)七-A：. + 庄x ee咅卜准误差,士和两值便分别是置信区间的下限和上限。当样本较大时，6=0.05水平的系数经的95%置信区间为

12、玄1.94能肩(3.4)4. 变量选择4.1前向选择(forward selection)：在截距模型的基础上，将符合所定显著水平的自变量一次一个地加入模型。具体选择程序如下(1) 常数(即截距)进入模型。(2) 根据公式(2.6)计算待进入模型变量的Score检验值，并得到相应的P值。(3) 找出最小的p值，如果此p值小于显著性水平碍J则此变量进入模型。如果此变量是某个名义变量的单面化(dummy)变量，则此名义变量的其它单面化变理同时也进入模型。不然，表明没有变量可被选入模型。选择过程终止。(4) 回到(2)继续下一次选择。4.2后向选择(backward selection)：在模

13、型包括所有候选变量的基础上，将不符合保留要求显著水平的自变量一次一个地删除。具体选择程序如下(1) 所有变量进入模型。(2) 根据公式(2.1)计算所有变量的Wald检验值，并得到相应的p值。(3) 找出其中最大的p值，如果此P值大于显著性水平曲，则此变量被剔除。对于某个名义变量的单面化变量，其最小p值大于显著性水平哑，则此名义变量的其它单面化变量也被删除。不然，表明没有变量可被剔除，选择过程终止。(4) 回到(2)进行下一轮剔除。4.3 逐步回归(stepwise selecti on)(1) 基本思想：逐个引入自变量。每次引入对Y影响最显著的自变量，并对方程中的老变量逐个进行检验

14、，把变为不显著的变量逐个从方程中剔除掉，最终得到的方程中既不漏掉对Y 影响显著的变量，又不包含对Y影响不显著的变量。(2) 筛选的步骤：首先给出引入变量的显著性水平碍謎和剔除变量的显著性水平血，然后按下图筛选变量。乂册牡|(3) 逐步筛选法的基本步骤逐步筛选变量的过程主要包括两个基本步骤:一是从不在方程中的变量考虑引入新变量的步骤；二是从回归方程中考虑剔除不显著变量的步骤。假设有p个需要考虑引入回归方程的自变量. 设仅有截距项的最大似然估计值为血。对p个自变量每个分别计算Score检验值，设有最小p值的变量为兀1,且有=皿珀)，对于单面化(dummy)变量，也如此。若离1弋绻，则此变量进入模型，不然停止。如果此变量是名义变量单面化(dummy)的变量，则此名义变量的其它单面化变量也进入模型。其中为引入变量的显著性水平。为了确定当变量1在模型中时其它p-i个变量也是否重要，将*舀分别与1进行拟合。对p-1个变量分别计算Score检验值，其p值设为珀。设有最小p值的变量为%,且有氏=呎叽若 f ,则进入下一步，不然停止。对于单面化变量，其方式如同上步。ff1-f 此步开始于模型中已含有变量叫与建。注意到有可能在变量呛被引入后，变量叫不再重要。本步包括向后删除。根据(2.1)计算变量

展开阅读全文