逻辑回归统计量计算

上传人:平*** 文档编号:15715895 上传时间:2017-11-05 格式:DOCX 页数:8 大小:78.38KB
返回 下载 相关 举报
逻辑回归统计量计算_第1页
第1页 / 共8页
逻辑回归统计量计算_第2页
第2页 / 共8页
逻辑回归统计量计算_第3页
第3页 / 共8页
逻辑回归统计量计算_第4页
第4页 / 共8页
逻辑回归统计量计算_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《逻辑回归统计量计算》由会员分享,可在线阅读,更多相关《逻辑回归统计量计算(8页珍藏版)》请在金锄头文库上搜索。

1、逻辑回归模型作者:zgw21cn 来源:博客园 发布时间:2008-08-29 17:21 阅读:8993 次 原文链接 收藏 1.逻辑回归模型 1.1 逻辑回归模型 考虑具有 p 个独立变量的向量 ,设条件概率 为根据观测量相对于某事件发生的概率。逻辑回归模型可表示为 (1.1) 上式右侧形式的函数称为逻辑函数。下图给出其函数图象形式。 其中 。如果含有名义变量,则将其变为 dummy 变量。一个具有 k 个取值的名义变量,将变为 k-1 个 dummy 变量。这样,有 (1.2) 定义不发生事件的条件概率为 (1.3) 那么,事件发生与事件不发生的概率之比为 (1.4) 这个比值称为事件的

2、发生比(the odds of experiencing an event),简称为 odds。因为00。对 odds 取对数,即得到线性函数, (1.5) 1.2 极大似然函数 假设有 n 个观测样本,观测值分别为 设 为给定条件下得到 的概率。在同样条件下得到 的条件概率为 。于是,得到一个观测值的概率为 (1.6) 因为各项观测独立,所以它们的联合分布可以表示为各边际分布的乘积。 (1.7) 上式称为 n 个观测的似然函数。我们的目标是能够求出使这一似然函数的值最大的参数估计。于是,最大似然估计的关键就是求出参数 ,使上式取得最大值。 对上述函数求对数 (1.8) 上式称为对数似然函数。

3、为了估计能使 取得最大的参数 的值。 对此函数求导,得到 p+1 个似然方程。 (1.9) ,j=1,2,.,p. 上式称为似然方程。为了解上述非线性方程,应用牛顿拉斐森(Newton-Raphson) 方法进行迭代求解。 1.3牛顿拉斐森迭代法 对 求二阶偏导数,即 Hessian 矩阵为 (1.10) 如果写成矩阵形式,以表示 Hessian 矩阵,表示 (1.11) 令 (1.12) 则 。再令 (注:前一个矩阵需转置),即似然方程的矩阵形式。 得牛顿迭代法的形式为 (1.13) 注意到上式中矩阵为对称正定的,求解 即为求解线性方程中的矩阵。对进行 cholesky 分解。 最大似然估计

4、的渐近方差(asymptotic variance)和协方差 (covariance)可以由信息矩阵(information matrix)的逆矩阵估计出来。而信息矩阵实际上是 二阶导数的负值,表示为 。估计值的方差和协方差表示为 ,也就是说,估计值 的方差为矩阵的逆矩阵的对角线上的值,而估计值 和 的协方差为除了对角线以外的值。然而在多数情况,我们将使用估计值 的标准方差,表示为 ,for j=0,1,2,p (1.14) .显著性检验 下面讨论在逻辑回归模型中自变量 是否与反应变量显著相关的显著性检验。零假设 :0(表示自变量 对事件发生可能性无影响作用)。如果零假设被拒绝,说明事件发生可

5、能性依赖于 的变化。 2.1 Wald test 对回归系数进行显著性检验时,通常使用 Wald 检验,其公式为 (2.1) 其中, 为 的标准误差。这个单变量 Wald 统计量服从自由度等于的 分布。如果需要检验假设 : 0,计算统计量 (2.2) 其中, 为去掉 所在的行和列的估计值,相应地, 为去掉 所在的行和列的标准误差。这里,Wald 统计量服从自由度等于 p 的 分布。如果将上式写成矩阵形式,有 (2.3) 矩阵是第一列为零的一常数矩阵。例如,如果检验 ,则 。 然而当回归系数的绝对值很大时,这一系数的估计标准误就会膨胀,于是会导致Wald 统计值变得很小,以致第二类错误的概率增加

6、。也就是说,在实际上会导致应该拒绝零假设时却未能拒绝。所以当发现回归系数的绝对值很大时,就不再用 Wald 统计值来检验零假设,而应该使用似然比检验来代替。 2.2似然比(Likelihood ratio test)检验 在一个模型里面,含有变量 与不含变量 的对数似然值乘以-2 的结果之差,服从分布。这一检验统计量称为似然比(likelihood ratio),用式子表示为 (2.4) 计算似然值采用公式(1.8)。 倘若需要检验假设 : 0,计算统计量 (2.5) 上式中, 表示 0 的观测值的个数,而 表示 的观测值的个数,那么 n 就表示所有观测值的个数了。实际上,上式的右端的右半部分

7、表示只含有 的似然值。统计量 G 服从自由度为 p 的分布 2.3 Score 检验 在零假设 : 0 下,设参数的估计值为 ,即对应的 0 。计算 Score统计量的公式为 (2.6) 上式中, 表示在 0 下的对数似然函数(1.9)的一价偏导数值,而 表示在 0 下的对数似然函数(1.9)的二价偏导数值。Score 统计量服从自由度等于的 分布。 2.4模型拟合信息 模型建立后,考虑和比较模型的拟合程度。有三个度量值可作为拟合的判断根据。 (1)-2LogLikelihood (2.7) (2) Akaike 信息准则(Akaike Information Criterion,简写为 AI

8、C) (2.8) 其中为模型中自变量的数目,为反应变量类别总数减,对于逻辑回归有 S=2-1=1。-2LogL 的值域为 0 至 ,其值越小说明拟合越好。当模型中的参数数量越大时,似然值也就越大,-2LogL 就变小。因此,将(K+S)加到 AIC 公式中以抵销参数数量产生的影响。在其它条件不变的情况下,较小的 AIC 值表示拟合模型较好。 (3)Schwarz 准则 这一指标根据自变量数目和观测数量对-2LogL 值进行另外一种调整。SC 指标的定义为 (2.9) 其中 ln(n)是观测数量的自然对数。这一指标只能用于比较对同一数据所设的不同模型。在其它条件相同时,一个模型的 AIC 或 S

9、C 值越小说明模型拟合越好。 3.回归系数解释 3.1 发生比 odds=p/(1-p) ,即事件发生的概率与不发生的概率之比。而发生比率(odds ration),即 (1)连续自变量。对于自变量 ,每增加一个单位,odds ration 为 (3.1) (2)二分类自变量的发生比率。变量的取值只能为 0 或 1,称为 dummy variable。当取值为 1,对于取值为 0 的发生比率为 (3.2) 亦即对应系数的幂。 (3)分类自变量的发生比率。 如果一个分类变量包括 m 个类别,需要建立的 dummy variable 的个数为 m-1,所省略的那个类别称作参照类(reference

10、 category)。设 dummy variable 为 ,其系数为,对于参照类,其发生比率为 。 3.2 逻辑回归系数的置信区间 对于置信度- ,参数 的 100%(- )的置信区间为 (3.3) 上式中, 为与正态曲线下的临界值(critical value), 为系数估计 的标准误差, 和 两值便分别是置信区间的下限和上限。当样本较大时, 0.05 水平的系数 的 95%置信区间为 (3.4) 4.变量选择 4.1 前向选择(forward selection):在截距模型的基础上,将符合所定显著水平的自变量一次一个地加入模型。 具体选择程序如下 (1) 常数(即截距)进入模型。 (2

11、) 根据公式(2.6)计算待进入模型变量的 Score 检验值,并得到相应的 P 值。 (3) 找出最小的 p 值,如果此 p 值小于显著性水平 ,则此变量进入模型。如果此变量是某个名义变量的单面化(dummy)变量,则此名义变量的其它单面化变理同时也进入模型。不然,表明没有变量可被选入模型。选择过程终止。 (4) 回到(2)继续下一次选择。 4.2 后向选择(backward selection):在模型包括所有候选变量的基础上,将不符合保留要求显著水平的自变量一次一个地删除。 具体选择程序如下 (1) 所有变量进入模型。 (2) 根据公式(2.1)计算所有变量的 Wald 检验值,并得到相

12、应的 p 值。 (3) 找出其中最大的 p 值,如果此 P 值大于显著性水平 ,则此变量被剔除。对于某个名义变量的单面化变量,其最小 p 值大于显著性水平 ,则此名义变量的其它单面化变量也被删除。不然,表明没有变量可被剔除,选择过程终止。 (4) 回到(2) 进行下一轮剔除。 4.3 逐步回归(stepwise selection) (1)基本思想:逐个引入自变量。每次引入对影响最显著的自变量,并对方程中的老变量逐个进行检验,把变为不显著的变量逐个从方程中剔除掉,最终得到的方程中既不漏掉对影响显著的变量,又不包含对影响不显著的变量。 (2)筛选的步骤:首先给出引入变量的显著性水平 和剔除变量的

13、显著性水平 ,然后按下图筛选变量。 (3)逐步筛选法的基本步骤 逐步筛选变量的过程主要包括两个基本步骤:一是从不在方程中的变量考虑引入新变量的步骤;二是从回归方程中考虑剔除不显著变量的步骤。 假设有 p 个需要考虑引入回归方程的自变量 . 设仅有截距项的最大似然估计值为 。对 p 个自变量每个分别计算 Score 检验值, 设有最小 p 值的变量为 ,且有 ,对于单面化(dummy)变量,也如此。若 ,则此变量进入模型,不然停止。如果此变量是名义变量单面化(dummy)的变量,则此名义变量的其它单面化变量也进入模型。其中 为引入变量的显著性水平。 为了确定当变量 在模型中时其它 p-1 个变量

14、也是否重要,将分别与 进行拟合。对 p-1 个变量分别计算 Score 检验值,其p 值设为 。设有最小 p 值的变量为 ,且有 .若 ,则进入下一步,不然停止。对于单面化变量,其方式如同上步。 此步开始于模型中已含有变量 与 。注意到有可能在变量 被引入后,变量不再重要。本步包括向后删除。根据(2.1)计算变量 与 的 Wald 检验值,和相应的 p 值。设 为具有最大 p 值的变量,即 =max( ), .如果此 p 值大于 ,则此变量从模型中被删除,不然停止。对于名义变量,如果某个单面化变量的最小 p 值大于 ,则此名义变量从模型中被删除。 如此进行下去,每当向前选择一个变量进入后,都进行向后删除的检查。循环终止的条件是:所有的 p 个变量都进入模型中或者模型中的变量的 p 值小于 ,不包含在模型中的变量的 p 值大于 。或者某个变量进入模型后,在下一步又被删除,形成循环。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号