Logistic模型与建模流程概述

资源描述

《Logistic模型与建模流程概述》由会员分享，可在线阅读，更多相关《Logistic模型与建模流程概述（9页珍藏版）》请在金锄头文库上搜索。

1、Logistic模型及建模流程概述1. Logistic模型介绍1.1 问题的提出在商业及金融领域中，存在这么一类问题，问题中需要被解释的目标量通常可以用YES或者NO两种取值来表示，如：l 卖出了商品为YES，未卖出商品为NO；l 顾客对超市的本次宣传活动做了响应为YES，没有任何响应为NO；l 信用卡持卡人本月逾期付款为YES，按时还款了为NO；等等；对于这类问题的分析，我们不可以采用标准的线性回归对其进行建模分析，是因为l 目标变量的二元分布违背了线性回归的重要假设l 模型的目标是给出一个（0，1）之间的概率，而标准的线性回归模型产生的值是在这个围之外1.2 Logistic模型对于上述

2、问题，我们提出了logistic模型：Logistic模型可以保证：l 值在- 和+ 之间；l 估计出来的概率值在0和1之间；l 与事件odds（）直接相关；l 可以很好地将问题转化为数学问题，并且模型结果容易解释；1.3 Logistics回归的假设l 概率是自变量的logistics函数这样得到的概率似乎没有实际意义，只是反映一种趋势，比较大时p就会比较大取log值得到： logodds 这样可以线性化，我们把这模型称为linear in the log-oddsl 模型假设：1) 没有重要变量被忽略，不包含使得系数有偏的相关变量2) 不包含外来变量，包含的不相关变量会增加参数估计的标准误

3、差，但是却不会使得系数有偏。l 观测值独立l 自变量的观测值没有误差1.4 最大似然准则抛一枚硬币10次，结果如下: T H T T T H T T T H假设结果独立，考虑得到的结果的概率，P(T H T T T H T T T H) = P(T)P(H)P(T)P(T)P(T)P(H)P(T)P(T)P(T)P(H)=P(H)3 1-P(H)7 ，如果我们能计算出参数P(H)的值，就能得到掷硬币结果的概率的数值。如果我们已知掷硬币的结果，如何得到P(H)的值呢？假设P=P(H)，y=硬币头像一面朝上的次数，n=掷硬币的次数似然函数给出了掷硬币结果的似然值，它是P的函数；最大似然估计指出P

4、的最佳估计值是使得似然函数最大的值。为了简化计算，代替最大化L(P)，我们对L(P)取log值，然后取最大值，log是单调递增函数，这样使得L(P)最大的P的值也是使得log（L(P)）最大的值。最大化log似然函数，使：解出P值：1.5 将最大似然估计用于logistics回归令Y=(y1,y2,y3,yn)是随机变量（Y1,Y2,Y3,.Yn）的一组样本值，然后似然函数可以写成where，但是假如样本值不独立的话，此步骤就存在问题。对似然函数取log值，得：令Logistics回归的似然等式对上式的参数取导数：使上面两式为零，解出参数的似然估计值。这些方程都是非线性的，所以利用迭代可以找

5、出答案。这个过程也有可能是不收敛的。在介绍完logistic模型后，我们开始按照数据建模的流程来对各个分析环节进行讨论。2. 模型设计（Model Design）2.1 建模目标我们在对数据做分析之前，首先需要考虑的是构造模型的商业目的所在。比如说我们针对汽车贷款的数据进行分析，是希望能够估计出每笔汽车贷款人可能会发生违约的概率，从而建立一个信贷审批的决策流程。如果没有明确模型的目的和用途，模型的构建工作就难进行下去。除了明确建模商业目的外，我们还需要确定模型的实施事项。比如说构建好的模型是实验模型，局域围使用，还是全面推广；模型的使用时间是多长；，这些问题都需要事先考虑清楚。总的来说，我们在

6、建模分析模型之前，需要考虑好：l 我们为什么需要模型？l 如何使用我们建好的模型？ l 谁将使用我们的模型？l 模型什么时候需要？ 2.2 数据明确了建模目标之后，我们需要系统地整理我们的数据或者说样本了。我们需要了解：l 我们可能可以运用的数据有哪些；l 哪些是部数据源的数据，哪些是需要向客户索取的；l 我们需要多久的数据；l 数据有部分缺失怎么办；l 如何抽取能够代表总体的无偏样本；l 是不是每个变量都有现实意义；我们还需要单独针对目标变量进行分析。在解决某些问题的时候，目标变量并不能很容易的明确下来，我们需要根据实际的业务经验，将数据做一些统计、变换，得到建模所需的目标变量值。比方说，我

7、们在预测每位汽车贷款人发生违约的概率时，我们需要实现定义哪些贷款人发生过违约，那什么样的行为才能定义为违约呢？在美国，通常定义联系9个月以上没有还款的行为定义为违约事件，在建模时，我们将这样一批样本的目标变量定义为“1”，剩余样本的目标变量定义为“0”，然后再用logisitic模型对其建模分析。在建模过程之前，我们需要对抽取出来的样本进行分成训练集、验证集和测试集，分别用于不同的建模分析阶段。3. 解释变量分析（Exploratory analysis）3.1 变量筛选（Variable Reduction）在整理完我们允许使用的变量数据后，接下去的任务就是从大量的数据中找出对目标变量有解释

8、意义的变量来。我们可以通过下述的几个方面对变量进行分析，初步筛选。l VIP变量（VIP variables）在解决某些实际问题的过程中，因为业务人员对变量选择可能有一定的要求，他们因为实际的业务需求明确规定了哪些变量必须进入模型；另外，一些有类似建模经验的建模人员也可能会提出模型很大可能会用到某些变量，因此我们在变量筛选时首先需要建立一个VIP变量组，该组的变量不需要经过筛选，直接进入模型。l 无监督的变量筛选（Non-supervised variable reduction）无监督的变量筛选是指在筛选变量时不需要利用目标量信息的筛选方法。代表方法有聚类分析主成分分析l 有监督的变量筛

9、选同理，有监督的变量筛选是指需要结合目标变量的信息才能进行的筛选方法。我们一般采用的有：相关性分析建立回归模型信息值3.2 变量分析在经过一轮变量的预筛选之后，我们需要专门针对筛选出来的变量进行更进一步的分析。4. 模型选择（Model Selection）如何衡量模型是否有效？我们下面介绍几种在实际操作中常用的判断方法。4.1 Lift/Gains chart优势：a. 可以用业务语言非常容易地解释； b. 易观察，对商业决策有直观的帮助劣势：a. 无法直接用数字给出结果； b. 图形和程度有时候会给人错觉； 4.2 KS值Kolmogorov-Smirnov Test, MAD=

10、Sup|F_r F_n|，MAD是ROC曲线之间差值的最大值。（如右图蓝线就是MAD)我们通过曲线图可以：l 对整体样本按照转移率进行排序；l 比较0，1两种取值的分布；l 确定两种取值分布的分离度；这种方式比较容易理解，现已经广泛运用于模型选择分析中，SAS中的NPAR1WAY 过程步也可以直接计算出来。但是度量的效果受样本排序方式的影响较大，某一排序区间的样本分布也可能会对最终的结果产生较大的影响。一般情况下，训练集与测试集的KS值差别不会很大，好的模型KS值一般在0.25，0.75区间。4.3 信息值即A.K.A Kullback-Liebler距离：这种方法与KS原理类似，也可以很

11、容易地比较0，1两种取值的分布，并且能够用于处理字符型变量。但是与KS值一样，某一排序区间的样本分布也可能会对最终的结果产生较大的影响；另外SAS中没有现成的过程步可以产生这个结果。4.4 Gini系数由意大利统计学家Corrado Gini在1912年提出，它通常被定义为GINI图中的A/(A+B)的值。Gini系数是通过0，1两种分布的距离来衡量的，SAS里也有过程步可以直接计算，但是对于非统计学家来说，这个名词较为专业了些。的数目影响。事实上，Gini系数一般在-1，1区间，很多分析师习惯用C-value进行分析而忽略Gini系数的分析。4.5 C-value & Concorda

12、ntC-value是ROC曲线下的区域：A+D。C-value与Gini系数的原理类似，通过Gini系数也可以C-value的值。C= Gini+0.5(1-Gini)一般情况下，C-value值在0，1区间，好的模型该值一般在0.60.9之间。4.6 Total variance Reduction (TVR) TVR可以衡量模型打分的排序能力，但是因为在计算时我们通常用来代替TVR的值，所以我们得到只能是一种近似值。在实际处理过程中，我们可能还存在一些其他的度量方式，在这里就不一一赘述了。5. 建模的后续工作当我们构建了合适的分析模型后，我们还有一些后续工作需要完成：另外，在提交成果时

13、我们还需将模型的设计书、代码、变量说明等材料打包一并提交，并且上报模型的更新计划。6. 参考文献（reference）1 Agresti, A. (1990) Categorical Data Analysis, Wiley, Inc., New York2 Allison, P.D. (1999) Logistic Regression: Using the SAS System, SAS Institute, Cary N.C. 3 Collett, D. (1991) Modelling Binary Data, Chapman & Hall, London 4 Cox, D. R.,

14、and Snell, E.J. (1989) The Analysis of Binary Data, Second Edition. Chapman & Hall, London5 Dobson, A. (1990) An Introduction to Generalized Linear Models. Chapman & Hall, London6 Fleiss, J. (1986) Statistical Methods for Rates and Proportions. Wiley, Inc., New York7 Harrell, F. (2001) Regression Modeling Strategies. Springer-Verlag, New York8 Hosmer, D.W., and Lemeshow, S. (2000) Applied Logistic Regression, Second Edition, Wiley, Inc., New York 9 Klienbaum, D.G. (1994) Logistic Regression: A Self-Learning Text. Springer-Verlag

展开阅读全文