Logistic模型及建模流程概述(1)

资源描述

《Logistic模型及建模流程概述(1)》由会员分享，可在线阅读，更多相关《Logistic模型及建模流程概述(1)（9页珍藏版）》请在金锄头文库上搜索。

1、学海无涯 Logistic 模型及建模流程概述 1 Logistic 模型介绍 1 1 问题的提出在商业及金融领域中存在这么一类问题问题中需要被解释的目标量通常可以用 YES 或者 NO 两种取值来表示如卖出了商品为 YES 未卖出商品为 NO 顾客对超市的本次宣传活动做了响应为 YES 没有任何响应为 NO 信用卡持卡人本月逾期付款为 YES 按时还款了为 NO 等等对于这类问题的分析我们不可以采用标准的线性回归对其进行建模分析是因为目标变量的二元分布违背了线性回归的重要假设模型的目标是给出一个 0 1 之间的概率而标准的线性回归模型产生的值是在这个范围之外 1

2、 2 Logistic 模型对于上述问题我们提出了 logistic 模型 i iix P P 1 ln i iix e P P 1 i ii i ii x x e e P 1 Logistic 模型可以保证 i x 值在和之间估计出来的概率值在 0 和 1 之间与事件 odds 1 ppodds 直接相关可以很好地将问题转化为数学问题并且模型结果容易解释 1 3 Logistics 回归的假设概率是自变量的 logistics 函数 exp 1 exp 110 110 nn nn xx xx p 学海无涯这样得到的概率似乎没有实际意义只是反映一种趋势 xx n 1

3、10 比较大时 p 就会比较大取 log 值得到 logodds 这样可以线性化我们把这模型称为 linear in the log odds 模型假设 1 没有重要变量被忽略不包含使得系数有偏的相关变量 2 不包含外来变量包含的不相关变量会增加参数估计的标准误差但是却不会使得系数有偏观测值独立自变量的观测值没有误差 1 4 最大似然准则抛一枚硬币 10 次结果如下 T H T T T H T T T H 假设结果独立考虑得到的结果的概率 P T H T T T H T T T H P T P H P T P T P T P H P T P T P T P H P H

4、3 1 P H 7 如果我们能计算出参数P H 的值就能得到掷硬币结果的概率的数值如果我们已知掷硬币的结果如何得到 P H 的值呢假设 P P H y 硬币头像一面朝上的次数 n 掷硬币的次数似然函数给出了掷硬币结果的似然值它是 P 的函数最大似然估计指出 P 的最佳估计值是使得似然函数最大的值为了简化计算代替最大化 L P 我们对 L P 取 log 值然后取最大值 log 是单调递增函数这样使得 L P 最大的 P 的值也是使得 log L P 最大的值最大化 log 似然函数使解出 P 值 1 5 将最大似然估计用于 logistics 回归 nnx x p

5、 p 110 1 log yny PPyPL 1 yny PPYPL 1 n y P 学海无涯令 Y y1 y2 y3 yn 是随机变量 Y1 Y2 Y3 Yn 的一组样本值然后似然函数可以写成 n i y i y i ii YL 1 1 1 where iI YP 1 但是假如样本值不独立的话此步骤就存在问题对似然函数取 log 值得 n i y i y i ii Yl 1 1 1 log n i i y i y i i i 1 1 1 log n i n i i i i i y 11 1log 1 log 令 i i i x 10 1 log Logistics 回归的似

6、然等式对上式的参数取导数 n i i n i ii xxyYl 1 10 1 1010 exp 1 n i n i i ii ii n i n i i i i x xx yx Yl x x y Yl 11 10 10 1 10 11 10 10 0 10 exp 1 exp exp 1 exp 学海无涯使上面两式为零解出参数的似然估计值这些方程都是非线性的所以利用迭代可以找出答案这个过程也有可能是不收敛的在介绍完 logistic 模型后我们开始按照数据建模的流程来对各个分析环节进行讨论 2 模型设计 Model Design 2 1 建模目标我们在对数据做分析之前首

7、先需要考虑的是构造模型的商业目的所在比如说我们针对汽车贷款的数据进行分析是希望能够估计出每笔汽车贷款人可能会发生违约的概率从而建立一个信贷审批的决策流程如果没有明确模型的目的和用途模型的构建工作就难进行下去除了明确建模商业目的外我们还需要确定模型的实施事项比如说构建好的模型是实验模型局域范围内使用还是全面推广模型的使用时间是多长这些问题都需要事先考虑清楚总的来说我们在建模分析模型之前需要考虑好我们为什么需要模型如何使用我们建好的模型谁将使用我们的模型模型什么时候需要 2 2 数据明确了建模目标之后我们需要系统地整理我们的数据或者说样本了我们

8、需要了解我们可能可以运用的数据有哪些哪些是内部数据源的数据哪些是需要向客户索取的我们需要多久的数据数据有部分缺失怎么办如何抽取能够代表总体的无偏样本是不是每个变量都有现实意义我们还需要单独针对目标变量进行分析在解决某些问题的时候目标变量并不能很容易的明确下来我们需要根据实际的业务经验将数据做一些统计变换得到建模所需的目标变量值比方说我们在预测每位汽车贷款人发生违约的概率时我们需要实现定义哪些贷款人发生过违约那什么样的行为才能定义为违约呢在美国通常定义联系 9 个月以上没有还款的行为定义为违约事件在建模时我们将这样一批样本的目标变量定义为 1

9、剩余样本的目标变量定义为 0 然后再用 logisitic 模型对其建模分析在建模过程之前我们需要对抽取出来的样本进行分成训练集验证集和测试集分别用于不同的建模分析阶段学海无涯 3 解释变量分析 Exploratory analysis 3 1 变量筛选 Variable Reduction 在整理完我们允许使用的变量数据后接下去的任务就是从大量的数据中找出对目标变量有解释意义的变量来我们可以通过下述的几个方面对变量进行分析初步筛选 VIP 变量 VIP variables 在解决某些实际问题的过程中因为业务人员对变量选择可能有一定的要求他们因为实际的业务需求

10、明确规定了哪些变量必须进入模型另外一些有类似建模经验的建模人员也可能会提出模型很大可能会用到某些变量因此我们在变量筛选时首先需要建立一个 VIP 变量组该组的变量不需要经过筛选直接进入模型无监督的变量筛选 Non supervised variable reduction 无监督的变量筛选是指在筛选变量时不需要利用目标量信息的筛选方法代表方法有聚类分析主成分分析有监督的变量筛选同理有监督的变量筛选是指需要结合目标变量的信息才能进行的筛选方法我们一般采用的有相关性分析建立回归模型信息值 3 2 变量分析在经过一轮变量的预筛选之后我们需要专门针对筛选出来的

11、变量进行更进一步的分析学海无涯 4 模型选择 Model Selection 如何衡量模型是否有效我们下面介绍几种在实际操作中常用的判断方法 4 1 Lift Gain s chart 优势 a 可以用业务语言非常容易地解释 b 易观察对商业决策有直观的帮助劣势 a 无法直接用数字给出结果 b 图形和程度有时候会给人错觉 4 2 KS 值 Kolmogorov Smirnov Test MAD Sup F r F n MAD 是 ROC 曲线之间差值的最大值如右图蓝线就是 MAD 我们通过曲线图可以对整体样本按照转移率进行排序比较 0 1 两种取值的分布确定两种取值分布

12、的分离度这种方式比较容易理解现已经广泛运用于模型选择分析中 SAS 中的 NPAR1WAY 过程步也可以直接计算出来但是度量的效果受样本排序方式的影响较大某一排序区间的样本分布也可能会对最终的结果产生较大的影响一般情况下训练集与测试集的 KS 值差别不会很大好的模型 KS 值一般在 0 25 0 75 区间内 4 3 信息值即 A K A Kullback Liebler 距离这种方法与 KS 原理类似也可以很容易地比较 0 1 两种取值的分布并且能够用于处理字符型变量但是与 KS 值一样某一排序区间的样本分布也可能会对最终的结果产生 0 10 20 30 40

13、 50 60 70 80 90 100 0102030405060708090 100 c u m u la ti v e a c c e p ta n c e r a te rank RESP 1 RESP 0 ds sf sf sfsfIV n r nr log 0 1 2 3 4 5 6 7 12345678910 o f r e s p o n d e r s Rank Predicted Actual 学海无涯较大的影响另外 SAS 中没有现成的过程步可以产生这个结果 4 4 Gini 系数由意大利统计学家 Corrado Gini 在 1912 年提出它通常被定义为

14、GINI 图中的 A A B 的值 Gini 系数是通过 0 1 两种分布的距离来衡量的 SAS 里也有过程步可以直接计算但是对于非统计学家来说这个名词较为专业了些的数目影响事实上 Gini 系数一般在 1 1 区间内很多分析师习惯用 C value 进行分析而忽略 Gini 系数的分析 4 5 C value Concordant C value 是 ROC 曲线下的区域 A D C value 与 Gini 系数的原理类似通过 Gini 系数也可以 C value 的值 C Gini 0 5 1 Gini 一般情况下 C value 值在 0 1 区间内好的模型该值一

15、般在 0 6 0 9 之间 4 6 Total variance Reduction TVR TVR 可以衡量模型打分的排序能力但是因为在计算时我们通常用来代替 TVR 的值所以我们得到只能是一种近似值 of Non responders Accepted of Responders Accepted Ri Ri 1 NiNi 1 100 100 A B 0 10 20 30 40 50 60 70 80 90 100 0 20 40 60 80 100 C u m u la ti v e o f r e s p o n d e r s population accepted Recei

16、ver Operating Characteristic ROC Curve A Data ranked in descending order by predicted score Data ranked in descending order by a uniform random variable D 0 1 0 0 V dsVV TVR s 0 20 1 0 0 V V N N V V Vk k k t Ties ConcordantC t N Concordant c 2 学海无涯在实际处理过程中我们可能还存在一些其他的度量方式在这里就不一一赘述了 5 建模的后续工作当我们构建了合适的分析模型后我们还有一些后续工作需要完成另外在提交成果时我们还需将模型的设计书代码变量说明等材料打包一并提交并且上报模型的更新计划 6 参考文献 reference 1 Agresti A 1990 Categorical Data Analysis Wiley Inc New York 2 Allison P D 1999 Logistic Regression Usi

展开阅读全文

Logistic模型及建模流程概述(1)

最新文档