Logistic模型及建模流程概述(1)

上传人:摩西的****12 文档编号:132076626 上传时间:2020-05-12 格式:PDF 页数:9 大小:522.98KB
返回 下载 相关 举报
Logistic模型及建模流程概述(1)_第1页
第1页 / 共9页
Logistic模型及建模流程概述(1)_第2页
第2页 / 共9页
Logistic模型及建模流程概述(1)_第3页
第3页 / 共9页
Logistic模型及建模流程概述(1)_第4页
第4页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《Logistic模型及建模流程概述(1)》由会员分享,可在线阅读,更多相关《Logistic模型及建模流程概述(1)(9页珍藏版)》请在金锄头文库上搜索。

1、学 海 无 涯 Logistic 模型及建模流程概述 1 Logistic 模型介绍 1 1 问题的提出 在商业及金融领域中 存在这么一类问题 问题中需要被解释的目标量通常可以用 YES 或者 NO 两种取值来表示 如 卖出了商品为 YES 未卖出商品为 NO 顾客对超市的本次宣传活动做了响应为 YES 没有任何响应为 NO 信用卡持卡人本月逾期付款为 YES 按时还款了为 NO 等等 对于这类问题的分析 我们不可以采用标准的线性回归对其进行建模分析 是因为 目标变量的二元分布违背了线性回归的重要假设 模型的目标是给出一个 0 1 之间的概率 而标准的线性回归模型产生的值是 在这个范围之外 1

2、 2 Logistic 模型 对于上述问题 我们提出了 logistic 模型 i iix P P 1 ln i iix e P P 1 i ii i ii x x e e P 1 Logistic 模型可以保证 i x 值在 和 之间 估计出来的概率值在 0 和 1 之间 与事件 odds 1 ppodds 直接相关 可以很好地将问题转化为数学问题 并且模型结果容易解释 1 3 Logistics 回归的假设 概率是自变量的 logistics 函数 exp 1 exp 110 110 nn nn xx xx p 学 海 无 涯 这样得到的概率似乎没有实际意义 只是反映一种趋势 xx n 1

3、10 比较 大时 p 就会比较大 取 log 值得到 logodds 这样可以线性化 我们把这模型称为 linear in the log odds 模型假设 1 没有重要变量被忽略 不包含使得系数有偏的相关变量 2 不包含外来变量 包含的不相关变量会增加参数估计的标准误差 但是却不会 使得系数有偏 观测值独立 自变量的观测值没有误差 1 4 最大似然准则 抛一枚硬币 10 次 结果如下 T H T T T H T T T H 假设结果独立 考虑得到的结果的概率 P T H T T T H T T T H P T P H P T P T P T P H P T P T P T P H P H

4、3 1 P H 7 如果我们能计算出参数P H 的值 就能得到掷硬币结果的概率的数值 如果我们已知掷硬币的结果 如何得到 P H 的值呢 假设 P P H y 硬币头像一面朝上的次数 n 掷硬币的次数 似然函数给出了掷硬币结果的似然值 它是 P 的函数 最大似然估计指出 P 的最佳估计值是使得似然函数最大的值 为了简化计算 代替最大化 L P 我们对 L P 取 log 值 然后取最大值 log 是单调递 增函数 这样使得 L P 最大的 P 的值也是使得 log L P 最大的值 最大化 log 似然函数 使 解出 P 值 1 5 将最大似然估计用于 logistics 回归 nnx x p

5、 p 110 1 log yny PPyPL 1 yny PPYPL 1 n y P 学 海 无 涯 令 Y y1 y2 y3 yn 是随机变量 Y1 Y2 Y3 Yn 的一组样本值 然后似然函数可以写成 n i y i y i ii YL 1 1 1 where iI YP 1 但是假如样本值不独立的话 此步骤就存在 问题 对似然函数取 log 值 得 n i y i y i ii Yl 1 1 1 log n i i y i y i i i 1 1 1 log n i n i i i i i y 11 1log 1 log 令 i i i x 10 1 log Logistics 回归的似

6、然等式 对上式的参数取导数 n i i n i ii xxyYl 1 10 1 1010 exp 1 n i n i i ii ii n i n i i i i x xx yx Yl x x y Yl 11 10 10 1 10 11 10 10 0 10 exp 1 exp exp 1 exp 学 海 无 涯 使上面两式为零 解出参数的似然估计值 这些方程都是非线性的 所以利用迭代可以找出答案 这个过程也有可能是不收敛的 在介绍完 logistic 模型后 我们开始按照数据建模的流程来对各个分析环节进行讨论 2 模型设计 Model Design 2 1 建模目标 我们在对数据做分析之前 首

7、先需要考虑的是构造模型的商业目的所在 比如说我们针 对汽车贷款的数据进行分析 是希望能够估计出每笔汽车贷款人可能会发生违约的概率 从 而建立一个信贷审批的决策流程 如果没有明确模型的目的和用途 模型的构建工作就难进 行下去 除了明确建模商业目的外 我们还需要确定模型的实施事项 比如说构建好的模型是实 验模型 局域范围内使用 还是全面推广 模型的使用时间是多长 这些问题都需要 事先考虑清楚 总的来说 我们在建模分析模型之前 需要考虑好 我们为什么需要模型 如何使用我们建好的模型 谁将使用我们的模型 模型什么时候需要 2 2 数据 明确了建模目标之后 我们需要系统地整理我们的数据或者说样本了 我们

8、需要了解 我们可能可以运用的数据有哪些 哪些是内部数据源的数据 哪些是需要向客户索取的 我们需要多久的数据 数据有部分缺失怎么办 如何抽取能够代表总体的无偏样本 是不是每个变量都有现实意义 我们还需要单独针对目标变量进行分析 在解决某些问题的时候 目标变量并不能很容 易的明确下来 我们需要根据实际的业务经验 将数据做一些统计 变换 得到建模所需的 目标变量值 比方说 我们在预测每位汽车贷款人发生违约的概率时 我们需要实现定义哪些贷款人 发生过违约 那什么样的行为才能定义为违约呢 在美国 通常定义联系 9 个月以上没有还 款的行为定义为违约事件 在建模时 我们将这样一批样本的目标变量定义为 1

9、剩余样 本的目标变量定义为 0 然后再用 logisitic 模型对其建模分析 在建模过程之前 我们需要对抽取出来的样本进行分成训练集 验证集和测试集 分别 用于不同的建模分析阶段 学 海 无 涯 3 解释变量分析 Exploratory analysis 3 1 变量筛选 Variable Reduction 在整理完我们允许使用的变量数据后 接下去的任务就是从大量的数据中找出对目标变 量有解释意义的变量来 我们可以通过下述的几个方面对变量进行分析 初步筛选 VIP 变量 VIP variables 在解决某些实际问题的过程中 因为业务人员对变量选择可能有一定的要求 他们因为 实际的业务需求

10、明确规定了哪些变量必须进入模型 另外 一些有类似建模经验的建模人员 也可能会提出模型很大可能会用到某些变量 因此我们在变量筛选时首先需要建立一个 VIP 变量组 该组的变量不需要经过筛选 直接进入模型 无监督的变量筛选 Non supervised variable reduction 无监督的变量筛选是指在筛选变量时不需要利用目标量信息的筛选方法 代表方法有 聚类分析 主成分分析 有监督的变量筛选 同理 有监督的变量筛选是指需要结合目标变量的信息才能进行的筛选方法 我们一般 采用的有 相关性分析 建立回归模型 信息值 3 2 变量分析 在经过一轮变量的预筛选之后 我 们需要专门针对筛选出来的

11、变量 进行更进一步的分析 学 海 无 涯 4 模型选择 Model Selection 如何衡量模型是否有效 我们下面介绍几种在实际操作中常用的判断方法 4 1 Lift Gain s chart 优势 a 可以用业务语言非常容易地解释 b 易观察 对商业决策有直观的帮助 劣势 a 无法直接用数字给出结果 b 图形和程度有时候会给人错觉 4 2 KS 值 Kolmogorov Smirnov Test MAD Sup F r F n MAD 是 ROC 曲线之间差值的最大值 如右图蓝线就是 MAD 我们通过曲线图可以 对整体样本按照转移率进行排序 比较 0 1 两种取值的分布 确定两种取值分布

12、的分离度 这种方式比较容易理解 现已经广泛运用于模型选择 分析中 SAS 中的 NPAR1WAY 过程步也可以直接计算出来 但是度量的效果受样本排序方式的影响较大 某一排序区间的样本分布也可能会对最终 的结果产生较大的影响 一般情况下 训练集与测试集的 KS 值差别不会很大 好的模型 KS 值一般在 0 25 0 75 区间内 4 3 信息值 即 A K A Kullback Liebler 距离 这种方法与 KS 原理类似 也可以很容易地比较 0 1 两种取值的分布 并且能够用于 处理字符型变量 但是与 KS 值一样 某一排序区间的样本分布也可能会对最终的结果产生 0 10 20 30 40

13、 50 60 70 80 90 100 0102030405060708090 100 c u m u la ti v e a c c e p ta n c e r a te rank RESP 1 RESP 0 ds sf sf sfsfIV n r nr log 0 1 2 3 4 5 6 7 12345678910 o f r e s p o n d e r s Rank Predicted Actual 学 海 无 涯 较大的影响 另外 SAS 中没有现成的过程步可以产生这个结果 4 4 Gini 系数 由意大利统计学家 Corrado Gini 在 1912 年提出 它通常被定义为

14、GINI 图中的 A A B 的值 Gini 系数是通过 0 1 两种分布的距离来衡 量的 SAS 里也有过程步可以直接计算 但是对 于非统计学家来说 这个名词较为专业了些 的数目影响 事实上 Gini 系数一般在 1 1 区间内 很 多分析师习惯用 C value 进行分析而忽略 Gini 系 数的分析 4 5 C value Concordant C value 是 ROC 曲线下的区域 A D C value 与 Gini 系数的原理类似 通过 Gini 系数也可以 C value 的值 C Gini 0 5 1 Gini 一般情况下 C value 值在 0 1 区间内 好的模型该值一

15、般在 0 6 0 9 之间 4 6 Total variance Reduction TVR TVR 可以衡量模型打分的排序能力 但是因为在计算时我们通常用 来代替 TVR 的值 所以我们得到只能是一种近似值 of Non responders Accepted of Responders Accepted Ri Ri 1 NiNi 1 100 100 A B 0 10 20 30 40 50 60 70 80 90 100 0 20 40 60 80 100 C u m u la ti v e o f r e s p o n d e r s population accepted Recei

16、ver Operating Characteristic ROC Curve A Data ranked in descending order by predicted score Data ranked in descending order by a uniform random variable D 0 1 0 0 V dsVV TVR s 0 20 1 0 0 V V N N V V Vk k k t Ties ConcordantC t N Concordant c 2 学 海 无 涯 在实际处理过程中 我们可能还存在一些其他的度量方式 在这里就不一一赘述了 5 建模的后续工作 当我们构建了合适的分析模型后 我们还有一些后续工作需要完成 另外 在提交成果时我们还需将模型的设计书 代码 变量说明等材料打包一并提交 并且上报模型的更新计划 6 参考文献 reference 1 Agresti A 1990 Categorical Data Analysis Wiley Inc New York 2 Allison P D 1999 Logistic Regression Usi

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 试题/考题 > 初中试题/考题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号