文档详情

logistic回归方法及在客户流失分析中的应用

hs****ma
实名认证
店铺
DOCX
13.10KB
约5页
文档ID:396923987
logistic回归方法及在客户流失分析中的应用_第1页
1/5

Logistic 回归方法及在客户流失分析中的应用1 Logistic回归方法1.1 Logistic 回归方法概述Logistic 回归是一种描述多种独立变量与因变量(只有两种结 果)之间关系的模型逼近法,其主要目的是为了进行分类,同时预估 事件发生的概率它可以考察多个属性变量在识别将要流失客户方面 的集成贡献.应用 Logistic 回归方法可以深入理解客户流失的原因, 分析哪些因数对于客户流失有影响,从而得到如何处理客户流失的线 索.12 Logit 变换在客户流失分析问题中,给定一个客户,我们可以设客户选择方 案Y=1表示客户正常使用,Y=0表示客户流失;P表示客户选择某一 方案的概率,那么一定有0WPW1由于Y取值离散,因此很难用线 性模型描述概率P与自变量的关系,另外如果P接近两个极端值,此 时一般方法难以较好地反映P的微小变化为此在构建P与自变量关 系的模型时,变换一下思路,不直接研究P,而是研究P的一个严格 单调函数G (p),并要求G(p)在P接近两端值时对其微小变化很敏 感.于是 Logit 变换被提出来:Log it (p) =ln ( P )1 P其中当p从0—1变化时,Logit (p)从,这个变化范围在模型数据处理上带来了很大的方便,解决了上述面临的难题。

1.3 Logistic 回归模型若用X= (X , X , X , X,X,…,X )表示可以在用户消费数据1 2 3 4 5 n 库中得到的描述性变量,那么我们建立的逻辑回归模型的数学表达式 为:Log it (P) =ln ( P(Y 二丨 X) ) = a+B X + B X + B X+・・・+B XP(Y = 0| X) 1 1 2 2 3 3 n n=a+1 BiXi (1)i=1其中:P (Y=1 丨 X)+P (Y=0 丨 X) =1式(1)中,X是自变量,代表参与逻辑回归分析的各种描述性i字段;B是逻辑回归后各个自变量的系数,表示:当因数X每改变ii一个测量单位是所引起的对数的自然改变量;a代表截距Logistic 回归模型的建立不是一个简单的过程,它的基本流程简要说明如下:(一)定义变量.强大的数据库资源是进行建模的坚 实基础,在众多自变量中尽量选择对因变量产生影响作用的变量,将 没有影响或影响较小的变量排除在模型之外,对这些变量进行定义并 收集足够的数据资料二)数据预处理采用统计软件,选取合适 的自变量筛选方法,筛选出对因变量产生影响的关键变量,得出符合 模型需要的变量系数、最大似然估计值和显著性等数据。

三)根据 得出的一系列数据建立模型四)将模型推广到整个客户市场,分 析客户流失状况,实旋结果评价与分析.Logistic回归方法作为数据挖掘工具中的一种,可以将观察所 得的分类结果和与分类结果有关的变量指标结合起来,发现它们之间 的某种关系,这种关系的可靠程度往往取决于观察分类的精确度和有 关变量指标集合的充分程度Logistic回归采用观察分类结果作为 输入相当于在建模过程中包含输入性系统误差,因此对新样本的分类 必然会以准确率为代价产生一些错误分类.尽管如此Logistic回归 方法仍然不失为一种有效的辅助分类工具.在具体应用时,不可能在 分类上做到尽善尽美,但是应该尽量使误差最小在对Logistic回 归方法进行简要了解之后•结合实际情况 建立Logistic回归模型 对客户进行流失预测并分析导致其流失的关键变量.2 Logistic回归方法的应用下面以通信公司为例,介绍Logistic回归方法在客户流失分析 中的实际运用1定义变量根据变量的定义,将客户流失状况作为因变量,其他变量作为自 变量>客户流失:客户是否从公司流失,0:客户流失,1:正常使用 >年龄(单位:岁):数值型变量。

A性别:0:男,1:女>所在地区:客户所在的地区,1:市区,2:市郊>教育程度:1:髙中及以下;2:大专,3:本科及以上>通话时长(单位:分钟):平均每个客户每月的通话时间>主叫比例:主叫比例=主叫次数/(被叫次数+主叫次数)>短信条数(单位:条):用户收发短信的总条数>基本月租(单位元):指不同品牌用户每月向通信公司缴纳的固定 月租费>投诉次数(单位:次):数值型变量>入网时长(单位:月):客户入网的时间长度> GPRS费用(单位:元):用户由于使用GPRS数据业务而产生的通 信费用,该业务按照使用数据流量计费> 3G/4G (单位:元)费用:用户由于使用3G/4G数据业务 而产生的通信费用,该业务按照使用数据流量计费.22 数据预处理使用SPSS115统计软件(Logistic Regression)对数据进行预 处理.由于自变量很多,并且不一定都是有效的自变量所以在建模是 需要引入对因变量有影响作用的变量,将没有影响或者影响不明显的 变量排除在模型之外因此,可以采取假设检验为基于最大似然估计 值的向前逐步回归法3 建立 Logistic 回归模型及分析在回归模型的建立过程中,根据虚拟的客户数据,共筛选出四个变量,包括投诉次数、入网时长、3G/4G费用、话费额•得到分 类函数:F=2。

578-0.512*投诉次数一0131*3G/4G费用 +0326* 入网时长+0008*话费额其中,F表示为所估计的客户流失与正常使用的比数比;为投诉1次数;X3为G/4G费用;X为入网时长;X为话费额;B (—02 3 4 i512,、一0.131、-0326、+0008)表示因素X改变一个测量单位i 时所引起的对数的自然改变量;2578 表示截距.由上式可知,4个变量中与F有正相关关系的是入网时长和话费 额,成负相关的变量有投诉次数、3G/4G费用,4个变量的重要 性程度划分依次为投诉次数〉3G/4G费用〉入网时长〉话费额以上的线性分类函数,也就是建立起来的一个简单的初步模拟客 户流失情况的回归模型。

下载提示
相似文档
正为您匹配相似的精品文档