文档详情

案例2电信客户流失(程建华.ppt

夏**
实名认证
店铺
PPT
518.50KB
约20页
文档ID:574763805
案例2电信客户流失(程建华.ppt_第1页
1/20

安徽大学经济学院 The Economic School of Anhui University数据挖掘 Data MiningStatistics Department of Economic School of Anhui UniversityJianhua ChengSaturday, August 17, 2024Email: jhcheng0724@Mobile Phone: 13855179522A Series Course of Data Mining案例2—电信客户流失分析 安徽大学经济学院 The Economic School of Anhui University数据挖掘 Data Mining电信行业数据挖掘——客户流失研究之商业理解• 移动通信业是一个竞争异常激烈的行业,对于移动通信运营商来说,如何对其客户进行有效的管理,尽可能的减少客户的流失和跳网是一个紧迫的问题在这里我们将介绍数据挖掘在移动通信业关于客户流失研究中的应用 • 数据挖掘技术将提供功能强大的模型,可以回答“哪些客户最可能流失?”和“为什么这些客户会流失?”等问题 安徽大学经济学院 The Economic School of Anhui University数据挖掘 Data Mining电信行业数据挖掘——客户流失研究之商业理解•什么是流失,流失如何定义 连续欠费不交?号码长期不用?二分标记变量?•流失和哪些因素相关 顾客年龄?性别?收入?行业?话费水平?话务质量?•确定数据挖掘目标(1)对客户进行聚类分析,寻找那些流失量比较大的客户群(2)建立规则,描述那些易于流失的客户群的特征(3)建立打分模型,对客户流失可能性(概率)进行评价 安徽大学经济学院 The Economic School of Anhui University数据挖掘 Data Mining字段名称字段名称字段含义字段含义指标解释指标解释Customer_IDCustomer_ID顾客顾客IDIDGenderGender性别性别AgeAge年龄年龄Connect_DateConnect_Date入网时间入网时间顾客生命周期的开始顾客生命周期的开始, ,日期型日期型L_O_SL_O_S服务时间服务时间服务顾客时间长服务顾客时间长Dropped_CallsDropped_Calls掉线掉线次数次数在在6 6个月内个月内掉线次数掉线次数Pay MethodPay Method支付方式支付方式话费支付方式话费支付方式————预交还是后付预交还是后付tarifftariff话费类型话费类型ChurnChurn是否流失是否流失二分二分标记变量,是或否标记变量,是或否HandsetHandset品牌品牌 顾客信息资料 (共31769条记录,10个变量)电信行业数据挖掘——流失问题研究之数据理解 安徽大学经济学院 The Economic School of Anhui University数据挖掘 Data Mining字段名称字段含义指标解释Customer_IDCustomer_ID顾客顾客IDIDPeak_callsPeak_calls高峰时期数高峰时期数Peak_minsPeak_mins高峰时期时长高峰时期时长OffPeak_callsOffPeak_calls低谷时期数低谷时期数OffPeak_mins_SumOffPeak_mins_Sum低谷时期时长低谷时期时长Weekend_callsWeekend_calls周末时期数周末时期数Weekend_minsWeekend_mins周末时期时长周末时期时长International_minsInternational_mins国际时长国际时长Nat_call_cost_SumNat_call_cost_Sum国内花费国内花费= =高峰高峰+ +低谷低谷+ +周末花费周末花费MonthMonth月份月份 CDR数据资料 (190,614条记录,10个变量)电信行业数据挖掘——流失问题研究之数据理解 安徽大学经济学院 The Economic School of Anhui University数据挖掘 Data Mining字段名称字段含义指标解释tarifftariff资费种类资费种类fixed_costfixed_cost固定费用固定费用该种资费类型每月需支付固定费用该种资费类型每月需支付固定费用Free_minsFree_mins免费时长免费时长该种资费类型每月提供免费(国内)时长该种资费类型每月提供免费(国内)时长peak_ratepeak_rate高峰时期话费高峰时期话费该种资费类型在高峰时期每分钟话费(超过免费时长部分)该种资费类型在高峰时期每分钟话费(超过免费时长部分)OffPeak_rateOffPeak_rate低谷时期话费低谷时期话费该种资费类型在低谷时期每分钟话费(超过免费时长部分)该种资费类型在低谷时期每分钟话费(超过免费时长部分)Weekend_rateWeekend_rate周末时期话费周末时期话费该种资费类型在周末时期每分钟话费(超过免费时长部分)该种资费类型在周末时期每分钟话费(超过免费时长部分)International_rateInternational_rate国际长途话费国际长途话费该种资费类型国际长途每分钟话费该种资费类型国际长途每分钟话费VoicemailVoicemail语音信箱语音信箱语信信箱收费(未用)语信信箱收费(未用)SMSSMS短信服务短信服务短信服务收费(未用)短信服务收费(未用) 资费数据资料 (共5条记录,9个变量)电信行业数据挖掘——流失问题研究之数据理解 安徽大学经济学院 The Economic School of Anhui University数据挖掘 Data Mining电信行业数据挖掘——流失问题研究之数据准备• 把CDR月度数据汇总成6个月的总体数据• 根据CDR数据生成各种不同的平均数据和组合数据• 归并客户信息数据、CDR数据与话费数据• 对客户现在付费类型的合理性进行简单分析 安徽大学经济学院 The Economic School of Anhui University数据挖掘 Data Mining电信行业数据挖掘——流失问题研究之建模和评估• Kohonen聚类• Kmeans聚类• C5.0建立规则• C&RT决策树• Logistic回归模型• 神经网络模型对客户进行聚类分析,并比较不同客户群流失可能性建立规则,描述那些易于流失的客户群的特征建立打分模型,对客户流失可能性(概率)进行评价结论→→决策:流失概率高和低的都不管,关注中间层,范围多大? 安徽大学经济学院 The Economic School of Anhui University数据挖掘 Data MiningModeler 14.2文件:数据理解_观察各种因素和流失的关系如何.str 安徽大学经济学院 The Economic School of Anhui University数据挖掘 Data Mining文件:数据理解_各种费用比例和流失的关系.str 安徽大学经济学院 The Economic School of Anhui University数据挖掘 Data Mining文件:建立模型_研究不同客户群流失情况.str 安徽大学经济学院 The Economic School of Anhui University数据挖掘 Data Mining6. 案例分析案例分析文件:建立模型和模型评估_建立对用户流失可能性进行打分的模型并评估.str建立模型:(1)利用数据训练集训练模型,看模型是否合适。

安徽大学经济学院 The Economic School of Anhui University数据挖掘 Data Mining6. 案例分析案例分析文件:建立模型和模型评估_建立对用户流失可能性进行打分的模型并评估.str建立模型(2)利用数据检验集对已经建立的模型进行查看,看预估数据与实际数据是否吻合,出错比例大概多少 安徽大学经济学院 The Economic School of Anhui University数据挖掘 Data Mining理解数据挖掘应用/建模图P1 aggregatecust callP2 valuecust call plusE1 exploreE2 ratiosM1 churnclustcust infocdrtariffP3 splittraintestM2 churnpredictD1 churnscore图例图例: 数据数据 流流Model电信数据挖掘电信数据挖掘——流失应用流失应用6. 案例分析案例分析 安徽大学经济学院 The Economic School of Anhui University数据挖掘 Data Mining电信行业数据挖掘——流失问题研究之模型发布• 对每个特定客户的流失可能性进行打分评估• 写回数据库 安徽大学经济学院 The Economic School of Anhui University数据挖掘 Data Mining 您需要将您对数据挖掘结果是否达到业务成功标准的评估记录在案。

在报告中考虑以下问题:l 您的结果是否明确声明并且采用可以轻松展示的格式?l 是否存在应该突出强调的特别故事或独特的发现问题? l 您是否能够按照模型和发现的问题对于业务目标的适用顺序对他们进行排序?l 总的来说,这些结果能在多大程度上满足您组织的业务目标?l 您的结果还引发了哪些其他问题?您将如何使用商业术语表述这些问题? 评估完结果后,编辑汇总一个已批准的模型列表以包含在最终报告中此列表应该包含同时满足您组织的数据挖掘目标以及业务目标的那些模型模型评估 安徽大学经济学院 The Economic School of Anhui University数据挖掘 Data Mining如果要评估模型的准确度,则需要对一些记录进行评分,并将模型预测的响应与实际结果进行比较接下来对用于评估该模型的相同记录进行评分,以将观察到的响应与预测响应进行比较1.表在名为 $R-Credit rating 的字段中显示预测分数,该字段由模型创建我们可以将这些值与包含实际响应的原始信用评价字段进行比较2.按照惯例,在评分过程中生成的字段的名称基于目标字段,但是要加上标准前缀,例如 $R- 表示预测值,$RC- 表示置信度值。

不同的模型类型使用不同的前缀集置信度值是模型自己的评估,尺度从 0.0 到 1.0,表示每个预测值的精确程度3.与预期的一样,预测值与大多数(并非全部)记录的实际响应相匹配原因是每个 终端节点均有混合响应预期值与最常见的响应相匹配,但对于该节点中的其他响应,该预期值是错误的记住,16% 的少部分低收入客户没有拖欠4.若要避免出现此情况,应继续将树分割为更小的分支,直到每个节点都是不含混合响应的 100% 纯节点为止—即全部为优良或不良但是,这样的模型可能会非常复杂,并且不易推广到其他数据集模型评估 安徽大学经济学院 The Economic School of Anhui University数据挖掘 Data Mining 增益图 红线为“随机线”,即随机抽取总体数据的预测结果,是参照基线,$Best-流失评分线是“理想线”,即模型准确预测应得到的结果,中间三条即三个模型的实际预测的累计增益结果模型曲线越靠近理想线,与随机线包围面积越大,模型的预测效果越好,上图三个模型均很靠近理想线横轴表示总体数据的百分比,图中可以看出,利用总体约45%的数据已经可以通过这三个模型达到接近理想线的预测结果。

模型评估 安徽大学经济学院 The Economic School of Anhui University数据挖掘 Data Mining 提升图 提升图与累计增益图解释类似,均是描述模型预测的准确性,它衡量与不利用模型(即图中红色的基线)相比,模型的预测能力“变好”了多少由图可以看出,各模型的峰值也是在总体约45%的位置,超过45%,模型的提升值趋于下滑,即利用总体45%的数据就可以使三个模型的预测效果靠近理想线,说明三个模型的预测结果均是可靠的增益图与提升图都显示C5.0决策树模型预测流失评分离基线最远,在三个模型中应该优先考虑C5.0决策树模型模型评估 安徽大学经济学院 The Economic School of Anhui University数据挖掘 Data Mining谢谢!谢谢! 。

下载提示
相似文档
正为您匹配相似的精品文档
相关文档