数据挖掘与Clementine使用培训)

上传人:大米 文档编号:567588683 上传时间:2024-07-21 格式:PPT 页数:306 大小:5.65MB
返回 下载 相关 举报
数据挖掘与Clementine使用培训)_第1页
第1页 / 共306页
数据挖掘与Clementine使用培训)_第2页
第2页 / 共306页
数据挖掘与Clementine使用培训)_第3页
第3页 / 共306页
数据挖掘与Clementine使用培训)_第4页
第4页 / 共306页
数据挖掘与Clementine使用培训)_第5页
第5页 / 共306页
点击查看更多>>
资源描述

《数据挖掘与Clementine使用培训)》由会员分享,可在线阅读,更多相关《数据挖掘与Clementine使用培训)(306页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘与数据挖掘与Clementine使用培训使用培训北京瑞斯泰得数据技术开发有限公司北京瑞斯泰得数据技术开发有限公司7/21/2024Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385一、数据挖掘概述什么是数据挖掘数据挖掘的实现路线和流程数据挖掘方法论CRISP-DMBeijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Gua

2、ngzhou (8620)38240385为什么进行数据挖掘? 商业观点业务中产生了大量的数据,这些数据存储在业务系统中却不能创造价值客户信息数据客户交易行为数据客户反馈数据网络数据计算机变得越来越便宜、功能却越来越强大商业竞争越来越激烈,对客户了解越多就意味着机会越大Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385为什么进行数据挖掘? 技术观点业务中的数据量呈现指数增长(GB/小时)传统技术难以从这些大量数据中发现有价值的规律数据挖

3、掘可以帮助我们从大量数据中发现有价值的规律TheDataGapTotalnewdisk(TB)since1995Numberofanalysts From: R. Grossman, C. Kamath, V. Kumar, “Data Mining for Scientific and Engineering Applications”Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385一个市场营销的例子在在数据中发现有价值的规则或者模

4、式数据中发现有价值的规则或者模式女性对市场活动做出女性对市场活动做出回应,男性对市场活回应,男性对市场活动不做出回应,和年动不做出回应,和年龄无关龄无关Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385一个市场营销的例子数据变的复杂会如何?数据变的复杂会如何?女性对市场活动做出回应,女性对市场活动做出回应,老年男性也可能对市场活动老年男性也可能对市场活动做出回应做出回应Beijing Stats Data Mining Co. Ltd.

5、Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385一个市场营销的例子数据挖掘可以从异常复杂的数据中发现规律数据挖掘可以从异常复杂的数据中发现规律通过数据挖掘发通过数据挖掘发现回应的现回应的5 5条规条规则:则:1 1、如果收入大、如果收入大于于2962229622,有孩,有孩子,并且孩子的子,并且孩子的数量小于等于数量小于等于2 2,那么对市场活,那么对市场活动会回应动会回应通过数据挖掘发通过数据挖掘发现不回应的现不回应的5 5条条规则:规则:1 1、如果收入小、如果收入小于于12640.312640.

6、3,并,并且有一个孩子,且有一个孩子,那么对市场活动那么对市场活动不会回应不会回应Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385数据挖掘收益分析向60%的客户发信,得到了90%的收益数据挖掘的意义Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385利润分析图Beijing St

7、ats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385数据挖掘效果模拟分析数据挖掘以前数据挖掘以后差别发信的数量1,000,000750,000(250,000)成本$1,000,000$750,000($250,000)响应的数量10,0009,000(1,000)每个响应的收入$125$125$0总收入$1,250,000$1,125,000($125,000)净利润$250,000$375,000$125,000建模的费用040,000$40,000最终

8、的利润$250,000$335,000$85,000目的:发现新客户目的:发现新客户( (使响应率从使响应率从1%1%提高到提高到1.2%)1.2%)Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385什么是数据挖掘?不同的定义从大量数据中发现非平凡的、先前不知道的、有价值的规律的过程从大量数据中自动化(或者半自动化)的发现有价值规律的过程数据挖掘的其他名称数据库内知识发现(KDD- Knowledge discovery in data

9、bases )数据/模式分析商业智能人工智能Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385数据挖掘的起源来源于机器学习/人工智能、模式识别、统计学和数据库传统技术的局限性巨量的数据高维数据数据分布不理想机器学习/模式识别统计学数据挖掘数据挖掘数据库系统Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (

10、8620)38240385数据挖掘面临的挑战海量数据高维数据数据复杂性数据质量问题数据所有权和分布隐私问题Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385数据挖掘方法论项目顺利实施的保证 商业理解商业理解 数据理解数据理解 数据准备数据准备 建立模型建立模型 模型评估模型评估 模型发布模型发布Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)

11、53060345 Guangzhou (8620)38240385商业理解商业商业理解理解 数据数据 理解理解数据数据准备准备建立建立模型模型模型模型评估评估结果结果发布发布确定商业目标形势评估确定数据挖掘目标制定项目计划背景商业目标成功标准拥有资源需求、假定和限制风险和偶然性专业术语成本和收益数据挖掘目标数据挖掘成功标准项目计划工具和方法评估Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385数据理解商业商业理解理解 数据数据 理解理解

12、数据数据准备准备建立建立模型模型模型模型评估评估结果结果发布发布收集原始数据数据描述数据探索性分析数据质量描述数据收集报告数据描述报告探索性数据分析报告数据质量报告Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385数据准备商业商业理解理解 数据数据 理解理解数据数据准备准备建立建立模型模型模型模型评估评估结果结果发布发布选择数据确定分析包含/剔除数据数据集数据集描述数据清理数据清理报告数据重构生成新的变量(字段)生成新的记录整合数据合并

13、相关数据格式化数据改变数据格式,适应分析Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385建立模型商业商业理解理解 数据数据 理解理解数据数据准备准备建立建立模型模型模型模型评估评估结果结果发布发布选择建模技术产生检验设计建立模型评价模型模型技术模型假设检验设计参数设定建模模型评价参数设定的修订模型描述Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8

14、621)53060345 Guangzhou (8620)38240385模型评估商业商业理解理解 数据数据 理解理解数据数据准备准备建立建立模型模型模型模型评估评估结果结果发布发布结果评估数据挖掘过程回顾确定下一步的工作评估数据挖掘结果被认可的模型数据挖掘过程的回顾列出可能的行动决策Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385结果发布商业商业理解理解 数据数据 理解理解数据数据准备准备建立建立模型模型模型模型评估评估结果结果发布

15、发布发布结果计划监测和维护模型计划生成最终数据挖掘报告项目回顾结果发布计划监测和维护模型计划最终数据挖掘报告数据挖掘报告展现项目检验总结Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385商业理解是数据挖掘的起点C2C1解决方案解决方案商业价值商业价值商业需要商业需要Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangz

16、hou (8620)38240385商业理解的内容数据挖掘能解决什么样的商业问题?数据挖掘能解决什么样的商业问题?数据挖掘得到的结果,是否可以采取相应数据挖掘得到的结果,是否可以采取相应的行动以提高利润或降低成本?的行动以提高利润或降低成本?我们期望模型能够给我们怎样的精确率?我们期望模型能够给我们怎样的精确率?有那些前提假定?有那些前提假定?Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385约束分析时间约束分析时间约束分析资源约束分析

17、资源约束分析人力资源人力资源数据资源数据资源软件资源软件资源硬件资源硬件资源Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385制定特定的数据挖掘目标制定的数据挖掘目标应具有:制定的数据挖掘目标应具有:可评估性(可评估性(assessable)assessable)可实现性(可实现性(attainableattainable)Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052

18、Shanghai (8621)53060345 Guangzhou (8620)38240385如何给定一个数据挖掘问题是检验性数据挖掘还是探索性数据挖掘?是检验性数据挖掘还是探索性数据挖掘?确定哪些是可以实现的数据挖掘问题确定哪些是可以实现的数据挖掘问题 结果可测度性结果可测度性 信息(数据)的可获得性信息(数据)的可获得性 评估和控制其他相关因素的影响评估和控制其他相关因素的影响Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385数据

19、来源与数据之间的关系Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385使数据适合数据挖掘对数据进行适当的合并和汇总一般数据挖掘分析都要一个行列(记录变量)的二维表,必须把从不同数据源得到的不同格式的数据整合成这样一张表,要求:所有的记录含有排列顺序一致的变量所有记录的变量信息是完整的(理想化状态,在现实中很难达到)Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shang

20、hai (8621)53060345 Guangzhou (8620)38240385检查数据质量影响数据质量的几个主要问题缺失值缺失值不合理值不合理值不同数据源的不一致不同数据源的不一致异常值异常值Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385对数据进行适当的变换数据的标准化变换生成新的变量数据的重新编码数据降维,从变量角度或者从记录角度Beijing Stats Data Mining Co. Ltd.Beijing (8610

21、)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385数据挖掘模型的分类数据描述和汇总(Data description and summarization)细分(Segmentation)概念描述(Concept descriptions)分类(Classification)预测(Prediction)相关分析(Dependency analysis)Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou

22、(8620)38240385数据挖掘技术的分类数据挖掘数据挖掘描述描述预测预测统计回归统计回归关联规则关联规则决策树决策树可视化可视化聚类聚类顺序关联顺序关联汇总汇总神经网络神经网络分类分类时间序列预测时间序列预测Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385数据挖掘的典型结果金融 问题描述:预测信用水平是好还是差,银行据此决定是否向客户发放贷款,发放多少 结果描述:(决策树)收入大于5万元/年是否有无储蓄帐户是否房主否是是否批准不

23、批准批准Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385数据挖掘的典型结果电信 问题描述:根据客户信息,预测客户流失可能性 结果描述:(神经网络)输入流失概率(0.87)输出男293000元/月套餐A130元/月Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385数据挖掘的典型结

24、果零售问题描述:如何决定超市中商品的摆放来增加销售额结果描述:(Web图)Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385数据挖掘的典型结果制造业 问题描述:如何对市场进行细分,使产品满足最有价值客户 结果描述:(Koholen聚类)Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240

25、385数据挖掘的典型结果政府 问题描述:如何从众多申请经费或者纳税中发现欺诈 结果描述:(回归、神经网络)Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385检验的形式方法层面的检验方法层面的检验 训练集和检验集训练集和检验集 不同方法的互相印证和比较不同方法的互相印证和比较 模型准确性的检验模型准确性的检验: :商业层面上的检验商业层面上的检验 利润率的检验利润率的检验 模型结果可操作性的检验模型结果可操作性的检验 其他检验其他检验Be

26、ijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385关注那些错误的预测Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385数据挖掘不成功的几种可能性糟糕的数据糟糕的数据组织抵制组织抵制结果没有被有效的发布结果没有被有效的发布得到了无用的结果得到了无用的结果Beijing Stats Da

27、ta Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385模型发布的形式书面报告书面报告数据库更新数据库更新针对特定主题的应用系统针对特定主题的应用系统Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385数据挖掘的体系结构用户界面SPSS Data Access PackClementine Solutions Publ

28、isher RuntimeC/S结构或B/S结构发布数据挖掘模型C/S结构建立数据挖掘模型数据库模型库分析员ClementineSPSS Data Access PBeijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385二、Clementine概述Cl

29、ementine在数据挖掘中的地位Clementine发展历史Clementine的配置Clementine操作基础Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385数据挖掘的一般流程及数据挖掘软件在数据挖掘过程中的地位Better Better data mining data mining resultsresults!InsightInsightBusiness Business problemproblem?What What

30、you knowyou Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385数据挖掘方法论项目顺利实施的保证 商业理解商业理解 数据理解数据理解 数据准备数据准备 建立模型建立模型 模型评估模型评估 模型发布模型发布Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385Clementi

31、ne发展历程Clementine是ISL (Integral Solutions Limited)公司开发的数据挖掘工具平台1998年SPSS公司收购了ISL公司,对Clementine产品进行重新整合和开发,现在Clementine已经成为SPSS公司的又一亮点1994:Clementine V1.0发布发布1998:被被SPSS收购收购1999:Clementine ServerClementine Solution Publisher2000:Clementine V6.02002年年9月月:Clementine 7.02003年年9月月:Clementine 7.1中文版中文版2003

32、年年4季度季度Clementine 8.01998-20072004年年1季度季度Clementine 8.1中文版中文版2006年年12月月Clementine 10.0中文版中文版Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385Clementine的软件构成Clementine Client;Clementine Server;Clementine Batch;SPSS Data Access Pack;Clementine So

33、lution Publisher (Optional)。Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385Clementine的两种运行方式单机版运行单机版运行以下情况必须使用单机版运行:以下情况必须使用单机版运行:数据存储在本机,且不能在网络上数据存储在本机,且不能在网络上共享;共享;机器不联网;机器不联网;无无Clementine Server可供使用。可供使用。以下情况可以使用单机版运行:以下情况可以使用单机版运行:要处理的数据量

34、很小(比如:小于要处理的数据量很小(比如:小于2M)并且数据存储在单机或可到)并且数据存储在单机或可到达局域网处;达局域网处;单机内存、硬盘相对要处理的数据单机内存、硬盘相对要处理的数据量来说足够大,并且速度也满足要量来说足够大,并且速度也满足要求。求。C/SC/S结构运行结构运行以下情况必须使用以下情况必须使用C/SC/S结构运行:结构运行:单机内存或者硬盘不够大,难以单机内存或者硬盘不够大,难以运行大量数据;运行大量数据;单机上没有或者无法配置数据连单机上没有或者无法配置数据连结,无法从数据库中获取数据;结,无法从数据库中获取数据;组织规则不允许下载大量数据到组织规则不允许下载大量数据到单

35、机。单机。以下情况可以使用以下情况可以使用C/SC/S结构运行:结构运行:要处理的数据量很大,并且存储要处理的数据量很大,并且存储在可以通过在可以通过SPSS Data AccessSPSS Data Access技技术可到达的数据库处;术可到达的数据库处;单机速度慢,单机速度慢,Clementine Clementine ServerServer运行的机器配置高。运行的机器配置高。Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385Cl

36、ementine的系统结构Clementine的三层结构的三层结构:1、数据库层;、数据库层;通过Clementine Server进行调度,把那些可以通过SQL语句执行的数据操作过程以SQL语句的形式导入数据库并在其中进行;2、服务器端;、服务器端;进行调度,不能在数据库层面进行的操作在服务器端进行(比如数据挖掘模型计算过程)3、客户端。、客户端。在三层结构下通过Clementine Server进行调度,由客户端向服务器端发送数据挖掘指令,并接受和展示数据挖掘结果。Clementine ClientClementine Client和和Clementine ServerClementine

37、 Server通过通过SDLSDL(Stream Stream Description LanguageDescription Language )之间进行信息交换,)之间进行信息交换,Clementine ServerClementine Server和和DatabaseDatabase通过通过SQLSQL语句进行信息交换。语句进行信息交换。Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385Clementine运行的两种方式图形界面方

38、式图形界面方式适用操作系统适用操作系统Windows系列系列特点:特点:图形化界面图形化界面与客户直接交互与客户直接交互适合交互式分析过程适合交互式分析过程命令行方式命令行方式使用操作系统使用操作系统WindowsWindows系列系列UnixUnix系列系列特点:特点:命令行操作命令行操作不能生成图形,所有结果保存在不能生成图形,所有结果保存在文件里或者数据库中文件里或者数据库中适合于以下情况使用:适合于以下情况使用:1.1.运行耗时较长的建模过程运行耗时较长的建模过程2.2.希望在后台运行一些耗时较长的希望在后台运行一些耗时较长的数据准备数据准备3.3.过程希望按照一定的时间定期运过程希望

39、按照一定的时间定期运行(比如每周、每月等)行(比如每周、每月等)4.4.希望把希望把ClementineClementine(数据挖掘过(数据挖掘过程)运行过程嵌入应用系统中程)运行过程嵌入应用系统中Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385Clementine的界面和设计思路可视化界面可视化界面四个区域分别是建模区、结点区、模型描述区、项目管理四个区域分别是建模区、结点区、模型描述区、项目管理区区通过连接结点构成数据流建立模型

40、通过连接结点构成数据流建立模型ClementineClementine通过通过6 6类结点的连接完成数据挖掘工作,它们类结点的连接完成数据挖掘工作,它们是:是:Source(源结点):Database、Var. Files等Record Ops (记录处理结点):Select、Sample等Field Ops(字段处理结点):Type、Filter等Graphs(图形结点):Plot、Distribute等Modeling(模型结点):Neural Net、C5.0等Output(输出结点):Table、Matrix等Beijing Stats Data Mining Co. Ltd.Beij

41、ing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385Clementine操作基本知识鼠标应用鼠标应用三键与双键鼠标三键与双键鼠标左键左键 选择节点或图标置于建模区选择节点或图标置于建模区右键右键 激活浮动菜单激活浮动菜单中键中键 连接或断开两个节点连接或断开两个节点 帮助帮助Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385Clementine操作基本知识

42、节点的增加,以节点的增加,以 为例为例Click “Sources”Click “Sources”,Click Click ,Click “Click “流区域流区域”Click “Sources”Click “Sources”,Double Click Double Click Click “Sources”Click “Sources”,Drag to “Drag to “流区域流区域”节点的删除节点的删除Click Click , DeleteDeleteRight Click Right Click ,Click “Delete”Click “Delete”节点的移动:节点的移动:Dr

43、agDBeijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385Clementine操作基本知识节点的编辑节点的编辑Double ClickDouble ClickRight Click Right Click ,Click “Edit”Click “Edit”节点的重命名和解释节点的重命名和解释Right Click Right Click ,Click “Edit”Click “Edit”,Click “Annotations”Click

44、“Annotations”Double Click Double Click ,Click Click “Annotations”“Annotations”Right Click Right Click ,Click “Rename Click “Rename and Annotations”and Annotations”拷贝、粘贴拷贝、粘贴Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385Clementine操作基本知识构建流时节点

45、的连接构建流时节点的连接Highlight Highlight ,Add to the CanvasAdd to the CanvasRight Click Right Click ,Click “Connect”Click “Connect”,Click Click Drag the middle mutton from to Drag the middle mutton from to 构建流时节点连接的删除构建流时节点连接的删除Right Click or Right Click or , Click Click “Disconnect”“Disconnect”Right Click “

46、Connection”Right Click “Connection”,Click “Delete Click “Delete Connection”Connection”Double Click orDouble Click or Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385Clementine操作基本知识流的流的执行执行Highlight Highlight “StreamStream”,ClickClickRight Cli

47、ck Right Click ,Click Click “ExecuteExecute”In the Edit Window of the In the Edit Window of the , Click Click “ExecuteExecute”流的保存流的保存帮助帮助Help MenuHelp MenuDialogue WindowDialogue WBeijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385一个例子一个例子罗斯文商贸公

48、罗斯文商贸公司司 商业问题:商业问题: 微软公司提供的微软公司提供的案例案例数据库数据库罗斯文商贸公司,如罗斯文商贸公司,如何对客户价值进行评估何对客户价值进行评估背景介绍:背景介绍:1.1.罗斯文商贸公司是罗斯文商贸公司是MicrosoftMicrosoft数据库产品(数据库产品(Access, Access, SQL ServerSQL Server等等) )中的一个示例数据库;中的一个示例数据库;2.2.它虚拟了一家经销日用品的商贸公司它虚拟了一家经销日用品的商贸公司的的情况;情况;3.3.目前该公司保存目前该公司保存的的历史数据资料,见下页;历史数据资料,见下页;4.4.我们需要对客户

49、的价值进行评估,以便采取有效的市我们需要对客户的价值进行评估,以便采取有效的市场销售策略。场销售策略。Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385罗斯林商贸公司数据罗斯林商贸公司数据Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385罗斯文商贸公司统计问题罗斯文商贸公司统计问

50、题数据挖掘问题:数据挖掘问题: (1 1)如何描述客户价值?)如何描述客户价值?购买总金额?购买频购买总金额?购买频次?平均每次购买金额?最近购买金额?它们的线性次?平均每次购买金额?最近购买金额?它们的线性组合?组合?使用最简单的购买总金额使用最简单的购买总金额 (2 2)需要什么样的数据挖掘方法?)需要什么样的数据挖掘方法?描述汇总?描述汇总?分类?预测?概念描述?细分?相关分析?分类?预测?概念描述?细分?相关分析?使用使用最简单的描述汇总最简单的描述汇总 (3 3)需要的数据从哪里来?)需要的数据从哪里来?从以下几个来源:从以下几个来源:客户订单订单明细Beijing Stats Da

51、ta Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385罗斯文商贸公司商业问题解罗斯文商贸公司商业问题解决方案决方案 商业问题解决方案商业问题解决方案 从所有客户中找出最有价值的从所有客户中找出最有价值的1010个客户,将名个客户,将名单发给市场部门,让其对这些客户进行更多的单发给市场部门,让其对这些客户进行更多的关注关注Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060

52、345 Guangzhou (8620)38240385Clementine的优化包括两个方面的优化结构优化用户优化Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385结构优化把中间结果存储在Server上(尽量使用server版处理)从数据流上整理考虑的执行数据流(能一步完成的处理尽量不要分解到多个执行)减少数据的迁移(数据提前进行规划)Beijing Stats Data Mining Co. Ltd.Beijing (8610)51

53、722052 Shanghai (8621)53060345 Guangzhou (8620)38240385用户优化自动优化数据流:当使用这一选项时,自动优化数据流:当使用这一选项时,ClementineClementine将重写数据流以使效率最高(可以通将重写数据流以使效率最高(可以通过过Clementine ServerClementine Server中的中的sql_rewriting_enabledsql_rewriting_enabled来调整是否可以使用)来调整是否可以使用)1.优化的SQL生成。使尽可能的操作在数据库内进行。2.优化Clementine执行。调整数据降维的操作尽

54、可能接近数据源完成。手动优化数据流手动优化数据流1.操作顺序:有些操作可以在SQL中完成,有些操作不能在SQL中完成,尽可能把能够在SQL中完成的一起排在前面2.数据类型:尽可能在源节点处由用户自定义数据类型,而不是Clementine自动读取。Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385一个数据挖掘的实例客户信用级别判断系统Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722

55、052 Shanghai (8621)53060345 Guangzhou (8620)38240385问题的提出如何通过数据挖掘实现小灵通信用级别的如何通过数据挖掘实现小灵通信用级别的判断系统判断系统 某电信公司按照某种标准将小灵通客户信某电信公司按照某种标准将小灵通客户信用等级分为用等级分为5 5类,分别是类,分别是gradeAgradeA、gradeBgradeB 、gradeCgradeC、gradeXgradeX、gradeYgradeY。现在希望建。现在希望建立一套系统,能够使得市场部人员根据用立一套系统,能够使得市场部人员根据用户的几项关键的个人基本信息判断该客户户的几项关键的个

56、人基本信息判断该客户的信用级别,从而有针对性地对其采用不的信用级别,从而有针对性地对其采用不同的市场营销策略。同的市场营销策略。Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385数据描述变量名称变量含义备注Age年龄Sex性别Value消费水平分为高(high)、低(low)和一般(normal)三种Range联系范围分为高(high)、低(low)和一般(normal)三种WorkRatio工作时段比例0-1之间DistanceRat

57、io 长话比例0-1之间Credit信用级别以下五种之一:gradeA、gradeB 、gradeC、gradeX、gradeYBeijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385遵循CRISP-DM的数据挖掘过程数据理解(数据流)数据理解(数据流)数据准备(数据流)数据准备(数据流)建立模型(数据流)建立模型(数据流)模型评估(数据流)模型评估(数据流)结果发布(数据流)结果发布(数据流)商业理解(文档)商业理解(文档)Beijing

58、Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385在进行数据挖掘过程中应该注意的几个问题商业经验的作用商业经验的作用数据的拆分数据的拆分训练集与检验集训练集与检验集不同模型的印证与比较不同模型的印证与比较Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385结果发布信用级别信用级别静态列表静态列表信

59、用级别信用级别写回数据库写回数据库实时实时判断信用级别判断信用级别的分析应用的分析应用Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385三、数据理解:数据的可视化和报告数据组织形式数据图形展现数据表格展现Beijing Stats Data Mi

60、ning Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385数据挖掘要求的数据格式变量1变量2变量3记录1记录2记录3l 变量变量l 记录记录( (行代表记录,列代表变量行代表记录,列代表变量) )Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385数据尺度根据数据的不同,可以把变量分为以下一些类型定类变量例如:客户编号、性别、邮编

61、等不能比较大小定序变量产品等级、信用级别、客户收入水平分类等可以比较大小、不能进行加减运算定距变量出生日期、温度等可以进行加减运算、不能进行乘除运算定比变量收入、长度等可以进行乘除运算Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385各类变量尺度比较变量尺度量尺度描述描述例子例子可可进行的运算行的运算定类定类变量是离散变量,为了反映一个事物区别于其他事物的特征。只能进行等于或者不等于的比较。邮编、客户编号、性别众数、列联相关、2检验定序

62、定序变量是离散变量,可以比较大小。客户等级、信用级别、收入水平分类中位数、累计百分比、秩相关、游程检验定距定距变量是连续变量,可以比较大小,并且进行加减运算。日期、利润平均值、标准差、皮尔逊相关、t检验和F检验定比定比变量是连续变量,可以进行加减乘除各类运算。年龄、收入、长度几何平均数、比例指标Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385描述性统计量描述统计量(描述统计量(summary statisticsummary stat

63、istic),也称),也称汇总统计量或概括统计量汇总统计量或概括统计量用少量数字概括大量数据的技术用少量数字概括大量数据的技术Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385离散变量的描述性统计 频数频数 累计频数累计频数 频率频率 累计频率(累计必须是定序变量)累计频率(累计必须是定序变量)Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)

64、53060345 Guangzhou (8620)38240385连续变量的描述指标反映数据平均趋势和位置的指标反映数据平均趋势和位置的指标反映数据离散趋势的指标反映数据离散趋势的指标反映数据分布状况的指标反映数据分布状况的指标Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385反映连续数据平均趋势的指标平均数平均数算术平均数几何平均数截尾算术平均数:比较稳健有效地描述平均值 中位数中位数:(:(代表群体基本的趋势,集中的代表群体基本的趋

65、势,集中的趋势)趋势) 众数(多用于离散变量)众数(多用于离散变量) 四分位数(四分位数(25%25%,50%50%,75%75%) 百分位数百分位数Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385平均数与中位数的结合使用异常值下侧10分位点下侧四分位数上侧四分位数中位数上侧10分位点对5个数值表示的内容说法有些不同含义与左图不同含义与左图不同含义与左图不同含义与左图不同Beijing Stats Data Mining Co. Lt

66、d.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385反映连续数据离散趋势的指标 极差(全距)极差(全距)range =max-minrange =max-min 内距内距 50%50%的差距的差距 方差方差 :更适合离散趋势的描述(趋势放大):更适合离散趋势的描述(趋势放大) 标准差标准差 变异系数:标准差变异系数:标准差/ /均值,值越大,则离均值,值越大,则离散程度越大。散程度越大。Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 S

67、hanghai (8621)53060345 Guangzhou (8620)38240385平均数与标准差的应用 切比雪夫定理切比雪夫定理在任何一个数据集中,至少有(1-1/z2 )的数据项与平均数的距离在z个标准差之内,其中z是任意大于1的值。 切比雪夫定理含义切比雪夫定理含义1.至少75%的数据项与平均数的距离在2个标准差之内;2.至少89%的数据项与平均数的距离在3个标准差之内;(6西格玛质量管理应用)3.至少94%的数据项与平均数的距离在4个标准差之内。Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai

68、(8621)53060345 Guangzhou (8620)38240385连续变量的经验法则正态分布是一种最常用的连正态分布是一种最常用的连续型分布续型分布关于正态分布的经验法则关于正态分布的经验法则1.约68%的数据项与平均数的距离在1个标准差之内;2.约95%的数据项与平均数的距离在2个标准差之内;3.几乎全部数据项(99.97%)与平均数的距离在3个标准差之内。Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385切比雪夫和经验法

69、则的应用 问题问题某单位有100个人,他们的平均身高是170cm,标准差为5cm,那么有多少人的身高是落在160cm-180cm这个区间里的呢? 经验法则的应用经验法则的应用 根据切比雪夫定理,该单位至少有75%的人身高在160cm180cm这个区间里 根据正态分布经验法则,该单位大约有95%的人身高在160cm180cm这个区间里Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385反映连续数据分布状况的指标 偏度偏度 峰度峰度Beiji

70、ng Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385图形展现数据Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385图形技术的应用图形可以用来直观的展示数据的分布特征和取值情况图形可以用来直观的展示数据的分布特征和取值情况常见的描述离散变量的图形有常见的描述离散变量的图形有 条形图条形图 饼形

71、图饼形图常见的描述连续变量的图形有常见的描述连续变量的图形有 直方图直方图常见的描述两个离散变量之间关系的图形有常见的描述两个离散变量之间关系的图形有 Web图图 条形图条形图常见的描述两个连续变量之间关系的图形有常见的描述两个连续变量之间关系的图形有 散点图散点图常见的描述一个离散变量和一个连续变量之间关系的图形是常见的描述一个离散变量和一个连续变量之间关系的图形是 条形图条形图Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385通过图

72、形可以表现多个变量之间的关系Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385Chapter 2Clementine 简介Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385Chapter 2 Clementine 简介目的:初步了解Clementine软件内容:2.1 SPSS

73、Clementine C/S2.2 SPSS Clementine 面板2.3 SPSS Clementine 可视化程序使用基础节点SPSS file 节点 Table 节点Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403852.1 Clementine C/S启动:Start.Programs.Clementine 8.1 Clementine and Clementine ServerToolsServer LBeijing Sta

74、ts Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403851.把很多操作放在把很多操作放在2.数据库层面上执行数据库层面上执行2. 不能在数据库中执行的操作不能在数据库中执行的操作放在强有力的放在强有力的Server上执行上执行3. 客户端只用于观察客户端只用于观察结果和发出分析挖掘结果和发出分析挖掘指令指令4. 数据不必在网络上进行数据不必在网络上进行大量无效的传输大量无效的传输.Clementine的结构示意图的结构示意图Beijing Stats Data M

75、ining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403852.2 Clementine 面板流区域Stream canvas菜单栏工具栏面板区pallete节点区node流、结果、模型管理区项目管理区Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385第二讲:数据简单准备与理解数据准备之读入数据数据理解之数据质量数据理解之数据分

76、布Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385Chapter 3读取数据文件Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385Chapter 3 读取数据文件目的掌握Clementine如何读取文本格式数据了解Clementine可以读取的数据格式掌握Clementine中

77、的字段类型和方向数据SBeijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385Chapter 3 读取数据文件内容及节点:3.1 Clementine可以读取的数据格式3.2 读取文本数据与查看数据3.3 读取SPSS数据3.4 读取数据库数据(专用spss配置的链接)3.5 Clementine中的字段类型3.6 Clementine中的字段方向3.7 保存Clementine流Beijing Stats Data Mining Co. L

78、td.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403853.1 Clementine可以读取的数据格式文本格式数据SPSS/SAS数据Excel,Access,dBase,Foxpro,Oracle,SQL Server,DB2等数据库(每次只能读一个表)用户输入数据Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403853.2 读取文本数据与查看数据

79、Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403853.2 读取文本数据与查看数据Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403853.2 读取文本数据与查看数据Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Sha

80、nghai (8621)53060345 Guangzhou (8620)382403853.2 读取文本数据与查看数据Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403853.2 读取文本数据与查看数据Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403853.3 读取SPSS数据变量标

81、签值标签Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403853.4 读取数据库数据ODBC设置数据库-表Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403853.5 Clementine中的字段类型离散型二分 eg:sex:m/f多分 eg:等级:好/中/差离散 eg:连续型整数 实数

82、日期、时间其它Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403853.6 Clementine中的字段方向Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403853.7 读取其它格式的数据SasFixed text file:同一字段在各行的同一列Beijing Stats Data M

83、ining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385Chapter 4数据理解之数据质量Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385Chapter 4 数据理解之数据质量目的:掌握如何应用Clementine发现数据的准确性、完整性熟悉用于数据质量分析的几个节点内容:4.1 数据理解4.2 缺失值定义4.3 Qua

84、lity节点介绍4.4 Distribution节点-初步理解字符型字段的分布4.5 Histogram/Statistics节点-初步理解数值型字段的分布数据:Smallsamplemissing.txtRBeijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385数据理解的内容数据理解的内容对数据质量进行评价对数据进行初步的描述对数据之间的关系进行探索性分析Beijing Stats Data Mining Co. Ltd.Beijing (

85、8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403854.1 数据理解在数据挖掘之前,理解数据的取值范围及数值分布是非常重要的Histogram/StatisticsDistribution数据质量越高,挖掘结果准确性越高QBeijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403854.2 缺失值定义Missing values arevaluesinthedatasettha

86、tareunknown,uncollected,orincorrectlyentered.Theyareinvalidfortheirfields.缺失值的定义:type节点系统默认缺失值-onNull-数值型字段-空值-“”-“$Null”Empty String -字符型字段-空值-“”White Space -字符型字段-空值以及空格值-“”或“ ”-包括Empty String指定缺失值-Blank Value系统默认缺失值指定特殊缺失值-“99”缺失值的检查:quality节点Beijing Stats Data Mining Co. Ltd.Beijing (8610)517220

87、52 Shanghai (8621)53060345 Guangzhou (8620)382403854.2 缺失值定义Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403854.2 缺失值定义数据缺失情况数据量的大小包含缺失值的字段的数量缺失值的数量缺失值的处理方法忽略含缺失值的字段忽略含缺失值的记录默认值代替缺失值根据一定规则填充缺失值Beijing Stats Data Mining Co. Ltd.Beijing (8610)5172

88、2052 Shanghai (8621)53060345 Guangzhou (8620)382403854.3 Quality节点介绍查看缺失值情况查看各类型缺失值的分布情况Blank Value的指定Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403854.3 Quality节点介绍Quality结果Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (86

89、21)53060345 Guangzhou (8620)382403854.4 Distribution节点-初步理解字符型字段的分布单个字段的值分布例:人群中各种风险等级人数及百分比与其它分类字段合并例:分性别显示各种风险等级人数及百分比例:各种风险等级中男性女性各占比例Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403854.5 Histogram/Statistics节点-初步理解数值型字段的分布单个字段的值分布例:人群收入水平与其它

90、分类字段合并例:显示各种风险等级的收入水平例:显示各收入水平的各风险等级比例Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385Chapter 5简单数据整理Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385Chapter 5 简单数据整理目的:掌握Clementine中的数据整理

91、技术熟悉用于数据整理的几个节点内容5.1 Clem语言简介5.2 Select节点介绍5.3 Filter节点介绍5.4 Derive节点介绍5.5 自动生成操作节点数据Risk.txtSmallSampleMBeijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403855.1 Clem语言简介Clementine Language of Expression Manipulation应用节点:Derive导出, Select选择, Filter过

92、滤构建材料:函数、符号、数字、字段记录敏感:对每条记录返回值(整数、实数、布尔值、字符值、日期、时间)或评估是否满足条件两种表达式:条件表达式与计算表达式Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403855.2 Select节点介绍用于根据一定条件选择或丢弃某些记录CLEM构建Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345

93、Guangzhou (8620)382403855.3 Filter节点介绍对某些字段进行重命名或丢弃某些无意义的字段无意义字段缺失值占大比例所有记录有相同值中间过程生成的中间变量Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403855.4 Derive节点介绍根据原有字段值生成新字段值按公式生成字段生成二分型字段生成多分型字段对所有记录按同样标准生成新字段对不同记录按不同标准生成新字段对多个字段进行同一转换Beijing Stats Da

94、ta Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403855.4 Derive节点介绍可以利用导可以利用导出把连续数出把连续数据离散化据离散化(导出为标(导出为标志及集合),志及集合),以进一步分以进一步分析析Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403855.5 自动生成操作节点自动生成“Select”自动生成“F

95、ilter”Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385第三讲主要内容数据理解之数据关系探测基本建模方法简要介绍Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385Chapter 6数据理解之数据间简单关系Beijing Stats Data Mining Co. Ltd.B

96、eijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385Chapter 6 数据理解之数据间简单关系目的:掌握如何理解字段间关系熟悉用于字段关系理解的几个节点内容6.1 Matrix节点-研究字符型字段间关系6.2 Web节点-研究字符型字段间关系6.3 Statistics节点-研究连续型字段间线性相关关系6.4 Plot节点-研究连续型字段间关系6.5 Histogram节点-研究连续型字段与字符型字段的关系数据RBeijing Stats Data Mining Co. Ltd.Beijing (8610

97、)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385Chapter 6 数据理解之数据间简单关系解决问题风险等级是否与收入有关风险等级是否与性别有关如果一个人的信用卡数量较多,是否意味着它欺诈的可能性也大Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403856.1 Matrix节点-研究字符型字段间关系解决问题月付款的人是否比周付款的人风险程度更高男性是否比女性风险程序更高Ma

98、trix节点:交叉表(列联表)来显示字符型数据间关系行字段与列字段的选择显示百分比Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403856.1 Matrix节点-研究字符型字段间关系Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403856.2 Web节点-研究字符型字段间关系例:婚姻状态

99、、抵押贷款等是否与风险等级有关几个小概念:人数总数百分比大类百分比小类百分比强、中、弱相关关系结果解读Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403856.2 Web节点-研究字符型字段间关系Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403856.3 Statistics节点-研究

100、连续型字段间线性相关关系例:收入是否随年龄呈线性增长Statistics节点设置结果解读注意:线性相关关系而非相关关系(线形相关是相关关系的一种,其他相关关系最终需要转化为线形相关来研究)Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403856.3 Statistics节点-研究连续型字段间线性相关关系Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (862

101、1)53060345 Guangzhou (8620)382403856.4 Plot节点-研究连续型字段间关系例:显示孩子数目与贷款数目的关系用点的大小来反映其代表记录的多少用点的密度来反映其代表记录的多少用不同颜色的点来反映不同类别的记录Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403856.4 Plot节点-研究连续型字段间关系Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722

102、052 Shanghai (8621)53060345 Guangzhou (8620)382403856.5 Histogram节点-研究连续型字段与字符型字段的关系例:不同风险等级的人的收入情况显示某收入水平的各风险等级人数显示某收入水平-各风险等级在该收入水平所占的比例Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385表格展现数据Beijing Stats Data Mining Co. Ltd.Beijing (8610)517

103、22052 Shanghai (8621)53060345 Guangzhou (8620)38240385表格的元素构成统计量统计量行变量行变量层变量层变量列变量列变量汇总行汇总行Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385表格类型在SPSS里实现堆叠表堆叠表(Stacking)(Stacking)嵌套表嵌套表(Nesting)(Nesting)交叉表交叉表( (CrosstabulationCrosstabulation) )

104、分层表分层表(Layers)(Layers)Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385堆叠表Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385嵌套表Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shang

105、hai (8621)53060345 Guangzhou (8620)38240385交叉表Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385分层表Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385把层去掉以后的效果Beijing Stats Data Mining Co. Lt

106、d.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385枢轴表技术(Pivot Tables)行、列、层可自由互换,达到从各个角度观察数据的目的层层行行列列Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385Clementine表格Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Sha

107、nghai (8621)53060345 Guangzhou (8620)Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385Chapter 7建模技术概览Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385Chapter 7 Clementine中的建模技术目的:了解Clement

108、ine中提供的各种建模技术内容7.1 Clementine提供的模型技术7.2 Neural Networks(神经网络)7.3 规则归纳模型7.4 统计模型7.5 聚类模型7.6 关联规则模型7.7 Sequence模型7.8 总述Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385Data Mining ModelSupervised Model(监督模型,预测模(监督模型,预测模型,有目标的,关注型,有目标的,关注风险状况)风险状况

109、)(Predictive Model)Unsupervised ModelData Reduction(数据整理)(数据整理)Neural NetworksC5.0C&RT(CART)RegressionLogistic regression(分类变量预测)(分类变量预测)KohonenK-meansTwo-StepPCA(Principal Component Analysis)主成分分析主成分分析Factor因子分析因子分析Clementine提供模型概述提供模型概述Clustering(聚类)(聚类)APRIORIGRI(多维关(多维关联)联)SequenceAssociations(关

110、联)(关联)Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403857.1 Clementine提供的模型技术几种技术:预测、聚类、关联规则预测技术:InputsOutput六种方法:Neural Networks规则归纳:C5.0,C&RT与时间或顺序有关的关联规则:Sequence(Capri)统计学:回归、Logistic回归Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052

111、 Shanghai (8621)53060345 Guangzhou (8620)382403857.1 Clementine提供的模型技术聚类技术无Output无监督的学习三种方法:Kohonen统计学:K-means、TwoStep关联规则Both Input and Output三种方法GRI,AprioriSequence (Capri)Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403857.2 Neural Networks模仿

112、人脑Input/Output可以是Num,也可以是SymbolicMLP与RBFN劣势:黑匣子Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403857.3 规则归纳模型是决策树算法与Neural Net相比的优势结果好解释自动删除无意义的Input字段主要是根据结果变量值对数据按Input进行细分有两种结果形式:决策树形式或规则集形式Beijing Stats Data Mining Co. Ltd.Beijing (8610)517220

113、52 Shanghai (8621)53060345 Guangzhou (8620)382403857.4 统计模型之线性回归统计模型与Neural Net相比:严格的假设(如误差正态分布)用简单方程表达模型,便于解释可自动选择字段无法捕捉Inputs字段间的交互作用统计模型:线性回归Logistic回归主成分分析Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403857.4 统计模型之回归线性回归:方程:Y=a+b1x1+b2x2+ +b

114、nxn原理:寻找使误差平方和最小的系数Output字段-Numeric输出必须是连续型Input字段-Numeric/SymbolicLogistic回归:方程原理:寻找使误差平方和最小的系数回归系数随结果值而改变,与NN,RI相比,不适合复杂数据Output字段-Symbolic输出必须是离散性Input字段-Numeric/SBeijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403857.4 统计模型之主成分分析数据降维技术:用少量不相关数据

115、(主成分)来代替大量相关数据(原始数据)作分析主成分是原始数据的线性组合更可能与统计分析方法合并使用(相对于机器学习),尤其是在多个等级分类字段可用于预测模型或聚类分析之前Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403857.5 聚类模型发现有相似值记录的群体多用于市场(细分客户)和其它商业应用与主成分分析相似,多用于预测模型之前无监督学习(无output)三种聚类分析方法:KohonenK-meansTwoSBeijing Stats

116、 Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403857.5 聚类模型Kohonen聚类是一种实施无监督学习的神经网络算法一维或二维网格,各神经元相互连接K-means聚类又称为快速聚类,(速度快,适合大量数据)用户指定类别数与记录顺序有关(小数据量与记录顺序无关,大数据需要先执行一定程序找出数据各类别中心)TwoStep聚类用户指定范围,模型根据统计学标准自动选择类数消耗机器资源少能给出一个较好的结果Beijing Stats Data Mining Co. Lt

117、d.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403857.6 关联规则模型寻找数据中一起发生的事情与Web相似,但以极快的速度发掘更复杂的模式与规则归纳不同之处每个规则的Output字段可能各不相同规则可用于查看,但非预测可生成同一output字段的规则,用于预测与规则归纳相比,运行较慢,可增加限制条件从而提高速度两种算法:Apriori,GRI(广义规则探测)Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)

118、53060345 Guangzhou (8620)382403857.7 Sequence模型与关联规则不同之处在于寻找与时间/顺序有关的规则应用领域:零售、网络日志、过程改进用于字符型字段,数值被当作是字符用CARMA算法Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403857.8 综述如果要预测某个字段-有监督的机器学习和其中一种统计方法(依结果字段而定)如果想发现有相似行为(许多字段)的个体-聚类关联规则不能直接用于预测,但它是一种用

119、于理解数据内模式的有用工具如果对顺序、时间有兴趣,可用Sequence算法Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403857.8 综述如果想进一步选择具体的预测技术,依赖于目的字段,output字段与input字段间关系有一定经验规律,但不是规则Clementine的优势之处在于建模的简单Clementine只能发现数据内存在的关系,如果数据本身不相关联,不可能提取出一个模型数据挖掘是一个迭代、重复的过程Beijing Stats D

120、ata Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385第四讲:预测建模技术神经网络模型技术决策树模型技术回归分析技术模型间评估技术Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385预测的重要性 在当今充满竞争的社会里,一个企业如果能准确地预知其未来,那么其生存机会将大大增加,预测科学就是处理对未来的预测等问题的学

121、科。人们对未知的恐惧人们对未知的恐惧预测的重要性由来已久预测的重要性由来已久Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385预测相关注意事项预测对象所在的环境常常处于动态变化之中,一些不可知事件会对预测结果造成很大影响;被用来进行预测的数据常常是不稳定、不确定和不完全的,由其来源和收集的方式所决定;不同的时间区域常常需要不同的预测方法,形式上难以统一;因为不同的预测方法在复杂性、数据要求以及准确程度上均不同,因此选择一个合适的预测方法

122、是很困难的。Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385Chapter 8Neural NBeijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385Chpater 8 Neural Networks目的:掌握如何在Clementine中进行Neural Network 模型的构建和

123、解读掌握Neural Network节点数据:RBeijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385Chpater 8 Neural Networks内容8.1 Neural Net节点介绍8.2 构建Neural Network8.3 模型管理区介绍8.4 结果查看和结果解释8.5 模型预测值生成8.6 模型评价8.7 理解预测原因8.8 模型总结Beijing Stats Data Mining Co. Ltd.Beijing (86

124、10)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385神经网络模型预测技术基本概念: 神经元 三层结构Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403858.1 Neural Net节点介绍字段方向-Type节点或表In-X字段-自变量字段Out-Y字段-结果字段-聚类、主成分分析除外Both-自变量和结果字段-关联规则或顺序算法None-不用字段ID-typeless-N

125、one五种Neural Net方法,默认Quick过度训练(长时间接触同一个数据源,并用同样特征去描述其他数据集,结果往往错误)停止规则(避免过度训练)字段的相对重要性分析Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385避免过度训练问题选择测试集错误较低,或者两集错误交叉点Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 G

126、uangzhou (8620)382403858.2 构建Neural Network例:用age、sex、income等来预测客户的风险等级Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403858.3 模型管理区介绍浏览模型结果导出模型代码将模型载入数据流将模型导入项目管理区保存、清除、装载模型管理区Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (862

127、1)53060345 Guangzhou (8620)382403858.4 结果查看和结果解释结果的浏览:Right click generated “model” 模型准确性输入字段或层输出字段或层各输入字段的相对重要性Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403858.5 模型预测值生成将模型装入数据流$N-Risk是Neural Net对该记录风险等级的预测值$NC-Risk是$N-Risk的置信度(confidence)Be

128、ijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403858.6 模型评价-预测值与实际值的比较利用Matrix比较,通常关注的不是整体,例如欠费用户群而不是整个用户群。Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403858.6 模型评价Evaluation Node-评估比较模型,以选择最优

129、模型Evaluation 的原理:将数据按预测值和置信度从高到低排序,将数据拆分为多个集合,每集合包含相同的记录数,然后作图。关注值:flag变量的真值,set变量的第一个值五种图形:收益图、功效图、响应图、投资回报图、利润图Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403858.6 模型评价收益图功效图Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8

130、621)53060345 Guangzhou (8620)382403858.7 理解预测原因Web节点-Symbolic Input & Symbolic Output Distribuiton节点Symbolic Input & Symbolic Output Histogram节点-Numeric Input & Symbolic Output Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403858.8 模型总结预测风险中最重要因素

131、是婚姻状态和收入离异、单身、鳏寡人士可能是坏客户神经网络模型,高收入人群是好客户,但这一点并不与实际相符,如此预测,可能会给银行带来损失题外话:可用验证数据集,利用分析节点、评估节点、Matrix节点对模型进行评估Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385Chapter 9规则归纳模型决策树技术Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8

132、621)53060345 Guangzhou (8620)38240385Chapter 9 规则归纳模型目的:掌握如何在Clementine中进行规则归纳模型的构建和解读掌握C5.0节点数据RBeijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385Chapter 9 规则归纳模型内容9.1 C5.0、C&RT介绍9.2 构建C5.0模型9.3 C5.0 决策树型结果浏览和解释9.4 C5.0 规则集型结果浏览和解释9.5 模型预测值生成9.

133、6 模型评价9.7 模型总结Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403859.1 C5.0、C&RT介绍C5.0与C&RT的相似之处:构建决策树,按照自变量与结果变量的关系将数据拆分成各子群C5.0与C&RT的不同之处:C5.0C&RTOutput字段字段SymSymorNumOutput决策树一条记录只有一个预测结果规则归纳一条记录可能有多个规则可用决策树决策树拆分决策树拆分可一分多只能一分二算法标准算法标准信息收益比离散测量修剪

134、修剪准则不同规定最小分支记录数Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403859.2 构建C5.0模型模型的准确性与一般性模型的验证方法交叉验证(分散数据集,不断用新数据去验证)模型结果字段值的减少(输入变量最终并非全部进入模型)建立多个模型:耗时长难以解释结果Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzh

135、ou (8620)382403859.2 构建C5.0模型Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403859.3 C5.0 决策树型结果浏览和解释结果:决策树、模型形式可分支的子根众数显示例数与置信度继承性Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403859.4 C5.0 规则

136、集型结果浏览和解释Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403859.5 模型预测值生成Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403859.6 模型评价-预测值与实际值的比较利用Matrix来比较预测值与实际值Beijing Stats Data Mining Co. Ltd

137、.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403859.6 模型评价-不同值的收益图GainsChartfortheGoodRiskCategory GainsChartfortheBadLossCategory Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)382403859.7 模型总结C5.0使模型可以不用Web、Histogram等即可有效地理解模型

138、与Neural Net不同,没有Sensitivity Analysis,但同样可以辨别字段的重要性Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385决策树的优点 可以生成可以理解的规则计算量相对来说不是很大可以处理连续和种类字段决策树可以清晰的显示哪些字段比较重要Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangz

139、hou (8620)38240385决策树的缺点对连续性的字段比较难预测对有时间顺序的数据,需要很多预处理的工作当类别太多时,错误可能就会增加的比较快(对分类变量重新划分,二分或者数据降维,spss聚类分析法)一般的算法分类的时候,只是根据一个字段来分类(假设各字段间相关度不是很高)Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385Chapter 10模型比较Beijing Stats Data Mining Co. Ltd.Beiji

140、ng (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385Chpater 10 模型比较目的掌握如何利用Analysis节点进行模型的评估掌握如何利用验证数据集比较不同模型内容10.1 Analysis节点用于比较模型10.2 Evaluation节点用于比较模型10.3 利用验证数据集进行模型比较数据Risktrain.txtRBeijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)

141、3824038510.1 Analysis节点用于比较模型Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038510.1 Analysis节点用于比较模型评估多个模型评估各模型结果的一致性TrainVBeijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038510.2 Evaluation节点

142、用于比较模型Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038510.2 Evaluation节点用于比较模型评估多个模型评估各模型结果的一致性TrainVBeijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038510.3 利用验证数据集进行模型比较Beijing Stats Data M

143、ining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385第五讲主要内容聚类分析模型技术关联规则模型技术序列探测模型技术Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385Chapter 11Kohonen NBeijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Sha

144、nghai (8621)53060345 Guangzhou (8620)38240385Chpater 11 Kohonen Networks目的掌握Kohonen神经网络的建立、结果解释掌握Kohonen节点内容11.1 Kohonen节点介绍11.2 构建Kohonen Networks11.3 结果解释11.4 为每条记录产生类别字段11.5 结果理解数据SBeijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385Kohonen网络结构

145、 输入数据被展示在输入层中,其数据值被传送到输出层。然后每个输出层神经元都做出回应。回应最强烈的输出层神经元称为嬴家,它的回应就做为输入数据的结果。Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038511.1 Kohonen节点介绍聚类分析发现数据的总体结构及相互关系类间差别,类内相似Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)530603

146、45 Guangzhou (8620)3824038511.2 构建Kohonen NetworksKohonen节点字段方向设置:购买产品与否-In其它-None / Out / Both反馈图:红色越深,记录越多指定类别数:长*宽Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)3824038511.3 结果解释Kohonen结果X-轴Y-轴Beijing Stats Data Mining Co. Ltd.Beijing (8610)517220

147、52 Shanghai (8621)53060345 Guangzhou (8620)3824038511.4 为每条记录产生类别字段KX-KohonenKY-KohonenCluster=KX-Kohonen1.0 F0.0二值预测结果的评价(1)总体准确率(2)命中率(3)覆盖率NoYes覆盖率命中率Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385Clementine中预测二值问题Neural Net($N-outcome ,$N

148、C-outcome)C5.0($C-outcome,$CC-outcome)C&RT($R-outcome ,$RC-outcome)得到这Logistic($L-outcome ,$LP-outcome) 得到概率 $N-outcome,$C-outcome,$R-outcome,$L-outcome为预测T或F,得到置信度;$NC-outcome,$CC-outcome,$RC-outcome,$LP为前者预测的把握程度。Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guan

149、gzhou (8620)38240385由预测值和预测把握程度向预测评分的转化由Clementine中神经网络算法说起 |0.5 Raw Output |* 2|0.5 Raw Output |* 2例如,神经网络的例如,神经网络的raw outputraw output取置信度,概率为预测为真的概取置信度,概率为预测为真的概率,置信度为无论预测真假的可信程度。率,置信度为无论预测真假的可信程度。在Clementine中生成的预测模型(神经网络、决策树或Logistic回归)后接一个Derive节点,生成新字段预测评分: Type : Conditional If$N-Outcome Then

150、 0.5 + ($NC-Outcome / 2.0) Else 0.5 - ($NC-Outcome / 2.0) Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385练习1对数据集data1.csv建立二值预测模型,实现以下目标深圳电信/组合模型)应用C5.0模型得出预测模型,对模型的准确率(总体准确率、命中率、覆盖率)作出描述;应用神经网络模型建立预测模型,练习把离散问题连续化的方法;(提示:flag-range,T-1.0)应用C5

151、.0模型建立scoring型的预测模型( 提示:$C,$CC的组合)Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385组合模型解决二值预测的几种思路1.投票法(Voting)少数服从多数,小概率服从大概率原则,主要目的在于提高命中率2.修正法根据预测结果与实际结果比较调整预测(多个训练集,一个检验集)Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (86

152、21)53060345 Guangzhou (8620)38240385投票法之一多个模型一致对于同一问题建立不同模型,会得出不同的结果,多个模型同时预测同一结果时,往往这个结果更加可信方法的优点和缺点: 优点:提高模型预测精度 缺点:会有一些记录没有预测结果Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385投票法之二建立奇数个模型建立奇数个预测模型遵循少数服从多数原则Derive node (type: Conditional)If

153、$N-Outcome = $C-Outcome or $N-Outcome = $R-Outcomethen $N-Outcomeelse $C-Outcome带$的变量需要加引号Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385投票法之三更高把握程度原则应用那些具有更多把握程度的模型进行预测 If $CC-Outcome $NC-Outcome Then $C-Outcome Else $N-OBeijing Stats Data M

154、ining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385投票法之四根据把握程度汇总进行投票建立不同模型的评分(scoring)模型对不同模型得到评分(score)进行平均转化为二值预测问题 Converting : If all_score0.5 then T else F Converting the confidence back Ifall_score 0.5 Then (all_score 0.5) * 2 Else (0.5 - all_score) * Beijing

155、Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385练习2应用data2分别应用神经网络模型、C5.0模型和C&RT模型建立二值预测模型,再按照以上4中思路建立预测模型。对于test数据完成下表:模型名称总体准确率模型命中率模型覆盖率把握程度与实际结果比较图神经网络C5.0C&RT思路一思路二思路三思路四Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)5306

156、0345 Guangzhou (8620)38240385修正法之一模型堆叠(stacking)把模型的预测输出作为另外模型的输入Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385修正法之二找出错误预测的规律(error modelling)对于一个预测模型,我们能够发现错误预测的规律吗?挑出那些错误的,建立模型(常常需要平衡数据)缺点:有些记录会没有预测Beijing Stats Data Mining Co. Ltd.Beijing

157、 (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385修正法之三多个模型一致(agreement modelling)处理投票法一中的不确定值多个模型预测一致的作为预测对那些不一致的重新建立模型进行预测 Select node $N-Outcome /= $C-Outcome Derive node (type: conditional) If $N-Outcome = $C-Outcome Then $N-Outcome Else $N1-OBeijing Stats Data Mining Co. Ltd.Beiji

158、ng (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385修正法之四对模型建模(speciallist modelling)建立关于何时规则模型或神经网络模型预测准建立关于何时规则模型或神经网络模型预测准确的模型,得出模型的适用条件(数据情况)确的模型,得出模型的适用条件(数据情况)根据数据情况选择使用不同的模型根据数据情况选择使用不同的模型Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou

159、(8620)38240385练习3对于数据集对于数据集data1 to data5data1 to data5按照修正法思路按照修正法思路1 1思路思路4 4建立模型,对于数据集建立模型,对于数据集testtest完成下表:完成下表:模型名称总体准确率模型命中率模型覆盖率修正法思路一修正法思路二修正法思路三修正法思路四Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385总结提高二值预测效果的几种思路1.1.离散问题向打分(离散问题向打分(

160、scoringscoring)问题的转化)问题的转化2.2.投票法之一投票法之一多个模型一致多个模型一致3.3.投票法之二投票法之二建立奇数个模型建立奇数个模型4.4.投票法之三投票法之三更高把握程度原则更高把握程度原则5.5.投票法之四投票法之四根据把握程度汇总进行投票根据把握程度汇总进行投票6.6.修正法之一修正法之一模型堆叠模型堆叠(stacking)(stacking)7.7.修正法之二修正法之二找出错误预测的规律找出错误预测的规律8.8.修正法之三修正法之三多个模型一致多个模型一致9.9.修正法之四修正法之四对模型建模对模型建模Beijing Stats Data Mining Co

161、. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385六、数据挖掘技术在电信行业中的应用数据挖掘技术在电信行业中的应用数据挖掘技术在电信行业中的应用案例案例1 1:流失分析:流失分析案例案例2 2:流失症状与营销预演:流失症状与营销预演案例案例3 3:交叉销售(套餐分析):交叉销售(套餐分析)Beijin

162、g Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385客户生命周期理论客户分析的基础时间时间收入利润利润损失损失销售商品或服务销售商品或服务客户关系结束客户关系结束认知认知 更更少损失少损失更加更加有效的认知有效的认知利润利润 更多的利润更多的利润更更加多的销售额加多的销售额更加更加有效的认知有效的认知 MORE PROFIT利润利润甚至更多利润甚至更多利润更更长的客户关系长的客户关系更更加多的销售额加多的销售额时间利润案例一电信行业的流失分析Beij

163、ing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385电信行业流失分析的数据挖掘模型商业理解商业理解文档发布发布“D” 流Clementine SolutionsPublisher数据理解数据理解“E” 流数据探索数据准备数据准备“P” 流建模和评估建模和评估“M” 流Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou

164、(8620)38240385客户流失分析之商业理解移动通信业是一个竞争异常激烈的行业,移动通信业是一个竞争异常激烈的行业,对于移动通信运营商来说,如何对其客户对于移动通信运营商来说,如何对其客户进行有效的管理,尽可能的减少客户的流进行有效的管理,尽可能的减少客户的流失和跳网是一个紧迫的问题。在这里我们失和跳网是一个紧迫的问题。在这里我们将介绍数据挖掘在移动通信业关于客户流将介绍数据挖掘在移动通信业关于客户流失研究中的应用。失研究中的应用。 数据挖掘技术将提供功能强大的模型,可数据挖掘技术将提供功能强大的模型,可以回答以回答“哪些客户最可能流失?哪些客户最可能流失?”和和“为为什么这些客户会流失

165、?什么这些客户会流失?”等问题。等问题。Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385客户流失分析之商业理解什么是流失,流失如何定义什么是流失,流失如何定义 连续欠费不交?号码长期不用?二分标记变量?连续欠费不交?号码长期不用?二分标记变量?流失和哪些因素相关流失和哪些因素相关 顾客年龄?性别?收入?行业?话费水平?话务质量顾客年龄?性别?收入?行业?话费水平?话务质量?确定数据挖掘目标确定数据挖掘目标(1 1)对客户进行聚类分析,

166、寻找那些流失量比较大的客)对客户进行聚类分析,寻找那些流失量比较大的客户群户群(2 2)建立规则,描述那些易于流失的客户群的特征)建立规则,描述那些易于流失的客户群的特征(3 3)建立打分模型,对客户流失可能性(概率)进行评)建立打分模型,对客户流失可能性(概率)进行评价价Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385客户流失分析之数据理解字段名称字段名称字段含义字段含义指标解释指标解释Customer_IDCustomer_ID顾

167、客顾客IDIDGenderGender性别性别AgeAge年龄年龄Connect_DateConnect_Date入网时间入网时间顾客生命周期的开始顾客生命周期的开始, ,日期型日期型L_O_SL_O_S服务时间服务时间服务顾客时间长服务顾客时间长Dropped_CallsDropped_Calls掉线掉线次数次数在在6 6个月内个月内电话掉线次数电话掉线次数Pay MethodPay Method支付方式支付方式话费支付方式话费支付方式预交还是后付预交还是后付tarifftariff话费类型话费类型ChurnChurn是否流失是否流失二分二分标记变量,是或否标记变量,是或否HandsetHa

168、ndset手机品牌手机品牌顾客信息资料(共31769条记录,10个变量)Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385客户流失分析之数据理解字段名称字段含义指标解释Customer_IDCustomer_ID顾客顾客IDIDPeak_callsPeak_calls高峰时期电话数高峰时期电话数Peak_minsPeak_mins高峰时期电话时长高峰时期电话时长OffPeak_callsOffPeak_calls低谷时期电话数低谷时期电

169、话数OffPeak_mins_SumOffPeak_mins_Sum低谷时期电话时长低谷时期电话时长Weekend_callsWeekend_calls周末时期电话数周末时期电话数Weekend_minsWeekend_mins周末时期电话时长周末时期电话时长International_miInternational_minsns国际电话时长国际电话时长Nat_call_cost_SuNat_call_cost_Sum m国内电话花费国内电话花费= =高峰高峰+ +低谷低谷+ +周末花费周末花费monthmonth月份月份 CDR数据资料 (190,614条记录,10个变量)Beijing S

170、tats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385客户流失分析之数据理解字段名称字段名称字段含义字段含义指标解释指标解释tarifftariff资费种类资费种类fixed_costfixed_cost固定费用固定费用该种资费类型每月需支付固定费用该种资费类型每月需支付固定费用Free_minsFree_mins免费时长免费时长该种资费类型每月提供免费(国内)时长该种资费类型每月提供免费(国内)时长peak_ratepeak_rate高峰时期话费高峰时期话

171、费该种资费类型在高峰时期每分钟话费(超过免费时长该种资费类型在高峰时期每分钟话费(超过免费时长部分)部分)OffPeak_rateOffPeak_rate低谷时期话费低谷时期话费该种资费类型在低谷时期每分钟话费(超过免费时长该种资费类型在低谷时期每分钟话费(超过免费时长部分)部分)Weekend_rateWeekend_rate周末时期话费周末时期话费该种资费类型在周末时期每分钟话费(超过免费时长该种资费类型在周末时期每分钟话费(超过免费时长部分)部分)International_raInternational_ratete国际长途话费国际长途话费该种资费类型国际长途电话每分钟话费该种资费类型

172、国际长途电话每分钟话费VoicemailVoicemail语音信箱语音信箱语信信箱收费(未用)语信信箱收费(未用)SMSSMS短信服务短信服务短信服务收费(未用)短信服务收费(未用)资费数据资料(共5条记录,9个变量)Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385客户流失分析之数据准备把把CDRCDR月度数据汇总成月度数据汇总成6 6个月的总体数据个月的总体数据根据根据CDRCDR数据生成各种不同的平均数据和组数据生成各种不同的平均

173、数据和组合合 数据数据归并客户信息数据、归并客户信息数据、CDRCDR数据与话费数据数据与话费数据对客户现在付费类型的合理性进行简单分对客户现在付费类型的合理性进行简单分析析Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385客户流失分析之建立模型和模型评估对对客户进行聚类分析,并比客户进行聚类分析,并比较不同客户群流失可能性较不同客户群流失可能性建立规则,描述那些易于流失建立规则,描述那些易于流失的客户群的特征的客户群的特征建立打分模型

174、,对客户流失可建立打分模型,对客户流失可能性(概率)进行评价能性(概率)进行评价Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385客户流失分析之模型发布对每个特定客户的流失可能性进行打分评对每个特定客户的流失可能性进行打分评估估写回数据库写回数据库Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620

175、)38240385客户流失分析之建模图图例:图例:数据数据流案例二流失症状与营销预演Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385说明本案例意在说明如何应用Clementine实现规则导出和营销预演本案例是一个简化了的电信流失问题,我们不追求变量选择的完整性本案例目的是说明过程,不追求模型的准确性,对模型不进行任何调整Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 S

176、hanghai (8621)53060345 Guangzhou (8620)38240385流失分析使用变量目标变量:二分变量(是否流失)目标变量:二分变量(是否流失)输入变量:输入变量:1.长途时长2.国际时长3.本地时长4.通话时长合计5.投诉次数6.支付方式7.本地话费支付方式8.长途话费支付方式9.年龄10.性别11.收入估计12.婚姻状态13.孩子数量14.是否有汽车Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385流失分析

177、模型在流失分析规则导出中我们应用C5.0模型建立模型在流失分析营销预演中我们应用神经网络建立模型流失分析规则导出Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385数据流总体Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385超级节点1规则总结Beijing Stats Data M

178、ining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385超级节点2规则对应(Clementine自动生成)Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385超级节点3指定客户 可以在该节点中根据需要指定对哪些客户是否流失进行分析Beijing Stats Data Mining Co. Ltd.Beijing (8610)5

179、1722052 Shanghai (8621)53060345 Guangzhou (8620)38240385主要结果1生成了预测客户是否流失的决策树图如下(片断):生成了预测客户是否流失的决策树图如下(片断):Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385主要结果2生成了客户流失和不流失的若干规则如下:Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shangha

180、i (8621)53060345 Guangzhou (8620)38240385主要结果3针对指定客户的流失规则(1)例如针对年龄小于30岁的客户我们可以得到如下流失情况和对应流失规则:Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385主要结果4针对指定客户的流失规则(2)我们也可以针对某一个客户给出详细的预测(其中客户编号由使用者指定):流失分析营销预演Beijing Stats Data Mining Co. Ltd.Beijin

181、g (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385数据流总体Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385超级节点营销预演Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385主要结果1:计算成本收益

182、情况根据用户指定的每个客户的平均成本、营销活动折扣率和市场活动预根据用户指定的每个客户的平均成本、营销活动折扣率和市场活动预测回应率自动得出营销活动的预计净收益和市场活动的最优覆盖面及测回应率自动得出营销活动的预计净收益和市场活动的最优覆盖面及最优流失评分临界值。最优流失评分临界值。Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385主要结果2:营销活动成本收益图(1)Beijing Stats Data Mining Co. Ltd.B

183、eijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385主要结果2:营销活动成本收益图(2)案例三电信行业的交叉销售分析(套餐分析)Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385客户交叉销售模型目的发现客户选择数据业务的关联性根据客户已经选择数据业务,向客户进行交叉销售研究客户价值(或客户分群)与产品组合之间的关系Beijing Stats Data

184、 Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385分析各个产品之间的关联性进行交叉销售提高阈值结论:结论: 产品产品112根据客户购买使用情况可以分成根据客户购买使用情况可以分成4个个组合,每个组合易于被客户同时采用;组合,每个组合易于被客户同时采用; 4个组合分别是:个组合分别是:组合组合1:product01,product02,product03,product04组合组合2:product05,product06,product07组合组合3:product08,

185、product09,product10组合组合4:product11,product12其中组合其中组合4易被用户选择。易被用户选择。Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385关联规则结果Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385关联规则结果应用(1)l当业务人员

186、输入了某几项业务后,可以列出哪些客户选择了当业务人员输入了某几项业务后,可以列出哪些客户选择了这些业务,并提出应该向这些客户推荐哪些业务,把握程度这些业务,并提出应该向这些客户推荐哪些业务,把握程度如何?如何?客户手机号码目前使用业务1目前使用业务2最佳推荐业务最佳推荐业务把握程度130000000113000000011 1梦网生活笑梦网生活笑话梦网梦网图片片梦网政治笑梦网政治笑话79.579.5130000000213000000028 8梦网生活笑梦网生活笑话梦网梦网图片片梦网政治笑梦网政治笑话78.678.6130000000913000000092 2梦网生活笑梦网生活笑话梦网梦网图

187、片片梦网梦网铃声声78.478.4注:当工作人员输入某特定业务(这里是梦网生活笑话和梦网图片)后,可以向工作人员提示哪些用户选择了这些业务,并提出应该向这些客户推荐哪些业务及把握程度Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385关联规则结果应用(2)业务人员输入某一项业务后,可以列出应该向哪些客户推荐这项业务,业务人员输入某一项业务后,可以列出应该向哪些客户推荐这项业务,这些客户目前选择了哪些业务,向他们推荐这些业务的把握程度如何。

188、这些客户目前选择了哪些业务,向他们推荐这些业务的把握程度如何。 推荐业务应推荐客户号码目前使用业务1目前使用业务2推荐把握程度USSDUSSD图片片1380000000113800000001USSDUSSD政治笑政治笑话USSDUSSD铃声声86.9086.90USSDUSSD图片片1380000000713800000007USSDUSSD铃声声81.5081.50USSDUSSD图片片1380000000813800000008USSDUSSD政治笑政治笑话80.8080.80USSDUSSD图片片1380000000913800000009WAPWAP新新闻USSDUSSD铃声声80.

189、5080.50注:当工作人员输入某一特定业务(这里是USSD图片)后,可以向工作人员提示应该向哪些客户推荐这些业务,这些客户目前选择了什么业务,以及这种推荐的把握程度Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385关联规则结果应用(3)业务人员按照某种规则选出一部分客户后,可以列出这些客户选择了业务人员按照某种规则选出一部分客户后,可以列出这些客户选择了何种业务,并提出应该向这些客户推荐哪些数据业务以及这种推荐的何种业务,并提出应该向

190、这些客户推荐哪些数据业务以及这种推荐的把握程度把握程度。 客户手机号码目前使用业务1目前使用业务2最佳推荐业务最佳推荐业务把握程度1380000000113800000001USSDUSSD政治笑政治笑话USSDUSSD铃声声USSDUSSD图片片86.9086.901380000000213800000002梦网天气梦网天气USSDUSSD生活笑生活笑话梦网新梦网新闻85.4085.401380000000313800000003梦网天气梦网天气梦网新梦网新闻USSDUSSD生活笑生活笑话85.3085.301380000000413800000004USSDUSSD政治笑政治笑话USSDU

191、SSD图片片USSDUSSD铃声声85.3085.301380000000513800000005USSDUSSD生活笑生活笑话梦网新梦网新闻梦网天气梦网天气84.8084.80注:当工作人员输入某一特定查询条件时(这里查询条件是号段为1380000000113800000005的客户)后,可以向工作人员提示这些用户目前选择了哪些这些业务,并提出应该向这些客户推荐什么业务及把握程度 Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385电信

192、交叉效果实际应用效果Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385客户价值与交叉销售关系特高价值客户选择组合1,3人数多组合2容易被中等价值客户选择组合4容易被较低价值客户选择Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385电信行业的交叉销售数据挖掘分析数据流数据流1 1数

193、据准备数据准备 (P4_basket) (P4_basket) 数据变换,变换为市场篮数据数据变换,变换为市场篮数据数据流数据流2 2数据准备(数据准备(P5_custbasketP5_custbasket)计算客户价值)计算客户价值数据流数据流3 3探索选择套餐之间的关系,确定套餐组合探索选择套餐之间的关系,确定套餐组合(E3_productsE3_products)数据流数据流4 4向用户推荐套餐(向用户推荐套餐(D2_recommendD2_recommend)数据流数据流5 5细分客户群,并分析各个细分群体选择套餐的倾向性细分客户群,并分析各个细分群体选择套餐的倾向性(M3_proda

194、ssocM3_prodassoc)数据流数据流6 6不同价值客户群体选择套餐情况的探索性分析不同价值客户群体选择套餐情况的探索性分析(E4_prodvalueE4_prodvalue)数据流数据流7 7研究不同价值群体的选择套餐组合的情况并预测研究不同价值群体的选择套餐组合的情况并预测(M4_prodprofileM4_prodprofile)Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)38240385电信行业交叉销售建模图Beijing Stats Data Mining Co. Ltd.Beijing (8610)51722052 Shanghai (8621)53060345 Guangzhou (8620)

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号