客户数据挖掘PPT课件

资源描述

《客户数据挖掘PPT课件》由会员分享，可在线阅读，更多相关《客户数据挖掘PPT课件（58页珍藏版）》请在金锄头文库上搜索。

1、第9章数据挖掘与客户关系管理案例卓越亚马逊的推荐系统学习目标通过本章的学习，将能够：理解数据挖掘的含义熟悉数据挖掘的功能熟悉数据挖掘的主要技术掌握数据挖掘的业务流程了解客户关系管理对数据挖掘的需求理解数据挖掘在客户关系管理中的作用4数据挖掘数据挖掘数据数据库越来越大越来越大有价有价值的知的知识可怕的数据可怕的数据数据挖掘背景5数据爆炸，知识贫乏数据爆炸，知识贫乏苦恼: 淹没在数据中 ; 不能制定合适的决策! 数据数据知知识识决策决策n模式模式n趋势n事事实n关系关系n模型模型n关关联规则n序列序列n目目标市市场n资金分配金分配n贸易易选择n在哪儿做广告在哪儿做广告n销售的地理位置售的地理位

2、置n金融金融n经济n政府政府nPOSn人口人口统计n生命周期生命周期数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程，这些模型和关系可以用来做出预测。数据挖掘（数据挖掘（Data MiningData Mining）数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是一种新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理，从中提取辅助商业决策的关键性数据。数据挖掘数据挖掘的特点数据挖掘与传统分析方法的区别数据挖掘是在没有明确假

3、设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未知,有效和可实用三个特征：l先前未知的信息是指该信息是预先未曾预料到的,既数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识l有效信息是指符合实际情况且具有一定的代表性l可实用是指可以指导企业的营销决策数据挖掘的特点数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识数据挖掘所得到的信息应具有先未知、有效和可实用三个特征数据源必须是大量的、真实的、有噪声的发现的是用户感兴趣的知识发现的知识要可接受、可理解、可运用并不要求发现放之四海皆准的知识，仅支持特定的发现问题客客户接触接触客客户信息信息客客户数

4、据数据库统计分析与数据挖掘分析与数据挖掘客客户知知识发现客客户管理管理知知识发现：从数据中深入抽取：从数据中深入抽取隐含的、未知的和有潜在用途的信息含的、未知的和有潜在用途的信息从商业数据到商业智能算算法法层商商业逻辑层行行业应用用层商业应用商业模型挖掘算法相关行业数据挖掘的应用Debt$40KQ QQ QQ QQ QII123456factor 1factor 2factor n神神经网网络 Neural NetworksNeural Networks聚聚类分析分析 ClusteringClusteringOpenAccntAdd NewProductDecreaseUsage?Time序列

5、分析序列分析 Sequence AnalysisSequence Analysis决策决策树 Decision TreesDecision Trees 倾向性分析客户保留客户生命周期管理目标市场价格弹性分析客户细分市场细分倾向性分析客户保留目标市场欺诈检测关关联分析分析 AssociationAssociation 市场组合分析套装产品分析目录设计交叉销售数据挖掘的应用数据挖掘技数据挖掘技术的分的分类回顾分析：注重解决过去和现在的问题如：两年来不同地区、人口和产品情况下的各销售部门销售业绩分析预测分析：在历史信息的基础上预测某些事件和行为如：建立预测模型来描述客户

6、的流失率分类：根据某种标准将数据库记录分类到许多预先定义好的类别如：信用卡公司将客户记录分为好、中、差三类分类可以产生规则：如果一个客户收入超过5000万元，年龄在4555岁之间，居住在某地区，那么他的信用等级为好。数据挖掘技术数据挖掘技数据挖掘技术的分的分类聚类：根据某些属性将数据库分割为一些子集和簇如：在了解客户的过程中，尝试使用从未使用过的属性分割人群以发现潜在客户的簇关联：通过考察记录来识别数据间的密切关系关联关系常常表现为规则，常用于超市购物篮分析如：所有包含A和B的记录中有60同时包含C。时间序列：用于帮助识别与时间有关的模式如：通过对客户多次购物行为的分析可以发现购物行

7、为在时间上的关系常用于产品目录营销的分析数据挖掘的一般目的就是数据挖掘的一般目的就是检测、解、解释和和预测数据中定性的和或定量的模式数据中定性的和或定量的模式数据挖掘技术数据挖掘方法学数据挖掘方法学模式模式数据库中一个事件或事件的结合，这些事件比预期的要经常发生，其实际发生率明显不同于随机情况下的可期望发生率。模式是数据驱动的，一般只反映数据本身模型模型对构建事件的源时的历史数据库的描述，并且能够成功地应用于新的数据，以便对缺少的数据作出预测或对期望的数据作出说明。模型的一般表现形式数学方程式描述各客户段的规则集计算机表示方式模式可视化数据挖掘技术数据挖掘方法学数据挖掘方法学取取样

8、根据问题的需要采用随机取样的方法从数据库中抽取数据进行挖掘，有助于迅速发现模式、创建模型数据本身的处理过程需要验证验证模型模型创建过程需要保证正确模型应用的验证在依据一些历史数据建造模型后，将模型应用于未参与建造模型的其他类似的历史数据，比较其模型输出结果与实际结果。数据挖掘技术经典方法典方法统计统计可以通过对类似下列问题的回答获得模式在我的数据库中存在什么模式某个事件发生的可能性是什么那些模式是重要的模式统计的一个重要价值就是它提供了对数据库的高层视图，这种视图提供了有用的信息，但不要求在细节上理解数据库的每一条记录。数据挖掘方法经典方法典方法最近最近邻通过检测与预测对象最接近

9、的对象的状况对预测对象进行预测原理：某一特定对象可能与其他某一或某些对象比其它一些第三对象更接近；相互之间“接近”的对象会有相似的取值根据其中一个对象的取值，预测其最近邻对象的预测值商业应用：文献检索市场篮子分析应用评价：最近邻的数量最近邻的距离决定最近邻预测的可信度数据挖掘方法现代方法代方法基础理论有指导的学习(Supervised Learning)归纳概念分类标准与模型分类有指导的学习的目的：建立分类模型用模型确定新数据实例的类别训练数据（Training Data）与检验集(Test Set)用于创建模型的数据实例称为训练数据用于检验模型的准确度的数据实例称为

10、检验集数据挖掘方法有指有指导的学的学习(Supervised Learning)患者代码嗓子痛发烧淋巴肿充血头痛诊断结果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感症3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感症7NoNoYesNoNo咽炎8YesNoNoYesYes敏感症9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴淋巴肿数据挖掘方法患者代码嗓子痛发烧淋巴肿充血头痛诊断结果11NoNoYesYesYes?12YesYesNoNoYes?13NoNoNoNoYes?有指

11、导的学习(Supervised Learning)患者代码嗓子痛发烧淋巴肿充血头痛诊断结果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感症3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感症7NoNoYesNoNo咽炎8YesNoNoYesYes敏感症9NoYesNoYesYes感冒10yesYesNoYesYes感冒淋巴淋巴肿发烧No No Yes Yes 咽炎敏感症感冒淋巴肿、发烧是有意义的属性嗓子痛、充血、头痛是无意义的属性数据挖掘方法有指有指导的学的学习(Supervised Learning

12、)淋巴肿发烧No No Yes Yes 咽炎敏感症感冒患者代码嗓子痛发烧淋巴肿充血头痛诊断结果11NoNoYesYesYes?12YesYesNoNoYes?13NoNoNoNoYes?未知分类的数据实例（检验集）数据挖掘方法无指无指导的学的学习(Unsupervised Learning)为没有预先定义分类标准的数据建立模型客户ID客户类型交易保证金帐户交易方法交易数月性别年龄嗜好年收入1005联合NoOnline12.5F30-39网球45.9万1013委托保管NoBroke0.5F50-59滑雪89.9万1245联合NoOnline3.6M20-29高尔夫23.9万2110个人YesB

13、roke22.3M30-39钓鱼45.9万1001个人YesOnline5.0M40-49高尔夫67.9万ABC投资公司客户表数据挖掘方法无指无指导的学的学习(Unsupervised Learning)区分在线投资者和经纪人投资者的特征是什么一个新客户未开设交易保证金帐户，如何确定其将来是否会开设这种帐户能建立一个预测新投资者月均交易数的模型吗女性和男性投资者有什么不同的特征交易方式交易保证金帐户月均交易数性别数数据据挖挖掘掘问题属属性性哪些属性相似性决定ABC公司的客户分组属性值的哪些不同之处分隔了客户数据库有指有指导的学的学习无指无指导的学的学习数据挖掘方法现代方法决策树（D

14、ecision Tree）决策树是一种有指导学习的数据挖掘方法决策树的组成决策节点、分支、叶子根节点分支叶子Debt$40K节点决策树的分支过程就是对数据进行分类的过程，利用几个变量（每个变量对应一个问题）来判断数据所属的类别。在分支后，要使不同分支之间数据的差异尽可能大、同一分支内的数据尽量相同。这一分割过程也就是数据的“纯化”过程。数据挖掘方法决决策策树的的算算法法步步骤假设T为训练实例集选择一个最能区别T中实例的属性创建一个决策节点，它的值为所选择的属性创建该节点的分支，每个分支代表所选属性的一个唯一值使用分支的值，将数据实例分割为子类对于步骤5所创建的各个子类：如果子类中的数据实例

15、满足以下条件，可按此决策树对新数据实例指定类别分割中只包含一条数据实例分割中所有数据实例的属性都相同继续分割得到的改进不明显如果子类不满足上述条件，则设T为当前子类数据实例集合，返回步骤 2数据挖掘方法决策决策树的属性的属性选取取属性选取标准：最大化反映数据差异，使树的层次和节点数最小患者代码嗓子痛发烧淋巴肿充血头痛诊断结果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感症3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感症7NoNoYesNoNo咽炎8YesNoNoYesYes敏感症9NoYes

16、NoYesYes感冒10yesYesnoYesYes感冒淋巴淋巴肿发烧No No Yes Yes 咽炎敏感症感冒数据挖掘方法患者代码嗓子痛发烧淋巴肿充血头痛诊断结果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感症3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感症7NoNoYesNoNo咽炎8YesNoNoYesYes敏感症9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴肿发烧No No Yes Yes 敏感症敏感症咽炎No Yes 头痛淋巴肿感冒发烧淋巴肿No Yes 咽

17、炎No Yes 数据挖掘方法决策决策树的属性的属性选取取属性选取标准：最大化反映数据差异，使树的层次和节点数最小信用卡促信用卡促销数据数据库收入收入段段寿险促寿险促销销信用卡保信用卡保险险性性别别年年龄龄4-5万万NoNoM453-4万万YesNoF404-5万万NoNoM423-4万万YesYesM435-6万万YesNoF382-3万万 NoNoF553-4万万YesYesM352-3万万NoNo M273-4万万NoNo F433-4万万YesNoF414-5万万YesNoM432-3万万YesNoF295-6万万YesNoF394-5万万NoNoM552-3万万YesYesF19选取

18、收入段为根节点选取寿险促销为输出属性沿着每个分支有两个类，选取最频繁出现的类收入段收入段2Yes2No4Yes1No3No 1Yes2Yes23万万 34万万 45万万 56万万训练集分类的正确性为111573数据挖掘方法决策树（Decision Tree）：例信用卡促销数据库选取信用卡保险为根节点选取寿险促销为输出属性沿着每个分支有两个类，选取最频繁出现的类信用卡保信用卡保险6Yes6No3Yes 0NoNoYes训练集分类的正确性为91560数据挖掘方法收入收入段段寿险促寿险促销销信用卡保信用卡保险险性性别别年年龄龄4-5万万NoNoM453-4万万YesNoF404-5万万NoNoM42

19、3-4万万YesYesM435-6万万YesNoF382-3万万 NoNoF553-4万万YesYesM352-3万万NoNo M273-4万万NoNo F433-4万万YesNoF414-5万万YesNoM432-3万万YesNoF295-6万万YesNoF394-5万万NoNoM552-3万万YesYesF19决策树（Decision Tree）：例信用卡促销数据库选取数值型属性年龄为根节点选取寿险促销为输出属性依照年龄排序，对照输出属性进行数据分割，选择数据分割点年年龄9Yes3No0Yes 3No4343以年龄43结合寿险促销Yes，训练集分类的正确性为121580172729353

20、839404142434343455555YNYYYYYYNYYNNNN数据挖掘方法收入收入段段寿险促寿险促销销信用卡保信用卡保险险性性别别年年龄龄4-5万万NoNoM453-4万万YesNoF404-5万万NoNoM423-4万万YesYesM435-6万万YesNoF382-3万万 NoNoF553-4万万YesYesM352-3万万NoNo M273-4万万NoNo F433-4万万YesNoF414-5万万YesNoM432-3万万YesNoF295-6万万YesNoF394-5万万NoNoM552-3万万YesYesF19决策树（Decision Tree）：例信用卡促销数据库年龄

21、Yes（61）No（21）4343性别F M信用卡保险Yes（20）No（30）No Yes信用卡数据信用卡数据库的三的三节点决策点决策树训练集分类的正确性为131587数据挖掘方法收入收入段段寿险促寿险促销销信用卡保信用卡保险险性性别别年年龄龄4-5万万NoNoM453-4万万YesNoF404-5万万NoNoM423-4万万YesYesM435-6万万YesNoF382-3万万 NoNoF553-4万万YesYesM352-3万万NoNo M273-4万万NoNo F433-4万万YesNoF414-5万万YesNoM432-3万万YesNoF295-6万万YesNoF394-5万万No

22、NoM552-3万万YesYesF19决策树（DecisionTree）：例信用卡促销数据库收入收入段段寿险促寿险促销销信用卡保信用卡保险险性别性别年龄年龄4-5万万NoNoM453-4万万YesNoF404-5万万NoNoM423-4万万YesYesM435-6万万YesNoF382-3万万 NoNoF553-4万万YesYesM352-3万万NoNo M273-4万万NoNo F433-4万万YesNoF414-5万万YesNoM432-3万万YesNoF295-6万万YesNoF394-5万万NoNoM552-3万万YesYesF19信用卡保险Yes（52）No（41）NoYes性别F

23、 MYes（30）信用卡数据信用卡数据库的两的两节点决策点决策树训练集分类的正确性为121580数据挖掘方法决策树（Decision Tree）：例信用卡促销数据库检验集收入段寿险促销信用卡保险性别年龄检验结果4-5万NoNoM42正确2-3万NoNoM27正确3-4万NoNoM43正确2-3万YesNoM29错误年龄Yes（61）No（21）4343性别F M信用卡保险Yes（20）No（30）No Yes信用卡数据信用卡数据库的三的三节点决策点决策树数据挖掘方法现代方法代方法K平均值算法 K-平均值算法是一种简单而有效的无指导学习的统计聚类方法，将一组数据划分为不相关的簇算算法法步

24、步骤选择一个K值，用以确定簇的总数在数据集中任意选择K个数据实例，作为初始的簇中心试用简单的欧氏距离将其它数据实例赋予距离它们最近的簇中心试用每个簇中的数据实例，计算每个簇的新的平均值如果新的平均值等于次迭代的平均值，终止该过程。否则，用新平均值作为簇中心并重复步骤35。点A(x1,y1)与点B(x2,y2)之间的欧氏距离计算式为数据挖掘方法K平均值算法：例K-平均值输入属性实例XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.01.选择K=2，即将所有数据实例分为两个簇2.选择实例1作为第1个簇的中心，实例3作为第2个簇的中心3.计算各数

25、据实例与C1、C2之间的欧氏距离Dist(C11)=0.00 Dist(C21)=1.00 C1Dist(C12)=3.00 Dist(C22)=3.16 C1Dist(C13)=1.00 Dist(C23)=0.00 C2Dist(C14)=2.24 Dist(C24)=2.00 C2Dist(C15)=2.24 Dist(C25)=1.41 C2Dist(C16)=6.02 Dist(C26)=5.41 C24.迭代结果得到以下两个簇簇C1包含实例1、2，簇C2包含实例3、4、5、6Y数据挖掘方法K平均值算法：例K-平均值输入属性实例XY1(C1)1.01.521.04.53(C2)2.0

26、1.542.03.553.02.565.06.05.重新计算每个簇的中心对于C1：x=(1.0+1.0)/2=1.0 y=(1.5+4.5)/2=3.0 对于C2：x=(2.0+2.0+3.0+5.0)/4=3.0 y=(1.5+3.5+2.5+6.0)/4=3.375 因此，新的簇中心为C1=(1.0，3.0) C2=(3.0，3.375)YX 6.由于簇中心改变，进行第2次迭代K平均值算法：例K-平均值输入属性实例XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.0Dist(C11)=1.50 Dist(C21)=2.74 C1Dist

27、(C12)=1.50 Dist(C22)=2.29 C1Dist(C13)=1.80 Dist(C23)=2.125 C1Dist(C14)=1.12 Dist(C24)=1.01 C2Dist(C15)=2.06 Dist(C25)=0.875 C2Dist(C16)=5.00 Dist(C26)=3.30 C2第2次迭代的结果导致了簇的变化：C1包含实例1、2和3，C2包含4、5和6YX K平均值算法：例K-平均值输入属性实例XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.07.重新计算每个簇的中心对于C1：x=(1.0+1.02.0

28、)/3=1.33 y=(1.5+4.51.5)/3=2.50 对于C2：x=(2.0+3.0+5.0)/3=3.33 y=(3.5+2.5+6.0)/3=4.00 因此，新的簇中心为C1=(1.33，2.50) C2=(3.33，4.00)8.由于簇中心改变，继续进行第3次迭代YX K平均值算法：例数据实例与它们所对应的簇中心之间的误差平方和最小K平均值算法的几个应用K平均值算法的最优聚类标准输出结果簇中心簇点均方误差1(2.67, 4.67)(2.00, 1.83)2, 4, 61, 3, 514.502(1.5, 1.5)(2.75, 4.125)1, 32, 4, 5, 615.943

29、(1.8, 2.7) (5, 6)1, 2, 3, 4, 569.60YX YX YX 现代方法关联规则（Association Rules）关联规则的表现形式关联规则是一种无指导学习的数据挖掘中最普遍的知识发现，是指在行为上具有某种关联的多个事物在一次事件中可能同时出现，从而在多个事物中建立联系规则的方法。 “如果怎么样、怎么样、怎么样，那么就会怎么样” 关联规则的构成前件“如果怎么样、怎么样、怎么样” 后件“那么就怎么样” 如果买了西装，就会买领带如果买精显彩电，就会买家庭影院系统规则的构成如果怎么如果怎么样、怎么、怎么样、怎么、怎么样，就会怎么，就会怎么样前件，激前件，激发条件条

30、件后件，后件，结果果规则表表现为在前件所有条件成立的前提下，在前件所有条件成立的前提下，后件后件结果会以某一正确概率出果会以某一正确概率出现关联规则（Association Rules）规则的置信度和支持度关联规则（Association Rules）规则的置信度又称为规则的正确率，是指在前提出现的情况下，后件出现的概率规则的支持度又称为规则的覆盖率，是指包含规则出现的属性值的交易占所有交易的百分比例：如果客户买牛奶，那么他们也会买面包置信度：在10000次交易中客户购买了牛奶，而且其中的5000个交易也同时购买了面包，则上述规则的置信度为50001000050 支持度：在超市一个月的

31、客户交易中，共有600000次交易，其中购买牛奶的交易为60000次，支持度为6000060000010 规则的生成关联规则（Association Rules）决策树方法规则1：如果客户参加了信用卡保险，那么他就会参加寿险促销（置信度33100，支持度31520）规则2：如果一个男性客户没有参加信用卡保险，那么他也不会参加寿险促销（置信度4580，支持度51533）规则3：如果一个女性客户没有参加信用卡保险，那么她可能会参加寿险促销（置信度5771，支持度71547）规则4：如果是一个女性客户，那么她可能会参加寿险促销（置信度6875，支持度81553）信用卡保险Yes（52）N

32、o（41）NoYes性别F MYes（30）规则的生成现代方法关联规则（Association Rules）最近邻方法规则：如果一个客户处于的状况，那么他可能是一个逃款者关联规则可以使用传统的方法生成，但适当提供的属性很多时，因为每条规则的结果可能包含大量的前提条件，使用传统方法会变得不切实际。规则的生成现代方法关联规则（Association Rules） apriori方法 apriori方法步骤： 1.设置最小的属性值支持度要求 apriori方法是通过生成条目集，按照一定的准则要求从中选择规则的方法。条目集是指符合一定支持度要求的“属性值”的组合 2.生成条目集 3.使用生成

33、的条目集来创建规则规则的生成现代方法关联规则（Association Rules）杂志促销手表促销寿险促销信用卡保险性别YNNNMYYYNFNNNNMYYYYMYNYNFNNNNFYNYYMNYNNMYNNNMYYYNM apriori方法:例1.设置最小的属性值支持度要求（30） 2.生成条目集单项集合条目数杂志促销Y7手表促销Y4手表促销N6寿险促销Y5寿险促销N5信用卡保险N8性别M6性别F4单项条目集合规则的生成现代方法关联规则（Association Rules）杂志促销手表促销寿险促销信用卡保险性别YNNNMYYYNFNNNNMYYYYMYNYNFNNNNFYNYYMNYNNMYN

34、NNMYYYNM apriori方法:例双项条目集合双项集合条目数杂志促销Y手表促销N4杂志促销Y寿险促销Y5杂志促销Y信用卡保险N5杂志促销Y性别M4手表促销N寿险促销N4手表促销N信用卡保险N5手表促销N性别M4寿险促销N信用卡保险N5寿险促销N性别M4新英卡保险N 性别M4信用卡保险N性别F4规则的生成现代方法关联规则（Association Rules）杂志促销手表促销寿险促销信用卡保险性别YNNNMYYYNFNNNNMYYYYMYNYNFNNNNFYNYYMNYNNMYNNNMYYYNM apriori方法:例确定最小置信度（如50），利用双项条目集合生成规则3.使用生成的条目集来

35、创建规则规则1：如果杂志促销Y，那么寿险促销Y（57）置信度5771，支持度71070规则2：如果寿险促销Y，那么杂志促销Y（55）置信度55100，支持度51050规则的生成关联规则（Association Rules）市场篮子分析就是一种关联规则的表现时间序列分析是一种反映客户行为在时间上的关联性的关联规则规则的应用关联规则（Association Rules）以前件为目标归纳所有前件一样的规则分析后件的营销效果设计促销方案（完善前件）例收集所有前件为文具、复读机的规则，分析这些商品打折是否促进其他高利润商品的销售，从而调整商品结构、设计促销方案规则的应用关联规则（Associa

36、tion Rules）以后件为目标归纳所有后件一样的规则分析什么因素与后件有关或对后件有影响设计前件促成后件例收集到所有后件为西装的规则，可以帮助我们了解西装的销售受哪些因素的影响或与哪些因素相关，从而可以考虑将这些因素集合在一起而产生促销效果。规则的应用关联规则（Association Rules）置信度低置信度低置信度高置信度高支持度高支持度高支持度低支持度低规则的置信度和支持度的置信度和支持度规则很少是正确的，很少是正确的，但可以但可以经常使用常使用规则很少是正确的，很少是正确的，而且很少被使用而且很少被使用规则多数情况下是正确，多数情况下是正确，但很少被使用但很少被使用规则多数情况下是

37、正确的，多数情况下是正确的，而且可以而且可以经常使用常使用以置信度或支持度为目标案例： Bell Atlantic公司Bell Atlantic的数据挖掘系统非常成功，不仅为他们的业务开展带来很大的方便，而且节省了许多开支。Bell Atlantic的电话服务目前已经覆盖了美国14个州，拥有商业电话、住家电话帐户近亿个。Bell Atlantic 数据挖掘系统的首要任务就是尽快地追收拖欠的电话费，同时尽量减少收债部门的成本。案例： Bell Atlantic公司软件系统的选择非常重要。经过反复挑选后，Bell Atlantic采用了SAS统计软件系统建立数据挖掘系统，然后在SAS环境中利用SAS宏程序建立挖掘系统。然后是建立SAS格式库。许多数据需要格式化，比如年龄，可以从20到100岁，需要分成不同的组，这都需要利用模式来进行数据转换。有的数据不是连续变量，比如婚姻状况(单身/已婚)，也需要进行一些变换才可以进行计算。日期也是需要模式化的，不同计算机系统记录日期方法不同，需要把日期转换成一致的方法。在金融保险行业日期这个变量非常重要，因为很多客户的行为都记录在日期里面了。电话公司里记帐、付款的日期也非常重要。

展开阅读全文

客户数据挖掘PPT课件

最新文档