企业CRM系统中决策树算法的应用

上传人:m**** 文档编号:488393946 上传时间:2023-09-18 格式:DOCX 页数:8 大小:153.56KB
返回 下载 相关 举报
企业CRM系统中决策树算法的应用_第1页
第1页 / 共8页
企业CRM系统中决策树算法的应用_第2页
第2页 / 共8页
企业CRM系统中决策树算法的应用_第3页
第3页 / 共8页
企业CRM系统中决策树算法的应用_第4页
第4页 / 共8页
企业CRM系统中决策树算法的应用_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《企业CRM系统中决策树算法的应用》由会员分享,可在线阅读,更多相关《企业CRM系统中决策树算法的应用(8页珍藏版)》请在金锄头文库上搜索。

1、企业 CRM系统中决策树算法的应用xx 金融学院郭佳许明XX市科技局基于数据挖掘的客户关系管理系统应用研究09ZG009摘要:客户资源决定企业的核心竞争力,更多的关心自己的销售群体,并与 之 建立良好的、长期的客户关系,提升客户价值,对全面提升企业竞争能力和盈 利能力 具有重要作用。本文以某企业销售业绩为对象,利用决策树分类算法,得 到支持决 策,从而挖掘出理想客户。关键字:客户关系管理;数据挖掘;分类算法决策树分类是一种从无规则、无序的训练样本集合中推理出决策树表示形式 的 分类规则的方法。该方法采用自顶向下的比较方式,在决策树的内部结点进行 属性 值的比较,然后根据不同的属性值判断从该结点

2、向下的分支,在决策树的叶 结点得 到结论。本文主要研究决策树分类算法中ID3算法在企业CRM系统中的应用情况。1. ID3 算法原理ID3 算法是一种自顶向下的决策树生成算法,是一种根据爛减理论选择最优 的 描述属性的方法。该算法从树的根节点处的训练样本开始,选择一个属性来区 分样 本。对属性的每一个值产生一个分支。分支属性的样本子集被移到新生成的 子节点 上。这个算法递归地应用于每个子节点,直到一个节点上的所有样本都分 区到某个 类中。2. 用于分类的训练数据源组 数据挖掘的成功在很大程度上取决于数据的数量和质量。我们应从大量的企 业客户数据中找到与分析问题有关的,具有代表性的样本数据子集。

3、然后,进行 数据预 处理、分析,按问题要求对数据进行组合或增删生成新的变量,从而对问 题状态进行 有效描述。在本文研究的企业数据中,是将客户的年龄槪化为“小于等于30”、“30到 50之 间”和“大于 50”三个年龄段,分别代表青年、中年和老年客户,将产 品价格分为髙、 中、低三档等,详见表1,将企业CRM系统数据库中销售及客户信息汇总为4个属性 2个类别。 4个属性是客户年龄段、文化程度、销售地区、 产品档次,类别是销售业 绩,分为好和差两类。attributeage=30=30=30=30=30=30=30=3010=30=301112131115161718202122232425265

4、05050表 1 训练样本集合educationareaI-IIIIiinIIIIlevellowhighmediumhighhighlowlowhighmedium mediumlowmediummediumlowhighmediumlowhighlowhighlowhighhighhigh highmediumclassbadgoodbadgoodgood goodgoodgoodgood goodgoodgoodgoodbadgoodgoodgoodbadbadgoodgoodbadgoodbadbadgood表 2 训练数据中各厲性的说明3. ID3 算法分类模型的建立由表1 可知:类

5、标号属性有两个不同的值,因此有两个不同的类(即沪2)设 类 C1 对应于 good, 类 C2 对应于 bado 类 good 有 18 个样本,类 bad 有 8 个样 本。为了计算每个属性的信息增益以初始信息炳为:先使用必宀几)二一1。幻(必),所/=1I(sg) = 1(18,8) =1 Q Q2o 2oQ2o18 26 8 26 18 8 . 1 - logj 2626 26*0.53 +*1.7 =0. 8905然后计算客户年龄、文化程度、产品档次和销售区域 4个属性的炳。首先观察 age 属性的每个样本值的 good、 bad 分布,分别计算每个分布的信息炳:当 a 加吨廿 99

6、9 2 2I(S11,S21)=-_log2-nlog2n当 age 在 31-50 间: s 庐 8 第 4 时, I (S12, s22)= -log2 - -log2当 age=50:1 1 2 2s.3=l 甘 2 时, I (Sl3, s23)= -log2-log2 -若按 age 划分样本,所需的信息爛为:I 1? 3E (age) + /(5p ,522)+ _ 八(八13八23)- 8192 类似的,可以得到:26 26 2 26E(education)=954,4、 12/8 4,-(-log2-log2-) + -(-log2-log2-) + -(-log2-log2-

7、)=0. 76694八 55,50,0 、E(production)=11, 7.74 .4x 76.61.1.85.x无亦(方1。巧-齐g行)+示(飞阳适飞呱)=0. 85353.3、rz 17, 14143 . 3X 94.4 5.5、rE(area) = -(-log2-log2-) + -(-log2-X-log2-) = 0.783通过以上属性,对当前分支节点进行相应样本集合划分,从而获得的信息增 益 分别为:Gain (age) = I (sH s2)- E (age) =0. 8905-0. 8192=0. 0713Gain (education) = I(S), s2)E (e

8、ducation)二 0. 8905-0. 7769=0. 1236Gain (production) = I (si, s2) E (production) =0. 8905A0. 853=0. 0375Gain (area) = I(s 】,S2)-玖area) =0. 8905-0. 783=0.1075Gain (equipment) =1. 576 - 0. 873 = 0. 703从计算结果得到education属性具有最髙信息增益,因此education属性成 为决 策树根节点的测试属性。如下图所示:education一M1I . 30 low二bad8I =30 highgoo

9、d5I _ 30 highgood2I =30 highgood9I =30 mediumgood6I =30 lowgood3II =30 mediumbad10II=30 mediumgood7II =30 lowgood4II =30 highgood11I =30 lowgood20II =50 highbad25II =50 highbad26I =50 mediumgood图1决策树根节点的测试属性在样本集合中对education属性的3个取值进行分支,3个分支对应3个子 集, 分别为:P1 = 1,2,3,4,15,16,17,18,19;P2= 8,9,10,11,12,13,

10、14,22,23,24,25,26;P3 二5,6,7,20,21其中P3的样本都为good类,因此对应分支标记为good, Pl、P2样本类别 未 定,所以需要对Pl、P2子集分别递归调用ID3算法。在P1中可以求出剩7的age、production, area三个属性的信息增益。5 3 3 log2-) = 0.985因畑滋協的宀)- ge)= 0.0073, - 1 22、2, 1.93 a3392 - 2GKKKroductiorij = / (5p52)- E(productiori) = 0.1035 44114111 1 .221、4Z 3.394 A41 .44E(area)

11、= _(log: log一)+ 一(log95=55= 594 A43lo 鮎一)=0.7624 4Gain(area) = I(s,s2)- E(area) = 0.23因为area属性的信息增益最大,所以把属性area作为该分支的节点,再向分支,P2处理类似,最后得到的决策树如下图所示:图 2 经数据分类生成的决策树5 5 4 4 /(5P52) = -Iog2-Iog2- = 0.9924 2 2 2 2E(age) = -(-log2-log2-) + -(-log2-因此,对 于样本 X=(age= 31-50” ,education= low” , level 二medium”,

12、area= I”), ID3算法分类预测其class为good。4决策树的生成决策树的建立是决策树分类的基础,以ID3算法为例说明建立决策树的过 程。 在决策树的递归构造过程中,在树的节点上利用特征的信息增益大小作为分 支属性 选择的依据,选择信息增益最大的特征作为分支属性。 ID3 算法描述简单, 分类速度 快,适合于大规模数据的处理,具体算法描述如下所示。输入:训练样本samples,候选属性集合attribute list输出:一棵决策树首先创建节点N, f samples都在同一个类C then返回N作为叶节点,以类C标 记;if attribute_list为空then返回N作为叶节点,标记为samples中最普遍的类,选 择attributelist中具有最髙信息增益的属性branch attribute,标记节点N为branch attribute;遍历for each branch attribute中已知的值ai,由节点N长出一个条件为 b

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号