决策树算法与电力营销数据挖掘探讨

上传人:大米 文档编号:488829875 上传时间:2023-09-19 格式:DOCX 页数:6 大小:14.49KB
返回 下载 相关 举报
决策树算法与电力营销数据挖掘探讨_第1页
第1页 / 共6页
决策树算法与电力营销数据挖掘探讨_第2页
第2页 / 共6页
决策树算法与电力营销数据挖掘探讨_第3页
第3页 / 共6页
决策树算法与电力营销数据挖掘探讨_第4页
第4页 / 共6页
决策树算法与电力营销数据挖掘探讨_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《决策树算法与电力营销数据挖掘探讨》由会员分享,可在线阅读,更多相关《决策树算法与电力营销数据挖掘探讨(6页珍藏版)》请在金锄头文库上搜索。

1、决策树算法与电力营销数据挖掘探讨摘要:为了对电力企业中不同部门的运行数据进行有效的挖 掘,提出利用C5.0决策树算法对数据进行深层次分析,为管 理人员提供有价值的决策支持。首先,对数据挖掘中先进的C 50决策树算法原理进行分析,并通过引入信息熵对原有的属 性选择方式进行改进,提高了信息增益比率计算的速度。然后根 据设计的售电量关系模型进行对电厂管理信息系统中的数据进行 挖掘。在UCI机器学习数据集和电力营销数据集上的实验结果 表明,提出的改进C5.0决策树算法具有良好的分类性能,能 够对售电市场进行快速、准确的用户分类,准确率达到8 6. 5%。关键词:数据挖掘;C50决策树;电力营销;信息熵

2、; 分类预测随着我国信息产业的爆发式发展,各行业的企业都开始使用 信息集成系统进行管理。如何对所产生的海量数据进行有效利用 成为新时代人们最关注的问题之一 1。电力企业作为直接影响 社会民生的重要部门,在使用管理信息系统的过程中产生了大量 的运行状况和销售数据2,电力企业管理人员迫切需要合理的 方式去处理这些海量数据,以便获得有价值的信息3。数据挖 掘技术作为计算机领域的热门方向,一直和社会实际应用紧密结 合。使用合理的数据挖掘技术可以解决电力企业的数据分析问题, 为管理人员提供有价值的决策支撑信息,从而提高电网运行的可 靠性】4。例如,刘建飞等5提出了一种基于电力侧大数据 挖掘的营销效果评价

3、方法,其中使用了C45决策树算法。V ict ofD等6利用BP神经网络对电力企业营销数据进 行快速挖掘。黄文思等提出了一种基于决策树算法的电力客户欠 费风险预测。但是,上述方法米用的决策树算法仍旧是ID3算 法以及在其基础上发展起来的C4.5方法。而C5.0决策树 算法作为其后续的最新版本,综合性能有了明显提升。因此,为 了对电力企业提供更加准确、有效的营销数据决策支撑,本文提 出利用C5.0决策树算法对电力营销管理系统的营销数据进行 深层次分析。通过引入信息熵对原有的C5.0决策树算法进行 了改进,提高了其分类速度和精度。在UCI机器学习数据集和 电力营销数据集上的实验结果表明,提出的改进

4、C5.0决策树 算法具有良好的分类性能,能够满足电力营销工作中的分类预测 需求。1C50决策树算法原理作为从ID3决策树算法发展出来的后续算法,RossQ uinlan提出了C4 . 5算法能够将属性视为连续型的7, 并提出了2个新的属性:分离信息(Spl itln forma tion)和信息增益率(In forma tio ngainr atio),可用于生成多分支决策树C50算法与C4.5 算法的核心是一样的,但是在内存管理等方面做出不少改进,更 加适合商业应用。11分裂属性的确定本文假设S表示一个训 练样本集,其样本数量为S个,包括m个不同的种类xi(i = 1,2,m)o D表示训练

5、样本集S的一个属性且取值范围为 l,k。vi表示属于不同种类xi的样本总数。根据属性D 的不同,能够将训练样本集S区分成k个小的子集si为上述 子集中的第i个子集,i = 1,2,k, Si 表示子集s i中的样本个数。首先,信息增益Gain(S,D )的计算式 8如式(1)Gain(S,D)=I(s1,s2, sk)-E(S,D) ( 1)其中,E(S,D )表示根据属性D 划分出的k个子集的熵加权和,I (s1,s2,sk )则 表示训练样本集S的熵。12分裂属性的确定在分裂属性的选 取过程中,C50决策树算法会挑选出具有最高增益比率的属 性,并将其定义成分裂属性12。在确定分裂属性后,C

6、5. 0 决策树算法会执行最佳分割点的确定步骤,组成了决策树的k个 分枝。当最佳分裂属性是连续型变量时,会利用分箱策略设置划 分值,从而对大于该划分值的样本进行再划分13。在循环执 行分裂属性的确定和最佳分割点的确定后,生成了一棵完整的决策树。2改进的C5.0决策树算法通过上节C5.0决策树算法原理分析,可以看出该决策树算法需要根据每一个属性在所有结点上,对信息的增益比率Ga inRa tio (S,D)进行计算,以便为后续分裂属性的确 定做支持。但是式(4)中信息增益比率GainRa tio (S, D)计算需要对数运算,因此计算时间较长且精度不够理想1 4。因此,本文通过引入信息熵对原有的

7、属性选择方式进行改进。 假设正例属性的个数为P,且反例属性的个数为n,则信息量的 计算方式如式(6)从式(13)可以看出,计算过程仅包含简 单的加减和乘除运算,大大缩减了计算时间。3改进C5.0决策树在电力营销中的应用3.1数据模型设计在将改进的C5.0决策树应用于电厂管理信息系统中时, 需要以售电量为中心,构建各部门数据库表格之间的映射关系, 本文构建的数据模型如图1所示。3.2数据挖掘流程改进C5.0决策树在电力营销中的数据挖掘流程如图2所Zjo4实验结果与分析4.1实验环境为了对本文提出的视频分类方法进行分析和验证,进行具体 实验。实验硬件环境:处理器为Int elCorei72 .2

8、8G。实验软件环境:Windows7操作系统、MATLA B7.0仿真软件。GHz,图形图像处理设备为GTX9702G显存,内存为4.2改进算法性能验证为了验证所提改进的C5.0决策树算法的性能,用UCI 机器学习数据集15进行了分类测试验证。选择20组小数 据集,共2 4 0 0个样本进行了测试。训练样本为随机选取的1 0 0 0个样本,其余为测试样本。每组实验重复10次并去平均 值作为最终结果。标准C5.0决策树算法和改进后C5.0决 策树算法的分类准确率对比和时间对比分别如图3、图4所示。 从图3可以看出,随着测试样本数量的不断增多,2种算法分类 的准确率几乎一致。从图4可以看出,随着测

9、试样本数量的不断 增多,2种算法分类的时间均有所增加,但是改进后C5.0决 策树算法所需的时间明显更少,分类效率更高。4.3电力营销应用结果以某电力企业的2 0 19年期间营销数据为测试数据集,对 改进后C5.0决策树算法进行实际案例分析。该电力营销测试 数据集共包括100名不同地区、不同年龄和不同岗位的用户用 电样本数据。随机选取其中5 0个样本作为训练样本,如表1所 示。利用改进的C5.0决策树算法,选择具有最大信息增益属 性值作为叶节点,循环上述决策树执行步骤,最终产生客户分类 决策树及其分类规则,然后在电力营销数据集的测试样本中对得 到的分类决策树模型进行验证。此外,为了对比分析,还使

10、用了 BP神经网络和ID30决策树分别建立分类模型。各种分类 模型结果比较如表2所示。从表2可以看出,相比于BP神经网 络、ID30决策树,C50决策树和改进的C5.0决策 树算法在分类准确率方面提升较为明显,C5. 0决策树最优(8 7. 6%),改进C5.0决策树算法次之(86. 5%)。而在 分类效率方面,改进C5. 0决策树算法表现较为突出,仅需18 6s。综合来看,改进C5.0决策树算法在客户及时准确分类 应用中具有最佳的综合分类性能,可以有效满足实际的电力营销 工作需要。5总结本文提出了一种基于改进C5.0决策树算法的电力营销数 据挖掘技术。通过引入信息熵对原有的属性选择方式进行改进, 提高了信息增益比率计算的速度。此外,根据设计的售电量关系 模型进行对电厂管理信息系统中的数据进行挖掘。数据集和实际 案例应用结果均验证了提出改进算法的有效性和可行性。但是电 力营销训练和测试样本集中用户属性的数量(维度)较少,后续 将考虑增加更多的属性,来进一步验证C5.0决策树算法的性 能。作者:卜晓阳 蔡岩 王宗伟 赵郭燚 单位:国家电网公司 河 北师范大学

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号