数据挖掘技术决策树分类算法分析、比较与实验

资源描述

《数据挖掘技术决策树分类算法分析、比较与实验》由会员分享，可在线阅读，更多相关《数据挖掘技术决策树分类算法分析、比较与实验（6页珍藏版）》请在金锄头文库上搜索。

1、数据挖掘技术决策树分类算法分析、比较与实验马俊宏晋中学院摘要：近些年来, 互联网迅速发展, 数据量每年都以惊人的幅度提升, 人们的生活、政府的管理都和电子信息设备息息相关, 特别是电子商务和科学实验数据库的迅速壮大, 为我们带来了海量的数据。这些海量的数据中, 往往蕴藏非常多有价值的记录和信息, 等待着人们去挖掘, 人们希望将这些信息分离提取出来进行更高程度的分析和统计, 以便为我们所取用。而目前大部分数据库系统仅仅可以实现数据的增、删、改、查, 很难找到大数据之间所蕴含的规则和关系, 比较缺乏挖掘数据内部价值的有效方法, 较难通过数据的维度去探索和发现、预测未来的趋势。本文通过对数

2、据挖掘技术中决策树的分类算法做出实验分析, 进行比较, 给出合理的分析建议。关键词：数据挖掘; 决策树; ID3 算法; 收稿日期：2017-10-22基金：大数据工作室, 晋中学院“1331 工程”重点创新团队建设计划资助科研课题Analysis, Comparison and Experiment of Classification Algorithm of Decision Tree in Data Mining TechnologyMa Junhong Jinzhong University; Abstract： In recent years, Internet has devel

3、oped rapidly. The amount of data increases at an alarming range every year. Peoples life and management of government are closely related to electronic information equipment. In particular, the rapid growth of e-commerce and scientific experiment database has brought us huge amounts of data. A lot o

4、f valuable records and information are stored in vast amounts of data, waiting for mining. People want to separate and extract these information for a higher level of analysis and statistics so that we can use them. However, at present, most database systems can only achieve data increasing, deletin

5、g, changing and checking, in which it is hard to find the rules and relationships between big data without effective ways to tap the internal value of data and it is difficult to explore, discover and predict future trend through the dimension of data. This paper makes an experimental analysis of th

6、e classification algorithm of decision tree in data mining technology, compares and gives reasonable analysis suggestions.Keyword： data mining; decision tree; ID3 algorithm; Received： 2017-10-22一、绪论(一) 数据挖掘在海量数据中提取有价值的信息和知识被我们称之为数据挖掘技术。在海量数据库、云端服务器、数据仓储等存储媒介里面都存放着大量的数据信息, 我们可以在这些存储媒介当中去探寻有价值的数据, 深入地

7、分析和挖掘数据中的内在价值。帮助决策者找寻数据与数据之间可能存在的潜在关联结构, 及时有效的发现可能被忽略和遗忘的要点。通常来说, 这些数据信息对未来趋势的行为判断有着重要的作用, 从而引导决策者做出正确的判断和最优的决策。因此人们发明的决策树分类算法, 来帮助人们更好的挖掘数据中有价值的信息。决策树分类算法的挖掘过程可能要多次循环往复螺旋递进, 直至达到我们想要的结果。 (见图 1) 图 1 数据挖掘系统架构图下载原图(二) 数据挖掘分类算法的意义目前来看, 数据挖掘在实际应用中有着重要的作用和意义, 数据挖掘技术可以运用于很多场合。比如在股票金融市场中, 可以对股票的历史交易信息数据进行

8、分析和预测, 并对其涨跌走势做出比较准确的判断;再比如在天气预报的过程中, 对空气各类成分以及近半个月的数据进行收集、处理和分析, 可以对天气预报做出比较准确的合理预测;在产品的销售系统中, 已存原始数据库信息, 现在假定有新的客户添加进数据库中, 我们想讲广告促销信息分发给顾客。如果每一位顾客都通知, 这势必成本较大, 耗费较多, 此时通过数据挖掘技术, 找到那些比较有意向购买的顾客, 向他们推送广告, 可以大大节约了时间和金钱费用, 促进的成交量, 为商家带来更大的经济效益。数据挖掘技术其实就是一种决策支持的过程, 是对数据进行深层次的数据分析方法。在平常生活中, 可以将数据挖掘技术应用于

9、方方面面, 对促进社会的进步和发展有着很大的帮助。因此对决策树分类算法的相关研究有着较高的实用价值和研究价值。二、决策树分类算法相关知识(一) 决策树的介绍决策树 (Decision Tree, DT) 是一种常用的分类方法, 适用于解决各种的分类问题。它通过将数据集进行分类、聚类和预测建模, 将一个整体的大问题逐个逐个分解成每个子集小问题, 再逐个一已解决子集问题, 提高解决问题的效率。通常我们需要构建一个决策树来对分类过程进行建模比较。(二) 决策树基本原理1948 年, 美国数学家克劳德-艾而德伍-香农 (Claude Elwood Shannon) 创建了信息论, 用来解决在信息传递过

10、程中的不确定性等问题。在信息论的基础上, 决策树运用技术发展壮大。它通过数学的方法度量分析信息数据, 通过自定义不同的符号情况, 来描绘信息量的大小。其中包括一系列相关概念描述, 以下为具体展示:(1) 自信息量。设连续发出的信号为 X1、X2.Xn 为发出的信号, 直到接收Xi 信号, 把不确定性的信号标识为 I (Xi) , 即 (2.1) 其中 P (Xi) 表示信源发出 Xi 的概率。(2) 信息熵。再通过信息熵来度量信号源 X 的不确定性, 即 (2.2) 其中 X 为信号源, i 为任意可能的符号数。(3) 条件熵。设信号源 X 和 Y 不是相互独立的, 则用条件熵 H (X/Y)

11、来度量整体的不确定性。设 X 对应的信号源为 Xi, Y 对应的信号源为 Yj, 则有:(4) 平均互信息量。信号源 X 和 Y 之间的相互关系:依据信息论, 设 S 为整个样本数据整体集合, 其中包含 n 类训练数据集, 每类有 Si 个实例, 则把它们分类所需要的信息量 I 用如下公式 2.5 表示为:由此, 我们可以得到数据样本为 S 的包含 N 类的数据集, 为了使下一步的工作尽可能尽量的减小, 要求每一次都选择信息增益最大的属性作为决策树的节点, 并对属性进行划分建立分枝, 依据此思想划分数据样本集。三、决策树 ID3 算法分析(一) 决策树模型的建立以下我们通过一个具体示例来演示

12、经典 ID3 算法的整个构建过程。我们采用来自 All Electronics 顾客数据库数据元组训练集。利用 ID3 算法对数据集合进行决策树模型的建立, 对顾客进行分类, 整个计算过程如下:1. 计算给定样本集的信息熵, 我们使用以下公式进行计算:所以2. 计算每个属性的信息增益(1) 需要确定属性 age 的每个样本值 yes 和 no 的分布。*如果 age=“40”, 则 p3=3 (有 3 个 yes) , n3=2 (2 个 no) , 由公式计算可知:I (p3, n3) =0.971;(2) 对于属性 income, 需要知道 income 的每个样本值 yes 和 no 的

13、分布。*如果 income=“high”, 则 p1=2 (此时类别为 yes 的个数) , n1=2 (此时类别为 no 的个数) , 由公式计算可知:*如果 income=“medium”, 则 p2=4 (有 4 个 yes) , n2=2 (有 2 个 no) , 由公式计算可知:I (p2, n2) =0.148;*如果 income=“low”, 则 p3=3 (有 3 个 yes) , n3=1 (有 1 个 no) , 由公式计算可知:I (p3, n3) =0.279;(3) 生成决策树的根和分枝。如下图 2 所示, 我们可以从图中看出当 age 为31-40 时, 节点所对

14、应的类别均为 yes 值, 所以此时该节点的 I (p2, n2) 节点的信息熵为 O, 而40 的属性都还有两个类别, 所以要对它们进一步划分。(4) 依照上文所述的算法原理过程, 对整体训练数据集进行递归分解, 按照数据信息不同属性分为不同类别, 最终建成决策树的分类模型, 得到决策树的理想化模型。图 2 age 分枝属性详细图下载原图四、结语综上所述;在这个信息化的时代, 处理大量混乱而又复杂的数据的一个很好的方法是分类, 在分类技术的发展过程中, 几个流行的技术分别是:神经网络、遗传算法、贝叶斯分类、决策树等。决策树算法理论清晰, 效果直观, 更易被读者所理解, 能够较好的显示出数据

15、之间的关联和内在联系, 具有不错的分类预测能力。因此对决策树算法的研究有着重要的研究价值和实际意义。参考文献1毛国君, 段立娟, 王实, 等.数据挖掘原理与算法M.北京:清华大学出版社, 2005 2Jiawei Han, Micheline Kamber 著.范明, 孟小峰译.数据挖掘概念与技术M.北京:机械工业出版社, 2001 3美 Mehmed Kantardzic 著.数据挖掘概念、模型、方法和算法M.闪四清, 陈茵, 程雁, 等译.北京:清华大学出版社, 2003 4张维东.利用决策树进行数据挖掘中的信息熵计算J.计算机工程, 2001 (3) :66-68. 5王大玲.基于概念层次树的数据挖掘算法的研究与实现J.计算机科学, 2001.2 (2) :63-66. 6唐华松.数据挖掘中决策树算法的探讨J.计算机应用研究, 2001 (8) :36-40. 7许兆新.决策支持系统相关技术综述J.计算机应用研究, 2001 (2) :22-26. 8王熙照.决策树简化 (剪切) 方法综述J.计算机工程与应用, 2004 (40) :32-35. 9胡江洪.基于决策树的分类算法研究J.计算机工程与应用, 2005 (27) :66-69.

展开阅读全文

数据挖掘技术决策树分类算法分析、比较与实验

最新文档