数据挖掘课设报告-毕业论文.doc

上传人:鲁** 文档编号:560136418 上传时间:2024-01-19 格式:DOC 页数:28 大小:1.58MB
返回 下载 相关 举报
数据挖掘课设报告-毕业论文.doc_第1页
第1页 / 共28页
数据挖掘课设报告-毕业论文.doc_第2页
第2页 / 共28页
数据挖掘课设报告-毕业论文.doc_第3页
第3页 / 共28页
数据挖掘课设报告-毕业论文.doc_第4页
第4页 / 共28页
数据挖掘课设报告-毕业论文.doc_第5页
第5页 / 共28页
点击查看更多>>
资源描述

《数据挖掘课设报告-毕业论文.doc》由会员分享,可在线阅读,更多相关《数据挖掘课设报告-毕业论文.doc(28页珍藏版)》请在金锄头文库上搜索。

1、XIAN TECHNOLOGICAL UNIVERSITY课程设计报告课程名称 数据挖掘 专 业: 信息管理与信息系统 班 级: 130513 姓 名: 贾丹丹 学 号: 130513117 指导教师: 李刚 成 绩: 2016 年 1 月 3 日前言数据挖掘就是从大量的数据中挖掘出有用的信息。它是根据人们的特定要求,从浩如烟海的数据中找出所需的信息来,供人们的特定需求使用。据国外专家预测,随着数据量的日益积累和计算机的广泛应用,在今后的510年内,数据挖掘将在中国形成一个新型的产业。数据挖掘,在人工智能领域,习惯上又称为数据库中的知识发现(Knowledge Discovery in Dat

2、abase, KDD), 也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程由以下三个阶段组成:(1)数据准备(2)数据挖掘(3)结果表达和解释。数据挖掘可以与用户或知识库交互。数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。数据挖掘中的分类反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。最为典型的分类方法是基于决策树的分类方

3、法。它是从实例集中构造决策树,是一种有指导的学习方法。该方法先根据训练子集(又称为窗口)形成决策树。如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到窗口中,重复该过程一直到形成正确的决策集。最终结果是一棵树,其叶结点是类名,中间结点是带有分枝的属性,该分枝对应该属性的某一可能值。目录1 业务理解12 数据理解12.1英文版数据说明12.2数据的读入22.3浏览数据内容22.4指定各个变量的作用32.5观察各变量的数据分布特征43 数据准备43.1对数据进行重新分类43.2对数据进行平衡处理64 建立决策树模型64.1 C5.0,CART,CHAID算法介绍74.2模型建立84.3模

4、型计算结果144.4模型结果分析175 模型评估186 总结20附录1:zoo.date21附录2:zoo.names241 业务理解动物园动物数量大,种类多,对动物园的动物根据它们的特征进行分类,以便于观察和分析动物的特征,进而更加合理的管理动物以及为未来查找动物信息提供参考。2 数据理解该数据集是从UCI网站上获得的一份关于动物园的动物的数据。该数据是收集的动物园中99种动物的特征,包括hair,feathers ,eggs,milk,airborne,aquatic ,Predator,toothed,backbone,breathes,venomous,fins,legs,tail,d

5、omestic,catsize 。现需利用数据挖掘将这些动物进行分类,分成7种类型。2.1英文版数据说明Source:Creator:Richard ForsythDonor:Richard S. Forsyth8 Grosvenor AvenueMapperley ParkNottingham NG3 5DX0602-621676Data Set Information:A simple database containing 17 Boolean-valued attributes. The type attribute appears to be the class attribute.

6、 Here is a breakdown of which animals are in which type: (I find it unusual that there are 2 instances of frog and one of girl!)Class# - Set of animals:1 - (41) aardvark, antelope, bear, boar, buffalo, calf, cavy, cheetah, deer, dolphin, elephant, fruitbat, giraffe, girl, goat, gorilla, hamster, har

7、e, leopard, lion, lynx, mink, mole, mongoose, opossum, oryx, platypus, polecat, pony, porpoise, puma, pussycat, raccoon, reindeer, seal, sealion, squirrel, vampire, vole, wallaby,wolf2 - (20) chicken, crow, dove, duck, flamingo, gull, hawk, kiwi, lark, ostrich, parakeet, penguin, pheasant, rhea, ski

8、mmer, skua, sparrow, swan, vulture, wren3 - (5) pitviper, seasnake, slowworm, tortoise, tuatara4 - (13) bass, carp, catfish, chub, dogfish, haddock, herring, pike, piranha, seahorse, sole, stingray, tuna5 - (4) frog, frog, newt, toad6 - (8) flea, gnat, honeybee, housefly, ladybird, moth, termite, wa

9、sp7 - (10) clam, crab, crayfish, lobster, octopus, scorpion, seawasp, slug, starfish, wormAttribute Information:1. animal name: Unique for each instance2. hair: Boolean3. feathers: Boolean4. eggs: Boolean5. milk: Boolean6. airborne: Boolean7. aquatic: Boolean8. predator: Boolean9. toothed: Boolean10

10、. backbone: Boolean11. breathes: Boolean12. venomous: Boolean13. fins: Boolean14. legs: Numeric (set of values: 0,2,4,5,6,8)15. tail: Boolean16. domestic: Boolean17. catsize: Boolean18. type: Numeric (integer values in range 1,7)Relevant Papers:Forsyths PC/BEAGLE Users Guide.2.2数据的读入 将数据读入Modeler中。在

11、源选项卡中选择可变文件节点并设置节点参数。在文件选项卡中指定从文件zoo.txt中读入数据。2.3浏览数据内容 在输出选项卡中选择表节点,添加到数据流中。执行该节点生成数据表。在浏览数据时发现两个错误项,数据中有两个frog和一个gril,则删除一个frog和gril。【表】节点的输出结果2.4指定各个变量的作用 其中animal name,hair,feathers ,eggs,milk,airborne,aquatic ,Predator,toothed,backbone,breathes,venomous,fins,legs,tail,domestic,catsize为模型的输入变量,

12、type为模型的目标变量。在字段选项选项卡中选择【类型】节点,添加到数据流中,设置参数指定变量角色。 【类型】节点的参数2.5观察各变量的数据分布特征 在输出选项卡中选择数据审核节点,添加到数据流中。执行节点生成数据表。【数据审核】节点的输出结果可以看出,该份数据有99个样本,除animal name以外均为数值型变量,除animal name、legs、type以外均是布尔值。Modeler对此计算,输出最小值、最大值、均值、标准差、偏态系数等基本描述统计量。数据显示,legs最大值与最小值差距较大。从数值型变量的柱形图可以看出属于type1的数量最多。数据质量理想。3 数据准备3.1对数据

13、进行重新分类 针对该数据,hair,feathers ,eggs,milk,airborne,aquatic ,Predator,toothed,backbone,breathes,venomous,fins,tail,domestic,catsize属性为是否有hair,feathers ,eggs,milk,airborne,aquatic ,Predator,toothed,backbone,breathes,venomous,fins,tail,domestic,catsize,所以取值0和1不规范,应将取值0和1调整为No和Yes。 【重新分类】的【设置】选项卡 在输出选项卡中选择【

14、表】节点,连接到【重新分类】节点,执行【表】节点生成重新分类后的数据表,如下: 【表】节点的输出结果3.2对数据进行平衡处理 观察数据发现,属于type1的数据较多,属于其他type的数据相对较少,所以进行样本平衡处理。 【平衡】的【设置】选项卡 在输出选项卡中选择【表】节点,连接到【平衡】节点,执行【表】节点生成平衡处理后的数据表,如下图:【表】节点的输出结果4 建立决策树模型 使用C5.0,CART,CHAID三种算法建立模型:4.1 C5.0,CART,CHAID算法介绍 (1)C5.0:C5.0是决策树模型中的算法,79年由J R Quinlan发展,并提出了ID3算法,主要针对离散型属性数据,其后又不断的改进,形成C4.5,它在ID3基础上增加了队连续属性的离散化。C5.0是C4.5应用于大数据集上的分类算

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号