数据挖掘期末实验报告

上传人:教**** 文档编号:239660162 上传时间:2022-01-14 格式:DOCX 页数:19 大小:1.43MB
返回 下载 相关 举报
数据挖掘期末实验报告_第1页
第1页 / 共19页
数据挖掘期末实验报告_第2页
第2页 / 共19页
数据挖掘期末实验报告_第3页
第3页 / 共19页
数据挖掘期末实验报告_第4页
第4页 / 共19页
数据挖掘期末实验报告_第5页
第5页 / 共19页
点击查看更多>>
资源描述

《数据挖掘期末实验报告》由会员分享,可在线阅读,更多相关《数据挖掘期末实验报告(19页珍藏版)》请在金锄头文库上搜索。

1、名师归纳总结 精品word资料 - - - - - - - - - - - - - - -数据挖掘技术期末报告理学院姓名:学号:联系电话:专业班级:评分:优 | 良 | 中 | 及格 | 不及格1 第 1 页,共 16 页 - - - - - - - - -名师归纳总结 精品word资料 - - - - - - - - - - - - - - -一、试验目的基于从 UCI 公开数据库中下载的数据, 使用数据挖掘中的分类算法, 用 Weka 平台的基本功能对数据集进行分类, 对算法结果进行性能比较, 画出性能比较图, 另外针对不同数量的训练集进行对比试验,并画出性能比较图训练并测试;二、试验环境

2、试验采纳 Weka 平台,数据使用来自从UCI 公开数据库中下载,主要使用其中的 Breast Cancer Wisc-onsin Original Data Set 数据; Weka 是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托高校开发;Weka 使用 Java写成的,并且限制在 GNU 通用公共证书的条件下发布;它可以运行于几乎全部操作平台,是一款免费的, 非商业化的机器学习以及数据挖掘软件;Weka 供应了一个统一界面,可结合预处理以及后处理方法,将很多不同的学习算法应用于任何所给的数据集,并评估由不同的学习方案所得出的结果;三、试验步骤3.1 数据预处理本试验是针对威斯康辛州 原始

3、 的乳腺癌数据集进行分类, 该表含有 Samplecode numbe(r 样本代码 ,Clump Thickness(丛厚度),Uniformity of Cell Size (均匀的细胞大小), Uniformity of Cell Shape (匀称的细胞外形),Marginal Adhesion(边际粘连),Single Epithelial Cell Size(单一的上皮细胞大小) ,Bare Nucle(i裸核),Bland Chromatin(平淡的染色质),Normal Nucleoli( 正常的核仁), Mitoses(有丝分裂),Class(分类),其中其次项到第十项取值均

4、为1-10 ,分类中 2代表良性, 4代表恶性;通过试验,期望能找出患乳腺癌客户各指标的分布情形;该数据的数据属性如下:1. Sample code numbe(rnumeric),样本代码;2. Clump Thickness( numeric),丛厚度; 3.Uniformity of Cell Size ( numeric)匀称的细胞大小;4. Uniformity of Cell Shape (numeric),匀称的细胞外形; 5.Marginal Adhesion(numeric),边际粘连;6.Single Epithelial Cell Size(numeric),单一的上皮细

5、胞大小; 7.Bare Nuclei(numeric),裸核;2 第 2 页,共 16 页 - - - - - - - - -名师归纳总结 精品word资料 - - - - - - - - - - - - - - -8. Bland Chromatin(numeric),平淡的染色质;9. Normal Nucleoli (numeric),正常的核仁; 10.Mitoses(numeric),有丝分裂; 11.Class( enum),分类;3.2 数据分析由 UCI 公开数据库得到一组由逗号隔开的数据,复制粘贴至excel 表中,挑选数据分列下一步逗号完成,该数据是有关乳腺癌数据集, 有1

6、1 个属性,分别为 Sample code numbe(r 样本代码 ,Clump Thickness(丛厚度),Uniformity of Cell Size (匀称的细胞大小) ,Uniformity of Cell Shape (匀称的细胞外形),Marginal Adhesion(边际粘连), Single Epithelial Cell Size(单一的上皮细胞大小),Bare Nuclei(裸核),Bland Chromatin(平淡的染色质),Normal Nucleoli (正常的核仁), Mitoses(有丝分裂),Class(分类),由于复制粘贴过来的数据没有属性,所以手工

7、添加一行属性名; Weka 分类数据需把 excel 储存为一个 csv 文件;图 1 中显示的是使用“Exploer”打开“乳腺癌数据集.csv.arff”的情形 .如图 1 所示:3 第 3 页,共 16 页 - - - - - - - - -名师归纳总结 精品word资料 - - - - - - - - - - - - - - -(图 1)3.2.1数据预处理很明显发觉,所用的数据都是(numeric)数值型的,需要将数值型离 散化,将“ Clump Thickness ”,“ Uniformity of Cell Size”,“Uniformity of Cell Shape”,“ M

8、arginal Adhesion ”,“ Marginal Adhesion ”,“ Bare Nuclei”, “ Bland Chromatin ”,“ Normal Nucleoli”,“ Mitoses”,“ Class” 离散化;我们需要借助 Weka 中名为“Discretize”的 Filter 来完成;在区域 2 中点“Choose”,显现一棵“ Filter 树”,逐级找到“ weka.filters.unsupervised.attribute.Discretize” 点击,即可;现在“Choose”旁边的文本框应当显示 “Discretize -B 10 -M -0.1

9、-R first-last ”;如图箭头所示, 点击这个文本框会弹出新窗口以修改离散化的参数;我们需将第1,2,3,4,5,6,7,8,9,10项离散化,其中第一项为id,可移除;把 attributeIndices 右边改成“ 1,2,3,4,5,6,7,8,9,10”;我们把这两个属性都分成10 段,于是把“ bins”改成“10”;其它不变;点“OK ”回到“Explorer”,可以看到“Clump Thickness ”, “ Uniformity of Cell Size”,“Uniformity of Cell Shape ”,“ Marginal Adhesion ”, “ Ma

10、rginal Adhesion ”,“ Bare Nuclei”,“ Bland Chromatin ”,“Normal Nucleoli”,“Mitoses”, 已经被离散化成分类型的属性;经移除后剩 10 项属性,其中一项如图 2 所示, 10 项属性可视化如图3 所示:(图 2)4 第 4 页,共 16 页 - - - - - - - - -名师归纳总结 精品word资料 - - - - - - - - - - - - - - -(图 3)3.3.1 决策树分类用“Explorer”打开刚才得到的 “乳腺癌数据集.csv.arff”,并切换到“Class”;点“ Choose”按钮挑选“

11、 treeweka.classifiers.trees.j48”,这是 Weka 中实现的决策树算法;得到结果如图4和图5所示:5 第 5 页,共 16 页 - - - - - - - - -名师归纳总结 精品word资料 - - - - - - - - - - - - - - -(图 4)(图 5)这个是针对第一项 Clump Thickness 丛厚度和第九项 Mitoses 有丝分裂项运用 C4.5 决策算法得到误差分析的结果,分析可知总共有 699 个数据进行分类, Clump Thickness(丛厚度)其中 102 个为正确分类,正确分类率为 26.03726%,517 个为错误分

12、类,错误分类为 73.9268%;而第九项 Mitoses 有丝分裂项也是分析 699 个数据,其中正确分类有 579 个数据,正确率为 82.8326%,错误分类的有 120 个,错误分类的有 17.1674%;依据混淆矩阵,被错误分类实例很多如图6 第 6 页,共 16 页 - - - - - - - - -名师归纳总结 精品word资料 - - - - - - - - - - - - - - - 图 63.3.2 贝叶斯分类为了与上面决策树作比较,贝叶斯也挑选第一项第一项Clump Thickness丛厚度和第九项Mitoses 有丝分裂项,得到结果如下图7,8 所示: 图 77 第 7 页,共 16 页 - - - - - - - - -名师归纳总结 精品word资料 - - - - - - - - - - - - - - - 图 8这个是针对第一项Clump Thickness 丛厚度和第九项Mitoses 有丝分裂项运用贝叶斯算法得到误差分析的结果, 分析可知总共有 699 个数据进行分类, Clump Thickness(丛厚度)其中 198 个为正确分类,正确分类率为28.3262%,501 个为错误分类, 错误分类为 71.6738%;

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号