生物医学数据挖掘实验报告

资源描述

《生物医学数据挖掘实验报告》由会员分享，可在线阅读，更多相关《生物医学数据挖掘实验报告（23页珍藏版）》请在金锄头文库上搜索。

1、WEKA 的生物医学数据挖掘实验概述的生物医学数据挖掘实验概述学号：学号：2013166141姓名：姓名：杨飞杨飞摘要摘要：生物医学数据挖掘的目的是从大量的医学数据中挖掘出潜在并且有效的知识、信息、模型、关联、变化等，从而帮助医生进行更加快速、准确的诊断并以此展开有效的治疗。数据挖掘工具多种多样，文章阐述用 WEKA 软件对一些医学数据的相关实验。关键字：关键字：WEKA；生物医学；数据挖掘；分类；聚类；关联规则Abstract ： The purpose of biomedical data mining is to excavate potential and effective

2、knowledge, information, models, correlations and changes from a large number of medical data, so as to help doctors to carry out more rapid and accurate diagnosis and to start effective treatment. A variety of data mining tools, the article describes the use of WEKAsoftware for some medical data rel

3、ated experiments.Keywords: WEKA; Biomedical Science; Data mining；Classification；Clustering; Association Rules1 概述概述用 WEKA 软件对四类数据（bank-data；breast-cancer-wisconsin；CKD； hypothyroid）进行实验操作，了解 WEKA 的功能及其支持的文件格式，并深入学习 WEKA 中的一些算法，再用这些算法对数据进行实验分析。（1）WEKAWEKA 的全名是怀卡托智能分析环境（Waikato Environment for Knowl

4、edge Analysis），同时 weka 也是新西兰的一种鸟名，而 WEKA 的主要开发者来自新西兰。WEKA 作为一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理，分类，回归、聚类、关联规则以及在新的交互式界面上的可视化。（2）分类算法分类算法是解决分类问题的方法，是数据挖掘、机器学习和模式识别中一个重要的研究领域。分类算法通过对已知类别训练集的分析，从中发现分类规则，以此预测新数据的类别。分类算法的应用非常广泛，银行中风险评估、客户类别分类、文本检索和搜索引擎分类、安全领域中的入侵检测以及软件项目中的应用等等。分类算法的评价

5、标准分类算法的评价标准：预测的准确率：这涉及到模型正确地预测新的或先前没见过的数据的类标号能力。速度：涉及到产生和使用模型的计算花费。强壮性：这涉及给定噪声数据或具有空缺值的数据，模型正确预测的能力。可伸缩性：这涉及给定大量的数据，有效的构造模型的能力。可解释性：这涉及学习模型提供的理解和洞察的层次。（3）聚类分析聚类分析（英语：Cluster analysis，亦称为群集分析）是对于统计数据分析的一门技术，在许多领域受到广泛应用，包括机器学习，数据挖掘，模式识别，图像分析以及生物信息。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集（subset），这样让

6、在同一个子集中的成员对象都有相似的一些属性，常见的包括在坐标系中更加短的空间距离等。一般把数据聚类归纳为一种非监督式学习。聚类算法的评价指标：聚类算法的评价指标： Compactness(紧密性)(CP)； Separation(间隔性)(SP)； Cluster Accuracy (准确性)(CA)； and index(兰德指数)(RI) 、Adjusted Rand index(调整兰德指数)(ARI)。（4）关联规则的定义关联规则的定义：关联规则就是支持度和信任度分别满足用户给定阈值的规则。设 I=i1,i2,im为所有项目的集合，设 A 是一个由项目构成的集合，称为项集。

7、事务 T 是一个项目子集,每一个事务具有唯一的事务标识 Tid。事务 T 包含项集 A，当且仅当 AT。如果项集 A 中包含 k 个项目，则称其为 k 项集。D 为事务数据库，项集 A 在事务数据库 D 中出现的次数占 D 中总事务的百分比叫做项集的支持度（support）。如果项集的支持度超过用户给定的最小支持度阈值，就称该项集是频繁项集（或大项集）。关联规则就是形如 XY 的逻辑蕴含关系，其中 XI，YI 且 XY=，X 称作规则的前件，Y 是结果，对于关联规则 XY，存在支持度和信任度。支持度是指规则中所出现模式的频率，如果事务数据库有 s%的事务包含 XY，则称关联规则

8、XY 在 D 中的支持度为 s%，实际上，可以表示为概率 P（XY）。信任度是指蕴含的强度，即事务 D 中 c%的包含 X 的交易同时包含 XY。若 X 的支持度是 support(X)，规则的信任度为即为：support(XY)/support(X)，这是一个条件概率 P（Y|X），即 confidence（XY）= P（Y|X）。12 实验方法实验方法实验分成四次：实验一为 WEKA 的使用与数据准备；实验二为分类算法的实现；实验三为聚类算法的实现；实验四为关联规则算法的实现。实验中所涉及的到的算法有分类算法、聚类算法和关联规则算法。WEKA 中的分类器如下：（1）NaiveBay

9、es2（2）J483（3）Randomforest4（4）Bagging5（5）AdaboostM16（6）SMO.Polykernel7（7）SMO.RPFkernel8WEKA 中的聚类算法如下：（1）DBScan9（2）EM10（3）FathestFirst11（4）Cobweb12（5）FilteredClusterer13（6）MakeDensityBasedClusterer14（7）SimpleKMeans15WEKA 中的关联规则算法如下：（1）Apriori16（2）FilteredAssociator17（3）HotSpot18（4）PredictiveApriori19（

10、5）Tertius203 实验实验结果与分析结果与分析实验一实验一：打开 Excel 的 bank-data.xls 文件，然后再另存为 bank-data.csv 文件，最后用weka 打开 bank-data.csv，另存为 bank-data.arff 文件。图 1bank-data.xls 文件图 2 另存为 bank-data.csv 文件图 3 用 weka 打开.csv 文件另存为.arff 文件结果分析：结果分析：weka 支持支持.csv 文件和文件和.arff 文件，其中文件，其中 arff 格式是格式是 weka 支持的最好支持的最好的文件格式。的文件格式。实验二：实验二

11、：用 WEKA 软件对四类数据（bank-data；breast-cancer-wisconsin；CKD；hypothyroid）分别进行分类分析，所使用的分类器有决策树，随机森林，朴素贝叶斯和支持向量机。表 1 各种分类器对四类数据分类结果的比较结论分析：由表 1 可知，AdaboostM1 鲁棒性好，可进行随机抽样。实验三：实验三：用 WEKA 软件对四类数据（bank-data；breast-cancer-wisconsin；CKD；hypothyroid）分别进行聚类分析，把类属性去掉。表 24 种不同数据在不同聚类器下特征提取前后的 ACC 对比结论分析：在 Bank-data 数

12、据中，EM 算法比较好；在 breast-cancer-wisconsin 数据中，FilteredClusterer 算法比较好；在 CKD 数据中，EM 算法比较好；在hypothyroid 数据中，Cobweb 算法比较好。Clasifierbank-databreast-cancer-wisconsinCKDhypothyroidOriginalFSOriginalFSOriginalFSOriginalFSACCAUCACCAUCACCAUCACCAUCACCAUCACCAUCACCAUCACCAUCNaiveBayes0.650.700.640.710.960.980.960.98

13、0.961.000.981.000.970.970.970.976 J480.890.880.840.860.980.990.980.990.980.990.980.990.990.930.980.954 RandomForest0.860.900.780.830.960.980.960.981.001.000.991.000.990.970.980.963 AdaboostM10.740.780.700.760.940.980.940.980.981.000.991.000.990.980.990.988 Bagging0.910.900.830.870.950.980.950.980.98

14、0.990.980.990.990.970.980.977 SMO.PolyKerne l0.580.570.590.580.970.960.970.960.980.990.980.990.970.740.960.645SMO.RBFKernel0.550.510.540.500.960.950.960.950.910.930.910.930.950.500.950.500ClusterBank-databreast-cancer-wisconsi nCKDhypothyroidACCACCACCACC FSBFSAFSBFSAFSBFSAFSBFSACobweb0.54330.54330.6

15、5520.65520.62500.62500.95230.9520 DBScan0.54330.60330.65520.65520.62500.90250.95040.8400 EM0.57670.59170.94280.94280.80500.76500.86440.9300 FathestFirst0.52500.54170.86410.86410.52750.53000.87260.8500 FilteredClusterer0.56670.60330.96140.96140.78250.71000.69270.8600 Make0.56670.60330.95710.95710.782

16、50.69500.68920.8520 SimpleK0.56670.60330.95710.95710.78250.69500.68920.8520四类数据分别在 weka 中的聚类算法下的散点图图 4 Bank- Cobweb图 5 Bank- DBScan图 6 Bank- EM图 7Bank- FaF图 8 Bank-FiC-SKM-EuD图 9 Bank- FiC-SKM-MaD图 10 Bnak-MDBC-SKM-EuD图 11 Bank- MDBC-SKM-MaD图 12 Bank- SKM-EuD图 13 Bank- SKM-MaD图 14 BCW- Cobweb图 15 BCW- DBScan图 16 BCW- EM图 17 BCW- FaF图 18 BCW- FiC-SKM-EuD图 19 BCW- FiC-SKM-MaD图 20 BCW- MDBC-SKM-EuD图 21BCW- MDBC-SKM-MaD图 22 BCW- SKM-EuD图 23 BCW

展开阅读全文