数据挖掘--课程报告(关联规则、聚类等)

资源描述

《数据挖掘--课程报告(关联规则、聚类等)》由会员分享，可在线阅读，更多相关《数据挖掘--课程报告(关联规则、聚类等)（3页珍藏版）》请在金锄头文库上搜索。

1、数据挖掘结课报告数据挖掘结课报告学院：专业：学号：姓名：摘要：数据挖掘（Data Mining）是利用一种或多种计算机学习技术，从数据中自动分析并提取信息的处理过程。数据挖掘的目的是寻找和发掘数据中潜在的有价值的信息、知识、规律、联系和模式。它是当前热门的、具有广阔商业应用前景的一个研究领域。本文笔者结合专业所学，简单介绍了数据挖掘在本专业应用。并做了数据挖掘试验工作，分析了相应结果。关键词：数据挖掘；地球物理；分类预测；聚类分析；关联规则1 介绍国内外的数据挖掘技术的应用研究，均只是从数据驱动的角度实施挖掘过程，而忽略了领域专家的所具有的专业背景知识，缺乏人机交互机制。因此，根据各

2、种地球物理勘探数据的特征，从勘探领域模型驱动的角度出发，引入数据挖掘技术，确定其挖掘思路，建立各种挖掘方法之间的联系，利用其数学模型和数学分析方法从海量的数中获得最大增益信息来指导勘探，不仅是数据的需要，更重要的是为地球物理勘探提供了一种高效率、高精度、低成本、高回报的新方法1。在国内，部分学者将数据挖掘这门新方法在地球物理应用领域进行了积极探索1-3。李雄炎等1(2009) 在石油天然气勘探领域进行了数据挖掘应用探索。朱传华等3(2010) 应用数据挖掘技术，从滑坡灾害历史数据中挖掘出有利于滑坡灾害预测预报的有效信息，为预警指挥系统服务。可以说，数据挖掘在地球物理方面的应用前景较好，但需要国

3、内外学者进一步探索，发挥交叉学科作用，使数据挖掘可以服务于地球物理领域。本文仅利用老师提供的非地球物理资料样本，操作weka进行一些简单实验，熟悉数据挖掘方法。2实验 2.1 分类预测分类是以寻找一个分类函数或者建立一个分类模型为目的4-6。其中决策树算法则是数据挖掘领域中研究分类问题最常见的方法，本文将以J48(C4.5)和Naive Bayes为例进行试验，本次实验笔者选择的数据样本均为zoo.arff，结果如下图1所示。图1.决策树法和朴素贝叶斯法分类结果比较Fig 1.Compared the classification results between decision tree a

4、nd naive bayes分类算法J48(C4.5)Naive Bayes训练集校验准确率99.00%100%10 折交叉验证准确率92.08%93.07%66%分离比校验准确率94.12%88.24%初步结果分析：针对相同数据，两种分类算法准确率都较高，特别是训练集校验准确率达到99%和100%，但是由于训练集校验法的检验数据为训练数据，所以对于模型在未来的未知数据中的表现的性能，不能通过现在的分类正确率进行评估。66%分离比校验准确率中J48(C4.5)的分类效果较优于Naive Bayes。综合来看，针对不同的样本数据应当具体结合使用相应的分类算法。2.2聚类分析聚类是按照一组个体的相

5、似性程度把它们聚成一些分离类别，使得类内部对象之间的相似度较大，而类与类之间对象的相似度较小，它的目的是尽量使得同类个体之间的距离达到最小，反之，不同类个体之间的距离则尽可能大，从而使同一类中的个体具有极高的相似性4-5。下面将以十大经典算法中的K均值算法为例进行试验，依据前面分类的情况，选择“SimpleKMeans”，我修改“numClusters”为 7，说明希望把这101 条动物实例聚成 7类，即 K=7。下面的“seed”参数是要设置一个随机种子，依此产生一个随机数，用来得到 K 均值算法中第一次给出的 K 个簇中心的位置。我们不妨暂时让它就为10、50、100作对比实验，“With

6、in cluster sum of squared errors:”即总聚类平方差的值，其值越小说明给的初值越好。我选中“Cluster Mode”的是“Classes to clusters evaluation”进行试验，结果如下：seed为10时，总聚类平方差的值为255.0，Correctly Clustered Instances：31.68%；seed为50时，总聚类平方差的值为245.0，Correctly Clustered Instances：7.92%；seed为100时，总聚类平方差的值为249.0，Correctly Clustered Instances：17.82%

7、。可以从上述结果中得知，在这三种“seed”下，值为 50 为最佳聚类效果最好，误差小于 8%，明显优于另外两个。我在下面做实验还用了“seed”为 90、150、200 等数值做了试验，发现精度先增加然后会再下降，限于篇幅此处不做陈述。我们可以看出选的 “seed”对分类结果影响较大。2.3 关联规则关系数据库中存在着一种重要的关系：数据关联，这种关系其实是一种容易被人们发现的知识，可以进行相关学习。关联分析的目的是发掘海量数据中存在的数据之间的相关性。从大量的记录中发现有趣的关联关系，可以有效地帮助我们制定决策，例如交叉并行购物、分类器的设计等关联又可分为简单关联、时序关联和因果关联4-6

8、。关联规则分析是使用 Apriori 算法进行试验。本次试验要求只计算出可信度不低于0.9的关联规则，并取可信度排在前五位的关联规则如下：Best rules found:1. backbone=true 83 = venomous=false 79 conf:(0.95)2. breathes=true 80 = fins=false 76 conf:(0.95)3. domestic=false 88 = venomous=false 81 conf:(0.92)4. fins=false 84 = venomous=false 77 conf:(0.92)5. fins=false 84

9、 = breathes=true 76 conf:(0.9)3 结论本次实验很好地熟悉操作了weka中一些简单的应用：分类、聚类、关联规则分析。通过阅读大量文献，我还了解了数据挖掘在本专业的应用，这是以前未曾意识到的。所以，可以毫不夸张的说，刘老师给我开了这方面的一扇窗，以后如果有机会我会进行交叉学科相关研究，将数据挖掘的数据处理方法同所学专业联系起来，更好地为地球物理勘探工作服务。参考文献1 李雄炎,李洪奇. 数据挖掘技术在石油天然气勘探领域的应用探索J. 地球物理学进展,2009,05:1807-1813.2 彭丰林,陈会忠,沈萍等. 地球物理中大数据的历史渊源与时代发展A. 中国地球物理学会信息技术专业委员会.地球物理信息监测与计算技术应用研讨活动论文摘要C.中国地球物理学会信息技术专业委员会:,2015:2.3 朱传华. 三峡库区地质灾害数据仓库与数据挖掘应用研究D.中国地质大学,2010.4 吴烨. 基于Weka平台的决策树算法研究与实现D.西安电子科技大学,2014.5 戴红,常子冠,于宁.数据挖掘导论M.北京：清华大学出版社，2014.6 Ian H.Witten,Eibe Frank.数据挖掘实用机器学习技术（原书第2版）M.董琳，等译.北京：机械工业出版社，2012.

展开阅读全文