数据挖掘和RapidMiner入门要点

上传人:橙** 文档编号:333352940 上传时间:2022-09-01 格式:PDF 页数:7 大小:258.20KB
返回 下载 相关 举报
数据挖掘和RapidMiner入门要点_第1页
第1页 / 共7页
数据挖掘和RapidMiner入门要点_第2页
第2页 / 共7页
数据挖掘和RapidMiner入门要点_第3页
第3页 / 共7页
数据挖掘和RapidMiner入门要点_第4页
第4页 / 共7页
数据挖掘和RapidMiner入门要点_第5页
第5页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《数据挖掘和RapidMiner入门要点》由会员分享,可在线阅读,更多相关《数据挖掘和RapidMiner入门要点(7页珍藏版)》请在金锄头文库上搜索。

1、盗帅留香http:/ 数据挖掘入门要点本文档参考了其他文献,加上自己的理解整理出来,希望对数据挖掘新手有所帮助。我的百度 ID 是 Easy_flyqp,百度空间是 http:/ 语句从数据库中查询数据,这仅仅是一个获取样本的过程,其中还包括使用where 条件过滤,sum,avg等聚合函数等;而数据挖掘是对这些数据进行深度分析并发现隐藏在数据中的有意义的模式。3.数据挖掘的常用术语和解释i.描述型挖掘:用简洁概述的方式表达数据中存在的有意义的性质。ii.预测型数据挖掘:通过对提供的数据集使用特定的方法分析获得一个或者一组数据模型,并将该数据模型用于预测未来的新数据的有关性质。iii.定性归纳

2、:定性归纳式描述型挖掘的最简单的一种形式,所以定性归纳也称为概念描述(concept description)。iv.OLAP:在线分析处理。OLAP是决策支持的一部分,传统的查询和报表工具告诉用户数据库中都有什么(what happened),OLAP进一步告诉用户下一步会怎么样(what next),如果采取这样的措施又会怎么样(what if)。也就是说,OLAP是建立一个假设,然后使用 OLAP来证实或者推翻假设。数据挖掘与OLAP的区别在于数据挖掘不是证明某个模式(模型)的正确与否,而是主动去发现数据中隐藏的模型。v.数据泛化(data Generalization):数据泛化是一个

3、从相对低层概念到更高层概念且对数据库中与任务相关的大量数据进行抽象概述的一个分析过程。vi.聚类(Clustering):聚类是将数据库中的记录划分为一系列的有意义的子集。数据挖掘中常使用的聚类算法有Kmean 和 Kmedoids 等。vii.人工神经网络(NeuralNet):神经网络是一组相互连接的输入输出单元,这些单元之间的每个连接都关联一个权重。从结构上,神经网络可以划分为输入层,隐藏层,输出层。输入层的每个节点对应一个的预测变量,输出层的节点对应目标变量,可以有名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 7 页 -盗帅留香http:/ 多个。在输入层和输出层之间是

4、隐藏层(对神经网络用户来说不可见),隐藏层的层数和每层节点数决定了神经网络的复杂度。神经网络常解决两个问题:分类和回归。viii.分类知识(classification):分类知识是反映同类事物共同性质特征型知识和不同事物之间的差异型特征知识。数据的分类过程包含两个主要的步骤:首先建立一个描述已知数据集类别或者概念的模型,该模型是通过对数据库中各数据行的内容分析而获得的,每一数据行都可以认为是属于一个确定的数据类别,其类别值是一个属性描述(被称为类别标记属性(label attribure)。第二步就是利用所获得的模型进行分类操作。分类常用的算法有决策树、贝叶斯分类、神经网络分类、粗糙集(ro

5、ughSet)等方法。二、数据挖掘研究的重点1.处理噪声和不完整数据数据库中的数据或许带有噪声、不完整、意外的数据对象,因此当挖掘数据对象时,很有可能会受到这些错误信息的影响,导致发现的结果出错,失去决策支持。在数据挖掘开始阶段,应该重视这一块内容。RapidMiner 中提供了很多降噪和过滤数据的类,数据预处理会使用到这些操作。2.挖掘结果表达使用 RapidMiner 挖掘结果一般以Model 的形式表达,属于文字描述,要清楚的描述这些信息,需要对数据挖掘的概念和使用的算法深入了解,RapidMiner 还带有可视化工具,可以通过图形展现的方式查看挖掘结果,但是在应用系统集成层面上还没有发

6、现有效的可视化工具,这一块还需要研究。3.性能问题性能问题涉及到效率、可扩展性和数据挖掘算法的可并行性等问题。特别是在算法验证过程中,需要迭代进行,算法的性能问题很总要。RapidMiner 集成到系统中后,在初始化阶段耗时很多,如果预处理或者算法使用不合理,系统性能可能会受到影响。三、数据挖掘的过程1.数据预处理i.数据清洗(data cleaning)数据清洗主要包括遗漏数据处理(样本的缺省值),噪声处理,不一致数据处理等过程。遗漏数据可以通过忽略该条记录、手工填补遗漏值、利用均值或者最可能的值来填充等方法;噪声处理多采用Bin 方法平滑降噪、回归方法和聚类方法来解决;部分不一致问题可以利

7、用它们与外部的关联手工解决。ii.数据集成与转换来自于多个数据源的数据需要进行数据集成操作。数据转换是指将数据转换或者归并成一个适合数据挖掘的描述形式。包括平滑处理、合名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页,共 7 页 -盗帅留香http:/ 计处理、数据泛化、规格化、属性构造的方法。iii.数据消减数据消减是精简数据集使挖掘效率更高。数据消减的主要策略有数据立方合计,维数消减,数据压缩,数据块消减,离散化与概念层次生成。数据消减需要遵循一个原则,就是数据消减所耗费的时间不应该超过由数据消减而节约的挖掘时间。2.数据挖掘利用智能方法发现数据模式或规律知识。所谓的”智能方法”是

8、指目前已发现的关于数据挖掘和统计的一些经典算法,如分类中使用的决策树,ID3,C4.5,网络神经;聚类中的k-均值算法等,需要根据具体场景和挖掘要求选择最优的算法。3.模式评估协助数据挖掘模块发现更有意义的模式知识,该模块能否与数据挖掘模块结合,取决于数据挖掘模块所使用的具体算法。这部分需要了解数据挖掘的各种算法。四、RapidMiner 操作要点1.首先要获取需要的数据,获取数据的类在IO 包下:在”New Operator”选项卡中选择需要的样本选择器:在IO包 中 有 关 于 取 数 的 类,如ExampleSource,ExcelExampleSource,DataBaseExampl

9、eSource 等,可 以 从 文 件(cvs,excel等)或者数据库中读取数据名师资料总结-精品资料欢迎下载-名师精心整理-第 3 页,共 7 页 -盗帅留香http:/ 可以将需要的样本生成器直接拖拽到”Operator tree”选项卡中。根据具体场景,设置各个operator的参数,参考帮助文档。2.数据预处理阶段,大部分操作可以在Preprocessing 中找到:3.数据挖掘过程可以使用机器学习(Learner)、在线分析处理(OLAP)、验证(Validation)下的类:五、RapidMiner 示例1.配置 process 每个操作的参数配置请参考帮助文档和RapidMin

10、er 训练集文档有关数据预处理的数据转换、数据清洗等操作,具体类的用法和意义参考RapidMiner训练集文档在机器学习中RapidMiner 已经实现了很多经典算法,如ID3,C4.5,SVM,聚类,贝叶斯分类等。请参考RapidMiner 训练集文档名师资料总结-精品资料欢迎下载-名师精心整理-第 4 页,共 7 页 -盗帅留香http:/ 2.执行结果和分析DistributionModel Class Heigher(0.438):=Attribute Outlook-sunny overcast rain 获取数据,这里使用的 Demo 中的 golf.aml 填充缺失样本设置本次挖

11、掘的评估属性(label attribute)基本贝叶斯分类器,预 测 评 估 属 性(label attribute)所属分类的概率名师资料总结-精品资料欢迎下载-名师精心整理-第 5 页,共 7 页 -盗帅留香http:/ 0.444 0.333 0.222 else (sum:6)Attribute Humidity-Numerical-mean:79.667,standard deviation:7.118 Attribute Wind-false true 0.625 0.375 else?(sum:6)Attribute Play-no yes 0.375 0.625 else?(

12、sum:6)Class lower(0.562):=Attribute Outlook-rain overcast sunny 0.455 0.273 0.273 else?(sum:8)Attribute Humidity-Numerical-mean:80.750,standard deviation:11.961 Attribute Wind-false true 0.500 0.500 else?(sum:8)Attribute Play-yes no 0.600 0.400 else?(sum:8)名师资料总结-精品资料欢迎下载-名师精心整理-第 6 页,共 7 页 -盗帅留香http:/ 可以看出属性“Temperature”最终分为两类,其中“Heigher”的概率为0.438,“Lower”的概率为 0.562,其他属性是体现对这个属性的影响名师资料总结-精品资料欢迎下载-名师精心整理-第 7 页,共 7 页 -

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 初中教育

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号