数据挖掘数据预处理

上传人:宝路 文档编号:48003615 上传时间:2018-07-08 格式:PPT 页数:47 大小:508.52KB
返回 下载 相关 举报
数据挖掘数据预处理_第1页
第1页 / 共47页
数据挖掘数据预处理_第2页
第2页 / 共47页
数据挖掘数据预处理_第3页
第3页 / 共47页
数据挖掘数据预处理_第4页
第4页 / 共47页
数据挖掘数据预处理_第5页
第5页 / 共47页
点击查看更多>>
资源描述

《数据挖掘数据预处理》由会员分享,可在线阅读,更多相关《数据挖掘数据预处理(47页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘与知识发现 (复杂数据对象的数据挖掘与知识发现)4 数 据 挖掘的预处理数据挖掘的困难所在nNoisenSkewed distributionnMissing values (incomplete info)nScalabilitynHigh dimensionalitynBias in datan.预处理在知识发现中所占份量预处理n各种不同的数据源和数据对象数据的选择、集成与整合,对问题进行限定n数据库中的数据具有噪声、缺值、不易至数据的去噪和规范化问题,提高挖掘精度n数据的变换规范化、映射到不同的空间,提高挖掘效率n数据的规约取出冗余、属性聚类来压缩数据数据的预处理是KDDn从以上

2、讨论可以看出,利用语言场理论对连续 属性进行离散化,该方法简单,计算时间短, 可以根据专家(用户)的意愿来划分连续属性 ,从而用自然语言来描述最后得到的规则,使 之更为用户所理解,因此比较实用,其不足之 处是受人为因素的影响。 离散化的问题n离散化方法的一个先天不足是可能降低发现的 知识的精确度,因此离散化过程如同其他的汇 总小结过程一样,可能会导致某些相关的详细 信息的丢失。另外,离散化方法对挖掘出的知 识的质量的影响如何,仍是一个有待研究的课 题。n离散化方法即改变连续属性为离散值。属性进 行离散化的思想是输入一个(整数的或连续值 的)属性值输出一个有序区间,因此整个输入 域相应与一个有序区间列表。离散化方法常常 跟分类问题相联系。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号