工业数据库与数据挖掘(7预处理)(精)

上传人:我** 文档编号:116859971 上传时间:2019-11-17 格式:PPS 页数:68 大小:3MB
返回 下载 相关 举报
工业数据库与数据挖掘(7预处理)(精)_第1页
第1页 / 共68页
工业数据库与数据挖掘(7预处理)(精)_第2页
第2页 / 共68页
工业数据库与数据挖掘(7预处理)(精)_第3页
第3页 / 共68页
工业数据库与数据挖掘(7预处理)(精)_第4页
第4页 / 共68页
工业数据库与数据挖掘(7预处理)(精)_第5页
第5页 / 共68页
点击查看更多>>
资源描述

《工业数据库与数据挖掘(7预处理)(精)》由会员分享,可在线阅读,更多相关《工业数据库与数据挖掘(7预处理)(精)(68页珍藏版)》请在金锄头文库上搜索。

1、数据清理筛选 数据 目标数据 预处理 及变换 变换后的数据 数据挖掘 解释/评估 第七章 数据预处 理 数据挖掘数据挖掘 数据挖掘数据挖掘 验证驱动挖掘验证驱动挖掘发现驱动挖掘发现驱动挖掘 SQLSQLSQLSQL生成器生成器 查询工具查询工具OLAPOLAP 描述描述预测预测 可视化可视化 聚类聚类 关联规则关联规则 顺序关联顺序关联 汇总描述汇总描述 分类分类 统计回归统计回归 时间序列时间序列 决策树决策树 神经网路神经网路 第七章 数据预处 理 数据仓库 数据挖掘的数据源可能是多个互相独立的数据源 关系数据库 多维数据库(Data Cube) 文件、文档数据库 数据转换 为了数据挖掘的

2、方便 海量数据的处理 数据归约(在获得相同或者相似结果的前提下) 第七章 数据预处 理 数据仓库 数据仓库是在企业管理和决策中面向主题的、集成的 、与时间相关的、不可修改的数据集合。 与其他数据库应用不同的是,数据仓库更像一种过程 ,对分布在企业内部各处的业务数据的整合、加工和分析的 过程 第七章 数据预处 理 数据仓库 面向主题面向主题 一个主题领域的表来源于多个操作型应用,典型的主一个主题领域的表来源于多个操作型应用,典型的主 题领域:客户;产品;交易;帐目题领域:客户;产品;交易;帐目 以一组相关的表来具体实现,以一组相关的表来具体实现, 相关的表通过公共的键码联系起来相关的表通过公共的

3、键码联系起来 集成的集成的 数据提取、净化、转换、装载数据提取、净化、转换、装载 非易失的非易失的 数据仓库的数据通常是一起载入和访问的,但并不进数据仓库的数据通常是一起载入和访问的,但并不进 行一般意义上的数据更新行一般意义上的数据更新 第七章 数据预处 理 数据仓库 随时间的变化性随时间的变化性 数据仓库中的时间期限要远远长于操作型系统中的时间 期限(例如 5年); 数据仓库中的数据是一系列某一时刻生成的复杂的快照 数据仓库的键码结构总是包含某时间元素 第七章 数据预处 理 数据仓库 第七章 数据预处 理 OLTP 数据源 数据仓库仓库 数据集市 生产 财务 结算 外部 航线 分析 总量

4、分析 市场 分析InfoPump 数据分析、DM 终端用户 终端用户 数据仓库 星型模式Star Schema 事实表:位于星型连接的中央,它是被大量载入数据 的实体。 维表:周围的其它实体 在很多情况下:文本数据与数值数据是分离开的在很多情况下:文本数据与数值数据是分离开的 第七章 数据预处 理 第七章 数据预处 理 Date Month Year Date CustId CustName CustCity CustCountry Cust Sales Fact Table Date Product Store Customer unit_sales dollar_sales Yen_sal

5、es Measurements ProductNo ProdName ProdDesc Category QOH Product StoreID City State Country Region Store 雪片模式Snowflake SchemaSnowflake Schema 第七章 数据预处 理 Date Month Date CustId CustName CustCity CustCountry Cust Sales Fact Table Date Product Store Customer unit_sales dollar_sales Yen_sales Measuremen

6、ts ProductNo ProdName ProdDesc Category QOH Product Month Year Month Year Year City State City Country Region Country State Country State StoreID City Store 数据清理 填入缺失数据 平滑噪音数据 确认和去除孤立点 解决不一致性 数据集成 多个数据库、Data Cube和文件系统的集成 数据转换 规范化、聚集等 第七章 数据预处 理 数据归约 在可能获得相同或相似结果的前提下,对数据的容量进行有效的缩 减 数据离散化 对于一个特定的连续属性,

7、尤其是连续的数字属性,可以把属性值 划分成若干区间,以区间值来代替实际数据值,以减少属性值的个 数. 第七章 数据预处 理 第七章 数据预处 理 数据清理 在实际环境中,存在着大量的“脏”数据 不完整性(数据结构的设计人员、数据采集设备和数据录入人员) 缺少感兴趣的属性 感兴趣的属性缺少部分属性值 仅仅包含聚合数据,没有详细数据 噪音数据(采集数据的设备、数据录入人员、数据传输) 数据中包含错误的信息 存在着部分偏离期望值的孤立点 不一致性(数据结构的设计人员、数据录入人员) 数据结构的不一致性 Label的不一致性 数据值的不一致性 数据清洗 主要任务 补充缺失数据 识别孤立点,平滑噪音数据

8、 处理不一致的数据 第七章 数据预处 理 数据清洗 缺失数据处理 部分数据通常是不可用的 在许多元组中部分属性值为空。如:在客户表中的客户收入 为空。 导致数据缺失的原因 数据采集设备的故障 由于与其它信息的数据存在不一致性,因此数据项被删除 由于不理解或者不知道而未能输入 在当时数据输入的时候,该数据项不重要而忽略 数据传输过程中引入的错误 缺失数据通常需要经过合理的推断予以添加 第七章 数据预处 理 数据清洗 缺失数据的处理方法 忽略该记录(元组) n通常在进行分类、描述、聚类等挖掘,但是元组缺失类标 识时 n该种方法通常不是最佳的,尤其是缺失数据比例比较大的 时候 手工填入空缺的值 n枯

9、燥、费时,可操作性差 使用一个全局的常量填充空缺数值 n给定一个固定的属性值如:未知、不祥、 Unknown 、 Null等 n简单,但是没有意义 使用属性的平均值填充空缺数值 n简单方便、挖掘结果容易产生不精确的结果 使用与给定元组同一个类别的所有样本的平均值 n分类非常重要,尤其是分类指标的选择 使用最有可能的值予以填充 n利用回归、基于推导的使用贝叶斯形式化的方法的工具或者判定树 归纳确定 n利用属性之间的关系进行推断,保持了属性之间的联系 数据清洗 缺失数据的处理方法 噪音数据:一个度量(指标)变量中的随机错误或者偏差 主要原因 n数据采集设备的错误 n数据录入问题 n数据传输问题 n

10、部分技术的限制 n数据转换中的不一致 数据清理中所需要处理的其它问题 n重复的记录 n不完整的数据 n不一致的数据 数据清洗 噪音数据的处理方法 分箱(Binning)的方法 聚类方法 n检测并消除异常点 线性回归 n对不符合回归的数据进行平滑处理 人机结合共同检测 n由计算机检测可疑的点,然后由用户确认 数据清洗 噪音数据的处理方法 分箱(Binning)方法: n基本思想:通过考察相邻数据的值,来平滑存储 数据的值 n基本步骤: w首先,对数据进行排序,并分配到具有相同宽度/深 度的不同的“箱子”中 w其次,通过箱子的平均值(Means)、中值(Median )、或者边界值等来进行平滑处理

11、 分箱方法 相同宽度 (距离)数据分割 n将数据分成N等份,各个等份数据之间具有相同的距离 n如果 A 和 B 分别为属性值中的最大值和最小值,那么各个 数据等份之间的距离为:W = (B-A)/N. n异常点会有重要影响 n倾斜的数据不能很好的解决 相同深度 (频率)数据分割 n将数据分成N等份,各个等份具有相同的数据个数。 n具有较好的可伸缩性 n适合于数据分类的情况 分箱(Binning) 方法举例 对数据进行排序: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 对数据进行分割(相同深度) : n- Bin 1: 4, 8, 9, 15 n- B

12、in 2: 21, 21, 24, 25 n- Bin 3: 26, 28, 29, 34 根据bin中的平均值进行离散化: n- Bin 1: 9, 9, 9, 9 n- Bin 2: 23, 23, 23, 23 n- Bin 3: 29, 29, 29, 29 基于聚类分析的平滑处理 聚类分析方法 将数据按照“类内最大相似度,类间最小相似度的 原则”对数据进行有效聚类 利用聚类的中心点来表示该类所包含的对象 数据聚类将非常有效,但是必须保证数据中没有 噪音数据 通过回归的平滑处理 x y y = x + 1 X1 Y1 Y1 数据集成 数据集成的概念 n将多个数据源中的数据结合起来存放在

13、一个一致的数据存储中 n数据源包括:多个数据库、多维数据库和一般的文件 n数据集成也是数据仓库建设中的一个重要问题 数据集成的内容 n模式集成 w利用数据库和数据仓库的元数据信息 w主要工作是识别现实世界中的实体定义 n冗余数据的处理 n检测和解决数值冲突 w对于现实世界中的同一实体,来自于不同数据源的属性值可能不同 w主要原因:不同的数据表示、度量单位、编码方式以及语义的不同 数据类型冲突 n性别:string(Male、Female)、Char(M、F)、Interger(0、1) n日期:Date、DateTime、String 数据标签冲突:解决同名异义、异名同义 n学生成绩、分数 度

14、量单位冲突 n学生成绩 w百分制:100 0 w五分制: A 、B、C、D、E w字符表示:优、良、及格、不及格 概念不清 n最近交易额:(前一个小时、昨天、本周、本月?) 聚集冲突:根源在于表结构的设计 数据集成 冗余数据的处理 从多个数据源中抽取不同的数据,容易导致数据的冗余 n不同的属性在不同的数据源中是不同的命名方式 n有些属性可以从其它属性中导出, 例如:销售额单价销售量 有些冗余可以通过相关分析检测到 其中:n是元组的个数, 和 分别是A和B的平均值, 和 分别是A和B的标准差 元组级的“重复”,也是数据冗余的一个重要方面 减少冗余数据,可以大大提高数据挖掘的性能 数据转换:规范化

15、 0-1标准化 (离差标准化) n对原始数据进行线性变换 n保持了原始数据值之间的关系 n当有新的输入,落在原数据区之外,该方法将 面临“越界”错误 n受到孤立点的影响可能会比较大 数据转换:规范化 z-score 规范化 (标准差标准化) n属性基于平均值和标准差规范化 n当属性的最大值和最小值未知,或者孤立点左右了最 大最小规范化时,该方法有效 数据转换:规范化 小数定标规范化 n通过移动属性的小数点位置进行规范化。小数点移动多少 位取决于属性A的取值中的最大绝对值。 n例如A为最大值,125,那么则j=3,有v=0.125。 Where j is the smallest integer

16、 such that Max(| |)1 数据归约 数据压缩:应用数据编码或变换,以便得到数据的归约或 压缩表示 n无损压缩:原数据可以由压缩数据重新构造而不丢失任何信息 w字符串压缩是典型的无损压缩 w现在已经有许多很好的方法但是它们只允许有限的数据操作 n有损压缩:只能重新构造原数据的近似表示 w影像文件的压缩是典型的有损压缩 w典型的方法:小波变换、主要成分分析 数值归约 数值归约:通过选择替代的、“较小”的数据表示形式来 减少数据量 n有参的方法 w假设数据符合某些模型,通过评估模型参数,仅需要存 储参数,不需要存储实际数据(孤立点也可能被存放) w典型方法:对数线性模型,它估计离散的多维概率分布 n无参的方法 w不存在假想的模型 w典型方法:直方图、聚类和抽样 数据离散化 概念层次 属性值分类 n枚举型 w有序的 w无序的 n连续型:如 Real类型 数据离散化 n对于

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号