工业数据库与数据挖掘(7预处理)(精)

资源描述

《工业数据库与数据挖掘(7预处理)(精)》由会员分享，可在线阅读，更多相关《工业数据库与数据挖掘(7预处理)(精)（68页珍藏版）》请在金锄头文库上搜索。

1、数据清理筛选数据目标数据预处理及变换变换后的数据数据挖掘解释/评估第七章数据预处理数据挖掘数据挖掘数据挖掘数据挖掘验证驱动挖掘验证驱动挖掘发现驱动挖掘发现驱动挖掘 SQLSQLSQLSQL生成器生成器查询工具查询工具OLAPOLAP 描述描述预测预测可视化可视化聚类聚类关联规则关联规则顺序关联顺序关联汇总描述汇总描述分类分类统计回归统计回归时间序列时间序列决策树决策树神经网路神经网路第七章数据预处理数据仓库数据挖掘的数据源可能是多个互相独立的数据源关系数据库多维数据库（Data Cube）文件、文档数据库数据转换为了数据挖掘的

2、方便海量数据的处理数据归约（在获得相同或者相似结果的前提下）第七章数据预处理数据仓库数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。与其他数据库应用不同的是，数据仓库更像一种过程，对分布在企业内部各处的业务数据的整合、加工和分析的过程第七章数据预处理数据仓库面向主题面向主题一个主题领域的表来源于多个操作型应用，典型的主一个主题领域的表来源于多个操作型应用，典型的主题领域：客户；产品；交易；帐目题领域：客户；产品；交易；帐目以一组相关的表来具体实现，以一组相关的表来具体实现，相关的表通过公共的键码联系起来相关的表通过公共的

3、键码联系起来集成的集成的数据提取、净化、转换、装载数据提取、净化、转换、装载非易失的非易失的数据仓库的数据通常是一起载入和访问的，但并不进数据仓库的数据通常是一起载入和访问的，但并不进行一般意义上的数据更新行一般意义上的数据更新第七章数据预处理数据仓库随时间的变化性随时间的变化性数据仓库中的时间期限要远远长于操作型系统中的时间期限（例如 5年）；数据仓库中的数据是一系列某一时刻生成的复杂的快照数据仓库的键码结构总是包含某时间元素第七章数据预处理数据仓库第七章数据预处理 OLTP 数据源数据仓库仓库数据集市生产财务结算外部航线分析总量

4、分析市场分析InfoPump 数据分析、DM 终端用户终端用户数据仓库星型模式Star Schema 事实表：位于星型连接的中央，它是被大量载入数据的实体。维表：周围的其它实体在很多情况下：文本数据与数值数据是分离开的在很多情况下：文本数据与数值数据是分离开的第七章数据预处理第七章数据预处理 Date Month Year Date CustId CustName CustCity CustCountry Cust Sales Fact Table Date Product Store Customer unit_sales dollar_sales Yen_sal

5、es Measurements ProductNo ProdName ProdDesc Category QOH Product StoreID City State Country Region Store 雪片模式Snowflake SchemaSnowflake Schema 第七章数据预处理 Date Month Date CustId CustName CustCity CustCountry Cust Sales Fact Table Date Product Store Customer unit_sales dollar_sales Yen_sales Measuremen

6、ts ProductNo ProdName ProdDesc Category QOH Product Month Year Month Year Year City State City Country Region Country State Country State StoreID City Store 数据清理填入缺失数据平滑噪音数据确认和去除孤立点解决不一致性数据集成多个数据库、Data Cube和文件系统的集成数据转换规范化、聚集等第七章数据预处理数据归约在可能获得相同或相似结果的前提下，对数据的容量进行有效的缩减数据离散化对于一个特定的连续属性，

7、尤其是连续的数字属性，可以把属性值划分成若干区间，以区间值来代替实际数据值，以减少属性值的个数. 第七章数据预处理第七章数据预处理数据清理在实际环境中，存在着大量的“脏”数据不完整性（数据结构的设计人员、数据采集设备和数据录入人员）缺少感兴趣的属性感兴趣的属性缺少部分属性值仅仅包含聚合数据，没有详细数据噪音数据（采集数据的设备、数据录入人员、数据传输）数据中包含错误的信息存在着部分偏离期望值的孤立点不一致性（数据结构的设计人员、数据录入人员）数据结构的不一致性 Label的不一致性数据值的不一致性数据清洗主要任务补充缺失数据识别孤立点，平滑噪音数据

8、处理不一致的数据第七章数据预处理数据清洗缺失数据处理部分数据通常是不可用的在许多元组中部分属性值为空。如：在客户表中的客户收入为空。导致数据缺失的原因数据采集设备的故障由于与其它信息的数据存在不一致性，因此数据项被删除由于不理解或者不知道而未能输入在当时数据输入的时候，该数据项不重要而忽略数据传输过程中引入的错误缺失数据通常需要经过合理的推断予以添加第七章数据预处理数据清洗缺失数据的处理方法忽略该记录（元组） n通常在进行分类、描述、聚类等挖掘，但是元组缺失类标识时 n该种方法通常不是最佳的，尤其是缺失数据比例比较大的时候手工填入空缺的值 n枯

9、燥、费时，可操作性差使用一个全局的常量填充空缺数值 n给定一个固定的属性值如：未知、不祥、 Unknown 、 Null等 n简单，但是没有意义使用属性的平均值填充空缺数值 n简单方便、挖掘结果容易产生不精确的结果使用与给定元组同一个类别的所有样本的平均值 n分类非常重要，尤其是分类指标的选择使用最有可能的值予以填充 n利用回归、基于推导的使用贝叶斯形式化的方法的工具或者判定树归纳确定 n利用属性之间的关系进行推断，保持了属性之间的联系数据清洗缺失数据的处理方法噪音数据:一个度量（指标）变量中的随机错误或者偏差主要原因 n数据采集设备的错误 n数据录入问题 n数据传输问题 n

10、部分技术的限制 n数据转换中的不一致数据清理中所需要处理的其它问题 n重复的记录 n不完整的数据 n不一致的数据数据清洗噪音数据的处理方法分箱（Binning）的方法聚类方法 n检测并消除异常点线性回归 n对不符合回归的数据进行平滑处理人机结合共同检测 n由计算机检测可疑的点，然后由用户确认数据清洗噪音数据的处理方法分箱（Binning）方法: n基本思想：通过考察相邻数据的值，来平滑存储数据的值 n基本步骤： w首先，对数据进行排序，并分配到具有相同宽度/深度的不同的“箱子”中 w其次，通过箱子的平均值（Means）、中值（Median ）、或者边界值等来进行平滑处理

11、分箱方法相同宽度（距离）数据分割 n将数据分成N等份，各个等份数据之间具有相同的距离 n如果 A 和 B 分别为属性值中的最大值和最小值，那么各个数据等份之间的距离为：W = (B-A)/N. n异常点会有重要影响 n倾斜的数据不能很好的解决相同深度（频率）数据分割 n将数据分成N等份，各个等份具有相同的数据个数。 n具有较好的可伸缩性 n适合于数据分类的情况分箱（Binning）方法举例对数据进行排序: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 对数据进行分割(相同深度) : n- Bin 1: 4, 8, 9, 15 n- B

12、in 2: 21, 21, 24, 25 n- Bin 3: 26, 28, 29, 34 根据bin中的平均值进行离散化: n- Bin 1: 9, 9, 9, 9 n- Bin 2: 23, 23, 23, 23 n- Bin 3: 29, 29, 29, 29 基于聚类分析的平滑处理聚类分析方法将数据按照“类内最大相似度，类间最小相似度的原则”对数据进行有效聚类利用聚类的中心点来表示该类所包含的对象数据聚类将非常有效，但是必须保证数据中没有噪音数据通过回归的平滑处理 x y y = x + 1 X1 Y1 Y1 数据集成数据集成的概念 n将多个数据源中的数据结合起来存放在

13、一个一致的数据存储中 n数据源包括：多个数据库、多维数据库和一般的文件 n数据集成也是数据仓库建设中的一个重要问题数据集成的内容 n模式集成 w利用数据库和数据仓库的元数据信息 w主要工作是识别现实世界中的实体定义 n冗余数据的处理 n检测和解决数值冲突 w对于现实世界中的同一实体，来自于不同数据源的属性值可能不同 w主要原因：不同的数据表示、度量单位、编码方式以及语义的不同数据类型冲突 n性别：string(Male、Female)、Char（M、F）、Interger（0、1） n日期：Date、DateTime、String 数据标签冲突：解决同名异义、异名同义 n学生成绩、分数度

14、量单位冲突 n学生成绩 w百分制：100 0 w五分制： A 、B、C、D、E w字符表示：优、良、及格、不及格概念不清 n最近交易额：（前一个小时、昨天、本周、本月？）聚集冲突：根源在于表结构的设计数据集成冗余数据的处理从多个数据源中抽取不同的数据，容易导致数据的冗余 n不同的属性在不同的数据源中是不同的命名方式 n有些属性可以从其它属性中导出，例如：销售额单价销售量有些冗余可以通过相关分析检测到其中：n是元组的个数，和分别是A和B的平均值，和分别是A和B的标准差元组级的“重复”，也是数据冗余的一个重要方面减少冗余数据，可以大大提高数据挖掘的性能数据转换：规范化

15、 0-1标准化（离差标准化） n对原始数据进行线性变换 n保持了原始数据值之间的关系 n当有新的输入，落在原数据区之外，该方法将面临“越界”错误 n受到孤立点的影响可能会比较大数据转换：规范化 z-score 规范化（标准差标准化） n属性基于平均值和标准差规范化 n当属性的最大值和最小值未知，或者孤立点左右了最大最小规范化时，该方法有效数据转换：规范化小数定标规范化 n通过移动属性的小数点位置进行规范化。小数点移动多少位取决于属性A的取值中的最大绝对值。 n例如A为最大值，125，那么则j=3，有v=0.125。 Where j is the smallest integer

16、 such that Max(| |)1 数据归约数据压缩：应用数据编码或变换，以便得到数据的归约或压缩表示 n无损压缩：原数据可以由压缩数据重新构造而不丢失任何信息 w字符串压缩是典型的无损压缩 w现在已经有许多很好的方法但是它们只允许有限的数据操作 n有损压缩：只能重新构造原数据的近似表示 w影像文件的压缩是典型的有损压缩 w典型的方法：小波变换、主要成分分析数值归约数值归约：通过选择替代的、“较小”的数据表示形式来减少数据量 n有参的方法 w假设数据符合某些模型，通过评估模型参数，仅需要存储参数，不需要存储实际数据（孤立点也可能被存放） w典型方法：对数线性模型，它估计离散的多维概率分布 n无参的方法 w不存在假想的模型 w典型方法:直方图、聚类和抽样数据离散化概念层次属性值分类 n枚举型 w有序的 w无序的 n连续型：如 Real类型数据离散化 n对于

展开阅读全文

工业数据库与数据挖掘(7预处理)(精)

最新文档