数据挖掘概念与技术 CHAPTER2-数据预处理

上传人:ji****72 文档编号:48566836 上传时间:2018-07-17 格式:PPT 页数:65 大小:882KB
返回 下载 相关 举报
数据挖掘概念与技术 CHAPTER2-数据预处理_第1页
第1页 / 共65页
数据挖掘概念与技术 CHAPTER2-数据预处理_第2页
第2页 / 共65页
数据挖掘概念与技术 CHAPTER2-数据预处理_第3页
第3页 / 共65页
数据挖掘概念与技术 CHAPTER2-数据预处理_第4页
第4页 / 共65页
数据挖掘概念与技术 CHAPTER2-数据预处理_第5页
第5页 / 共65页
点击查看更多>>
资源描述

《数据挖掘概念与技术 CHAPTER2-数据预处理》由会员分享,可在线阅读,更多相关《数据挖掘概念与技术 CHAPTER2-数据预处理(65页珍藏版)》请在金锄头文库上搜索。

1、第2章: 数据预处理n为什么预处理数据?n数据清理 n数据集成n数据归约n离散化和概念分层产生n小结1为什么数据预处理?n现实世界中的数据是脏的n不完全: 缺少属性值, 缺少某些有趣的属性, 或仅包含聚集数据n例, occupation=“”n噪音: 包含错误或孤立点n例, Salary=“-10”n不一致: 编码或名字存在差异n例, Age=“42” Birthday=“03/07/2010”n例, 以前的等级 “1,2,3”, 现在的等级 “A, B, C”n例, 重复记录间的差异2数据为什么脏?n不完全数据源于n数据收集时未包含n数据收集和数据分析时的不同考虑.n人/硬件/软件问题n噪音

2、数据源于n收集n录入n变换n不一致数据源于n不同的数据源n违反函数依赖3为什么数据预处理是重要的?n没有高质量的数据, 就没有高质量的数据挖掘结果!n高质量的决策必然依赖高质量的数据n例如, 重复或遗漏的数据可能导致不正确或误 导的统计.n数据仓库需要高质量数据的一致集成4数据质量:一个多维视角n一种广泛接受的多角度:n正确性(Accuracy)n完全性(Completeness)n一致性(Consistency)n合时(Timeliness):timely update? n可信性(Believability)n可解释性(Interpretability)n可存取性(Accessibilit

3、y)5数据预处理的主要任务n数据清理n填充缺失值, 识别/去除离群点, 光滑噪音, 并纠正数据中的 不一致n数据集成n多个数据库, 数据立方体, 或文件的集成n数据变换n规范化和聚集n数据归约n得到数据的归约表示, 它小得多, 但产生相同或类似的分析 结果:维度规约、数值规约、数据压缩n数据离散化和概念分层6数据预处理的形式 7第2章: 数据预处理n为什么预处理数据?n数据清理 n数据集成n数据归约n离散化和概念分层产生n小结8数据清理 Data Cleaningn现实世界de数据是脏:很多潜在的不正确的数据,比如, 仪器故障,人为或计算机错误,许多传输错误nincomplete:缺少属性值,

4、 缺少某些有趣的属性, 或仅包含聚集数据ne.g., 职业=“ ” (missing data)nnoisy:包含错误或孤立点ne.g., Salary=“10” (an error)ninconsistent:编码或名字存在差异, e.g.,nAge=“42”, Birthday=“03/07/2010”n以前的等级 “1, 2, 3”, 现在等级 “A, B, C”n重复记录间的差异n有意的(e.g.,变相丢失的数据)nJan. 1 as everyones birthday?9如何处理缺失数据?n忽略元组: 缺少类别标签时常用(假定涉及分类不是很有效,当每个属性的缺失百分比变化大时n手工

5、填写缺失数据: 乏味+费时+不可行 ?n自动填充n一个全局常量 : e.g., “unknown”, a new class?! n使用属性均值n与目标元组同一类的所有样本的属性均值: 更巧妙n最可能的值: 基于推理的方法,如贝叶斯公式或决策树10噪音数据Noisy DatanNoise: 被测量的变量的随机误差或方差n不正确的属性值可能由于n错误的数据收集工具n数据录入问题 data entry problemsn数据传输问题data transmission problemsn技术限制 technology limitationn不一致的命名惯例 inconsistency in nami

6、ng convention n其他需要数据清理的问题n重复记录 duplicate recordsn数据不完整 incomplete datan不一致的数据 inconsistent data11如何处理噪音数据?n分箱Binning method:n排序数据,分布到等频/等宽的箱/桶中n箱均值光滑、箱中位数光滑、箱边界光滑, etc.n聚类Clusteringn检测和去除 离群点/孤立点 outliersn计算机和人工检查相结合n人工检查可疑值 (e.g., deal with possible outliers)n回归 Regressionn回归函数拟合数据12分箱:简单的离散化方法n等宽

7、度Equal-width (distance) 剖分:n分成大小相等的n个区间: 均匀网格 uniform gridn若A和B是 属性的最低和最高取值, 区间宽度为: W = (B A)/N.n孤立点可能占据重要影响 may dominate presentationn倾斜的数据处理不好.n等频剖分 (frequency) /等深equi-depth :n分成n个区间, 每一个含近似相同数目的样本nGood data scalingn类别属性可能会非常棘手.13Binning Methods for Data Smoothing* Sorted data for price (in dolla

8、rs): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 * Partition into (equi-depth) bins:- Bin 1: 4, 8, 9, 15- Bin 2: 21, 21, 24, 25- Bin 3: 26, 28, 29, 34 * Smoothing by bin means:- Bin 1: 9, 9, 9, 9- Bin 2: 23, 23, 23, 23- Bin 3: 29, 29, 29, 29 * Smoothing by bin boundaries:- Bin 1: 4, 4, 4, 15- Bin 2:

9、 21, 21, 25, 25- Bin 3: 26, 26, 26, 3414聚类分析15Regressionxyy = x + 1X1Y1Y116数据清理作为一个过程n数据偏差检测 Data discrepancy detectionn使用元数据(数据性质的知识)(e.g.,领域, 长度范围,从属, 分布)n检查字段过载 field overloading n检查唯一性规则, 连续性规则,空值规则n使用商业工具n数据清洗Data scrubbing: 使用简单的领域知识(e.g., 邮编, 拼写 检查) 检查并纠正错误n数据审计 Data auditing: 通过分析数据发现规则和联系发现

10、违规 者(孤立点)n数据迁移和集成n数据迁移工具Data migration tools:允许指定转换n提取/变换/装入工具ETL (Extraction/Transformation/Loading) tools: 允许用户通过图形用户界面指定变换n整合两个过程n两个过程迭代和交互执行(e.g., Potters Wheels)17第2章: 数据预处理n为什么预处理数据?n数据清理 n数据集成n数据归约n离散化和概念分层产生n小结18数据集成n数据集成 Data integration: n合并多个数据源中的数据,存在一个一致的数据存储中n涉及3个主要问题:模式集成、冗余数据、冲突数据值n模

11、式集成 Schema integration n例如., A.cust-id ? B.cust-#n实体识别问题 Entity identification problem: n多个数据源的真实世界的实体的识别, e.g., Bill Clinton = William Clintonn集成不同来源的元数据n冲突数据值的检测和解决n对真实世界的实体,其不同来源的属性值可能不同n原因:不同的表示,不同尺度,公制 vs. 英制19数据集成中冗余数据处理n冗余数据Redundant data (集成多个数据库时出 现)n目标识别:同一个属性在不同的数据库中有不同的名 称n衍生数据:一个属性值可由其他

12、表的属性推导出, e.g., 年收入n相关分析 correlation analysis /协方差分析 covariance analysisn可用于检测冗余数据n小心的集成多个来源的数据可以帮助降低和避免结果数据 集中的冗余和不一致,提高数据挖掘的速度和质量20相关分析 (数值数据)nCorrelation coefficient (also called Pearsons product moment coefficient)n相关系数(皮尔逊相关系数)n元组个数, 和 属性A和B上的平均值, A and B分别为各自标准差, (aibi) is the AB叉积 cross-produc

13、t之和.nIf rA,B 0, A and B 整相关 (As values increase as Bs). 值越大相关程度 越高.nrA,B = 0: 不相关; rAB 0, 则A 和B 同时倾向于大于期望值.n负covariance: If CovA,B 0.25相关分析 (名义数据Nominal Data)n2 (chi-square) test 开方检验检验nij是(ai,bj)的观测频度(实际计数)neij是(ai,bj)的期望频度nN数据元组的个数属A 性a1a2iac b1 Bb2 j br(A=ai,B=bj)n2 值越大,相关的可能越大n对 2 值贡献最大的项,其 实际值与

14、期望值相差最大的 相n相关不意味着因果关系26Chi-Square 卡方值计算: 例子n2 (chi-square) 计算(括号中的值为期望计值,由两个类别的分布数据计 算得到)n结果表明like_fiction 和play_chess 关联Play chessNot play chessSum (row)看小说250(90)200(360)450 不看小说50(210)1000(840)1050 Sum(col.)3001200150027数据变换Data Transformationn光滑: 去掉噪音,技术:分箱、回归、聚类n聚集Aggregation:汇总, 数据立方体构造n数据泛化Ge

15、neralization:概念分层n规范化Normalization:按比例缩放到一个具体区间n最小-最大规范化nz-score 规范化n小数定标规范化n属性Attribute/特征feature 构造n从给定的属性构造新属性n机器学习中称为:特征构造数据规约28规范化数据的方法n最小-最大规范化 min-max normalizationn新数据可能“越界”nz-score normalizationnnormalization by decimal scalingn移动属性A的小数点位置(移动位数依赖于属性A的最大值 )J为使得 Max(| |)最后的集合: A1, A4, A6维度规约-

16、决策树规约3839维度规约-属性/特征产生nFeature Generation 产生新的属性,其可以比原 始属性更有效地表示数据的重要信息。n三个一般方法:n属性提取 Attribute extractionn特定领域的n映射数据到新空间nE.g., 傅立叶变换, wavelet transformation, 流形方法 ( manifold approaches)n属性构造n组合特征n数据离散化 Data discretization3940x2x1e主成分分析 (PCA)nprincipal component analysis,K-L变换n找到一个投影,其能表示数据的最大变化n原始数据投影到一个更小的空间中,导致维度减少. n发现的协方差矩阵的特征向量,用这些特征向量定义 新的空间4041n给定 p维空间中的N各点, 找到 k p 个正交向量 (principal components) 可以很好表示原始数据的 n归范化输入数据: 每个属性值位于相同的区间内n计算 k

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号