数据挖掘概念与技术 CHAPTER2-数据预处理

资源描述

《数据挖掘概念与技术 CHAPTER2-数据预处理》由会员分享，可在线阅读，更多相关《数据挖掘概念与技术 CHAPTER2-数据预处理（65页珍藏版）》请在金锄头文库上搜索。

1、第2章: 数据预处理n为什么预处理数据?n数据清理 n数据集成n数据归约n离散化和概念分层产生n小结1为什么数据预处理?n现实世界中的数据是脏的n不完全: 缺少属性值, 缺少某些有趣的属性, 或仅包含聚集数据n例, occupation=“”n噪音: 包含错误或孤立点n例, Salary=“-10”n不一致: 编码或名字存在差异n例, Age=“42” Birthday=“03/07/2010”n例, 以前的等级 “1,2,3”, 现在的等级 “A, B, C”n例, 重复记录间的差异2数据为什么脏?n不完全数据源于n数据收集时未包含n数据收集和数据分析时的不同考虑.n人/硬件/软件问题n噪音

2、数据源于n收集n录入n变换n不一致数据源于n不同的数据源n违反函数依赖3为什么数据预处理是重要的?n没有高质量的数据, 就没有高质量的数据挖掘结果!n高质量的决策必然依赖高质量的数据n例如, 重复或遗漏的数据可能导致不正确或误导的统计.n数据仓库需要高质量数据的一致集成4数据质量：一个多维视角n一种广泛接受的多角度:n正确性(Accuracy)n完全性(Completeness)n一致性(Consistency)n合时(Timeliness)：timely update? n可信性(Believability)n可解释性(Interpretability)n可存取性(Accessibilit

3、y)5数据预处理的主要任务n数据清理n填充缺失值, 识别/去除离群点, 光滑噪音, 并纠正数据中的不一致n数据集成n多个数据库, 数据立方体, 或文件的集成n数据变换n规范化和聚集n数据归约n得到数据的归约表示, 它小得多, 但产生相同或类似的分析结果：维度规约、数值规约、数据压缩n数据离散化和概念分层6数据预处理的形式 7第2章: 数据预处理n为什么预处理数据?n数据清理 n数据集成n数据归约n离散化和概念分层产生n小结8数据清理 Data Cleaningn现实世界de数据是脏：很多潜在的不正确的数据，比如，仪器故障，人为或计算机错误，许多传输错误nincomplete:缺少属性值,

4、缺少某些有趣的属性, 或仅包含聚集数据ne.g., 职业=“ ” (missing data)nnoisy:包含错误或孤立点ne.g., Salary=“10” (an error)ninconsistent:编码或名字存在差异, e.g.,nAge=“42”, Birthday=“03/07/2010”n以前的等级 “1, 2, 3”, 现在等级 “A, B, C”n重复记录间的差异n有意的(e.g.,变相丢失的数据)nJan. 1 as everyones birthday?9如何处理缺失数据?n忽略元组: 缺少类别标签时常用(假定涉及分类不是很有效，当每个属性的缺失百分比变化大时n手工

5、填写缺失数据: 乏味+费时+不可行 ?n自动填充n一个全局常量 : e.g., “unknown”, a new class?! n使用属性均值n与目标元组同一类的所有样本的属性均值: 更巧妙n最可能的值: 基于推理的方法，如贝叶斯公式或决策树10噪音数据Noisy DatanNoise: 被测量的变量的随机误差或方差n不正确的属性值可能由于n错误的数据收集工具n数据录入问题 data entry problemsn数据传输问题data transmission problemsn技术限制 technology limitationn不一致的命名惯例 inconsistency in nami

6、ng convention n其他需要数据清理的问题n重复记录 duplicate recordsn数据不完整 incomplete datan不一致的数据 inconsistent data11如何处理噪音数据?n分箱Binning method:n排序数据，分布到等频/等宽的箱/桶中n箱均值光滑、箱中位数光滑、箱边界光滑, etc.n聚类Clusteringn检测和去除离群点/孤立点 outliersn计算机和人工检查相结合n人工检查可疑值 (e.g., deal with possible outliers)n回归 Regressionn回归函数拟合数据12分箱：简单的离散化方法n等宽

7、度Equal-width (distance) 剖分:n分成大小相等的n个区间: 均匀网格 uniform gridn若A和B是属性的最低和最高取值, 区间宽度为: W = (B A)/N.n孤立点可能占据重要影响 may dominate presentationn倾斜的数据处理不好.n等频剖分 (frequency) /等深equi-depth :n分成n个区间, 每一个含近似相同数目的样本nGood data scalingn类别属性可能会非常棘手.13Binning Methods for Data Smoothing* Sorted data for price (in dolla

8、rs): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 * Partition into (equi-depth) bins:- Bin 1: 4, 8, 9, 15- Bin 2: 21, 21, 24, 25- Bin 3: 26, 28, 29, 34 * Smoothing by bin means:- Bin 1: 9, 9, 9, 9- Bin 2: 23, 23, 23, 23- Bin 3: 29, 29, 29, 29 * Smoothing by bin boundaries:- Bin 1: 4, 4, 4, 15- Bin 2:

9、 21, 21, 25, 25- Bin 3: 26, 26, 26, 3414聚类分析15Regressionxyy = x + 1X1Y1Y116数据清理作为一个过程n数据偏差检测 Data discrepancy detectionn使用元数据(数据性质的知识)(e.g.,领域, 长度范围,从属, 分布)n检查字段过载 field overloading n检查唯一性规则, 连续性规则,空值规则n使用商业工具n数据清洗Data scrubbing: 使用简单的领域知识(e.g., 邮编, 拼写检查) 检查并纠正错误n数据审计 Data auditing: 通过分析数据发现规则和联系发现

10、违规者(孤立点)n数据迁移和集成n数据迁移工具Data migration tools:允许指定转换n提取/变换/装入工具ETL (Extraction/Transformation/Loading) tools: 允许用户通过图形用户界面指定变换n整合两个过程n两个过程迭代和交互执行(e.g., Potters Wheels)17第2章: 数据预处理n为什么预处理数据?n数据清理 n数据集成n数据归约n离散化和概念分层产生n小结18数据集成n数据集成 Data integration: n合并多个数据源中的数据，存在一个一致的数据存储中n涉及3个主要问题：模式集成、冗余数据、冲突数据值n模

11、式集成 Schema integration n例如., A.cust-id ？ B.cust-#n实体识别问题 Entity identification problem: n多个数据源的真实世界的实体的识别, e.g., Bill Clinton = William Clintonn集成不同来源的元数据n冲突数据值的检测和解决n对真实世界的实体，其不同来源的属性值可能不同n原因:不同的表示,不同尺度,公制 vs. 英制19数据集成中冗余数据处理n冗余数据Redundant data （集成多个数据库时出现）n目标识别：同一个属性在不同的数据库中有不同的名称n衍生数据：一个属性值可由其他

12、表的属性推导出, e.g., 年收入n相关分析 correlation analysis /协方差分析 covariance analysisn可用于检测冗余数据n小心的集成多个来源的数据可以帮助降低和避免结果数据集中的冗余和不一致，提高数据挖掘的速度和质量20相关分析 (数值数据)nCorrelation coefficient (also called Pearsons product moment coefficient)n相关系数（皮尔逊相关系数）n元组个数, 和属性A和B上的平均值, A and B分别为各自标准差， (aibi) is the AB叉积 cross-produc

13、t之和.nIf rA,B 0, A and B 整相关 (As values increase as Bs). 值越大相关程度越高.nrA,B = 0: 不相关; rAB 0, 则A 和B 同时倾向于大于期望值.n负covariance: If CovA,B 0.25相关分析 (名义数据Nominal Data)n2 (chi-square) test 开方检验检验nij是(ai,bj)的观测频度（实际计数）neij是(ai,bj)的期望频度nN数据元组的个数属A 性a1a2iac b1 Bb2 j br(A=ai,B=bj)n2 值越大,相关的可能越大n对 2 值贡献最大的项，其实际值与

14、期望值相差最大的相n相关不意味着因果关系26Chi-Square 卡方值计算: 例子n2 (chi-square) 计算(括号中的值为期望计值，由两个类别的分布数据计算得到)n结果表明like_fiction 和play_chess 关联Play chessNot play chessSum (row)看小说250(90)200(360)450 不看小说50(210)1000(840)1050 Sum(col.)3001200150027数据变换Data Transformationn光滑: 去掉噪音，技术：分箱、回归、聚类n聚集Aggregation:汇总, 数据立方体构造n数据泛化Ge

15、neralization:概念分层n规范化Normalization:按比例缩放到一个具体区间n最小-最大规范化nz-score 规范化n小数定标规范化n属性Attribute/特征feature 构造n从给定的属性构造新属性n机器学习中称为：特征构造数据规约28规范化数据的方法n最小-最大规范化 min-max normalizationn新数据可能“越界”nz-score normalizationnnormalization by decimal scalingn移动属性A的小数点位置(移动位数依赖于属性A的最大值 )J为使得 Max(| |)最后的集合: A1, A4, A6维度规约-

16、决策树规约3839维度规约-属性/特征产生nFeature Generation 产生新的属性，其可以比原始属性更有效地表示数据的重要信息。n三个一般方法:n属性提取 Attribute extractionn特定领域的n映射数据到新空间nE.g., 傅立叶变换, wavelet transformation, 流形方法 ( manifold approaches)n属性构造n组合特征n数据离散化 Data discretization3940x2x1e主成分分析 (PCA)nprincipal component analysis，K-L变换n找到一个投影，其能表示数据的最大变化n原始数据投影到一个更小的空间中，导致维度减少. n发现的协方差矩阵的特征向量，用这些特征向量定义新的空间4041n给定 p维空间中的N各点, 找到 k p 个正交向量 (principal components) 可以很好表示原始数据的 n归范化输入数据: 每个属性值位于相同的区间内n计算 k

展开阅读全文

数据挖掘概念与技术 CHAPTER2-数据预处理

最新文档