CH3--第2讲再谈数据准备-数据质量问题

上传人:j****s 文档编号:54645029 上传时间:2018-09-16 格式:PPT 页数:24 大小:136KB
返回 下载 相关 举报
CH3--第2讲再谈数据准备-数据质量问题_第1页
第1页 / 共24页
CH3--第2讲再谈数据准备-数据质量问题_第2页
第2页 / 共24页
CH3--第2讲再谈数据准备-数据质量问题_第3页
第3页 / 共24页
CH3--第2讲再谈数据准备-数据质量问题_第4页
第4页 / 共24页
CH3--第2讲再谈数据准备-数据质量问题_第5页
第5页 / 共24页
点击查看更多>>
资源描述

《CH3--第2讲再谈数据准备-数据质量问题》由会员分享,可在线阅读,更多相关《CH3--第2讲再谈数据准备-数据质量问题(24页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘准备大纲,1、原始数据的表述 2、原始数据的质量 3、原始数据的转换 4、数据异常点的分析,第一部分原始数据的表述,标称标度允许任何一对一变换的范畴性标度,与定类测量尺度一致 例如:性别分为男、女。头发颜色分为黑色、蓝色、绿色和褐色 思考:1、如何转换为数据?2、特点如何?(就数学性质而言),原始数据的表述,有序的范畴型标度,其对应定序测量尺度例如:许多程度量指标,满意度的评价思考:特点如何? 数字标度:定量的或实数值,对应定距或定比测量成绩例如:考试的成绩思考:特点?,第二部分原始数据的质量,统计学课程中数据质量的含义? IMF对统计数据质量的评估。 GDDS与SDDS对数据质量的要

2、求。,数据挖掘中数据质量的含义,正确性(Correctness) 一致性(Consistency) 完整性(Completeness) 可靠性(Reliability),为什么数据会有错误,数据输入和获得过程数据错误的不可避免性 数据集成所表现出来的错误 数据传输过程所引入的错误 据统计有错误的数据占总数据的5%左右Redmen,Orr98,数据质量问题的分类,数据错误的危害性,高昂的操作费用 糟糕的决策制定 组织的不信任 分散管理的注意力,合理的解决方案,探测数据集找出可能的问题并尽可能地纠正错误 手工进行费时、费力、费钱并且还会产生新的错误 在大数据集中进行自动的数据清理可能是达到合理质量

3、水平唯一的在实践中和经济上都切实可行的方法,包含数据清理过程的三个主要领域,数据仓库(data warehousing) 数据库中的知识发现(kdd) 总体数据质量管理(total data quality management,TDQM),数据清理的六个步骤,元素化(elementizing) 标准化(standardizing)(与数据转换有关) 校验(verifying) 匹配(matching) 是否为一家人(householding) 档案化(documenting),校验(verifying),对标准化的元素进行一致性校验,即在内容上有什么错误。如Boulder Creek 的 邮

4、政编码 95006 是在 California, 而不是在Colorado。 由于三个数据中有两个指向California, 所以将州名改为California。不过应该做上标记以进行进一步的校验。,匹配(matching ),在客户记录中寻找 同名的,以确保在所有的记录中的相应地址是相同的。但请注意:地址是否发生过改变,对“以前的”和“当前的”地址指派单独的元素。,是否为一家人(householding),同一住址 同一套住房里不同的房间 采用内部或外部数据源的信息,如是否存在婚姻关系,档案化(documenting),将前5个步骤的结果写入元数据存储中心。这样可以更好地进行后续的清理过程,

5、使得用户容易理解数据库以及更好地进行切片、切块等操作,自动数据清理的一般框架,定义并测定错误类型 搜寻并识别错误实例 纠正发现的错误,第三部分原始数据的转换,标准化:小数缩放,使其值在【-1,1】之间例如:-5.0 23.0 17.6 7.23 1.11最小最大标准化:标准差标准化(试利用SPSS的描述统计功能对数据进行标准化处理),第三部分原始数据的转换,数据平整 差值或比率,第四部分异常点分析,什么是异常点?大型数据集中存在的不遵循数据模型的普遍行为的样本,叫做异常点。 例如:年龄为-1 子女数为25等 思考:在数据挖掘中异常点的如何处理?,所能识别的潜在错误,字段中非数值型的数据 比参考日期早的数据 记录中的孤立值 不符合数据模式的数据 根据聚类鼓励的记录 太多空字段的记录 在参考字段中丢失的数据,异常点分析方法,基于契比学夫定理的统计学方法 模式识别的方法 基于欧几里德距离的聚类方法,统计学方法,确定阀值 计算统计特征值(平均值、标准差)并输出这些值 对记录中的各个字段进行指派,若在阀值内则为正常点,否则为异常点,距离测度方法,请参见数据无指导的数据分类方法 思考:在数据挖掘中,用什么距离合适?数据挖掘中量纲问题如何处理?,模式的重建和冗余的消除,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号