CH3--第2讲再谈数据准备-数据质量问题

j****s

实名认证

店铺

PPT

136KB

约24页

文档ID:54645029

1/24页

点击查看更多>>

文本预览下载提示常见问题

数据挖掘准备大纲,1、原始数据的表述 2、原始数据的质量 3、原始数据的转换 4、数据异常点的分析,第一部分原始数据的表述,标称标度允许任何一对一变换的范畴性标度，与定类测量尺度一致例如：性别分为男、女头发颜色分为黑色、蓝色、绿色和褐色思考:1、如何转换为数据？2、特点如何？（就数学性质而言）,原始数据的表述,有序的范畴型标度，其对应定序测量尺度例如：许多程度量指标，满意度的评价思考：特点如何？数字标度：定量的或实数值，对应定距或定比测量成绩例如：考试的成绩思考：特点？,第二部分原始数据的质量,统计学课程中数据质量的含义？ IMF对统计数据质量的评估 GDDS与SDDS对数据质量的要求数据挖掘中数据质量的含义,正确性（Correctness）一致性（Consistency）完整性（Completeness）可靠性（Reliability）,为什么数据会有错误,数据输入和获得过程数据错误的不可避免性数据集成所表现出来的错误数据传输过程所引入的错误据统计有错误的数据占总数据的5%左右[Redmen],[Orr98],数据质量问题的分类,数据错误的危害性,高昂的操作费用糟糕的决策制定组织的不信任分散管理的注意力,合理的解决方案,探测数据集找出可能的问题并尽可能地纠正错误手工进行费时、费力、费钱并且还会产生新的错误在大数据集中进行自动的数据清理可能是达到合理质量水平唯一的在实践中和经济上都切实可行的方法,包含数据清理过程的三个主要领域,数据仓库（data warehousing）数据库中的知识发现(kdd) 总体数据质量管理(total data quality management,TDQM),数据清理的六个步骤,元素化(elementizing) 标准化(standardizing)（与数据转换有关）校验(verifying) 匹配(matching) 是否为一家人(householding) 档案化(documenting),校验(verifying),对标准化的元素进行一致性校验,即在内容上有什么错误。

如Boulder Creek 的邮政编码 95006 是在 California, 而不是在Colorado 由于三个数据中有两个指向California, 所以将州名改为California不过应该做上标记以进行进一步的校验匹配（matching ),在客户记录中寻找同名的，以确保在所有的记录中的相应地址是相同的但请注意：地址是否发生过改变，对“以前的”和“当前的”地址指派单独的元素是否为一家人(householding),同一住址同一套住房里不同的房间采用内部或外部数据源的信息，如是否存在婚姻关系,档案化(documenting),将前5个步骤的结果写入元数据存储中心这样可以更好地进行后续的清理过程，使得用户容易理解数据库以及更好地进行切片、切块等操作,自动数据清理的一般框架,定义并测定错误类型搜寻并识别错误实例纠正发现的错误,第三部分原始数据的转换,标准化：小数缩放，使其值在【-1，1】之间例如：-5.0 23.0 17.6 7.23 1.11最小最大标准化：标准差标准化（试利用SPSS的描述统计功能对数据进行标准化处理）,第三部分原始数据的转换,数据平整差值或比率,第四部分异常点分析,什么是异常点？大型数据集中存在的不遵循数据模型的普遍行为的样本，叫做异常点。

例如：年龄为-1 子女数为25等思考：在数据挖掘中异常点的如何处理？,所能识别的潜在错误,字段中非数值型的数据比参考日期早的数据记录中的孤立值不符合数据模式的数据根据聚类鼓励的记录太多空字段的记录在参考字段中丢失的数据,异常点分析方法,基于契比学夫定理的统计学方法模式识别的方法基于欧几里德距离的聚类方法,统计学方法,确定阀值计算统计特征值（平均值、标准差）并输出这些值对记录中的各个字段进行指派，若在阀值内则为正常点，否则为异常点,距离测度方法,请参见数据无指导的数据分类方法思考:在数据挖掘中，用什么距离合适？数据挖掘中量纲问题如何处理？,模式的重建和冗余的消除,。

下载提示

点击查看常见问题

相似文档

正为您匹配相似的精品文档