数据质量与元数据

上传人:飞*** 文档编号:49147052 上传时间:2018-07-24 格式:PPT 页数:110 大小:1.69MB
返回 下载 相关 举报
数据质量与元数据_第1页
第1页 / 共110页
数据质量与元数据_第2页
第2页 / 共110页
数据质量与元数据_第3页
第3页 / 共110页
数据质量与元数据_第4页
第4页 / 共110页
数据质量与元数据_第5页
第5页 / 共110页
点击查看更多>>
资源描述

《数据质量与元数据》由会员分享,可在线阅读,更多相关《数据质量与元数据(110页珍藏版)》请在金锄头文库上搜索。

1、 潘 定 教授、博士生导师2009年5月数据质量与元数据1目 录基本概念数据质量连续统数据质量模型TDQM方法学测量与改进技术元数据与信息质量应用数据质量工具总 结1 基本概念当获得的数据与你认为的不一样时,就 出现数据质量问题l数据不符合说明:垃圾进,垃圾出,etc.l不了解说明:复杂性,缺少元数据多数据来源和表现现象数据质量问题的高成本和普遍性lDQ问题:600 Billion/yearlDQ问题:管理决策面临的重要问题例子如何解释数据?l字段的含义?Key? 度量 ?数据故障l输入、多种格式、缺失 / 缺省值元数据与领域专家经验lField 3 is Revenue. In dollar

2、s or cents?lField 7 is Usage. Is it censored?Field 4 is a censored flag. How to handle it?T. Das|97336o8327 |24.95 |Y|-|0.0|1000 Ted J.|973-360-8779|2000 |N|M|NJ|1000数据故障由生成数据过程之外因素导致的数据变化lChanges in data layout / data typesInteger becomes string, fields swap positions, etc.lChanges in scale / forma

3、tDollars vs. euroslTemporary reversion to defaultsFailure of a processing steplMissing and default valuesApplication do not handle NULL values well lGaps in time seriesEspecially when records represent incremental changes.传统的数据质量定义(Redman,1992)AccuracyThe data was recorded correctlyCompletenessAll r

4、elevant data was recordedTimelinessThe data is kept up to dateSpecial problems in federated data: time consistencyConsistency The data agrees with itselfUniquenessEntities are recorded once传统定义的问题 难以测量lAccuracy and completeness are extremely difficult, perhaps impossible to measure.与上下文无关lNo account

5、ing for what is important. 不完全lWhat about interpretability, accessibility, metadata, analysis, etc.含糊不清lThe conventional definitions provide no guidance towards practical improvements of the data.新环境中的数据问题新的数据范型l自动数据采集、大量数据,对收集数据或设计难 控制l不适当使用已知的数据表示方式联邦数据l异构集成数据、跨企业/部门数据,近似连接数据采集与数据分析的分离l缺少一致或标准的数据表

6、达,缺少数据含义和解 释新型应用l数据用于决策、预测,需要融合领域知识的挖掘信息质量的定义(1) L. English(1999) Consistently meeting all knowledge worker and end-customer expectations in all quality characteristics of the information products and services required to accomplish the enterprise mission or personal objectives;The degree to which i

7、nformation consistently meets the requirements and expectations of all knowledge workers who require it to perform their processes. (2) IAIDQ(2006):The fitness for use of information; information that meets the requirements of its authors, users, and administrators. 影响质量的因素(1)对不同类型的数据,有不同的质量问题lFeder

8、ated datalMassive, High dimensional datalDescriptive datalLongitudinal datalStreaming datalWeb datalNumeric vs. categorical vs. text data影响质量的因素(2)不同的应用类型l操作型应用l聚合分析l客户关系 数据解释l没有元数据,没有数据后面的业务规则,数据就 难以理解数据的适用性 - 从现有数据中得到回答l替代数据的使用l相关数据缺失测量数据质量 - DQ约束使用基于模式的静态约束可以捕捉到许多数据 质量问题lNulls not allowed, field

9、domains, FK, constraints, etc.使用动态约束可以捕捉到工作流中的其他许多 数据质量问题lorders above $200 are processed by Biller 2约束遵循 80-20 法则约束是可测量的建立度量(Metrics)测量数据达到约束的程度数据质量度量需要可测量的数量l指示什么是错的,应如何改进l难以找到最好的数量集度量的类型l静态约束 vs. 动态约束lOperational vs. diagnostic度量应是指导性地更正,达到数据使用的改进可能会建立大量的度量,选择最重要的实施数据质量度量例子模式一致性 - static diagnost

10、ic metricl评价一个快照上的约束业务规则一致 - dynamic diagnostic metricl评价数据库变更上的约束准确性 - static diagnostic metricl现行库存量 (费用), 审计抽样 ?可存取性 - general diagnostic metric可解释性end-to-end 过程成功完成DQ研究问题与应用领域相关研究领域2 数据质量连续统数据收集 & 数据交付数据存储数据集成数据检索数据分析/数据挖掘准确回答, 解决方法, 决策.数据收集阶段数据怎样进入系统问题l手工输入l对内容和格式没有统一的标准l重复输入l测量错误l缺少事先计划解决方法先发制

11、人l设计自动工作流,建立完整性检验l保证一次正确输入l处理管理数据共享与维护数据与元 数据不可分明确数据管理员责任持续审计追溯既往l诊断方法自动故障检测l清除方法重复删除、合并/清除名&地址 匹配、字段值标准化数据交付阶段数据由原始地送向永久存储地的过程问题l数据损坏/损伤(因不适当的预处理)不适当聚合、缺省赋值、测量 设备限制(截断、删节)l数据丢失缓冲区溢出传输问题引起文件丢失未检验解决方法建立可靠的传输协议 l中继服务器检验l检查和,验证语法分析器l上载文件符合预定模式明确关系l数据来源间的依赖关系、处理步骤l是否增量?需要重新匹配模型?接口合作书l数据提供者的DQ承诺,有文档?提示变更

12、 ?数据存储阶段问题l缺少、不完整的元数据复杂的规则和例外未文档化; 元数据的变更未及时反应l不适当的数据模型丢失时间戳、不正确的规范化l特定修改与变化短视的决策影响长期的使用l硬件 / 软件的约束截断与删改数据解决方法元数据管理l记入文档并发布数据规范规划、计划l假设每件事都会出问题l难以实施的事数据探索l使用数据浏览和数据挖掘工具检查数据达到指定的规范了吗?发生了什么事?数据集成阶段整合联邦数据,形成最难跟踪的DQ问题问题l异构数据: 没有公共键、字段格式差异;近似匹配l不同的定义a customer: an account, an individual, l时间同步是否同一时期的数据?时

13、间间隔是否兼容?l遗留数据电子表格, 特定结构l社会、政治因素解决方法强制精确时间戳商用工具l数据集成方面研究的主要对象l已有许多工具用于匹配、模式匹配数据浏览和探索l有许多隐藏问题和含义必须抽取元数据l察看结果前、后: 集成是否正常进行?数据检索输出数据集合是数据库的一个视图人为错误l数据源未完全理解l导出数据的需求不理解l仅仅简单的错误,如内联结 vs. 外联结, NULL值计算约束l例如,代价太大不能给出全部历史数据,仅提供 快照软件不兼容解决方法工具l使用XML进行数据交换,数据和元数据协同测试预先计划数据分析阶段用所有这些数据分析什么?问题l规模与性能l信心保障l黑盒子与飞镖板l对某

14、些模型的偏爱l领域经验不足l不经意的数据设定解决方法数据探索l确定哪个模型和技术是合适的,找出数据 bugs,开发领域经验持续分析l结果稳定吗? 它们将如何变化?明确责任l设定反馈回路的分析部分数据质量过程数据收集数据加载 (ETL)数据清洗 data profiling, validate data constraints数据集成 functional dependencies开发业务规则与度量 interact with domain experts验证业务规则稳定业务规则检验业务规则数据质量监视分析定量结果 总结经验3 数据质量模型模型广泛使用在数据库设计、需求分析模型也使用在业务处理的

15、表达、输入/输出 、因果关系、处理功能/非功能概念/逻辑数据模型的扩充信息系统模型结构数据模型的扩充扩充成为带有质量特征的ERM使用属性增加质量度量一种简单的概念模型方法,如下图数据质量模式质量属性模型信息系统模型处理描述模型:信息产品图(IP-MAP) 模型IP-MAP 模型原理:l数据可看作是一种制造活动的特殊产品l数据质量的描述模型能采用类似制造传统产品的质量控制 方式IP-MAP 是一种图形模型,用于帮助人们理解 、评估和描述 IP 是如何组装在业务过程中的IP-MAP 是一种系统的表示法,捕捉IP制造过 程中的相关细节显示 IP 过程、识别处理阶段主人、理解信息和 组织边界,估计产品

16、处理的时间和质量度量IP-MAP构件块IP-MAP例子IP-MAP与其他方法的比较(1)IP-MAP与其他方法的比较(2)IP-MAP与其他方法的比较(3)评估数据质量DQ评估需要不同的技术和元数据评估形式l公平的(impartial) - 基于结构l上下文的(contextual) - 基于内容和特定使用场景某些质量属性更适合“公平的” ,而另一些则适 合“上下文的”,也有两个都适合IP-MAP支持上下文的评估l交流公平的数据质量测量(引用质量元数据、质量信 息)l交流数据源、制造过程、过程元数据的细节l使用已有方法计算数据质量支持IP-MAP的元数据库模型IP-MAP的扩展事件处理链图l业务处理概览 - 数据、事件和处理间的关系l交互模型

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 教育/培训

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号