《ETL_ETL产品规划-数据质量控制.ppt》由会员分享,可在线阅读,更多相关《ETL_ETL产品规划-数据质量控制.ppt(24页珍藏版)》请在金锄头文库上搜索。
1、ETL产品规划产品规划数据质量控制数据质量控制深圳远行科技12:38目录目录数据质量定义数据质量问题表现形式数据质量问题的原因提高数据质量建立数据质量稽查体制深圳远行科技12:38数据质量定义数据质量定义正确性准确性一致性完整性深圳远行科技12:38数据质量问题的表现形式数据质量问题的表现形式不完整不一致有错误深圳远行科技12:38数据质量问题的原因数据质量问题的原因DB1DB2DBn抽取转换装载数据抽取不当一致性问题装载异常数据源ETL过程DW应用深圳远行科技12:38原因:数据源原因:数据源异构数据库导致的数据不一致,不唯一数据格式问题。例如数据缺失,超出数据范围,无效数据格式等等。数据一
2、致性问题。出于数据库性能考虑,有时候可能会有意的去掉一些外键或者检查约束。业务逻辑问题。通常是由于数据库设计得不够严谨所致。业务系统的数据没有被及时更新,导致数据不是最新的。深圳远行科技12:38原因:原因:ETLETL过程过程数据抽取。 抽取工具设计不周全,配置不当,丢失数据数据转换。一致性处理不当;编码映射错误;丢失数据记录数据装载。重复装载深圳远行科技12:38原因:数据应用原因:数据应用数据展示需求不断更新,逻辑复杂,容易产生矛盾;报表设计有误:多表关联错误;丢失记录;深圳远行科技12:38提高数据质量:原则提高数据质量:原则数据质量提高的原则质量要求越高,成本越高量力而行;不同的应用
3、需求,对数据质量的要求不同灵活对待;改进阶段越靠前越好前面阶段的小错误会在后面阶段扩大,改进难度更大。深圳远行科技12:38提高数据质量提高数据质量从三个阶段入手,提高数据质量深圳远行科技数ETL过程据源数据应用12:38提高数据质量:数据源提高数据质量:数据源规范录入查漏补缺去除冗余定期清理深圳远行科技12:38提高数据质量:提高数据质量:ETLETL过程过程深圳远行科技预处理数据 转换数据 装载12:38提高数据质量:提高数据质量:ETLETL过程过程预处理处理非法字符处理空值纠正数据错误统一字段格式处理丢失字段深圳远行科技12:38提高数据质量:提高数据质量:ETLETL过程过程数据转换
4、:去重复记录编码统一标记错误数据深圳远行科技12:38提高数据质量:提高数据质量:ETLETL过程过程数据装载:装载程序中设置锁表:防止同时加载,弄脏数据装载前清理原来的旧数据深圳远行科技12:38提高数据质量:应用提高数据质量:应用数据应用程序严格审核,不同的数据应用程序进行交叉地核对,检查数据结果是否正常;把数据应用程序输出的结果和同类系统提供的报表数据进行核对,检查差异率。深圳远行科技12:38数据质量稽查机制数据质量稽查机制深圳远行科技12:38数据质量稽查机制数据质量稽查机制数据质量稽查指标接口数据质量指标数据仓库质量指标数据展示质量指标深圳远行科技12:38数据质量稽查机制数据质量
5、稽查机制接口表实体属性合法率关键属性完整率属性值合法率深圳远行科技接口文件文件传送及时率文件加载正确率文件记录合法率接口数据质量指标接口数据质量指标12:38数据质量稽查机制数据质量稽查机制技术指标完整率相关度唯一性有效性非重复率深圳远行科技数据仓库质量指标数据仓库质量指标业务指标真实性精度合格率一致率可获取率12:38数据质量稽查机制数据质量稽查机制指标处理及时率展示维度完整率指标误差率深圳远行科技数据应用质量指标数据应用质量指标12:38数据源1数据源2数据源nETL接口数据检查当日接口数据问题报表问题确认和原因分析问题确认和修正数据仓库数据稽核历史数据问题报表质量问题确认和原因分析数据质量问题报告数据质量稽查机制数据质量稽查机制数据质量稽查流程深圳远行科技12:38数据质量稽查机制数据质量稽查机制数据质量稽查方式数据格式和内容检查数据格式和内容检查编码映射检查编码映射检查分维度汇总检查分维度汇总检查数据异常变动检查数据异常变动检查深圳远行科技12:38ThanksThanks深圳远行科技12:38