技术干货:数据治理的三本数据秘籍.docx

上传人:公**** 文档编号:544558709 上传时间:2023-06-14 格式:DOCX 页数:5 大小:22.51KB
返回 下载 相关 举报
技术干货:数据治理的三本数据秘籍.docx_第1页
第1页 / 共5页
技术干货:数据治理的三本数据秘籍.docx_第2页
第2页 / 共5页
技术干货:数据治理的三本数据秘籍.docx_第3页
第3页 / 共5页
技术干货:数据治理的三本数据秘籍.docx_第4页
第4页 / 共5页
技术干货:数据治理的三本数据秘籍.docx_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《技术干货:数据治理的三本数据秘籍.docx》由会员分享,可在线阅读,更多相关《技术干货:数据治理的三本数据秘籍.docx(5页珍藏版)》请在金锄头文库上搜索。

1、技术干货:数据治理的三本数据秘籍数据目录.数据清单.数据字典是良好数据治理活动的组成部分。它们被经常混用,但 它们并不相同。 数据目录汇总了组织中数据资产的整体概况;数据清单详细说明了组织中可用的所有数据集,并显示所有相关元数据; 数据字典定义了这些数据集的规则,指示了它们的格式、形状、schema。这些数据秘籍的最大挑战是保持其最新。由于数据采集管道的速度和数量是天文数字, 因此需要自动化和敏捷的协议来更新它们。拥有这些数据秘籍并保持最新,可确保高效的数 据交互,使企业团队能够简化其数据操作并获取有价值的数据洞察。数据清单是执行数据清 点/盘点的基础。一个高价值的数据安全平台,应该能够自动化

2、维护一个持续更新的数据清 单,其中包括敏感数据的分类分级。-数据治理中的三本秘籍1数据目录(Data Catalog )数据目录是企业用来管理其数据的集中式元数据存储库。其中概述了企业数据资源的组织,使用.管理的信息。该目录支持数据工程、分析操作、 科学的功能。数据目录的目标是使数据管理变得简单有效,共享有关收集和存储在组织中 的数据的知识和信息。它概述了各种管道中的数据流,并提供数据景观的鸟瞰图。数据I 录通常与它们所引用的数据集分开存储在数据仓库或数据湖中。数据目录的建立,需要遵循以下五个步骤:(1)数据获取:首先确定哪些元数据是相关的,找到这些相关数据所在的位置和存储的形式,确定如何捕获

3、它们。通过了解数据的形状、结构、语义,来发展数据目录的 形状和结构。尽量自动更新数据目录,几乎所有的数据库和数据存储都有工具,可以 帮助您以所需的形状和语义提取元数据。通过数据沿袭,了解数据的来源和去向,为 数据用户提供上下文。数据目录应支持各种数据类型,包括表和流数据。(2)分配数据所有者:捕获数据后,组织必须分配对该数据的所有权。赋予某人确保 数据和文档完整和准确的责任,并为需要额外信息的数据用户提供了一个联系人。最 重要的数据所有者,是数据管理员和技术所有者。数据管理员管理和解决与业务相关 的查询;而技术所有者负责解决技术问题。(3)建立数据文档:一次性对所有数据进行编目通常是不可行的,

4、所以需要一种切合实际的方法。首先对最重要的数据进行编目,然后是第二重要的数据,以此类推。(4)定期更新数据目录:数据集是不断变化的,所以识别这些变化并更新数据目录至关重要。理想情况下,这个过程应该是自动化的。(5)优化数据交互:数据目录是一种工具,使企业团队能够有效地与企业的数据交互。 了解这些团队的需求并优化相关的标准和规范,为优化数据交互铺平道路。如标准化 所有内部数据库、schema,字段、数据沿袭的文档格式。2 数据清单(Data Inventory )数据清单是数据清点/盘点的成果。数据清单是集中化的元数据集合,它指示了组织 收集和维护的所有数据集。该文档(或文档集合)精确定位每个数

5、据集的位置及其包 含的数据类型。数据分析师使用数据清单来确定哪些数据可用以及如何访问它们。数据管理员维护数据清单,并为每个数据集制定相关的数据访问策略。数据清单的主要挑战是保持最新。最有效的方法是通过自动化方式持续更新数据清单。数 据清单的示例如下:q Data Inventory V : c,- 0o Ixpiore LocationsQS selectedAil* 三 ,*1*”1a日Ben Demo 艮Q) OemoS3mEj8cn Demo Snowflake_Q ecfre inveatmercs53Q paueno0 9 SnowAske Anatrbcs口 Oemo2E) cnd

6、Btaone臼。MMRhC4re OrgMm日 Firwxlata 8U Lak*田 dstspoolDMi StoreP*chMM WeU如P /T”AntMo OM OoudMlewr9 tfeU.PBecol 104 days gcGE3SFWSQlAWSUgtp BtgQuery Dono EUZUt.SCry D(1 Warehouse日. EgreSQL DOE) tpclBn Owno ItMlchlft0*ma.pubMc.am.iKk-2021Ben Demo lUdsniftOe*no.puMc am i MraravegcniKr2021Bn Dffto MdflhHlp

7、utMt .MYi i iwitte8y-3021Ban D.eo R*d&hi1tMmo.puMc.am i Mnsmvelocagn 二2021Bn Domo RedshrttO0mo.pubMc.amj_sncitrflocatxii ira2021 tderxitv Unkr Bt&od Pressure Bcrvp Pawword Bth Dav Heart Rate CountyfOS Stood Tm Gectocedonr日 Dtmo 卬E) denoAS t SrowfV*e DemoBen Demo Redshiftdemopublic. am j .semrtn*Mcru

8、es2021June 300 Wr5inMQrQ snowflakeBen Demo Rodsttiftdemo.putMc.afn_i_enmveotood zev2021lune 30 dSESD0 actre jnvettmertt.4- d 4.d-a一-.4G数据字典(Data Dictionary )数据字典描述了如何命名和定义数据资产的信息。数据字典通常包含围绕数据资产、关系、有关来源和使用的元数据、数据schema等术语的集中定义。比如数据资产的名称、设置和其他重要属性。数据字典示例。数据字典通常包含以下元素: 数据资产名称格式类型 与其他数据实体和资产的关系参考数据 数据质量

9、规则元素数据资产层级 数据存储位置质量指标代码 业务规则(数据质量验证和schema对象)实体关系图有两种类型的数据字典:(1)静态数据字典:不绑定到任何特定的数据库,因此必须手动更新。但手动过程更新的延迟,会导致数据字典中的元数据不同步。(2)动态数据字典:会随着它们所链接的数据存储库的增长而自动更新。建议组织实施动态数据字典,以确保所有数据字典保持更新和准确。数据字典的创建方法。大多数情况下,由计算机辅助软件工程创建的数据库管理系统和信 息系统,都包含动态数据字典。团队可以使用这些字典作为创建数据字典的起点。如果您 无法自动生成可机读的数据字典,则可以使用单源字典,例如电子表格中包含的字典

10、。二为何需要这些数据秘籍1为何需要数据目录?当您拥有跨多个数据字典且可供多个用户访问的数据时,最好有一个数据目录。数据目录将这些数据组织成简单、易于消化的形式,从而简化数据提取和处理。数据目录有助于改进数据管理。它们提供组织中可用数据集的高层级类别信息, 从而提供高层级洞察和分析。该资产使干系人能够有效地找到存储在不同位置的任何 类型的相关数据集,例如数据湖、仓库和其他数据库。数据目录可支持数据工程操作。数据目录通过跟踪数据schema变更,来支持数据工 程操作,以促进数据管道中的转换和聚合。数据目录通过在发生变更时触发警报,来帮助 数据工程师检查传入数据是否符合预期schemao数据目录使组

11、织能够有效跟踪数据资 产,并使干系人能够快速轻松地找到相关数据集,同时适应不断变化的数据环境。2为何需要数据清单?数据清单满足数据法规合规性。依据GDPR(欧洲通用数据保护条例)等数据治理法规,要求企业知道他们收集和存储的所有敏感数据的位置,这隐含要求了详细和最新的数 据清单。这在收集个人身份信息(PII)时尤其重要。数据清单提供了数据可见性。当组织拥 有广泛的数据采集时,了解其所拥有的数据及其有用的原因是一项艰巨的任务。而数据清 单可以成倍地简化此任务,因为它提供了组织拥有的数据及其位置的详细信息。数据清单 为数据消费者提供了数据发现和访问的起点。数据清单也简化了数据跟踪,因为组织的数 据现

12、在本质上是可搜索的。3为何需要数据字典?数据字典可以防止数据冗余和歧义。当企业拥有被许多用户访问的大量的定量数 据时,数据字典是必不可少的,因为它可以防止数据冗余和歧义。如果使用得当,数 据字典可以提高效率。虽然准备这份文件可能需要一些时间,但长期的结果是值得 的。数据字典有助于防止在项目中使用数据资产时出现不一致和冲突。数据字典中的元数据,主要关注数据资产的业务属性。它通常促进业务干系人和技术 用户之间的沟通,确保所有信息、内容、格式都满足要求。数据字典可用于支持数据工程 操作。数据字典与数据仓库、关系数据库、数据管理系统密切相关。三数据秘籍之间的区别1数据目录vs.数据清单数据目录:提供了

13、组织中所有可用数据的鸟瞰图以及在哪里可以找到这些数据。数 据目录通过根据常规业务功能进行组织,例如了解潜在客户生成管道、管理采购和库 存、跟踪客户消费习惯。虽然数据清单中的每个条目都是唯一的,但数据目录可以引 用不同条目中的相同数据点。 数据清单:包含组织所有数据集的元数据(如每个数据点的位置和类型),使这些数据集本质上是可搜索的。它本质上是细粒度的,提供有关单个数据集的详细信息。数据清单中的每个条目都是唯一的。数据清单中包含的信息始终是唯一的,而一个数 据集可能会出现在数据目录的多个条目中。因此,数据清单比数据目录更加细化和技 术化。2数据目录vs.数据字典数据目录:反映了组织中数据资产的整

14、体概况。 数据字典:用于命名和定义数据资产,目的是防止数据冗余和歧义。3数据清单vs.数据字典数据清单:详细说明了组织中可用的所有数据集,并显示所有相关元数据。 数据字典:定义了这些数据集的规则,指示了它们的正确格式、形状、schemao!1!1!创建数据秘籍的关键因素创建数据目录、数据清单、数据字典是现代数据处理中的基本功能。然而,这些过程存 在一些固有的常见缺陷,特别是在处理敏感数据和非结构化或半结构化数据时。此时,数据 目录、数据清单、数据字典协同工作,共同构成了理解和保护这些数据的基础。1重点关注敏感数据敏感数据应该被准确地标记.编目和清点,因为知道数据在哪里以及它有多敏感,可以采取进一步的数据保护措施。组织应该分配对这些敏感数据的所有权,因 为知道谁对数据负责会产生保护它的紧迫性。限制对敏感数据的访问,并在数据目录中相 应地更新使用和访问指南。2持续敏感数据发现勾勒并实施协议,以不断发现组织数据结构中的敏感数据。如果企业不知道那里有敏感数据,就无法开始保护它。3确保对半结构化数据进行分类分级和更新半结构化数据不适合明确定义的结构或schemao相反,它是通

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 商业计划书

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号