{公司治理}大数据治理系列

上传人:蜀歌 文档编号:145218730 上传时间:2020-09-17 格式:PDF 页数:92 大小:886.32KB
返回 下载 相关 举报
{公司治理}大数据治理系列_第1页
第1页 / 共92页
{公司治理}大数据治理系列_第2页
第2页 / 共92页
{公司治理}大数据治理系列_第3页
第3页 / 共92页
{公司治理}大数据治理系列_第4页
第4页 / 共92页
{公司治理}大数据治理系列_第5页
第5页 / 共92页
点击查看更多>>
资源描述

《{公司治理}大数据治理系列》由会员分享,可在线阅读,更多相关《{公司治理}大数据治理系列(92页珍藏版)》请在金锄头文库上搜索。

1、公司治理大数据治 理系列 公司治理大数据治 理系列 概述概述 面对我们身边每时每刻迅速增长的庞大数据,因为其数量大、速度快、种类 多和准确性的特征,如何更好地利用大数据创造出有意义的价值,一直是我们探 索的重要话题。而在这之前,就需要用科学正确的方法策略对大数据进行治理。 大数据治理是指制定与大数据有关的数据优化、隐私保护与数据变现的政策,是 传统信息治理的延续和扩展,也是大数据分析的基础,还是连接大数据科学和应 用的桥梁,因此大数据治理是大数据再创高峰的“必修课” 。下面我们将与您分 享新鲜出炉的大数据治理方案。 大数据治理系列大数据治理系列 本系列共分为七个部分,围绕大数据治理统一流程参考

2、模型,并结合实际业 务问题和 IBM 相应的产品解决方案展开叙述。 第一部分:大数据治理统一流程模型概述和明确元数据 管理策略 第一部分:大数据治理统一流程模型概述和明确元数据 管理策略 为了更好地帮助企业进行大数据治理,笔者在 IBM 数据治理统一流程模型基 础上结合在电信、金融、政府等行业进行大数据治理的经验,整理出了大数据治 理统一流程参考模型。本文主要介绍了大数据治理的基本概念,以及结合图文并 茂的方式讲解了大数据治理统一流程参考模型的前两步 : “明确元数据管理策略” 和“元数据集成体系结构”内容。 大数据治理概述大数据治理概述 (狭义)大数据是指无法使用传统流程或工具在合理的时间和

3、成本内处理或 分析的信息,这些信息将用来帮助企业更智慧地经营和决策。而广义的大数据更 是指企业需要处理的海量数据,包括传统数据以及狭义的大数据。 (广义)大数 据可以分为五个类型:Web 和社交媒体数据、机器对机器(M2M)数据、海量交易 数据、生物计量学数据和人工生成的数据。 Web 和社交媒体数据:比如各种微博、博客、社交网站、购物网站中的数据 和内容。 M2M 数据:也就是机器对机器的数据,比如 RFID 数据、GPS 数据、智能仪表、 监控记录数据以及其他各种传感器、监控器的数据。 海量交易数据:是各种海量的交易记录以及交易相关的半结构化和非结构化 数据,比如电信行业的 CDR、3G

4、上网记录等,金融行业的网上交易记录、 corebanking 记录、理财记录等,保险行业的各种理赔等。 生物计量学数据 : 是指和人体识别相关的生物识别信息,如指纹、DNA、虹膜、 视网膜、人脸、声音模式、笔迹等。 人工生成的数据:比如各种调查问卷、电子邮件、纸质文件、扫描件、录音 和电子病历等。 在各行各业中,随处可见因数量、速度、种类和准确性结合带来的大数据问 题,为了更好地利用大数据,大数据治理逐渐提上日程。在传统系统中,数据需 要先存储到关系型数据库/数据仓库后再进行各种查询和分析,这些数据我们称 之为静态数据。而在大数据时代,除了静态数据以外,还有很多数据对实时性要 求非常高,需要在

5、采集数据时就进行相应的处理,处理结果存入到关系型数据库 /数据仓库、MPP 数据库、Hadoop 平台、各种 NoSQL 数据库等,这些数据我们称 之为动态数据。比如高铁机车的关键零部件上装有成百上千的传感器,每时每刻 都在生成设备状态信息,企业需要实时收集这些数据并进行分析,当发现设备可 能出现问题时及时告警。再比如在电信行业,基于用户通信行为的精准营销、位 置营销等,都会实时的采集用户数据并根据业务模型进行相应的营销活动。 大数据治理的核心是为业务提供持续的、可度量的价值。大数据治理人员需 要定期与企业高层管理人员进行沟通,保证大数据治理计划可以持续获得支持和 帮助。相信随着时间的推移,大

6、数据将成为主流,企业可以从海量的数据中获得 更多的价值,而大数据治理的范围和严格程度也将逐步上升。为了更好地帮助企 业进行大数据治理, 笔者在 IBM 数据治理统一流程模型基础上结合在电信、 金融、 政府等行业进行大数据治理的经验,整理了大数据治理统一流程参考模型,整个 参考模型分为必选步骤和可选步骤两部分。 大数据治理统一流程参考模型大数据治理统一流程参考模型 如图 1 所示,大数据治理统一流程参考模型必要步骤分为两个方向:一条子 线是在制定元数据管理策略和确立体系结构的基础上实施全面的元数据管理,另 一条子线是在定义业务问题、执行成熟度评估的基础上定义数据治理路线图以及 定义数值治理相关的

7、度量值。在 11 个必要步骤的基础上,企业可以在 7 个可选 步骤中选择一个或多个途径进行特定领域的数据治理,可选步骤为 : 主数据监管、 (狭义)大数据监管、信息单一视图监管、运营分析监管、预测分析监管、管理 安全与隐私以及监管信息生命周期。企业需要定期对大数据治理统一流程进行度 量并将结果发送给主管级发起人。 图 1 大数据治理统一流程参考模型 第一步:明确元数据管理策略第一步:明确元数据管理策略 在最开始的时候,元数据(MetaData)是指描述数据的数据,通常由信息结 构的描述组成,随着技术的发展元数据内涵有了非常大的扩展,比如 UML 模型、 数据交易规则、用 Java,.NET,C

8、+等编写的 APIs、业务流程和工作流模型、产 品配置描述和调优参数以及各种业务规则、术语和定义等1。在大数据时代, 元数据还应该包括对各种新数据类型的描述,如对位置、名字、用户点击次数、 音频、视频、图片、各种无线感知设备数据和各种监控设备数据等的描述等。元 数据通常分为业务元数据、技术元数据和操作元数据等。业务元数据主要包括业 务规则、定义、术语、术语表、运算法则和系统使用业务语言等,主要使用者是 业务用户。技术元数据主要用来定义信息供应链(InformationSupplyChain, ISC)各类组成部分元数据结构,具体包括各个系统表和字段结构、属性、出处、 依赖性等,以及存储过程、函

9、数、序列等各种对象。操作元数据是指应用程序运 行信息,比如其频率、记录数以及各个组件的分析和其它统计信息等。 从整个企业层面来说,各种工具软件和应用程序越来越复杂,相互依存度逐 年增加,相应的追踪整个信息供应链各组件之间数据流动、了解数据元素含义和 上下文的需求越来越强烈。在从应用议程往信息议程的转变过程中,元数据管理 也逐渐从局部存储和管理转向共享。 从总量上来看, 整个企业的元数据越来越多, 光现有的数据模型中就包含了成千上万的表,同时还有更多的模型等着上线,同 时随着大数据时代的来临,企业需要处理的数据类型越来越多。为了企业更高效 地运转,企业需要明确元数据管理策略和元数据集成体系结构,

10、依托成熟的方法 论和工具实现元数据管理,并有步骤的提升其元数据管理成熟度。 为了实现大数据治理,构建智慧的分析洞察,企业需要实现贯穿整个企业的 元数据集成,建立完整且一致的元数据管理策略,该策略不仅仅针对某个数据仓 库项目、业务分析项目、某个大数据项目或某个应用单独制定一个管理策略,而 是针对整个企业构建完整的管理策略。元数据管理策略也不是技术标准或某个软 件工具可以取代的,无论软件工具功能多强大都不能完全替代一个完整一致的元 数据管理策略,反而在定义元数据集成体系结构以及选购元数据管理工具之前需 要定义元数据管理策略。 元数据管理策略需要明确企业元数据管理的愿景、目标、需求、约束和策略 等,

11、依据企业自身当前以及未来的需要确定要实现的元数据管理成熟度以及实现 目标成熟度的路线图,完成基础本体、领域本体、任务本体和应用本体的构建, 确定元数据管理的安全策略、版本控制、元数据订阅推送等。企业需要对业务术 语、技术术语中的敏感数据进行标记和分类,制定相应的数据隐私保护政策,确 保企业在隐私保护方面符合当地隐私方面的法律法规, 如果企业有跨国数据交换、 元数据交换的需求,也要遵循涉及国家的法律法规要求。企业需要保证每个元数 据元素在信息供应链中每个组件中语义上保持一致,也就是语义等效 (semanticequivalence) 。 语义等效可以强也可以弱, 在一个元数据集成方案中, 语义等

12、效(平均)越强则整个方案的效率越高。语义等效的强弱程度直接影响元 数据的共享和重用。 本体(人工智能和计算机科学)本体(人工智能和计算机科学) 本体(Ontology)源自哲学本体论,而哲学本体论则是源自哲学中“形而上 学”分支。本体有时也被翻译成本体论,在人工智能和计算机科学领域本体最早 源于上世纪 70 年代中期,随着人工智能的发展人们发现知识的获取是构建强大 人工智能系统的关键,于是开始将新的本体创建为计算机模型从而实现特定类型 的自动化推理。之后到了上世纪 80 年代,人工智能领域开始使用本体表示模型 化时间的一种理论以及知识系统的一种组件,认为本体(人工智能)是一种应用 哲学。 最早

13、的本体(人工智能和计算机科学)定义是 Neches 等人在 1991 给出的: “一个本体定义了组成主题领域的词汇的基本术语和关系,以及用于组合术语和 关系以及定义词汇外延的规则” 。而第一次被业界广泛接受的本体定义出自 TomGruber, 其在 1993 年提出 : “本体是概念化的显式的表示 (规格说明)” 。 Borst 在 1997 年对 TomGruber 的本体定义做了进一步的扩展,认为:“本体是共享的、 概念化的一个形式的规范说明” 。在前人的基础上,Stude 在 1998 年进一步扩展 了本体的定义,这也是今天被广泛接受的一个定义:“本体是共享概念模型的明 确形式化规范说明

14、” 。本体提供一个共享词汇表,可以用来对一个领域建模,具 体包括那些存在的对象或概念的类型、以及他们的属性和关系2。一个简单的 本体示例发票概念及其相互关系所构成的语义网络如图 2 所示: 图 2 简单本体(发票)示例 随着时间的推移和技术的发展,本体从最开始的人工智能领域逐渐扩展到图 书馆学、情报学、软件工程、信息架构、生物医学和信息学等越来越多的学科。 与哲学本体论类似,本体(人工智能和计算机科学)依赖某种类别体系来表达实 体、概念、事件及其属性和关系。本体的核心是知识共享和重用,通过减少特定 领域内概念或术语上的分歧,使不同的用户之间可以顺畅的沟通和交流并保持语 义等效性,同时让不同的工

15、具软件和应用系统之间实现互操作。 根据研究层次可以将本体的种类划分为“顶级本体” (top-levelontology) 、 应用本体(applicationontology) 、领域本体(domainontology)和任务本体 (taskontology) ,各个种类之间的层次关系如图 3 所示。 图 3 本体层次关系 顶 级 本 体 , 也 被 称 为 上 层 本 体 ( upperontology ) 或 基 础 本 体 (foundationontology) ,是指独立于具体的问题或领域,在所有领域都适用的 共同对象或概念所构成的模型,主要用来描述高级别且通用的概念以及概念之间 的

16、关系。 领域本体是指对某个特定的领域建模,显式的实现对领域的定义,确定该 领域内共同认可的词汇、词汇业务含义和对应的信息资产等,提供对该领域知识 的共同理解。 领域本体所表达的是适合自己领域的术语的特定含义, 缺乏兼容性, 因而在其他领域往往不适用。在同一领域内,由于文化背景、语言差异、受教育 程度或意识形态的差异,也可能会出现不同的本体。很多时候,随着依赖领域本 体系统的扩展,需要将不同的领域本体合并为更通用的规范说明,对并非基于同 一顶级本体所构建的本体进行合并是一项非常具有挑战的任务,很多时候需要靠 手工来完成,相反,对那些基于同一顶级本体构建的领域本体可以实现自动化的 合并。 任务本体是针对任务元素及其之间关系的规范说明或详细说明,用来解释 任务存在的条件以及可以被用在哪些领域或环境中。是一个通用术语的集合用来 描述关于任务的定义和概念等。 应用本体:描述依赖于特定领域和任务的概念及概念之间的关系,是用于 特定应用或用途的本体,其范畴可以通过可测试的用例来指定。 从详细程度上来分,本体又可以分为参考本体(referenceontologies)和 共享本体(s

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 其它文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号