《数据管理第 1 章.》由会员分享,可在线阅读,更多相关《数据管理第 1 章.(38页珍藏版)》请在金锄头文库上搜索。
1、数据管理 第一章 概述 1.1 数据:企业资产 资产,是个人或组织控制的有价值资源。 有助于企业目标的实现 获得和使用资产应予以控制 数据为什么是资产? 组织依据数据做出明智和有效的决策 运用客户资料,获得竞争优势 降低成本、控制风险 1.1 数据:企业资产 信息鸿沟与信息不对称 已知的信息和决策所需的信息之间巨大差距 ,是数据成为企业资产的基本条件。 决策决策 以信息以信息为为为为 基基础础础础 内在数据 外在数据 数量巨大 变化多快 种类多样 类型复杂 都是不对称 的原因 1.1 数据:企业资产 每个社会组织都会形成数据资产,但内容 重点是不尽相同的。 商业企业客户数据 工业企业生产数据
2、资源企业资源数据 民政部门人口数据 综合部门社会数据 1.1 数据:企业资产 亚马逊的故事 亚马逊早期曾与当时红极一时的AOL(American on line) 达成协议,为AOL电子商务网站提供技术后台服务。亚 马逊不惜降低合同获益,也要执行合同,目的是掌握用 户数据:用户看什么、买什么。而AOL却只注意到了系 统基本用途带来的收益。使亚马逊白白获得了大量客户 数据。 谷歌公司 谷歌曾经为在搜索列表中加入语音识别服务,找到当时 语音识别行业的领导者Nuance合作。 Nuance为获得一 个高端客户而兴奋,没有在意由谁来保存语音翻译记录 ;而这些数据在改进技术方面是不可或缺的,谷歌在获 得
3、了数据的技术上创建了新的语音识别服务系统。 1.1 数据:企业资产 数据化已成为一种趋势 日本汽车研究所的驾车坐姿数据 身形、姿势和重量分布 安装360个压力传感器:0-256对数值量化 各类应用 传统图书、档案的数字化 谷歌的数据图书馆:光学字符识别软件 数字档案与数据档案 UPS的多效地理定位 在每一辆货车上装载传感器、无线适配器和GPS 2011年UPS驾驶员少跑了4828万公里 1.1 数据:企业资产 数据化已成为一种趋势 Twitter微博 每个微博都有33个元数据项 Twitter墙纸服务语言、地理位置、关注的人、粉 丝数量名字等:研究表明,世界上不同文化的人每 天、每周的心情都有
4、相似的模式情绪数据化 自助餐数据化 过程数据化 案例窗 戴尔和沃尔玛成功的理由相同的:戴尔和沃尔玛成功的理由相同的: 客户信息和业务战略相结合; 把客户的信息直接汇集到设计师和经营计划中; 按照信息模式构建经营新型模式;按照信息模式构建经营新型模式; 企业信息资源的有效开发利用企业信息资源的有效开发利用 ERP体系有赖于信息资源管理体系:整合信息资源、优化信息品质、开发信 息资源价值 商品商品资资资资源数据源数据客客户户户户资资资资源数据源数据 战略统和战略统和 案例窗: 沃尔玛在1992年时还处在追赶同业的Kmart和Sears等大型商 业公司的过程中,但10年后沃尔玛的营业额已经达到了上述
5、 公司的5倍。秘密在哪里? 其中一个做法可能是关键。沃尔玛在全美有超过3000间店铺 ,需要对这些店铺进行超过10万种以上商品的配货。沃尔玛 采取了信息化,对两类信息以自动化的方式处理,详细分解 了“店铺特性(Store Traits)”和“商品特性(Article Traits)” ,并由信息系统实现这两类特性的正确匹配,从 而取得经营的成功。 案例窗 案例窗 沃尔玛 商商铺铺特征特征客客户户户户特征特征 依据战略需要规划运营依据战略需要规划运营 体系和信息资源体系和信息资源 各类信息和应用系统:仓储、各类信息和应用系统:仓储、 运输、供货商运输、供货商 ERPERP。 信息资源规划实现信息
6、资源规划实现 新型企业经营模式新型企业经营模式 最新调查 市场研究公司IDC预计 大数据技术及服务市场的年增长率为27%,到2017年 将达到324亿美元。 大数据市场的这种增长比整体ICT市场增长高出6倍多。 最新调查 最新调查 企业的总体情况 企业观点:希望决策更准确,更快速 推动企业投资大数据的业务目标 改善决策的质量:59% 提高决策速度有:53% 改进规划和预测:47% 开发新产品/服务和收入流:47% 提高吸引新客户/客户保留率:44% 建立新的业务合作伙伴关系:34% 最新调查 状况 企业正进入PB时代 企业已经积累了与其客户和业务相关的巨大的 数据集。 被调查企业目前所管理的平
7、均数据量为164TB; 在未来12到18个月后,预计的平均数据量为289TB, 增长率为76% 6%的受访企业已经在管理超过1PB的数据; 这一百分比在未来12到18个月内将增加到14%; 在最大型的企业中,有31%预计将会管理超过1PB的 数据。 最新调查 状况 企业已感觉到数据过载的后果。 当有庞大的数据量涌入企业时会产生很多后果, 例如无能力或无法迅速找到所需的信息而失去一些 业务: 有11%的受访者认为这一情况经常发生,31%认为偶然发生 ; 在制定重要决策时出现延迟-14%经常发生,39%偶然发生; 用户因数据而不堪重负-19%经常发生,46%偶然发生 发生数据安全问题-4%经常发生
8、,15%偶然发生 最新调查 企业准备投资 开发或购买软件应用(38%) 投资购买额外的服务器或存储软硬件(37%) 使用开源软件框架(30%) 向云存储服务迁移(28%) 增加网络带宽(27%) 向云分析服务迁移(26%) 最新调查 企业感觉大数据人才短缺 34%的企业正在招募具备分析技能的人才, 26%的企业考虑将外聘大数据专家。 数据科学家占据首位(27%) 其后依次是数据架构师(24%) 数据分析师(24%) 数据可视化专家(23%) 业务分析师(21%) 研究分析师(21%) 主任分析师或分析经理(19%) 以及数据库程序员(19%)。 最新调查 数据的安全性成问题,但并非最紧迫问题
9、预算有限和人才奇缺是最紧迫的两个挑战 安全问题(35%) 开发时间(35%) 遗留问题如现有工具的集成(33%) 糟糕的数据质量(32%) 整合或分析实时数据的困难(30%) 最新调查 IT部门主导大数据计划,但成功与否取决 于跨职能部门的合作。 46%的企业称高层IT经理主导其大数据项目。 但IT高管并非在单干:36%的企业称业务领导 人也在参与。 最新调查 展望未来 将近一半的受访企业(48%)认为未来三年内大 数据的使用将会在企业内部广泛展开,另有 26%的企业认为大数据会在一个或多个业务部 门成为主流应用。只有5%的受访企业认为大数 据计划会随着炒作的消失而消失,另有5%的企 业回答不
10、知道。 1.2 数据、信息、知识 数据 是以文本、数字、图形、图像、声音和视频 等格式对事实进行表现。 Data是Datum的复数形式,意味着数据是“一个事实” 人们通常把数据当作单数术语使用,对事实进行获取、 存储和表达即形成数据。 数据的基本用途是为信息的收集和处理提供了依据 亚马逊记录客户购买和浏览过的书籍,利用这些数据提供个性化的 建议; Facebook跟踪用户的状态更新和喜好,确定最佳打广告方式和位置 1.2 数据、信息、知识 信息 是指有上下文的数据;没有上下文的数据是没有 实际意义的,即通过上下文解释数据来产生有意 义的信息。上下文包括: 数据元素和相关术语的业务含义; 数据表
11、达的格式; 数据所处的时间范围; 数据与特定用法的相关性。 数据定义是元数据(关于数据的数据)的一种类 型。 元数据,包括数据定义,帮助确定数据的上下文。 1.2 数据、信息、知识 知识 是对情境的理解、意识、认知、识别,以及 对复杂性的把握。 知识是基于某一角度的信息整合的形成的一 种观点,这种观点是基于对模式的承认和解 释。 知识还包括假设和有关推理的理论。 知识可以是显性的,为人们承认为真的;也 可以是隐性的,存在于人们的大脑中。 数据数据 信息信息 知知识识 定定义义 格式格式 时间时间 范范围围 相关性相关性 模式和趋势模式和趋势 关系关系 假设假设 1.2 数据、信息、知识 1.2
12、 数据、信息、知识 数据是信息、知识、智慧和行动的基础,但 数据不是真理!数据可能是不完整、不准 确、过时或被误解的。 真理在实践层面上是最高质量的信息数 据是可用的、相关的、完整的、准确的、一 致的、及时的、实用的、有意义的和能被理 解的。 认识到数据这些价值的组织可以采取具 体的积极的措施来提高数据和信息的质量。 1.3数据(信息)生命周期 数据资产与其他资产一样,也具有生命周期 ,管理数据资产就是管理数据的生命周期。 数据生命周期阶段:创建或获取、存储、维护、 使用、销毁或处置。 在数据的生命周期中的操作包括: 提取、导入、导出、迁移、验证、编辑、更新、清 洗、转型、转换、整合、隔离、汇
13、总、引用、评 审、报告、分析、挖掘、备份、恢复、归档、检 索、删除等操作。 1.3数据(信息)生命周期 数据是流动的,数据在其存储空间流进或流出,并 被包装在信息产品中交付使用。 它以结构化的格式存储在数据库、有标记的电 子文件中; 数据也存在于很多非结构的格式中,如电子邮 件、其他格式的电子文件、纸质文件、电子表格、 报表、图形、电子图像文件、音频和视频录音等。 据统计,80%的数据资产以非结构化格式存 在。 数据生命周期的所有阶段都有相关的成本或风 险,但只有使用阶段,数据才增加商业价值。 ?xml version=1.0“ encoding=gb2312“ ? 参考资料 书籍 名称XML
14、精解/名称 作者张三/作者 价格 货币单位=人民币20.00/价格 /书籍 书籍 名称XML语法/名称 !-此书即将出版- 作者李四/作者 价格 货币单位=人民币18.00/价格 /书籍 /参考资料 1.3数据(信息)生命周期 有效的数据管理是发生在数据生命周期的创建或获 取之前的,组织必须先制定数据规划、定义数据规 范,以期获得实现数据采集、交付、存储和控制所 需的技术能力。 计计划划 规规 范定范定 义义 开开发发 实实施施 创创建建 获获取取 维护维护 使用使用 存档存档 检检索索 清除清除 计计划划维护维护部署部署 测测 试试 开开 发发 设设 计计 分析分析 1.4 数据管理职能 数
15、据管理是规划、控制和提供数据及信息资产的一 组业务职能,包括开发、执行和监督有关数据的计 划、政策、方案、项目、流程、方法和程序,从而 控制、保护、交付和提高数据和信息资产的价值。 1.4 数据管理职能 数据管理职能 数据治理 在数据管理和使用层面上进行规划、监督和控制; 数据架构管理 定义数据资产管理蓝图 数据开发 数据的分析、设计、实施、测试、部署和维护等工作 数据操作管理 提供从数据获取到清除的技术支持工作 数据安全管理 确保隐私、保密性和适当的访问权限等 1.4 数据管理职能 数据管理职能 数据质量管理 定义、监控和提高数据质量 主数据和参考数据管理 管理数据的主版本和副本 商务智能管理 实现数据的应用,保障数据的分析和报告 文档和内容管理 管理结构数据库以外的数据 元数据管理 元数据的整合、控制以及提供元数据 1.4 数据管理职能 数据治理 数据资产管理的战略导向性的活动,要对组 织内的数据资产根据组织战略进行规划,并 监督和控制数据资产实现