大数据技术和标准化课件

上传人:我*** 文档编号:147852295 上传时间:2020-10-14 格式:PPT 页数:79 大小:5.73MB
返回 下载 相关 举报
大数据技术和标准化课件_第1页
第1页 / 共79页
大数据技术和标准化课件_第2页
第2页 / 共79页
大数据技术和标准化课件_第3页
第3页 / 共79页
大数据技术和标准化课件_第4页
第4页 / 共79页
大数据技术和标准化课件_第5页
第5页 / 共79页
点击查看更多>>
资源描述

《大数据技术和标准化课件》由会员分享,可在线阅读,更多相关《大数据技术和标准化课件(79页珍藏版)》请在金锄头文库上搜索。

1、大数据技术和标准化,科学、公正、诚信、服务,2,内 容,大数据发展背景 标准化工作现状 下一步工作重点,3,一、大数据催生了信息化3.0(智慧化阶段),信息化1.0,-1995 以单机应用为特征的数字化阶段,-2015 以联网应用为特征的网络化阶段,2015- 以数据的深度挖掘与融合应用为特征的智慧化阶段,经历基础性变革后的未来信息技术支撑的信息化,信息化2.0,信息化3.0,?,金税工程,数据规模更大,来源更丰富,类型更复杂,变化更快,4,一、 大数据催生了信息化3.0(智慧化阶段),以数据的深度挖掘与融合应用为特征的智慧化阶段 信息化3.0,5,二、 大数据的战略意义,大数据正在改变人类的

2、思维方式,随机样本,精确求解,因果关系,全体数据,近似求解,关联关系,传统思维,大数据思维,提供新思维、新手段,6,二、 大数据的战略意义,GDP,促进经济转型增长,改善民生: 优化资源配置,健康医疗、就业、社保、教育、公共交通 产业转型,创新业态: 颠覆传统产业,提高运行效率和决策能力,催生智能制造、互联网金融等新业态,大数据时代,信息技术不仅是行业发展的“倍增器”、“催化器”,甚至会成为行业的颠覆者,7,二、 大数据的战略意义,提升国家综合能力、保障国家安全,美国棱镜计划:电邮、即时消息、视频、照片、语音、文件传输、视频会议、社交网络等数据的收集与综合分析,自主可控的大数据技术体系是不可或

3、缺的基础!,8,三、 大数据产业生态链(技术),大数据采集,大数据存储、管理和处理,大数据呈现和应用,大数据分析和挖掘,9,三、 大数据产业生态链(商业),10,四、 我国大数据产业发展现状,基础设施和分析方法方面: 主要依赖国外技术和产品,核心技术方面仍是学习者和追随者 应用方面: BAT在网络大数据具有优势:网站、微博、微信、搜索、交易数据等,互联网企业的技术优势难以顺畅地扩散到各行业 部门、地方和一些行业开始关注大数据资源建设 初级发展阶段,缺少典型性、共识性强的大数据应用; 数据资源开放方面: 我国数据资源主要来源于互联网,业务、政务数据共享开放程度低 急需标准化,保证有序发展、开放共

4、享,11,内 容,大数据发展背景 标准化工作现状 下一步工作重点,12,一、大数据工作组概况,(一)组织架构,组长: 梅 宏 上海交通大学 副校长(院士) 副组长: 车品觉 阿里巴巴集团副总裁 吴建明 华为IT技术开发部部长 杜小勇 中国人民大学信息学院院长 秘书长: 高 林 工业和信息化部信软司 副司长 联络员: 刘大山 国家标准化管理委员会工业二部 处长 孙文龙 工业和信息化部信软司 处长 侯建仁 工业和信息化部电子信息司 处长,进一步扩大工作组规模 申请报名的成员单位170+家 成员单位管理 统一邮箱: 微信公众平台 建立联络关系 贵州省贵阳市政府、 中关村大数据产业联盟 建立大数据专家

5、团队,一、工作组概况,13,一、工作组概况,(二)组织管理,2014年12月2日,工作组成立大会 2015年7月14日,工作组第二次全会,正式成立7个专题组 2015年12月17日,工作组第三次全会(2015年年终总结) 工作组开展了一系列调研活动,组织线下活动5次,召开专题组会议18次,二、标准体系框架,15,16,基础标准 为整个标准体系提供包括总则、术语和参考模型、元数据等基础性标准。 技术标准 该类标准主要针对大数据相关技术进行规范。包括数据治理和数据质量两类标准。其中,数据治理标准主要针对数据的收集、预处理、分析、可视化、访问、能力成熟度评价模型等方面进行规范。数据质量标准主要针对数

6、据质量提出具体的管理要求和相应的指标要求,确保数据在产生、存储、交换和使用等各个环节中的质量,为大数据应用打下良好的基础,包括质量评价、数据溯源、质量检测等标准。,二、标准体系框架,17,产品和平台标准 该类标准主要针对大数据相关技术产品和应用平台进行规范。包括关系型数据库产品、非结构化数据管理产品、智能工具、可视化工具、数据处理平台和测试规范六类标准。其中关系型数据库产品标准针对存储和处理大数据的关系型数据库管理系统,从访问接口、技术要求、测试要求等方面进行规范,为关系型数据库管理系统进行大数据的高端事务处理和海量数据分析提供支持;非结构化数据管理产品标准针对存储和处理大数据的非结构化数据管

7、理系统,从参考架构、数据表示、访问接口、技术要求、测试要求等方面进行规范;智能工具用来帮助用户对大数据进行分析决策,包括ETL、OLAP、数据挖掘等工具,智能工具标准对智能工具的技术及功能进行规范;可视化工具是对大数据处理应用过程中所需用到的可视化展现工具的技术和功能要求进行规范;大数据平台标准是针对大数据存储、处理、分析系统从技术架构、建设方案、平台接口等方面进行规范;测试规范针对大数据的产品和平台给出测试方法和要求。,二、标准体系框架,18,大数据安全标准 数据安全作为数据标准的支撑体系,贯穿于数据整个生命周期的各个阶段。抛开传统的网络安全和系统安全,大数据时代下的数据安全标准主要包括通用

8、要求、隐私保护两类标准。 应用和服务标准 应用和服务类标准主要是针对大数据所能提供的应用和服务从技术、功能、开发、维护和管理等方面进行规范。主要包括开放数据集、数据服务平台和领域应用数据三类标准。其中开放数据集标准主要对向第三方提供的开放数据包中的内容、格式等进行规范;数据服务平台标准是针对大数据服务平台所提出的功能性、维护性和管理性的标准;领域应用数据指的是各领域根据其领域特性产生的专用数据标准,包括工业、电子商务等领域。,二、标准体系框架,二、大数据参考模型,19,二、大数据标准化白皮书V2.0,20,二、研究报告,4、加强研究 (英国)开放数据白皮书 NIST在大数据领域的相关研究报告:

9、大数据互操作性框架:第一卷:定义、大数据互操作性框架:第二卷:大数据分类、大数据互操作性框架:第四卷:安全与隐私、大数据互操作性框架:第六卷:参考架构、NIST大数据互操作性框架:第七卷:大数据标准路线图。 为了更好的开展政府大数据开放共享和数据资产管理方面的标准化工作,工作组正在开展政府大数据分类分级和数据资产管理的相关研究工作,目前已经形成两份研究报告的初稿。,21,(二)标准化工作进展 已立项标准,三、标准研制,23,共定义了28个术语,该标准目前处于征求意见阶段。 重点介绍: 大数据 大数据参考体系结构 大数据生命周期模型 大数据工程化 读时模式 数据科学家,三、标准研制,24,Vol

10、ume,大数据big data 具有数量巨大、来源多样、生成极快且多变等特征并且难以用传统数据体系结构有效处理的包含大量数据集的数据。 注:国际上,大数据的4个特征普遍不加修饰地直接用volume、 variety、 velocity和variability予以表述,并分别赋予了它们在大数据语境下的定义:,数量 Volume,Volume,多样性Variety,多变性variability,Volume,构成大数据的数据集的规模。,速度Velocity,数据可能来自多个数据仓库、数据领域或多种数据类型。,Volume,单位时间的数据流量。,大数据其他特征,即数量、速度和多样性等特征都处于多变状

11、态。,三、信息技术 大数据 术语,25,三、信息技术 大数据 术语,大数据参考体系结构 big data reference architecture 一种用作工具的、便于对大数据内在要求、设计结构和运行进行开放性探讨的高层概念模型。 注:比较普遍认同的大数据参考体系结构一般包含系统协调者、数据提供者、大数据应用提供者、大数据框架提供者和数据消费者等5个逻辑功能构件。,26,大数据生命周期模型 lifecycle model for big data 用于描述大数据的“数据 信息 知识 价值”生命周期和指导大数据相关活动的模型;这些活动主要由收集、准备、分析和行动等阶段覆盖。 注:几个阶段的主

12、要活动如下: a.收集阶段采集原始数据并按原始数据形式存储; b.准备阶段将原始数据转化为干净的、有组织的信息; c.分析阶段利用有组织的信息产生合成的知识; d.行动阶段运用合成的知识为企业生成价值。,三、信息技术 大数据 术语,27,大数据工程化 big data engineering 为适应大数据对于有效存储、操作和分析的需求而运用治理独立资源的先进技术构建可伸缩数据系统的过程。 读时模式 schema-on-read 一种数据模式应用;按此应用,在从数据库读取数据时,先经过诸如转换、净化、整合之类准备步骤。 数据科学家 data scientist 数据科学专业人员;他们具有足够的业

13、务需求管理机制方面的知识、领域知识、分析技能、以及用于管理数据生命周期中每个阶段的端到端数据过程的软件和系统工程知识。,三、信息技术 大数据 术语,28,该技术参考模型展示了一个通用的、由逻辑功能构件组成的大数据系统,该模型独立于供应商、实现技术和基础设施。,三、信息技术 大数据 技术参考模型,29,大数据价值链的两个维度组织:,三、信息技术 大数据 技术参考模型,30,五个角色+两个重要的逻辑构件:,安全和隐私,管理,代表大数据系统中存在的不同技术角色,能够为大数据系统的其他五个主要构件提供服务和功能,三、信息技术 大数据 技术参考模型,已上报申请立项标准,数据开放程度衡量标准,英国内阁办公

14、室开放数据白皮书,四、工作重点:数据资源开放共享,32,33,四、工作重点:数据资源开放共享,提出重点标准研制,四、工作重点:数据资源开放共享,34,收集各领域元数据相关标准,建立元数据资源库,相关标准研制,元数据资源库,对外开放,提供服务,四、工作重点:数据资源开放共享,35,甲方: 通过DCMM对自身(行业、地方、领域、企业)评估,识别差距,找到措施 对乙方评估,找到合适技术提供方 数据策略未来整体规划,指导部署数据战略 定义数据需求,指导对数据资产的分布控制与整合 建立数据标准体系,控制数据质量与安全 提升人员数据管理能力,保障数据生命周期,乙方: 准确定位甲方的能力和需求,从而提出针对

15、性的大数据解决方案 对甲方进行大数据能力评估和认证 提供对机构和人员DCMM的认可 通过DCMM认证,在项目招投标中证明自身具备数据规划、管理和咨询的能力 提供DCMM的咨询和培训服务,实施的意义,数据能力成熟度评估,行业 地方 企业 领域 用户 第三方,四、工作重点:数据能力成熟度评估,36,结合已经申请的国家标准信息技术 大数据 系统通用规范,从可靠性、易用性、维护性、可移植性、安全可靠等功能方面对大数据系统做出规范,给出测试方法及用例等。 目前草案已经完成,准备结合工作组更多的技术厂商开展相关测试验证工作。,四、工作重点:大数据系统测试,37,38,四、重点领域:数据质量标准化,需求,数

16、据生命周期,质量问题,在通过信息化手段进行业务部门横向贯通的过程中,由于数据质量存在的问题严重影响了信息化和数据的可信度,由此对公司业务运行及决策支持等均带来负面影响,在复杂的企业信息环境下,数据在创建、存储、应用、维护、迁移、报废的整个生命周期中的各个环节中,都会产生不同的数据质量问题,人力 资源,复杂的信息环境,统计 分析,财务管理,合同 管理,客户 管理,39,四、重点领域:数据质量标准化,数据质量管理企业面临的问题,哪些关键信息缺失?,企业常见的数据质量问题?,哪些数据相互矛盾?,哪些数据是否可以清晰表达?,哪些数据没有按照时间的要求进行上传?,哪些数据是重复进行定义的?,完整性,哪些数据没有按照要求的规则存储?,规范性,一致性,准确性,重复性,及时性,40,四、 重点领域:数据质量标准化,概念 数据质量问题及其研究由来已久,特别伴随着计 算机为主的信息技术发展而逐渐成为被广泛关注的研 究热点。虽然如此,但

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号