大数据发展概述及关键技术

上传人:ni****g 文档编号:565028858 上传时间:2023-09-28 格式:DOCX 页数:11 大小:17.40KB
返回 下载 相关 举报
大数据发展概述及关键技术_第1页
第1页 / 共11页
大数据发展概述及关键技术_第2页
第2页 / 共11页
大数据发展概述及关键技术_第3页
第3页 / 共11页
大数据发展概述及关键技术_第4页
第4页 / 共11页
大数据发展概述及关键技术_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《大数据发展概述及关键技术》由会员分享,可在线阅读,更多相关《大数据发展概述及关键技术(11页珍藏版)》请在金锄头文库上搜索。

1、大数据发展概述及关键技术随着信息技术和人类生产生活交汇融合,全球数据呈现 爆发增长、海量集聚的特点,对经济发展、社会治理、国家 管理、人民生活都产生了重大影响。近年来,我国政府、企 业、科研机构都投入了大量的精力开展大数据相关的研究工 作,大数据在政策、技术、 产业、 应用等方面均获得了长 足发展。1、大数据概述大数据是信息化发展的新阶段。随着信息技术和人类生 产生活交汇融合,互联网快速普及,全球数据呈现爆发增长、 海量集聚的特点,对经济发展、社会治理、国家管理、人民 生活都产生了重大影响。近年来大数据在政策、技术、产业、 应用等多个层面都取得了显著进展。在政策层面,大数据的重要性进一步得到巩

2、固。党的十 九大提出“推动互联网、大数据、人工智能和实体经济深度 融合”,深刻分析了我国大数据发展的现状和趋势,对我国 实施国家大数据战略提出了更高的要求。在技术层面,以分析类技术、事务处理技术和流通类技 术为代表的大数据技术得到了快速的发展。以开源为主导、 多种技术和架构并存的大数据技术架构体系已经初步形成。 大数据技术的计算性能进一步提升,处理时延不断降低,硬 件能力得到充分挖掘,与各种数据库的融合能力继续增强。在产业层面,我国大数据产业继续保持高速发展。权威 咨询机构Wikibon的预测表示,大数据在2018年将深入 渗透到各行各业。在应用层面,大数据在各行业的融合应用继续深化。大 数据

3、企业正在尝到与实体经济融合发展带来的“甜头”。利 用大数据可以对实体经济行业进行市场需求分析、生产流程 优化、供应链与物流管理、能源管理、提供智能客户服务等, 这不但大大拓展了大数据企业的目标市场,更成为众多大数 据企业技术进步的重要推动力。随着融合深度的增强和市场 潜力不断被挖掘,融合发展给大数据企业带来的益处和价值 正在日益显现。在利用大数据提升政府治理能力方面,我国在 2017 年 出台了政务信息系统整合共享实施方案、政务信息资 源目录编制指南(试行)等多项政策文件推进政府数据汇 聚、共享、开放,取得了诸多进展。各地纷纷将大数据作为 提升政府治理能力的重要手段,通过高效采集、有效整合、

4、深化应用政府数据和社会数据,提升政府决策和风险防范水 平,提高社会治理的精准性和有效性。在地方大数据发展实践方面,截至2018年2 月底,我 国各地方政府对外公布了超过 110 份大数据相关政策文件, 覆盖全国 31 个省级行政区划。总体来看,我国大数据产业 目前仍处于蓬勃发展阶段,各地更加注重结合当地发展特色 和优势进行大数据产业发展,区域协调的发展局面正在形成 在大数据的发展过程中,无论是政府还是企业,近年来 都愈发关注数据治理和数据资产管理的重要性。2018 年 3 月,银监会出台银行业金融机构数据治理指引,要求银 行金融机构建立自上而下、协调一致的数据治理体系。政府 和企业的数据资产管

5、理也正在从理论走向实践,为大数据应 用打下坚实的基础。为应对大数据发展带来的各种问题和需 求,各国政府在立法方面也动作频频,在政府数据开放、个 人信息保护和数据跨境流动方面都有了一些进展。无论是政 策还是立法,都旨在实现数据价值的安全释放,提升数据管 理的科学化水平。2、大数据政策环境2014 年,大数据首次写入政府工作报告,而这一年也 成为实际意义上的“中国大数据政策元年”。从这一年起, “大数据”逐渐成为各级政府关注的热点,政府数据开放共 享、数据流通与交易、利用大数据保障和改善民生等概念逐 渐深入人心。2015 年 8 月 31 日,国务院正式印发了促进大数据 发展的行动纲要(以下简称“

6、行动纲要 ”),成为我 国发展大数据产业的战略性指导文件。行动纲要作为我 国推进大数据发展的战略性、指导性文件,充分体现了国家 层面对大数据发展的顶层设计和统筹布局,为我国大数据应 用、产业和技术的发展提供了行动指南。2016 年,中华人民共和国国民经济和社会发展第十 三个五年规划纲要(以下简称“十三五规划纲要 ”) 正式公布。 “十三五规划纲要”的第二十七章题目为“实施 国家大数据战略”。这也是“国家大数据战略”首次被公开 提出。十三五规划纲要对“国家大数据战略”的阐释, 成为各级政府在制订大数据发展规划和配套措施时的重要 指导,对我国大数据的发展具有深远意义。2016 年底,工业和信息化部

7、正式发布大数据产业发 展规划(2016-2020 年)。大数据产业发展规划以大 数据产业发展中的关键问题为出发点和落脚点,明确了“十 三五”时期大数据产业发展的指导思想、发展目标、重点任 务、重点工程及保障措施等内容,成为大数据产业发展的行 动纲领。农业林业、环境保护、国土资源、水利、交通运输、 医疗健康、能源等主管部门纷纷出台了各自行业的大数据相 关发展规划, 大数据的政策布局逐渐得以完善。在党的十九大报告“贯彻新发展理念,建设现代化经济 体系”一章中,专门提到“推动互联网、大数据、人工智能 和实体经济深度融合”,高屋建瓴地指出了我国大数据发展 重点方向。 2017 年12 月8 日,十九届

8、中共中央政治局就 实施国家大数据战略进行了集体学习,深刻分析了我国大数 据发展的现状和趋势,对我国实施国家大数据战略提出了五 个方面的要求。在 2019 年 10 月召开的十九届四中全会上,提出要“建 立健全运用互联网、大数据、人工智能等技术手段进行行政 管理的制度规则”,“健全劳动、资本、土地、知识、技术、 管理、数据等生产要素由市场评价贡献、按贡献决定报酬的 机制。” 这意味着互联网、大数据、人工智能等新一代信息 技术,将成为国家治理体系和治理能力现代化的核心推动力, 而技术赋也将助推把制度优势转变为治理效能。3、大数据关键技术如今,大数据技术体系纷繁复杂,但其中有诸多技术格 外受到关注。

9、随着社交网络的流行导致大量非结构化数据出 现,传统处理方法难以应对,数据处理系统和分析技术开始 不断发展。从 2005 年 Hadoop 的诞生开始,形成了数据 分析技术体系这一热点。伴随着数据量的急剧增长和核心系 统对吞吐量以及时效性的要求提升,传统数据库需要向分布 式转型,形成了事务处理技术体系这一热点。然而,时代的 发展使得单个组织、甚至单个行业的数据都难以满足要求, 数据融合的价值更加显现,形成了数据流通技术体系这一热1) 数据分析技术从数据在信息系统中的生命周期看,数据分析技术生态 主要有 5个发展方向,包括数据采集与传输、数据存储与管 理、计算处理、查询与分析、可视化展现。在数据采

10、集与传输领域渐渐形成了 Sqoop、Flume、 Kafka 等一系列开源技术,兼顾离线和实时数据的采集和传 输。在存储层,HDFS已经成为了大数据磁盘存储的事实标 准,针对关系型以外的数据模型,开源社区形成了 K-V( keyvalue )、列式、文档、图这四类NoSQL数据库体系,Redis、 HBase、Cassandra、MongoDB、Neo4j 等数据库是各个 领域的领先者。计算处理引擎方面, Spark 已经取代 MapReduce成为了大数据平台统一的计算平台,在实时计 算领域Flink是Spark Streaming强力的竞争者。在数据查 询和分析领域形成了丰富的 SQL o

11、n Hadoop 的解决方案, Hive、HAWQ、Impala、Presto、Spark SQL 等技术与传 统的大规模并行处理(massively parallel processor MPP) 数据库竞争激烈JHive还是这个领域当之无愧的王者。在数 据可视化领域,攵捷商业智能(business intelligence ,BI) 分析工具 Tableau、 QlikView 通过简单的拖拽来实现数 据的复杂展示,是目前最受欢迎的可视化展现方式。相比传统的数据库和 MPP 数据库, Hadoop 最初的 优势来源于良好的扩展性和对大规模数据的支持,但失去了 传统数据库对数据精细化的操作,

12、包括压缩、索引、数据的 分配裁剪以及对 SQL 的支持度。经过 10 多年的发展,数 据分析的技术体系渐渐在完善自己的不足,也融合了很多传 统数据库和 MPP 数据库的优点,从技术的演进来看,大数 据技术正在发生以下变化:(1) 更快Spark 已经替代 MapReduce 成为了大数据生态的计 算框架,以内存计算带来计算性能的大幅提高,尤其是 Spark2.0 增加了更多了优化器,计算性能进一步增强。(2) 流处理的加强Spark提供一套底层计算引擎来支持批量、SQL分析、 机器学习、实时和图处理等多种能力,但其本质还是小批的 架构,在流处理要求越来越高的现在, S p a r k Stre

13、aming 受 到 Flink 激烈的竞争。(3)硬件的变化和硬件能力的充分挖掘 大数据技术体系本质是数据管理系统的一种,受到底层硬件和上层应用的影响。当前硬件的芯片的发展从 CPU 的 单核到多核演变转化为向 GPU、 FPGA、 ASIC 等多种类 型芯片共存演变。而存储中大量使用SSD来代替SATA盘, NVRAM 有可能替换 DRAM 成为主存。大数据技术势必需 要拥抱这些变化,充分兼容和利用这些硬件的特性。(4)SQL 的支持从 Hive 诞生起, Hadoop 生态就在积极向 SQL 靠 拢,主要从兼容标准 SQL 语法和性能等角度来不断优化, 层出不穷的 SQL on Hadoo

14、p 技术参考了很多传统数据库 的技术。而 Greenplum 等 MPP 数据库技术本身从数据 库继承而来,在支持 SQL 和数据精细化操作方面有很大的 优势。(5) 深度学习的支持 深度学习框架出现后,和大数据的计算平台形成了新的 竞争局面,以 Spark 为首的计算平台开始积极探索如何支 持深度学习能力,TensorFlow on Spark等解决方案的出现 实现了 TensorFlow与Spark的无缝连接,更好地解决了 两者数据传递的问题。随着移动互联网的快速发展,智能终端数量呈现爆炸式 增长, 银行和支付机构传统的柜台式交易模式逐渐被终端 直接交易模式替代。以金融场景为例,移动支付以

15、及普惠金 融的快速发展,为银行业、支付机构和金融监管机构带来了 海量高频的线上小额资金支付行为,生产业务系统面临大规 模并发事务处理要求的挑战。传统事务技术模式以集中式数据库的单点架构为主,通 过提高单机的性能上限适应业务的扩展。而随着摩尔定律的 失效(底层硬件的变化),单机性能扩展的模式走到了尽头, 而数据交易规模的急速增长(上层应用的变化)要求数据库 系统具备大规模并发事务处理的能力。大数据分析系统经过 10多年的实践积累了丰富的分布式架构的经验,Paxos、 Raft 等一致性协议的诞生为事务系统的分布式铺平了道路。 新一代分布式数据库技术在这些因素的推动下应运而生经 过多年发展, 当前

16、分布式事务架构正处在快速演进的阶段, 综合学术界以及产业界工作成果,目前主要分为三类:(1)基于原有单机事务处理关系数据库的分布式架构 改造:利用原有单机事务处理数据库的成熟度优势,通过在 独立应用层面建立起数据分片和数据路由的规则,建立起一 套复合型的分布式事务处理数据库的架构。(2)基于新的分布式事务数据库的工程设计思路的突 破。通过全新设计关系数据库的核心存储和计算层,将分布 式计算和分布式存储的设计思路和架构直接植入数据库的 引擎设计中,提供对业务透明和非侵入式的数据管理和操作 /处理能力。(3)基于新的分布式关系数据模型理论的突破。通过设 计全新的分布式关系数据管理模型,从数据组织和管理的最 核心理论层面,构造出完全不同于传统单机事务数据库的架 构,从数据库的数据模型的根源上解决分布式关系数据库的 架构。分布式事务数据库进入到各行各业面临诸多挑战,其一 是多种技术路线,目前没

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号