大数据管理:概念、技术与挑战(可识别版)

上传人:油条 文档编号:14009937 上传时间:2017-09-04 格式:PDF 页数:25 大小:557.80KB
返回 下载 相关 举报
大数据管理:概念、技术与挑战(可识别版)_第1页
第1页 / 共25页
大数据管理:概念、技术与挑战(可识别版)_第2页
第2页 / 共25页
大数据管理:概念、技术与挑战(可识别版)_第3页
第3页 / 共25页
大数据管理:概念、技术与挑战(可识别版)_第4页
第4页 / 共25页
大数据管理:概念、技术与挑战(可识别版)_第5页
第5页 / 共25页
点击查看更多>>
资源描述

《大数据管理:概念、技术与挑战(可识别版)》由会员分享,可在线阅读,更多相关《大数据管理:概念、技术与挑战(可识别版)(25页珍藏版)》请在金锄头文库上搜索。

1、 大数据 管理 :概念 、技术与挑战 孟小峰 慈祥 (中国人民大学信息学院 北京 100872) Big Data Management: Concepts, Techniques and Challenges Meng Xiaofeng and Ci Xiang (School of Information, Renmin University of China, Beijing 100872) Abstract: Data type and amount in human society is growing in amazing speed which caused by emergin

2、g new service such as cloud computing, internet of things and social network, the era of Big Data has come. Data has been fundamental resource from simple dealing object, and how to manage and utilize big data better has attracted much attention. Evolution or revolution on database research for big

3、data is a problem. This paper discusses the concept of big data, and surveys its state of the art. The framework of big data is described and key techniques are studied. Finally some new challenges in the future are summarized. Keywords Big Data; Data Analysis; Cloud Computing 摘要 云计算、物联网、社交网络等新兴服务促使

4、人类社会的数据种类和规模正以前所未有的速度增长,大数据时代正式到来。数据从简单的处理对象开始转变为一种基础性资源,如何更好的管理和利用大数据已经成为普遍关注的话题。大数据的规模效应给数据存储、管理以及数据分析带来了极大的挑战,数据管理方式上的变革正在酝酿和发生。本文对大数据的基本概念进行剖析,并对大数据的主要应用做简单对比。在此基础上,阐述大数据处理的基本框架,并就云计算技术对于大数据时代数据管理所产生的作用进行分析。最后归纳总结大数据时代所面临的新挑战。 关键字 大数据 ;数据分析 ;云计算 中图法分类号 TP311 1、 、引言 引言引言引言 随着 以博客 、社交网络 、基于位置的服务 L

5、BS为代表的 新型信息 发布方式 的不断 涌现 , 以及云计算 、物联网等技术的兴起 ,数据 正以前所未有的速度在不断的 增长和 累积 ,大数据时代已经来 到。学术界 、工业界甚至于政府机构都已经开始 密切 关注大数据问题 ,并对其产生浓厚的兴趣 。就学术界而言 , Nature早在 2008年就推出了 Big Data专刊 1。计算社区联盟 (Computing Community Consortium)在 2008年发表了报告 Big-Data Computing: Creating revolutionary breakthroughs in commerce, science, and

6、 society 2,阐述了在数据驱动的研究背 景下 ,解决大数据问题所需的技术以及面临的一些挑战 。 Science 在 2011 年 2 月推出专刊 Dealing with Data 3,主要 围绕着 科学研究中大数据的问题展开讨论 ,说明大数据对于科学研究的重要性 。美国一些知名的数据管理领域的专家学者则从专业的研究角度出发 ,联合发布了一份白皮书 Challenges and Opportunities with Big Data 4。该白皮书从学术的角度出发 ,介绍了大数据的产生 ,分析了大数据的处理流程 ,并提出 大数据所面临的若干挑战 。 全球知名的咨询公司麦肯锡 (McKin

7、sey)去年 6 月份发布了一份关于大数据的详尽报告 Big data: The next frontier for innovation, competition, and productivity 5,对大数据的影响 、关键技术和应用领域等都进行了详尽的分析 。进入 2012年以来 ,大数据的关注 度与日俱增 。1月份的达沃斯世界经济论坛上 ,大数据是主题之一 ,该次会议还特别针对大数据发布了报告 Big Data, Big Impact: New Possibilities for International Development 6,探讨了新的数据产生方式下 ,如何 更好的利用数据来

8、产生良好的社会效益 。该报告重点关注了个人产生的移动数据与其他数据的融合 与利用 。 3月份美国奥巴马政府发布了 大数据研究和发展倡议 7(Big Data Research and Development Initiative),投资 2亿以上美元 ,正式启动 “大数据发展计划 ”。计划在科学研究 、环境 、生物医学等领域利用大数据技术进行突破 。奥巴马政府的这一计划被视为美国政府继信息高速公路 (Information Highway)计划之后在信息科学领域的又一重大举措 。与此同时 ,联合国一个名为 Global Pulse的倡议项目在今年 5月发布报告 Big Data for Dev

9、elopment: Challenges & Opportunities 8,该报告主要阐述 大数据时代各国特别是发展中国家在面临数据洪流 (Data Deluge)的情况下所 遇到的机遇与挑战 ,同时还对大数据的应用进行了初步的解读 。纽约时报 的文章 The Age of Big Data 9则通过主流媒体的宣传使普通民众开始意识到大数据的存在 ,以及大数据对于人们日常生活的影响 。 大数据的火热并不意味着对于大数据的了解深入 ,反而 表明大数据 存在 过度炒作的危险 。大数据的基本概念 、关键技术以及对其的利用上 均存在很多的疑问和争议 。本文从大数据问题背后的本质出发 ,对现有的大数据

10、研究资料进行全面的归纳和总结 。首先 简要 介绍大数据的基本概念 ,阐述其同传统数据库的区别 。在此基础上 ,对大数据处理框架 进行 详细 解析 。我们认为大数据的发展离不开云计算技术 ,云计算 支撑着大数据 存储 、管理 以及 数据分析等 。因此 本文 展开介绍了大数据时代不可 或缺 的云计算技术和工具 。最后 全面阐述 大数据时代面临的新挑战 。 2、 、大数据的 大数据的大数据的大数据的 基本概念基本概念基本概念基本概念 、 、来源与应用 来源与应用来源与应用来源与应用 2.1 大数据的基本概念大数据的基本概念大数据的基本概念大数据的基本概念 大数据本身是一个比较抽象的概念 ,单从字面来

11、看 ,它表示数据规模的庞大 。但是 仅仅数量 上的 庞大 显然 无法看出大数据这一概念和以往的 “海量数据 ”( Massive Data)、 “超大规模数据 ” (Very Large Data)等概念之间 有何 区别 。对于 大数据尚未有一个公认的定义 ,不同的定义 基本 是从大数据的特征出发 ,通过这些特征的阐述和归纳 ,试图给出其定义 。在这些定义中 ,比较有代表性的是 3V 定义 10,即认为大数据需满足 3 个特点 :规模性 (Volume)、多样性 (Variety)和高速性 (Velocity)。除此之外 ,还有提出 4V定义的 ,即尝试在 3V的基础上增加一个新的特性 。关于

12、第四个 V 的说法 并不统一 , IDC 认为大数据 还应当具有价值性(Value)11,大数据的价值往往呈现出稀疏性的特点 。而 IBM 认为大数据必然具有真实性(Veracity)12。维基百科对大数据的定义 13则简单明了 :大数据是指利用常用软件工具捕获 、管理和处理数据所耗时间超过可容忍时间的数据集 。 眼下 在大数据定义问题上很难达成一个完全的共识 ,这点和云计算的概念刚提出时的情况是相似的 。在面对实际问题时 ,不必过度的拘泥于具体的定义之中 ,把握 3V定义的基础上,适当的考虑 4V特性即可 。 2.2 从数据库从数据库从数据库从数据库 (Database, DB)到大数据到大

13、数据到大数据到大数据 (Big Data, BD) 从数据库 (DB)到大数据 (BD),看似只是一个简单的技术演进 ,但细细考究不难发现两者有着本质上的差别 。大数据的出现 ,必将 颠覆 传统的数据管理方式 。在数据来源 、数据处理方式和数据思维等方面都会对其带来革命性 的变化 。 如果要用简单的方式来比较传统的数据库和大数据的区别的话 ,我们认为 “池塘捕鱼 ”和“大海捕鱼 ”是个很好的类比 。“池塘捕鱼 ”代表着传统数据库时代 的数据管理方式 ,而“大海捕鱼 ”则对应着大数据时代的数据管理 方式 ,“鱼”是待处理的数据 。“捕鱼 ”环境条件的变化 导致了 “捕鱼 ”方式 的根本性 差异

14、。这些差异主要体现在如下几个方面 : 1、数据规模 :“池塘 ”和“大海 ”最容易发现的区别就是规模 。“池塘 ”规模相对较小 ,即便 是先前 认为比较大的 “池塘 ”,譬如 VLDB(Very Large Database),和“大海 ”XLDB(Extremely Large Database)相比 仍旧偏小 。“池塘 ”的处理对象通常以 MB为基本单位 ,而“大海 ”则常常以 GB,甚至是 TB、 PB为基本处理单位 。 2、数据类型 :过去的 “池塘 ”中,数据的种类单一 ,往往仅仅有一种或少数几种 ,这些数据又以结构化数据为主 。而在 “大海 ”中,数据的种类繁多 ,数以千计 ,而这

15、些数据又包含着结构化 、半结构化以及非结构 化的数据 ,并且半结构化和非结构化数据所占份额越来越大 。 3、模式 (Schema)和数据的关系 :传统的数据库都是先有模式 ,然后才会产生数据 。这就好比是先选好合适的 “池塘 ”,然后才会向其中投放适合在该 “池塘 ”环境生长的 “鱼”。而大数据时代 很多情况下难以 预先确定 模式 ,模式只有在数据出现之后才 能确定 ,且模式 随着数据量的增长 处于不断的 演变 之中 。这就好比 先有少量的鱼类 ,随着时间推移 ,鱼的种类和数量都在 不断的增长 。鱼的变化会 使大海的成分和环境处于不断的变化之中 。 4、处理对象 :在“池塘 ”中捕鱼 ,“鱼”

16、仅仅是其捕捞对象 。而在 “大海 ”中,“鱼”除了是捕捞对象之外 ,还可以通过某些 “鱼”的存在来判断其他种类的 “鱼”是否存在 。也就是说传统数据库中 数据仅作为 处理对象 。而在大数据时代 ,要将数据作为一种资源来 辅助解决其他诸多领域的问题 。 5、处理工具 :捕捞 “池塘 ”中的 “鱼”,一种渔网或少数几种基本就可以应对 ,也就是所谓的 One Size Fits All。但是在 “大海 ”中,不可能存在一种渔网能够捕获所有的鱼类 ,也就是说 No Size Fits All。 从“池塘 ”到“大海 ”,不仅仅是规模的变大 。传统的数据库代表着数据工程 (Data Engineering)的处理方式 ,大数据时代的 数据已不仅仅 只是工程 处理 的对象 ,需要采取新的数据思维来应对 。图灵奖获得者 、著名数据库专家 Jim Gray博士观察并总结人类自古以来 ,在科学研究上 ,先后历经了 实验 、理论

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号