大数据管理_概念_技术与挑战_孟小峰

上传人:我*** 文档编号:133209569 上传时间:2020-05-25 格式:PDF 页数:24 大小:1.27MB
返回 下载 相关 举报
大数据管理_概念_技术与挑战_孟小峰_第1页
第1页 / 共24页
大数据管理_概念_技术与挑战_孟小峰_第2页
第2页 / 共24页
大数据管理_概念_技术与挑战_孟小峰_第3页
第3页 / 共24页
大数据管理_概念_技术与挑战_孟小峰_第4页
第4页 / 共24页
大数据管理_概念_技术与挑战_孟小峰_第5页
第5页 / 共24页
点击查看更多>>
资源描述

《大数据管理_概念_技术与挑战_孟小峰》由会员分享,可在线阅读,更多相关《大数据管理_概念_技术与挑战_孟小峰(24页珍藏版)》请在金锄头文库上搜索。

1、计 算 机 研 究 与 发 展 收稿日期 修回日期 基金项目 国家自然科学基金项目 中国人民大学科学研究基金项目 国家 八六三 高技术研究发展计划基金项目 大数据管理 概念 技术与挑战 孟小峰 慈 祥 中国人民大学信息学院 北京 摘 要 云计算 物联网 社交网络等新兴服务促使人类社会的数据种类和规模正以前所未有的速度增 长 大数据时代正式到来 数据从简单的处理对象开始转变为一种基础性资源 如何更好地管理和利用 大数据已经成为普遍关注的话题 大数据的规模效应给数据存储 管理以及数据分析带来了极大的挑 战 数据管理方式上的变革正在酝酿和发生 对大数据的基本概念进行剖析 并对大数据的主要应用作 简单

2、对比 在此基础上 阐述大数据处理的基本框架 并就云计算技术对于大数据时代数据管理所产生 的作用进行分析 最后归纳总结大数据时代所面临的新挑战 关键词 大数据 数据分析 云计算 中图法分类号 随着以博客 社交网络 基于位置的服务 为代表的新型信息发布方式的不断涌现 以及云计 算 物联网等技术的兴起 数据正以前所未有的速度 在不断地增长和累积 大数据时代已经来到 学术 界 工业界甚至于政府机构都已经开始密切关注大 数据问题 并对其产生浓厚的兴趣 就学术界而言 早在 年就推出了 专刊 计 算社区联盟 在 年发表了报告 阐述了在数据驱动的研究背景下 解决大数据问题所需的技术以及面临的一些挑战 在 年

3、月推出专刊 主要围绕着科学研究中大数据的问题展 开讨论 说明大数据对于科学研究的重要性 美国 一些知名的数据管理领域的专家学者则从专业的研 究角度出发 联合发布了一份白皮书 该白皮书从学 术的角度出发介绍了大数据的产生 分析了大数据 的处理流程 并提出大数据所面临的若干挑战 全球知名的咨询公司麦肯锡 年 月份发布了一份关于大数据的详尽报告 对大数据的影响 关键技术和 应用领域等都进行了详尽的分析 进入 年以 来 大数据的关注度与日俱增 月份的达沃斯世界 经济论坛上 大数据是主题之一 该次会议还特别针 对大数据发布了报告 探讨 了新的数据产生方式下 如何更好地利用数据来产 生良好的社会效益 该报

4、告重点关注了个人产生的 移动数据与其他数据的融合与利用 月份美国奥 巴马政府发布了 大数据研究和发展倡议 投资 亿 以上美元 正式启动 大数据发展计划 计划在科 学研究 环境 生物医学等领域利用大数据技术进 行突破 奥巴马政府的这一计划被视为美国政府 继信息高速公路 计划之后 在信息科学领域的又一重大举措 与此同时 联合 国一个名为 的倡议项目在今年 月 发布报告 该报告主要阐述大数据时代各国 特别是发展中国家在面临数据洪流 的 情况下所遇到的机遇与挑战 同时还对大数据的应 用进行了初步的解读 纽约时报 的文章 则通过主流媒体的宣传使普通民众开 始意识到大数据的存在 以及大数据对于人们日常 生

5、活的影响 大数据的火热并不意味着对于大数据的了解深 入 反而表明大数据存在过度炒作的危险 大数据的 基本概念 关键技术以及对其利用上均存在很多的 疑问和争议 本文从大数据问题背后的本质出发 对 现有的大数据研究资料进行全面的归纳和总结 首 先简要介绍大数据的基本概念 阐述其同传统数据 库的区别 在此基础上 对大数据处理框架进行详细 解析 我们认为大数据的发展离不开云计算技术 云 计算支撑着大数据存储 管理以及数据分析等 因此 本文展开介绍了大数据时代不可或缺的云计算技术 和工具 最后全面阐述大数据时代面临的新挑战 大数据的基本概念 来源与应用 大数据的基本概念 大数据本身是一个比较抽象的概念

6、单从字面 来看 它表示数据规模的庞大 但是仅仅数量上的庞 大显然无法看出大数据这一概念和以往的 海量数 据 超 大 规 模 数 据 等概念之间有何区别 对于大数据尚未有一个 公认的定义 不同的定义基本是从大数据的特征出 发 通过这些特征的阐述和归纳试图给出其定义 在 这些定义中 比较有代表性的是 定义 即认为 大数据需满足 个特点 规模性 多样性 和高速性 除此之外 还有提出 定义的 即尝试在 的基础上增加一个新的特 性 关于第 个 的说法并不统一 国际数据公司 认为大数据 还应当具有价值性 大数据的价值往往呈 现出稀疏性的特点 而 认为大数据必然具有真 实性 维基百科对大数据的定义 则 简单

7、明了 大数据是指利用常用软件工具捕获 管理 和处理数据所耗时间超过可容忍时间的数据集 眼下在大数据定义问题上很难达成一个完全的 共识 这点和云计算的概念刚提出时的情况是相似 的 在面对实际问题时 不必过度地拘泥于具体的定 义之中 在把握 定义的基础上适当地考虑 特 性即可 从数据库 到大数据 从数据库到大数据 看似只是一个简单的技术 演进 但细细考究不难发现两者有着本质上的差别 大数据的出现必将颠覆传统的数据管理方式 在数 据来源 数据处理方式和数据思维等方面都会对其 带来革命性的变化 如果要用简单的方式来比较传统的数据库和大 数据的区别 我们认为 池塘捕鱼 和 大海捕鱼 是 个很好的类比 池

8、塘捕鱼 代表着传统数据库时代 的数据管理方式 而 大海捕鱼 则对应着大数据时 代的数据管理方式 鱼 是待处理的数据 捕鱼 环 境条件的变化导致了 捕鱼 方式的根本性差异 这 些差异主要体现在如下几个方面 数据规模 池塘 和 大海 最容易发现的区 别就是规模 池塘 规模相对较小 即便是先前认为 比较大的 池塘 譬如 和 大海 相比仍旧偏 小 池塘 的处理对象通常以 为基本单位 而 大 海 则常常以 甚至是 为基本处理单位 数据类型 过去的 池塘 中 数据的种类单 一 往往仅仅有一种或少数几种 这些数据又以结构 孟小峰等 大数据管理 概念 技术与挑战 化数据为主 而在 大海 中数据的种类繁多 数以

9、千 计 而这些数据又包含着结构化 半结构化以及非结 构化的数据 并且半结构化和非结构化数据所占份 额越来越大 模式 和数据的关系 传统的数据库 都是先有模式 然后才会产生数据 这就好比是先选 好合适的 池塘 然后才会向其中投放适合在该 池 塘 环境生长的 鱼 而大数据时代很多情况下难以 预先确定模式 模式只有在数据出现之后才能确定 且模式随着数据量的增长处于不断的演变之中 这 就好比先有少量的鱼类 随着时间推移 鱼的种类和 数量都在不断地增长 鱼的变化会使大海的成分和 环境处于不断的变化之中 处理对象 在 池塘 中捕鱼 鱼 仅仅是其 捕捞对象 而在 大海 中 鱼 除了是捕捞对象之 外 还可以通

10、过某些 鱼 的存在来判断其他种类的 鱼 是否存在 也就是说传统数据库中数据仅作为 处理对象 而在大数据时代 要将数据作为一种资源 来辅助解决其他诸多领域的问题 处理工具 捕捞 池塘 中的 鱼 一种渔网 或少数几种基本就可以应对 也就是所谓的 但是在 大海 中 不可能存在一种渔网 能够捕获所有的鱼类 也就是说 从 池塘 到 大海 不仅仅是规模的变大 传统 的数据库代表着数据工程 的处理 方式 大数据时代的数据已不仅仅只是工程处理的 对象 需要采取新的数据思维来应对 图灵奖获得 者 著名数据库专家 博士观察并总结人类 自古以来 在科学研究上 先后历经了实验 理论和 计算 种范式 当数据量不断增长和

11、累积到今天 传 统的 种范式在科学研究 特别是一些新的研究领 域已经无法很好地发挥作用 需要有一种全新的第 种范式来指导新形势下的科学研究 基于这种考 虑 提出了一种新的数据探索型研究方 式 被他自己称之为科学研究的 第 种范式 种范式的比较如表 所示 第 种范式的 实质就是从以计算为中心转变到以数据处理为中 心 也就是我们所说的数据思维 这种方式需要我们 从根本上转变思维 正如前面提到的 捕鱼 在大数 据时代 数据不再仅仅是 捕捞 的对象 而应当转变 成一种基础资源 用数据这种资源来协同解决其他 诸多领域的问题 计算社会科学 基于特定社会需求 在特定的社会理论 指导下 收集 整理和分析数据足

12、迹 以 便进行社会解释 监控 预测与规划的过程和活动 计算社会科学是一种典型的需要采用第 种范式来 作指导的科学研究领域 在 杂志上的 文章 也指出 借 助于社交网络和计算机分析技术 世纪的社会科 学有可能实现定量化的研究 从而成为一门真正的 自然科学 表 科学发现的 种范式 大数据的产生和应用 人类历史上从未有哪个时代和今天一样产生如 此海量的数据 数据的产生已经完全不受时间 地点 的限制 从开始采用数据库作为数据管理的主要方 式开始 人类社会的数据产生方式大致经历了 个 阶段 而正是数据产生方式的巨大变化才最终导致 大数据的产生 运营式系统阶段 数据库的出现使得数据管 理的复杂度大大降低

13、实际中数据库大都为运营系 统所采用 作为运营系统的数据管理子系统 比如超 市的销售记录系统 银行的交易记录系统 医院病人 的医疗记录等 人类社会数据量第 次大的飞跃正 是建立在运营式系统开始广泛使用数据库 这个阶 段最主要特点是数据往往伴随着一定的运营活动而 产生并记录在数据库中 比如超市每销售出一件产 品就会在数据库中产生相应的一条销售记录 这种 计算机研究与发展 数据的产生方式是被动的 用户原创内容阶段 互联网的诞生促使人类 社会数据量出现第 次大的飞跃 但是真正的数据 爆发产生于 时代 而 的最重要标 志就是用户原创内容 这类数据近几年一直呈现爆炸性的增长 主要有两 方面的原因 首先是以

14、博客 微博为代表的新型社交 网络的出现和快速发展 使得用户产生数据的意愿 更加强烈 其次就是以智能手机 平板电脑为代表的 新型移动设备的出现 这些易携带 全天候接入网络 的移动设备使得人们在网上发表自己意见的途径更 为便捷 这个阶段数据的产生方式是主动的 感知式系统阶段 人类社会数据量第 次大 的飞跃最终导致了大数据的产生 今天我们正处于 这个阶段 这次飞跃的根本原因在于感知式系统的 广泛使用 随着技术的发展 人们已经有能力制造极 其微小的带有处理功能的传感器 并开始将这些设 备广泛地布置于社会的各个角落 通过这些设备来 对整个社会的运转进行监控 这些设备会源源不断 地产生新数据 这种数据的产

15、生方式是自动的 简单来说 数据产生经历了被动 主动和自动 个阶段 这些被动 主动和自动的数据共同构成了大 数据的数据来源 但其中自动式的数据才是大数据 产生的最根本原因 正如 的首席经济学家 所 说 数据是广泛可用的 所缺乏的是从中提取出 知识的能力 数据收集的根本目的是根据需求从数 据中提取有用的知识 并将其应用到具体的领域之 中 不同领域的大数据应用有不同的特点 表 列举 了若干具有代表性的大数据应用及其特征 表 典型大数据应用的比较 正是由于大数据的广泛存在才使得大数据问题 的解决很具挑战性 而它的广泛应用则促使越来越 多的人开始关注和研究大数据问题 大数据处理框架 大数据处理模式 大数

16、据的应用类型有很多 主要的处理模式可 以分为流处理 和批处理 两 种 批 处 理 是 先 存 储 后 处 理 而 流 处 理 则 是 直 接 处 理 流处理 流处理的基本理念是数据的价值会随着时间的 流逝而不断减少 因此尽可能快地对最新的数据作 出分析并给出结果是所有流数据处理模式的共同目 标 需要采用流数据处理的大数据应用场景主要有 网页点击数的实时统计 传感器网络 金融中的高频 交易等 流处理的处理模式将数据视为流 源源不断的 数据组成了数据流 当新的数据到来时就立刻处理 并返回所需的结果 图 是流处理中基本的数据 流模型 图 基本的数据流模型 数据的实时处理是一个很有挑战性的工作 数 据流本身具有持续达到 速度快且规模巨大等特点 因此通常不会对所有的数据进行永久化存储 而且 孟小峰等 大数据管理 概念 技术与挑战 数据环境处在不断的变化之中 系统很难准确掌握 整个数据的全貌 由于响应时间的要求 流处理的过程基本在内 存中完成 其处理方式更多地依赖于在内存中设计 巧妙的概要数据结构 内 存容量是限制流处理模型的一个主要瓶颈 以 相变存储器 为代表的储存级内存 设备的出现或许可以使内

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 教学/培训

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号