大数据及其相关新兴技术

上传人:tang****xu4 文档编号:126893917 上传时间:2020-03-28 格式:PPT 页数:61 大小:4.19MB
返回 下载 相关 举报
大数据及其相关新兴技术_第1页
第1页 / 共61页
大数据及其相关新兴技术_第2页
第2页 / 共61页
大数据及其相关新兴技术_第3页
第3页 / 共61页
大数据及其相关新兴技术_第4页
第4页 / 共61页
大数据及其相关新兴技术_第5页
第5页 / 共61页
点击查看更多>>
资源描述

《大数据及其相关新兴技术》由会员分享,可在线阅读,更多相关《大数据及其相关新兴技术(61页珍藏版)》请在金锄头文库上搜索。

1、大数据及其相关新兴技术 Big Data and It s Related Emerging Technologies 2014年8月 陈国良 深圳大学计算机与软件学院 Version 1 07 2013 Version 8 08 2014 2 摘要 大数据 物联网和云计算是新一代信息技术发 展中的华彩乐章 物联网使成千上万的网络传感器 嵌入到现实世界中 云计算为物联网产生的海量数 据提供了存储空间和在线处理 而大数据则让海量 数据产生了价值 本报告 首先介绍大数据世界和 大数据潮流 其次讲解什么是大数据和大数据的一 般处理流程 接着介绍产生大数据来源之一的物联 网的产生 发展及其系统架构 然

2、后讲述大数据与 云计算的关系和两者的异同点 最后在简介高性能 计算与高性能计算机的基础上 阐述了在大数据面 前高性能计算本身所面临的技术挑战等 目 录 3 1 大数据浪潮汹涌澎湃 1 1 大数据世界 1 网络连接的世界涌现出大数据 互联网和社交网产生的数据 现代网络社会中 人们在通过电子邮件 维基 微 博 博客 娱乐节目 网上购物 银行交易 股票数据等进行互动和交易 每个 人在分享网上数据的同时 又在不断制造数据 无线移动互联网络产生的数据 移动智能终端接入互联网就形成了移动互联网 它虽兼具了通信网之 随时 随地 随身 和互联网之 共享 开放 交互 的优势 但仍面临着海量数据通信对网络带宽带来

3、的巨大负担 而移动互联网的无线接入 网络使得数据流量剧增 迫使网络运营商不断增加基站数和进一步挖掘频谱利用 率 网络应用和服务的多元化使得传统的微观小尺度 分组级和数据帧级 的业 务规律分析无法从宏观上描述业务特征规律 物联网上采集和观测数据 在遍布全球各地的移动传感器 无线传感器 空间遥 感器 射频识读器和摄像 照相机等各种采集和观测数据设备 都在时时 处处 捕获大量诸如位置数据 传感数据 卫星图像数据 气象数据等 社会发布的信息数据 现代社会中 政府 企事业 行业等机关部门都不断地向 社会发布政务信息 公共服务信息 卫生保健信息 社会保险信息 科技教育信 息 安全预警信息 金融服务信息 证

4、据投资信息等数据 4 1 大数据浪潮汹涌澎湃 2 大科学工程产生了大数据 大型强子碰撞 LHC Large Hadron Collider 试验 美国大数据研究计划 中专门列出寻找希格斯粒子 被称为 上帝粒子 的LHC实验 据说至少 要1万亿个事例中才可能找出一个希格斯粒子 在发生碰撞时 LHC检测器 Detector 在一秒钟内能捕获到其临近0 4亿 40 million 个快照 当 LHC试验时 约有1 5亿个传感器 Sensor 每秒传递数据0 4亿次 大约每 秒近6 0亿碰撞 如果所有的传感器数据均记录在LHC中 则在重复之前每 天将近有500EB E 1018 数据流量 几乎是世界上

5、所有其他资源的200倍 希格斯粒子以2013年诺贝尔奖获主之一现年84岁的英国科学家彼得 希格斯命名 他在1964年 曾预言玻色子粒子的存在 时隔50年之后 被总部设在瑞士日内瓦的欧洲核子研究中心LHC实 验项目所证实 因为诺贝尔奖至多3人分享 所以欧洲核子研究中心参与发现这种粒子的数以 千计的研究人员就成了无名英雄了 参与 上帝粒子 项目的28岁小伙子 计昊爽 合肥庐江人 毕业于中国科学技术大学 后去 美国威斯康辛大学读博士 他是欧洲核子研究组织 CERN 团队成员 他在计算和实验证明 出 上帝粒子 存在功不可没 他首次计算得到了5倍西格玛 Sigma 的显著度 有99 9999 的 可信度

6、表明了该粒子的存在 这在科学界被认为已经证明了上帝粒子的存在 斯隆数字天空勘探 SDSS Sloan Digital Sky Survey 计划 从2008年开始 收集天文数据 并且每晚以200GB的速率继续收集 到2012年 SDSS已积 累了超过140TB的信息 基因测序 2013年全球至少有30万个人类个体基因组被全部或部分测序 这就意味着将会产生30Pb的序列数据 至少需要相当150PB的存储和分析 计算能力 5 1 大数据浪潮汹涌澎湃 3 新技术新应用催生的大数据 新技术 传感技术 新型通信技术 物联网技术等高速发展 让人们感知的东西很 多 人与人 人与机器 机器与机器时刻都在互联互

7、动 新的获取 搜索 发现和 分析工具更使人们获得更丰富的数据 新应用 物联网 使成千上万的网络传感器嵌入到现实世界中 和云计算 为海量 数据提供了存储空间和在线处理 等新型应用更使得数据激增 4 大数据发展的主要推动力 大数据推动者是企业界 企业界的经济效益推动了大数据的发展 IBM Oracle 微软 谷歌 亚马逊 Facebook等跨国巨头是大数据处理技术的主要推动者 O Reilly公司断言 数据是下一个 Intel Inside 未来属于将数据转换成产品的公司 和人们 大数据主要消费者是网民 近年来大数据骤增主要还是来自人们的日常生活 图片 视频 音乐等 特别是互联网公司的服务 传感网

8、和物联网等相关技术催生了大数据的蓬勃发展 6 1 大数据浪潮汹涌澎湃 1 2 大数据潮流 1 大数据时代 大数据的价值 21世纪数据的价值有可能等同于20世纪的石油 但石油资源会不断 耗尽 而数据会随应用不断增长 呈 无限增长 的趋势 信息经济早期 数据只作为一种 资源 后来人们逐渐把它视为一种 资产 而现今数据却成了一种 能力 是企业的核心竞争力 大数据成了国际业界热门话题 21世纪是个数据为王的时代 每个人都必须 用数据说话 谁拥有了 数据 谁就有了话语权 大数据是继云计算 物联网之后的IT界又一次颠覆性技术变革 2012 年世界经济论坛发布了 Big Data Big Impact 的报

9、告 阐述了大数据对 农业 金融 医疗 健康 教育等发展带来了新机遇 7 1 大数据浪潮汹涌澎湃 2 大数据研究计划 美国 大数据研发创新 计划 计划概况 2012年3月 美国Obama政府宣布了 Big Data Research and Development Initiative 计划 探讨如何利用大数据分析来应对政府所面临的一 些重大问题 该计划由跨6个部门的84个大数据项目组成 总投资共 200million 2亿美元 计划目的 通过抽取知识和洞察大而复杂的数据 改进工作能力 通过创新 加速科学和工程发现的步伐 增强国家安全和改观国民教育现状与面貌等 计划落实实施 除了投放2亿美元资金

10、外 政府希望工业界 大学 非盈利企 事业单位加入联邦政府 利用大数据所提供的机遇 总统号召 all hands on deck 各就各位 全体出场 共同努力 在此形势下 美国有些公司已为 大学提供大数据方面的研究项目与资金 大学已开设大数据的课程 为培养下 一代 数据科学家 做准备等 日本 新ICT战略研究 计划 计划发起 2012年7月日本推出 新ICT战略研究计划 在新一轮IT振兴计划中 日本政府把大数据发展作为国家层面战略提出 这是日本新启动的2011年大地 震一度搁置的政府ICT战略研究 计划关注点 所推出的新的综合战略 活力ICT日本 提升日本竞争力 大数 据应用不可缺少 重点在大数

11、据的应用所需的云计算 传感器 社会化媒体 等智能技术开发 大数据将为新医疗技术开发 交通拥堵的缓解等带来方便和 贡献 8 1 大数据浪潮汹涌澎湃 英国 聚焦大数据和节能计算 计划 做好准备 英国认为自己为大数据革命做好了准备 英国把大数据看作是自 己的优势 政府加大对大数据等IT技术的投入 并带动企业对该领域的投资 资金投入 英国政府宣称投资6亿英镑科学资金 并计划在未来两年内在大数 据和节能计算研究投资1 89亿英镑 政府把大量的资金投入到计算基础设施 用以捕捉并分析通过开放式数据革命获得的数据流 带动企业投入更多的 资金 我国大数据论坛及研究计划 在2013年 中国计算机学会率先于2013

12、年成立 大数据专业委员会 李国杰院士任主 任 在2011 2014年 2013年3月国家自然基金委在上海举行规模浩大的 大数据双清论坛 中国分别举办了第一届 2011年 和第二届 2012年 大数据世界论坛 IT时代周刊等举办了 大数据2012论坛 中国计算机学会举办了 CNCC2012 大数据论坛 国家自然科学基金委 2014年立项重点和重大项目 大数据技术和应用中 的挑战性科学问题 研究 拟从10个方向中选择资助8个重点项目 国家科技部 863计划信息技术领域2015年备选项目包括超级计算机 大 数据 云计算 信息安全 第五代移动通信系统 5G 等 9 1 大数据浪潮汹涌澎湃 3 Gart

13、ner预测大数据的发展周期 2011年 大数据进入技术导入期 Trigger 呈上升发展趋势 同时大数 据预测分析等相关技术已较为成熟 而云计算 内存数据库管理和社会 分析等也处于期望膨胀期 Inflated Expectation 2012年 大数据已进入井喷期 Inflated 处于接近高峰期 同时大数 据相关预测分析 云计算 内存数据库管理 社会分析等技术已逐步发 展且趋于成熟 10 导入 上胀 低落 回升 稳定 1 大数据浪潮汹涌澎湃 2013年 大数据带动了数据科学的研究热潮和相关使能技术的兴起 11 1 大数据浪潮汹涌澎湃 1 3 什么是大数据 1 认识大数据 大数据一般来源于网络

14、用户 网络应用 智能终端 政府 企业和个人 所以大 数据包含了互动数据 交易数据和观测数据等 所谓大数据 Big Data 就是指用目前常用的软件工具无法在容许的时间 可接受 的时间 内进行获取 存储 管理和分析等的数据集 Data sets 数据之所以称为大数据 首先是因为其量大 Large Quantity 而量大对不同的 领域的界定也不同 目前 大数据一般典型范围为几十TB T 1012 到PB PB 1015 将来会更大 2 大数据的4V定义 大数据可按其大容量 快速率 多样性和高价值等4个 V 进行定义如下 Volume Amount of Data 大容量 主要体现数据存储量大和计

15、算量大 Velocity Speed of Data in out 快速率 主要指数据更新 增长速度快 数据存储 传输 处理速度快 Variety Range of Data Types Sources 多样性 包括结构化的原数据库表格数据和半结构化 非结构化的文本 视频 图像等信息 Value Usefulness of Data 高价值 大海捞针 在大数据困难面前 不被利用就是成本 12 1 大数据浪潮汹涌澎湃 3 处理大数据的基本原理 数据量的巨大 本身也包含着数据大小变化范围大 使得数据无法集中存储和必 须使用并行与分布计算技术 数据的快速 使得数据到达速率快和输出结果快 这就需要实时

16、处理和快速决策 数据的多样性 数据结构化 非结构化 半结构化甚至不可预知的结构使得数据 难以统一表达 处理系统极其复杂 大数据的价值弥足珍贵 但大数据的价值密度低 在浩瀚的大数据海洋中 如何 挖掘有用的东西 似如 大海捞针 利用好大数据的价值并非易事 大数据的研究大体上包含数据获取 存储 传输 分析 管理与应用等诸多方面 显然涉及到物理 材料 电子 计算机 通信 数学 统计 信息管理以及各 应用行业 不是单一学科能解决的问题 需要多学科交叉综合研究 4 大数据的4层技术架构 基础层 横向可扩展存储和计算平台 虚拟化 网络化的分布式架构 管理层 并行 分布式管理平台 结构化和非结构化的统一管理 分析层 基于统计学的数据挖掘和机器学习算法 分析和解释数据 提供自动服 务 应用层 提供实时决策 内置预测能力 13 1 大数据浪潮汹涌澎湃 5 大数据所带来的技术挑战 大数据存储与管理 虽然大数据价值稀疏 但保留它还是非常有价值的 解决大数 据的存储问题首先是对其进行去重和压缩 其次是降低副本比 提高存储效率和降 低存储成本 传统IT系统到大数据系统的过渡 在现有的数据软 硬件平台基础上做渐进式

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号