网络新技术大数据讲义

上传人:我** 文档编号:116686834 上传时间:2019-11-17 格式:PPT 页数:18 大小:2.14MB
返回 下载 相关 举报
网络新技术大数据讲义_第1页
第1页 / 共18页
网络新技术大数据讲义_第2页
第2页 / 共18页
网络新技术大数据讲义_第3页
第3页 / 共18页
网络新技术大数据讲义_第4页
第4页 / 共18页
网络新技术大数据讲义_第5页
第5页 / 共18页
点击查看更多>>
资源描述

《网络新技术大数据讲义》由会员分享,可在线阅读,更多相关《网络新技术大数据讲义(18页珍藏版)》请在金锄头文库上搜索。

1、大数据 大数据(big data),或称巨量资料,指的是所涉及的资 料量规模巨大到无法通过目前主流软件工具,在合理 时间内达到撷取、管理、处理、并整理成为帮助企业 经营决策更积极目的的资讯。(在维克托迈尔-舍恩伯 格及肯尼斯库克耶编写的大数据时代中大数据指 不用随机分析法(抽样调查)这样的捷径,而采用所 有数据的方法)大数据的4V特点:Volume(大量)、 Velocity(高速)、Variety(多样)、veracity(真实 性)。 大数据 “大数据”作为时下最火热的IT行业的词汇,随之而来的数据 仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商 业价值的利用逐渐成为行业人士争相追捧

2、的利润焦点。 对于“大数据”(Big data)研究机构Gartner给出了这样的定 义。“大数据”是需要新处理模式才能具有更强的决策力、洞 察发现力和流程优化能力的海量、高增长率和多样化的信息 资产。 “大数据”这个术语最早期的引用可追溯到apache org的开源 项目Nutch。当时,大数据用来描述为更新网络搜索索引需 要同时进行批量处理或分析的大量数据集。随着谷歌 MapReduce和Google File System (GFS)的发布,大数 据不再仅用来描述大量的数据,还涵盖了处理数据的速度。 大数据 大数据 早在1980年,著名未来学家阿尔文托夫勒便在第三次浪 潮一书中,将大数据

3、热情地赞颂为“第三次浪 潮的华彩乐 章”。不过,大约从2009年开始,“163大数据”才成为互联网 信息技术行业的流行词汇。美国互联网数据中心指出,互联 网上的数据每年将增长50%,每两年便将翻一番,而目前世 界上90%以上的数据是最近几年才产生的。此外,数据又并 非单纯指人们在互联网上发布的信息,全世界的工业设备、 汽车、电表上有着无数的数码传感器,随时测量和传递着有 关位置、运动、震动、温度、湿度乃至空气中化学物质的变 化,也产生了海量的数据信息。 大数据 大数据技术的战略意义不在于掌握庞大的数据信息,而在于 对这些含有意义的数据进行专业化处理。换言之,如果把大 数据比作一种产业,那么这种

4、产业实现盈利的关键,在于提 高对数据的“加工能力”,通过“加工”实现数据的“增值”。 大数据与云计算的关系就像一枚硬币的正反面一样密不可分 。大数据必然无法用单台的计算机进行处理,必须采用分布 式架构。它的特色在于对海量数据进行分布式数据挖掘( SaaS),但它必须依托云计算的分布式处理、分布式数据 库(PaaS)和云存储、虚拟化技术(IaaS)。 大数据原理 随着云时代的来临,大数据(Big data)也吸引了越来越多 的关注。著云台的分析师团队认为,大数据(Big data )通常用来形容一个公司创造的大量非结构化数据和半结构 化数据,这些数据在下载到关系型数据库用于分析时会花费 过多时间

5、和金钱。大数据分析常和云计算联系到一起,因为 实时的大型数据集分析需要像MapReduce一样的框架来向 数十、数百或甚至数千的电脑分配工作。 大数据需要特殊的技术,以有效地处理大量的容忍经过时间 内的数据。适用于大数据的技术,包括大规模并行处理( MPP)数据库、数据挖掘电网、分布式文件系统、分布式 数据库、云计算平台、互联网和可扩展的存储系统。 大数据原理 最小的基本单位是Byte, 它们按照进率1024(2的十次方)来计算: 1Byte = 8 bit 1 KB = 1,024 Bytes 1 MB = 1,024 KB = 1,048,576 Bytes 1 GB = 1,024 MB

6、 = 1,048,576 KB 1 TB = 1,024 GB = 1,048,576 MB 1 PB = 1,024 TB = 1,048,576 GB 1 EB = 1,024 PB = 1,048,576 TB 1 ZB = 1,024 EB = 1,048,576 PB 1 YB = 1,024 ZB = 1,048,576 EB 1 BB = 1,024 YB = 1,048,576 ZB 1 NB = 1,024 BB = 1,048,576 YB 1 DB = 1,024 NB = 1,048,576 BB 大数据原理 大数据可分成大数据技术、大数据工程、大数据科学和大数 据应用

7、等领域。目前人们谈论最多的是大数据技术和大数据 应用。工程和科学问题尚未被重视。大数据工程指大数据的 规划建设运营管理的系统工程;大数据科学关注大数据网络 发展和运营过程中发现和验证大数据的规律及其与自然和社 会活动之间的关系。 物联网、云计算、移动互联网、车联网、手机、平板电脑、 PC以及遍布地球各个角落的各种各样的传感器,无一不是 数据来源或者承载的方式。 有些例子包括网络日志,RFID,传感器网络,社会网络, 社会数据(由于数据革命的社会),互联网文本和文件;互 联网搜索索引;呼叫详细记录,天文学,大气科学,基因组 学,生物地球化学,生物,和其他复杂和/或跨学科的科研 ,军事侦察,医疗记

8、录;摄影档案馆视频档案;和大规模的电 子商务 。 大数据用途 简而言之,企业可以通过思考数据战略的总体回报,来应对 大数据的挑战,抓住大数据的机会。Informatica所指的数 据回报率,是为帮助高级IT和业务部门领导者进行大数据 基本的战术和战略含义的讨论而设计的一个简单概念。等式 非常简单:如果您提高数据对于业务部门的价值,同时降低 管理数据的成本,从数据得到的回报就会增加 - 无论是用 金钱衡量,还是更好的决策 数据回报率=数据价值/数据成本 在技术层面,数据回报率为数据集成、数据管理、商业智能 和分析方面的投入提供了业务背景和案例。它还与解决业务 的基础有关:挣钱、省钱、创造机会和管

9、理风险。它涉及对 效率的考虑,同时推动了改变游戏规则的洞察力。 大数据数据回报 容量问题 这里所说的“大容量”通常可达到PB级的数据规模,因此,海量数据存储 系统也一定要有相应等级的扩展能力。与此同时,存储系统的扩展一定 要简便,可以通过增加模块或磁盘柜来增加容量,甚至不需要停机。在 解决容量问题上,不得不提LSI公司的全新Nytro智能化闪存解决方案 ,采用Nytro产品,客户可以将数据库事务处理性能提高30倍,并且超 过每秒4.0GB1的持续吞吐能力,非常适用于大数据分析。 延迟问题 “大数据”应用还存在实时性的问题。特别是涉及到与网上交易或者金融 类相关的应用。有很多“大数据”应用环境需

10、要较高的IOPS性能,比如 HPC高性能计算。此外,服务器虚拟化的普及也导致了对高IOPS的需 求,正如它改变了传统IT环境一样。为了迎接这些挑战,各种模式的固 态存储设备应运而生,小到简单的在服务器内部做高速缓存,大到全固 态介质可扩展存储系统通过高性能闪存存储,自动、智能地对热点数据 进行读/写高速缓存的LSI Nytro系列产品等等都在蓬勃发展。 大数据相关问题 安全问题 某些特殊行业的应用,比如金融数据、医疗信息以及政府情 报等都有自己的安全标准和保密性需求。虽然对于IT管理者 来说这些并没有什么不同,而且都是必须遵从的,但是,大 数据分析往往需要多类数据相互参考,而在过去并不会有这

11、种数据混合访问的情况,大数据应用催生出一些新的、需要 考虑的安全性问题,这就充分体现出利用基于DuraClass 技术的LSI SandForce闪存处理器的优势了,实现了 企业级闪存性能和可靠性,实现简单、透明的应用加速,既 安全又方便。 大数据相关问题 成本问题 对于那些正在使用大数据环境的企业来说,成本控制是关键的问题。 想控制成本,就意味着我们要让每一台设备都实现更高的“效率”,同 时还要减少那些昂贵的部件。重复数据删除等技术已经进入到主存储 市场,而且还可以处理更多的数据类型,这都可以为大数据存储应用 带来更多的价值,提升存储效率。在数据量不断增长的环境中,通过 减少后端存储的消耗,

12、哪怕只是降低几个百分点,这种锱铢必较的服 务器也只有LSI推出的Syncro MX-B机架服务器启动盘设备都能够 获得明显的投资回报,当今,数据中心使用的传统引导驱动器不仅故 障率高,而且具有较高的维修和更换成本。如果用它替换数据中心的 独立服务器引导驱动器,则能将可靠性提升多达100倍。并且对主机 系统是透明的,能为每一个附加服务器提供唯一的引导镜像,可简化 系统管理,提升可靠性,并且节电率高达60%,真正做到了节省成本 的问题。 大数据相关问题 数据的积累 许多大数据应用都会涉及到法规遵从问题,这些法规通常要求数据要保 存几年或者几十年。比如医疗信息通常是为了保证患者的生命安全,而 财务信

13、息通常要保存7年。而有些使用大数据存储的用户却希望数据能 够保存更长的时间,因为任何数据都是历史记录的一部分,而且数据的 分析大都是基于时间段进行的。要实现长期的数据保存,就要求存储厂 商开发出能够持续进行数据一致性检测的功能以及其他保证长期高可用 的特性。同时还要实现数据直接在原位更新的功能需求。 灵活性 大数据存储系统的基础设施规模通常都很大,因此必须经过仔细设计, 才能保证存储系统的灵活性,使其能够随着应用分析软件一起扩容及扩 展。在大数据存储环境中,已经没有必要再做数据迁移了,因为数据会 同时保存在多个部署站点。一个大型的数据存储基础设施一旦开始投入 使用,就很难再调整了,因此它必须能

14、够适应各种不同的应用类型和数 据场景。 大数据相关问题 应用感知 最早一批使用大数据的用户已经开发出了一些针对应用 的定制的基础设施,比如针对政府项目开发的系统,还 有大型互联网服务商创造的专用服务器等。在主流存储 系统领域,应用感知技术的使用越来越普遍,它也是改 善系统效率和性能的重要手段,所以,应用感知技术也 应该用在大数据存储环境里。 针对小用户 依赖大数据的不仅仅是那些特殊的大型用户群体,作为 一种商业需求,小型企业未来也一定会应用到大数据。 我们看到,有些存储厂商已经在开发一些小型的“大数 据”存储系统,主要吸引那些对成本比较敏感的用户。 大数据相关问题 欢迎与同学们共同探讨学习 谢谢大家 人有了知识,就会具备各种分析能力, 明辨是非的能力。 所以我们要勤恳读书,广泛阅读, 古人说“书中自有黄金屋。 ”通过阅读科技书籍,我们能丰富知识, 培养逻辑思维能力; 通过阅读文学作品,我们能提高文学鉴赏水平, 培养文学情趣; 通过阅读报刊,我们能增长见识,扩大自己的知识面。 有许多书籍还能培养我们的道德情操, 给我们巨大的精神力量, 鼓舞我们前进。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号