大数据安全与应用.ppt

上传人:F****n 文档编号:111718085 上传时间:2019-11-03 格式:PPTX 页数:139 大小:17.42MB
返回 下载 相关 举报
大数据安全与应用.ppt_第1页
第1页 / 共139页
大数据安全与应用.ppt_第2页
第2页 / 共139页
大数据安全与应用.ppt_第3页
第3页 / 共139页
大数据安全与应用.ppt_第4页
第4页 / 共139页
大数据安全与应用.ppt_第5页
第5页 / 共139页
点击查看更多>>
资源描述

《大数据安全与应用.ppt》由会员分享,可在线阅读,更多相关《大数据安全与应用.ppt(139页珍藏版)》请在金锄头文库上搜索。

1、大数据安全与应用,目录,引言 电影永无止境,库珀能在短时间掌握无数公司资料和背景,也就是将世界上已经存在的海量数据(包括公司财报、电视、几十年前的报纸、互联网、小道消 息等)挖掘出来,串联起来,甚至将Face Book、Twitter的海量社交数据挖掘得到普通大众对某种股票的感情倾向,通过海量信息的挖掘、分析,使一切内幕都不是内幕,使一切趋势都在眼前, 结果在10天内他就赢得了200万美元。这部电影简直是展现大数据魔力的教材性电影,推荐没有看过的IT人士看一看。,在企业、行业和国家的管理中,通常只有效使用了不到20%的数据(甚至更少),如果剩余80%数据的价值激发起来,世界会变得怎么样呢?,永

2、无止境是由尼尔博格执导的悬疑电影,由布莱德利库珀、罗伯特德尼罗和安娜弗莱尔等联袂出演,所讲述的是一位落魄的作家库珀,服用了一种可以迅速提升智力的神奇蓝色药物,然后他将这种高智商用于炒股。,数据本质是生产资料和资产,仅供开采162年,仅供开采45年,仅供开采60年,不可再生资源VS数据,数据不再是社会生产的“副产物”,而是可被二次乃至多次加工的原料,从中可以探索更大价值,它变成了生产资料。,数据爆炸式增长(每分钟),需要不同“看”数据的方式,可视:结构化资料 15%,未视:半/非结构化数据 85%,DB/DW,主管们看的 战情数位仪表板,其实是残缺的,10万 GB,10万 TB,需要更高性价比的

3、数据计算与储存方式,数据库DB,数据仓库DW,计算更快 存储更省,7,需要不同的数据管理策略,当我们想要扩充时, 才发觉: 架构只能 scale-up, scale-out 不易 处理时间过长, time-to-value 受限 成本过高, cost-efficiency 受限,15% 结构化的 DB/DW,遗憾,残缺,每天几百 GB、 几 TB 的资料,且持续成长中,储存 Storing,在收数据的同时做必要的前置处理 (pre-processing) ,并区分数据处理的优先等级 (prioritizing),计算 Processing,如何有效的避免因硬件毁坏所导致的资料损毁,管理 Man

4、aging,如何从中挖掘出所关注事件的 pattern 或 behavior,分析 Analyzing,超越企业现有 IT 的数据解决能力,大数据的来源,适应新时代,解决新问题,目录,二、什么是大数据,一、大数据的来源,更结构化,没有固定结构的数据,通常保存成不同类型的文件 举例:文本文档、PDF文档、图像和视频,具有不规则数据格式的文本数据,通过使用工具可以使之格式化 举例:包含不一致的数据值和格式的网站点击数据,具有可识别的模式并可以解析的文本数据文件 举例:自描述和具有定义模式的XML数据文件,包括预定义的数据类型、格式和结构的数据 举例:事务性数据和联机分析处理,什么是数据?,12,S

5、ocial Media,Machine / Sensor,DOC / Media,Web Clickstream,Apps,Call Log,Log,什么是数据?,半结构化/非结构化数据,3/13/2012,4,什么是大数据?,何为大?数据度量 1Byte = 8 Bit 1KB = 1,024 Bytes 1MB = 1,024 KB = 1,048,576 Bytes 1GB = 1,024 MB = 1,048,576 KB = 1,073,741,824 Bytes 1TB = 1,024 GB = 1,048,576 MB = 1,099,511,627,776 Bytes 1PB

6、= 1,024 TB = 1,048,576 GB =1,125,899,906,842,624 Bytes 1EB = 1,024 PB = 1,048,576 TB = 1,152,921,504,606,846,976 Bytes 1ZB = 1,024 EB = 1,180,591,620,717,411,303,424 Bytes 1YB = 1,024 ZB = 1,208,925,819,614,629,174,706,176 Bytes,3/13/2012,6,什么是大数据?,红楼梦含标点87万字(不含标点853509字) 每个汉字占两个字节:1汉字=16bit = 2*8位=

7、2bytes 1GB 约等于 671部红楼梦 1TB 约等于 631,903 部 1PB 约等于 647,068,911部 美国国会图书馆藏书(151,785,778册)(2011年4月:收录数据235TB ) 中国国家图书馆:2631万册 1EB = 4000倍 美国国会图书馆存储的信息量 600美元的硬盘就可以存储全世界所有的歌曲 MGI估计,全球企业 2010 年在硬盘上存储了超过 7EB(1EB 等于 10 亿 GB) 的新数据,同时,消费者在 PC 和笔记本等设备上存储了超过 6EB 新数据,3/13/2012,7,数据没有办法在可容忍的时间下使用常规软件方法完成存储、管理和处理任务

8、,什么是大数据?,对于“大数据”(Big data)研究机构Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。,麦肯锡全球研究所给出的定义:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征.,大数据的定义,大数据带来的思维变革,更好 不是因果关系而是相关关系,更多 不是随机样本而是全部数据,更杂 不是精确性而是混杂性,大数据带来的思维变革(更多),人口大普查 全数据模式,随机采样 样本模式,大

9、数据应用 全数据模式,是指在国家统一规定的时间内,按照统一的方法、统一的项目、统一的调查表和统一的标准时点,对全国人口普遍地、逐户逐人地进行的一次性调查登记; 主要特点是调查组织高度集中性,普查对象的全面完整性; 人口大普查耗时耗费,一般来讲是十年一次,新中国成立以来共进行了6次人口大普查; 人口大普查是一种典型的全数据模式;,大数据时代,小数据时代,人口大普查 全数据模式,随机采样 样本模式,大数据应用 全数据模式,人口大普查是一种耗时耗费的工程,一般是以十年为单位; 各国每年需要进行几百次的小规模人口调查,采取随机采样分析的方式,这是一种样本模式; 源于实用并且很好的创新! 随机采样分析是

10、小数据时代的产物;,大数据时代,小数据时代,大数据带来的思维变革(更多),人口大普查 全数据模式,随机采样 样本模式,大数据应用 全数据模式,我们已具备了大数据的各种技术能力,思维需要转换到大数据的全数据模式:样本=全部; 大数据不用随机分析法这样的捷径,而采用所有数据的方法; 这里的“大”是相对的相扑比赛所有数据存储还不需要一个TB,但是是所有的数据! 在大数据时代采用随机采样法,就像在汽车时代骑马一样,虽然特定情况下仍可采样随机采样法,但是慢慢地我们会放弃它;,大数据时代,小数据时代,大数据带来的思维变革(更多),大数据带来的思维变革(更多),大数据带来的思维变革(更杂),从皮尺到哈勃望远

11、镜,人类一直在追求测量的精确性,一方面源于对未知世界的认知;一方面也源于收集信息的有限性;,大数据的简单算法比小数据的复杂算法更有效; IBM的机器翻译 VS Google的机器翻译; 纷繁的数据越多越好; 大数据时代要求我们重新审视数据精确性的优略; 大数据不仅让我们不再期待精确性,也让我们无法实现精确性; 错误不是大数据固有的问题,而是一个需要我们去解决的问题,而且会将长期存在; 混杂性,不是竭力避免,而是标准途径;,大数据带来的思维变革(更好),Kaggle,一个为所有人提供数据挖掘竞赛的公司,在一次关于二手车的数据分析比赛中得到,橙色汽车有质量问题的可能性是其它颜色汽车的一半。为什么?

12、 探寻事物的因果关系是人类的本性,但是大数据时代可以做某种程度的妥协,可以只需要关注“是什么”,而忽略“为什么?”,大数据的构成,大数据 = 海量数据 + 复杂类型的数据,海量交易数据: 企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。,大数据包括: 交易数据和交互数据集在内的所有数据集,海量交互数据: 源于各种网络和社交媒体。它包括了呼叫详细记录、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输协议传送的海量图像文件、Web文本和点击流数据、评价数据、科学信息、电子邮件等等

13、。可以告诉我们未来会发生什么。,大数据的4V特征,Big Data 大数据,TB PB EB,Streams Real time Near time Batch,Structured Unstructured Semi-structured All the above,大数据的4V特征(Volume),1Bity,1KB,1MB,1GB,1TB,1PB,1EB,1ZB,1YB,大数据的4V特征(Velocity),大数据的4V特征(Variety),大数据的4V特征(Value),挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息; 价值密度低,是大数据的一个典型特征;,大数据不仅

14、仅是技术,关键是产生价值 可以从各个层面进行优化,更要考虑整体,13,大数据商业价值,Volume 海量的数据规模,Variety 多样的数据类型,Value,Velocity 快速的数据流转,发现数据价值,大数据技术要解决的问题,大数据技术被设计用于在成本可承受的条件下,通过非常快速(velocity)地采集、发现和分析,从大量(volumes)、多类别(variety)的数据中提取价值(value),将是IT 领域新一代的技术与架构。,大数据技术要解决的问题,软件是大数据的引擎,和数据中心(Data Center) 一样,软件是大数据的驱动力. 软件改变世界!,IBM C&P Indust

15、ry,需求 海量数据存储技术 实时数据处理技术 数据高速传输技术 搜索技术,描述 分布式文件系统 流计算引擎 服务器/存储间高速通信 文本检索、智能搜索、实时搜 索,技术 Hadoop,x86/MPP Map Reduce Streaming Data Infini Band Enterprise Search,数据分析技术,Text Analytics Engine 自然语言处理、文本情感分析、 Visual Data Modeling 机器学习、聚类关联、数据模 型,大数据涉及的关键技术,基于SQL语言: 面对OLAP的传统行和列,不基于SQL或map-reduce的: 由谷歌率先发起,数

16、据流: 基于运行商数据直接生成任意图形,数据入口/汇聚,数据平台,分析,传统交付模式 - 单片或基于设备的解决方案,云: 能够充分利用物理设施的弹性,以实现处理快速增长数据的能力,“数据库将演变成一个虚拟的,基于云计算,超级可扩展的分布式平台。” - Forrester analyst Jim Kobielus,大数据涉及的关键技术,11,大数据涉及的关键技术,大数据涉及的关键技术,大数据涉及的关键技术数据众包,大数据涉及的关键技术,大数据涉及的关键技术分布式文件系统,大数据涉及的关键技术分布式文件系统,C0,C1,C5,C2,C1,C5,C3,C0,C5,C2,GFS Master,GFS Master,Client,Client,Client,Client,Client, ,Replicas,Master,Chunkserver 2,Chunkserver N,Chunkserver

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 幼儿/小学教育 > 小学教育

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号