大数据分析和内存计算

上传人:F****n 文档编号:96401145 上传时间:2019-08-26 格式:PPT 页数:91 大小:20.47MB
返回 下载 相关 举报
大数据分析和内存计算_第1页
第1页 / 共91页
大数据分析和内存计算_第2页
第2页 / 共91页
大数据分析和内存计算_第3页
第3页 / 共91页
大数据分析和内存计算_第4页
第4页 / 共91页
大数据分析和内存计算_第5页
第5页 / 共91页
点击查看更多>>
资源描述

《大数据分析和内存计算》由会员分享,可在线阅读,更多相关《大数据分析和内存计算(91页珍藏版)》请在金锄头文库上搜索。

1、2019年8月26日星期一,大数据分析和内存计算 第一讲:课程介绍,李国良 清华大学计算机系,提纲,大数据背景 大数据由来 大数据定义 大数据与相关领域的关系 大数据挑战 大数据现有系统 大数据现有关键技术 课程介绍 课程考核,2019年8月26日星期一,2019年8月26日星期一,大数据(Big Data)时代来临,移动互联网 Mobile Internet,物联网 Internet of Things,新量级、新处理模式、新企业智能,2019年8月26日星期一,在Web 2.0时代,人们从信息的被动接受者变成了主动创造者,大数据举例,互联网:社交网络、视频、图片、电子商务 物联网:移动设备

2、、传感器 天文、地理、环境、气象、交通信息 扫描书籍、历史文献、社会交互信息 医疗扫描、电子病历,2019年8月26日星期一,大数据典型应用,搜索引擎: Google 、Bing、Baidu、 电子商务:淘宝、京东、Amazon、eBay 零售业:Walmart 可能净利润增长水平为60%或以上 政府公共服务 欧洲政府部门每年3500亿美元,大约每年0.5%的增长率 医疗服务 美国每年3000亿美元,大约每年0.7%的增长率 制造业 产品开发、组装成本降低50%,2019年8月26日星期一,2019年8月26日星期一,大数据潜力,不同行业中,企业信息化成熟度差异明显 政府 等行业 的信息化成熟

3、 度明显领先,总 体处于扩展和 整合优 化阶段 ; 除金融和电信之外的服务行业的信息化建设成熟度相对较低,仍处 在成长阶段。 对大数据的处理需求将启发对于IT系统投资新热点,证实IT推动业务发展,增加对IT投资。,建筑 流通,移动互联化,数据智能化大数据,2019年8月26日星期一,大数据潜力,2019年8月26日星期一,国外大公司的角逐,Google:满足用户需求,将互联网将变得越来越智能。 Facebook:人际网络,创造新的需求。 Google利用好用的、免费得软件产品,换取对用户的理解;通过精准的广告,找到生财之道,颠覆了微软卖软件拷贝赚钱的模式。,互联网越来越智能,Google精确掌

4、握用户行为、获取需求,2019年8月26日星期一,国内大数据计划,国内各地制定云计算“十二五”规划,云计算、物联网园区,中国各地制定或公布了云计算、物联网等产业规划;这些工程的初始着眼点在房地产,政绩工程居多,大数据作为核心内容端,使得政绩工程变为使用工程。 云计算、物联网、社交化媒体、GIS为大数据提供了丰富的数据来源。因此大数据中包括的每个用户的身份、地点、时间、喜好、厌恶、社会关系等等大量的信息。伴随数据挖掘和分析的技术发展,我们即将步入基于大数据的智能化时代。,提纲,大数据背景 大数据由来 大数据定义 大数据与相关领域的关系 大数据挑战 大数据现有系统 大数据现有关键技术 课程介绍 课

5、程考核,2019年8月26日星期一,大数据诞生,Big Data专刊,IT企业研究报告,科学研究“第四范式”,“十二五”规划,美国重大研究计划,Dealing with Data专刊,传染病预测,海啸实时预警,搜索与电子商务,大数据研究意义,智能交通,大数据研究意义,居民消费价格指数(CPI) CPI意义: 与民生密切相关的国家 经济决策重要指标 反映通货膨胀率 目前存在问题: “滞后、不科学” 原社科院金融发展室主任易宪容 “86%认为CPI与消费感受不符合”中国政协网,如何准确计算分析CPI 大数据计算,大数据定义及特点,大数据是通过传统数据库技术和数据处理工具不能处理的庞大而复杂的数据集

6、合。,提纲,大数据背景 大数据由来 大数据定义 大数据与相关领域的关系 大数据挑战 大数据现有系统 大数据现有关键技术 课程介绍 课程考核,2019年8月26日星期一,2019年8月26日星期一,什么是“大数据”?,海量数据(信息) 非结构化数据 Hadoop+Map/Reduce 云计算数据 (Cloud Data) 数据密集型计算数据(DIC Data),2019年8月26日星期一,大数据的性质(4V),Volume 海量的数据规模,Variety 多样的数据类型,Value,Velocity 快速的数据流转,巨大的数据价值,2019年8月26日星期一,大数据的性质实例城市计算,速度快(V

7、elocity) 北京出租车每分钟400万条定位数据,类型多(Variety) POI、路网、轨迹、路况、评论,价值密度低(Value) 特殊事件(赛事、事故) 用户评论(污染、堵塞),规模大(Volume) 街旁网有1亿次签到数据,机器&人工,2019年8月26日星期一,大数据 外延,与应用密切相关的各类数据,强调对于支持实际应用所涉及到的多个来源且相互关联的大量、高速、异构、质量差的数据 生产数据、设计数据、统计数据 文本、多媒体数据、各种文档数据 Heterogeneous Information Network 世界上的数据80%是非结构化数据 80-20规则,提纲,大数据背景 大数据

8、由来 大数据定义 大数据与相关领域的关系 大数据挑战 大数据现有系统 大数据现有关键技术 课程介绍 课程考核,2019年8月26日星期一,2019年8月26日星期一,与大数据相关的几个热点问题,非结构化数据 云计算与大数据 Hadoop + HDFS + Map/Reduce NoSQL,2019年8月26日星期一,什么是半结构化/非结构化数据,23,Social Media,Machine / Sensor,DOC / Media,Web Clickstream,Apps,Call Log,Log,2019年8月26日星期一,云计算与大数据,云计算是一种通过Internet以服务的方式提供动

9、态可伸缩的虚拟化的资源的计算模式 云计算是继大型主机、PC、互联网之后的IT领域的最新一次重大变革 Amazon和Google是始作俑者 虽然云计算和大数据是沿着不同的道路发展而来的,两者在技术和应用上相辅相成 云计算提供的服务离不开它所能承载的大数据 解决大数据的挑战,云计算模式是可行的方案 云计算遭遇大数据是发展的必然趋势,云计算与大数据,云计算是一种通过Internet以服务的方式提供动态可伸缩的虚拟化资源的计算模式 云计算是继大型主机、PC、互联网之后的IT领域的最新一次重大变革 Amazon和Google是始作俑者 云计算 技术、CTO、成本 大数据 业务、CEO、价值 云计算遭遇大

10、数据是发展的必然趋势,2019年8月26日星期一,Amazon 云服务,弹性计算云EC2 简单存储服务S3 简单数据库服务Simple DB 简单队列服务SQS 弹性MapReduce服务 内容推送服务CloudFront 电子商务服务DevPay 灵活支付服务FPS,2019年8月26日星期一,大数据技术就是Hadoop+M/R?,来源于Google,在类似搜索引擎的查询并行化分析处理领域取得极大成功 针对大规模数据密集型应用的编程范式(programming paradigm) 所基于的BigTable和HDFS 是非常质朴的数据模型和存储系统 适用领域有限,为大数据研究打开了思路,但绝不

11、代表大数据技术全部 回到起点来重新审视数据管理之目的,MapReduce,MapReduce是一种编程模型,用于大规模数据集(一般大于1TB)的并行运算的 实现特性 用户自定义函数 自动并行化 容错 I/O调度 监听,2019年8月26日星期一,MapReduce,Hadoop,一个分布式系统和并行执行环境 Hadoop这个框架实现了MapReduce,方便用户海量处理数据 特点: 扩容能力强 成本低 高效率 可靠性,适合场景 大数据分析 离线分析 不适合场景 少量数据 复杂数据 在线分析,2019年8月26日星期一,大数据和数据库的关系,数据库界从一开始就探索过,但还是过于保守 忘不掉ACI

12、D,舍不得Relation,忽视实际应用 沉浸在自己的世界里 空值理论(Null Value),泛关系 (Universal Relation) 数据库设计的范式理论(FD, MVD, 4NF,5NF,) 潜意识地奉行“一招鲜”(One Size Fits All, OSFA) Hadoop+Map/Reduce+Bigtable+HDFS响亮一击 回到起点来考虑数据管理问题,豁然开朗 大数据是数据库的自然延伸,数据库,关系代数 索引 查询优化 事务处理,2019年8月26日星期一,2019年8月26日星期一,2019年8月26日星期一,事务处理,原子性(Atomicity) - 不可分割 一

13、致性(Consistency)- 前后一致 隔离性(Isolation)- 并发 持久性(Durability)- 永久,2019年8月26日星期一,2019年8月26日星期一,大数据的系统需求,High performance 高并发读写的需求 高并发、实时动态获取和更新数据 Huge Storage 海量数据的高效率存储和访问的需求 类似SNS网站,海量用户信息的高效率实时存储和查询 High Scalability & High Availability 高可扩展性和高可用性的需求 需要拥有快速横向扩展能力、提供7*24小时不间断服务,高并发读写,大数据存储的 核心需求,高效率存储 和访

14、问,高可扩展性和高可用性,低成本建设 运维,保证一致性的开销过大,难以实现高并发 存储性能受限于控制器,性能难以保证,关系型表单存储难以适应不同数据类型 上亿行数据的超级达标效率极低,传统基于盘阵的存储设备,造价昂贵,且市场垄断严重,建设成本居高不下,扩容成本尤其高 许可和维护花费高昂,无法简单的通过添加服务节点来扩展数据容量和负载能力,难以进行横向扩展 数据库升级需要停机维护和数据迁移,导致服务中断,不保证遵循ACID原则,提高并发读写性能,Schema-Free存储适应不同数据类型 舍弃SQL标准功能,尽量简化数据操作,提升效率 MapReduce实现高效访问,基于X86设备,价格低廉 开

15、源系统,节省许可费用,支持水平扩展,可简单的通过添加服务节点来扩展数据容量和负载能力 数据库升级不影响服务持续,RDMS,NoSQL,2019年8月26日星期一,2019年8月26日星期一,大数据管理三个层次,Web数据管理 决策数据管理 科学数据管理,2019年8月26日星期一,Web数据管理,数据,处理,检索,实时检索,查询,连续查询,分析,文本,结构化数据,图,搜索引擎,Big Query (Google),Pregel, Trinity,Google Alert,G. R-T. search, FB Search,Google Trends/Analytics,PageRank etc

16、.,Yahoo Pipes,通常依赖于廉价PC机所搭建的集群,2019年8月26日星期一,Web数据管理示例:社交媒体数据管理,关注列表 join 活动列表,活动列表 join 活动列表,实时统计,推送,系统的行为,用户页面,获取个性化内容,展示“消息链”,丰富信息量,节省通讯,目的,看似简单的页面显示需要后台的大量查询处理支持,2019年8月26日星期一,Web数据管理示例:社交媒体数据管理,难点 T: 110M条消息/天1200条/秒 19GB/天(文本) W: 峰值32312条/秒 W: 平均每个人关注540人 T: 平均每个人关注36人 W: 转发超过1000的微博中,超过80%的转发发生在1个小时之内的占59 要求:(准)实时,大规模并发 计算:查询,连接,统计,关注列表 join 活动列表,活动列表 join 活动列表,实时统计,推送,T: W:,2019年8月26日星期一,决策数据管理,数据,处理,检索,实时检索,查询,连续查询,分析,文本,结构化数据,图,QA、 技术支

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号