{企业通用培训}大数据模板培训讲义

上传人:精****库 文档编号:140216058 上传时间:2020-07-28 格式:PPTX 页数:38 大小:3.07MB
返回 下载 相关 举报
{企业通用培训}大数据模板培训讲义_第1页
第1页 / 共38页
{企业通用培训}大数据模板培训讲义_第2页
第2页 / 共38页
{企业通用培训}大数据模板培训讲义_第3页
第3页 / 共38页
{企业通用培训}大数据模板培训讲义_第4页
第4页 / 共38页
{企业通用培训}大数据模板培训讲义_第5页
第5页 / 共38页
点击查看更多>>
资源描述

《{企业通用培训}大数据模板培训讲义》由会员分享,可在线阅读,更多相关《{企业通用培训}大数据模板培训讲义(38页珍藏版)》请在金锄头文库上搜索。

1、,1,2,3,大数据概述,大数据4V特性,相关领域应用,4,相关技术架构,目录,1,大数据概述,大数据产生的背景 什么是大数据 大数据时代,数据量级变化,大数据产生背景,数据量级不断增加 | 根据IDC 监测,人类产生的数据 量正在呈指数级增长,大约每两年翻一番,这个速度在2020 年之前会继续保持下去。,数据结构日趋复杂 | 大量新数据源的出现则导致非结构化、 半结构化数据爆发式的增长,地球上至今的数据量:,在2006 年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;,在2011 年,这个数字达到了1.8ZB。,而有市场研究机构预测:到2020 年,整个世界的数 据总量将

2、会增长44 倍,达到35.2ZB(1ZB=10 亿TB),说明,互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。,1GB(Gigabyte)=1024MB 1TB(Terabyte)=1024GB 1PB(Petabyte)=1024TB 1EB(Exabyte) =1024PB 1ZB(Zettabyte)=1024EB,大数据时代,变化,数据,在web 2.0的时代,人们从信息的被动接受者变成了主动创造者,全球每秒钟发送 2.9 百万封电子邮件, 每天会有 2.8

3、8 万个小时的视频上传到Youtube, 推特上每天发布 5 千万条消息,量级,每月网民在Facebook 上要花费7 千亿分钟,发送和接收的数据高达1.3EB Google 上每天需要处理24PB 的数据,数结,多样性,大数据的定义,大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。,想驾驭这庞大的数据,我们必须了解大数据的特征。,2,大数据的4V特性,体量Volume 多样性Variety 价值密度Value 速度Velocity,数据结构,海

4、量,存储能力,读写速度,实时,大数据,分析,hadoop,hbase,spark,strom,大数据典型特性存储能力变化, 数据量不断增加,存储能力也随之不断增强,存储能力,大数据典型特性读写速度提升,与云计算相结合的大数据存储速度显著提升,数据体量,读写速度,读写速度,大数据典型特性多样性发展,数据结构更加复杂,呈多样性发展,数据结构,多样性,体量Volume,多样性Variety,价值密度Value,速度Velocity,4V 特 性,从非结构化数据的超大规模和增长,比结构化数据增长快10倍到50倍,是传统数据仓库的10倍到50倍,总数据量的8090%,大数据的异构和多样性,多种形式(文本

5、、图像、视频、机器数据),无模式或者模式不明显, 不连贯的语法或句义,大量的不相关信息对未来趋势与模式的可预测分析,深度复杂分析,机器学习、人工智能Vs传统商务智能(咨询、报告等),实时分析而非批量式分析,数据输入、处理与丢弃,立竿见影而非事后见效,3,相关领域应用,军事,建设公共基础设施应该如何选址? 怎样有效提高公众生活安全水平? 人口土地、资源利用如何优化? 自然灾害、雾霾情况怎样最大化去改善? 城市交通拥堵情况怎么去解决?,合理规划很重要,食品安全,消费行业,金融服务,电子商务,气象,交通环保,医疗卫生,军事,食品安全,消费行业,金融服务,电子商务,气象,交通环保,医疗卫生,VS,优化

6、 城市,实时交通信息:利用社交网络和天气数据来优化最 新的交通情况 智能城市系统:自动通知消防、公安、医院等,迅速 到达现场处理 自然灾害预测:实时监测、对潜在危机做出快速响应, 通过卫星和遥感技术,远程获取灾区情况,制定合理 救援计划 智慧城市建设:宏观调控人口、环境、土地 资源利用等,做高效的城市规划建设,正确 方式,VS,改善 生活,穿戴的装备:根据睡眠模式、热量消耗、心率等 时刻监控健康状况 提高医疗和研发:迅速解码DNA,结合海量病例 迅速制定最优治疗方案 改善安全和执法:国家实时监控恐怖主义,企业 防御网络攻击,警察利用社交、公共资源数据来匹 配犯罪人员信息,捕捉罪犯,正确 方式,

7、用户行为数据,用户消费数据,用户社交等UGC数据,培亚马逊、SMG、淘宝,信用卡中心、蚂蚁金服,谷歌地图、大众点评、美团等APP的自动定位系统,互联网金融数据,支付宝、陆金所,用户地理位置数据,互联网大数据,简单罗列几个行业,fackbook、新浪,合理使用大数据,大数据之提高经济策略,金融服务,电子商务,消费行业,根据用户的喜好、交易记录并制定权重匹配商品,提供准确的推送,根据不同地域、不同年龄段的人群的消费情况及生活习惯, 制定提供最优服务的计划,结合热点、题材、政策和历史数据及趋势分析,制定良好的方向,4,相关技术,云计算 列数据库 实时分析 hadoop生态集群,数据库,数据灵活,低价

8、格,高性能,数据灵活,非关系型(列),性 能 对 比,优点,缺点,优点,缺点,易理解 使用方便 支持sql 易于维护,价格昂贵 不能自动切片 固定表结构 读写性能差 高并发读写需求,读写性能高 基于键值对无耦合 数据存储格式丰富 价格低大多免费,不提供sql支持 学习成本高 BI支持弱,关系型数据库,非关系型数据库NoSql,场景不同效果也不同,目前NoSql是最为合适大数据发展的,关系型数据库:Mysql、Oracle、SQserver等,非关系型数据库:Hbase、MongoDB、Redis等,云 计 算,我们已经进入一个无处不网、无时不网的时代!,云计算(cloud computing)

9、是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。 云是网络、互联网的一种比喻说法,用户通过电脑、笔记本、手机等方式接入数据中心,按自己的需求进行运算。,大数据与云计算,云计算与大数据的关系是静与动的关系, 前者强调的是计算、存储能力; 大数据需要处理大数据的能力 (数据获取、清洗、转换、存储、分析、统计等能力), 其实就是强大的计算能力和数据存储能力。 大数据必须采用云端分布式架构对海量数据进行分布式存储、分布式处理。 云计算为大数据资源、大数据挖掘提供技术设施 大数据挖掘为云计算建设和运作提供决策,相互关联性,大数据之 实时分析,是指对规

10、模巨大的数据进行分析,利用大数据技术高效的快速完成分析,达到近似实时的效果,更及时的反映数据的价值和意义。,近实时的数据分析,是传统架构的50-1000倍,高效的响应速度在当今互联网显得极为重要,实时大数据分析,spark实时分析框架,共性:开源的分布式系统,具有低延迟、可扩展和容错性诸多优点,流式实时分析框架storm,Hadoop集群,什么是hadoop? 集群又是什么?,是编程语言吗?,作用? 设计理念?,跟大数据有什么关系?,Hadoop 是开源平台, 本身不是数据库, 但可处理非结构化数据 这点关系数据库很难做到 java、android等程序是用来做交互的,而hadoop是用来做计

11、算的,哪些公司在使用Hadoop,为什么使用Hadoop,集群思路引入,一户人家,家里有很多的田,他需要牛来耕地,他要怎么来决策耕田的问题呢?,一只普通的牛体力有限,很快就不行了,换一只昂贵的身材健硕的牛呢? 还是体力有限,很快就又不行了,最后他想到一个办法:如果找一群普通的牛,事实不会又便宜又高效呢?,集群的概念就是这么得来的,特 性,HDFS: Hadoop Distributed File System 分布式文件系统,MapReduce:分布式运算框架,YARN: Yet Another Resource Negotiator 资源管理调度系统,生 态 圈,问题:怎样存储海量数据?,HDFS分布式文件系统,两个思想十分重要,1.切分,2.分装,MapReduce 介绍,MapReduce = Map(拆分)+Reduce(合并、排序),大数据时代来临,一切真相将会展现在我们面前,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 企业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号