大数据培训知识

上传人:F****n 文档编号:96456319 上传时间:2019-08-26 格式:PPT 页数:55 大小:2.75MB
返回 下载 相关 举报
大数据培训知识_第1页
第1页 / 共55页
大数据培训知识_第2页
第2页 / 共55页
大数据培训知识_第3页
第3页 / 共55页
大数据培训知识_第4页
第4页 / 共55页
大数据培训知识_第5页
第5页 / 共55页
点击查看更多>>
资源描述

《大数据培训知识》由会员分享,可在线阅读,更多相关《大数据培训知识(55页珍藏版)》请在金锄头文库上搜索。

1、大数据时代,目录,大数据的背景 大数据的定义 大数据的分类 大数据的应用 大数据给我们带来了什么 大数据面临的挑战和趋势 大数据时代的统计,一、大数据时代的背景,21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。 互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。,“大数据”的诞生: 半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往

2、更多的信息,而且其增长速度也在加快。信息爆炸式的增长,创造出了“大数据”这个概念*。如今,这个概念几乎应用到了所有人类智力与发展的领域中。,全球每秒钟发送 2.9 百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5 年 每天会有 2.88 万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3 年 推特上每天发布 5 千万条消息,假设10 秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16 年 每天亚马逊上将产生 6.3 百万笔订单 每个月网民在Facebook 上要花费7 千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB Google 上每天需要处理24

3、PB 的数据,新的时代,人们从信息的被动接受者变成了主动创造者,大数据时代到来,大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长,大数据时代到来,二、大数据的定义,在2012年的IT业界中,“大数据”(Big Data)成了关注度不断提高的关键词之一。 “大数据”是一个起源于欧美的词汇。不过,关于这个词的起源时间并不是十分清楚。至今为止,最具影响力的说法是2010年2月出版的经济学家(The Economist)杂志中的一篇题为“The data deluge”的文章。其中,“deluge”的解释是“数据洪流或海量数据“。 那么,究竟何为大数据? 一般来说,可以从狭义和广义两个层面

4、来进行理解。,狭义的大数据,狭义的大数据就是指用现在的一般技术难以管理的大量数据的集合。 大数据不仅仅是容量大而已,可以用3v来描述大数据的特征:Volume(容量)、Variety(多样性)、Velocity(速度)。 1.容量也就是指数据量,基本上是指从几十TB到几PB这样的 数量级;甚至可能发展到EB数量级。(1TB=1024GB,1PB=1024TB,1EB=1024PB) 2.多样性网站日志数据、Facebook等媒体中的文本数据,智能手机中内置的GPS所产生的位置信息,监控摄像机的视频数据等。 3.速度也就是数据产生和更新的频率。,广义的大数据,广义的大数据是一个综合性的概念,它包

5、括 因具备3v特征而难以进行管理的数据 对这些数据进行存储、处理、分析的技术 能够通过分析这些数据获得实用意义和观点的人才和组织 这些人才和组织指的是目前在欧美十分紧俏的“数据科学家”这类人才,以及能够对大数据进行有效运用的组织。 由此广义的概念可知,除了自身的特征外,人才的作用在大数据时代中日益突出。,三、大数据的分类,按生产主体划分 按数据来源划分 按存储形式划分,大量人产生的数据,巨量机器产生的数据,大数据的分类按生产主体划分,1、BAT为代表的互联网公司。 2、电信、金融、保险、电力、石化系统。 3、公共安全、医疗、交通领域。 4、气象、教育、地理、政务等。 5、其他,商业销售、制造业

6、、农业、物流和流通等领域。,大数据分类按数据来源划分,百度,大数据分类按数据来源划分,BAT为代表的互联网公司,金融与保险,大数据分类按数据来源划分,电信、金融与保险、电力、石化系统,医疗卫生,大数据分类按数据来源划分,公共安全、医疗卫生、交通领域,政务与教育,大数据分类按数据来源划分,气象、地里、教育、政务等领域,大数据分类按数据来源划分,制造业,制造业的存储数据类型: 产品设计数据:以文件为主,非结构化,共享要求较高,保存时间较长。 企业生产环节的业务数据:数据库结构化数据 生产监控数据:数据量非常大,商业销售、制造业、农业、物流和流通等领域,大数据分类按存储形式划分,大数据不仅仅体现数据

7、量大,也体现在数据类型多。如此海量的数据中,仅有20%左右属于结构化数据,80%的数据属于广泛存在于社交网络、物联网、电子商务等领域的非结构化或半结构化数据。,大数据分类按存储形式划分,即行数据,可用二维表结构来逻辑表达实现 主要存储在关系型数据库中 先有结构再有数据,结构一般不变 处理起来较方便,结构化数据,大数据分类按存储形式划分,相对于结构化数据而言,不方便用数据库二维逻辑表来表现 非纯文本类数据,没有标准格式 包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息 存储在非结构数据库中 非结构化WEB数据库:突破了关系数据库结构定义不易改变和数据定长的限制

8、,非结构化数据,大数据分类按存储形式划分,介于完全结构化数据和完全无结构的数据之间 格式较为规范,一般都是纯文本数据 包括日志数据、XML、JSON等格式的数据 一般是自描述的,数据的结构和内容混在一起,没有明显的区分 数据模型主要为树和图的形式。,半结构化数据,四、大数据的应用,大数据在宏观经济管理领域的应用 大数据在农业领域的应用 大数据在商业领域的应用 大数据在金融业的应用 大数据在医疗卫生领域的应用 大数据在社会管理中的应用,大数据在宏观经济管理领域的应用,IBM日本公司建立了一个经济指标预测系统,它从互联网新闻中搜索出影响制造业的480项经济数据,再计算出PMI预测值,准确度相当高。

9、 印第安纳大学学者利用Google提供的心情分析工具,根据用户近千万条短信、微博留言中预测道琼斯工业指数。准确率高达87%。 淘宝网建立了“淘宝CPI”,它通过采集、编制淘宝网上390个类目的热门商品价格来统计CPI,它比国家统计局公布的CPI还提前半个月预测经济的走势。,大数据在农业领域的应用,Google前雇员创办Climate公司,从美国气象局等数据库中获得几十年的天气数据,将各地的降雨、气温和土壤状况及历年农作物产量做成精密图表,从而能够预测美国任一农场下一年的产量。任何一个农场主去他那里问明年种什么能卖出去、能赚钱,他能告诉你,说错了他保证赔偿,赔偿比保险公司还要高,到现在为止他还没

10、有赔过。 通过手机上农产品“移动支付”数据、“采购投入”数据和“补贴“数据分析,可准确预测农产品生产趋势,政府可依此决定出台激励措施和确定合适的作物存储量,还可为农民提供服务。,大数据在商业领域的应用,沃尔玛基于每个月4500万的网络购物数据,并结合社交网络上有关产品的大众评分,开发机器学习语义搜索引擎“北极星“,方便浏览,在线购物者因此增加10%-15%,增加销售十多亿美元。 当顾客在超市买东西时,通过手机定位,可以分析他们在货柜前停留时间的长短,从而判断顾客对什么感兴趣。 不仅仅是通过手机定位,实际上美国有的超市在购物推车上也安装了位置传感器,根据顾客在不同货物前停留时间的长短来分析顾客可

11、能的购物行为。 在淘宝网上买东西时,消费者会在阿里的广告交易平台上留下记录,阿里不仅从交易平台把消费记录拿来自己使用,还会把消费记录卖给其他商家。,大数据在金融业的应用,华尔街某公司通过分析全球3.4亿微博账户留言来判断民众情绪,人们高兴的时候会买股票,而焦虑的时候会抛售股票,它通过判断全世界高兴的人多还是焦虑的人多,依此决定公司股票的买入或卖出。 阿里公司根据在淘宝网上中小企业的交易状况筛选出财务健康和诚信经营的企业,给他们提供贷款,并且不需要这些中小企业的担保。 目前阿里公司已放贷上千亿元,坏帐率仅0.3%。2012年年底,四大商业银行的坏账率为1%左右,尽管四大银行要求有担保,但坏账率仍

12、然比阿里高出3倍。,大数据在医疗卫生领域的应用,Google通过用户搜索与流感相关词汇的频率,判断某个地方可能会发生流感。2009年在甲型H1N1流感爆发的几周前,Google就做出预测,而且还判断出了流感是从哪里来的。,大数据在医疗卫生领域的应用,根据麦肯锡的报告,医疗大数据的分析将为美国产生3000亿美元的价值,减少8%的国家医疗保健支出。,大数据在社会管理中的应用,广东东莞通过统计当地食盐销售量与上年同期比较,判断农民工数量的变化。这与电信运营商根据活跃移动用户数的变化所推出的数据几乎相当。 根据手机用户从这个路口到那个路口所花费的时间,可以判断马路上是不是流量比较多,是否拥堵。 根据有

13、多少个手机在同时移动,大致可以了解发生突发事件时的人流聚集情况,还可以通过手机的注册地进一步分析机主究竟是从哪里来的。 腾讯为每个微博用户建立了档案,可以从微博帖子分析用户的性格,提前关注可能引起社会不稳定的因素。,五、大数据带来了什么?,大数据既催生出无数新的服务和商业模式,也让一些传统行业找到了新的机会,同时产生了对“数据科学家”这种新兴复合型人才的迫切需求。但是,数据运用和隐私保护之间到底应该如何权衡,也成了一个令各方势力争论不休的话题。 所以,对于大数据带来的影响,必须从积极影响和消极影响两个层面来分析。,积极影响,首先,大数据有利于推动中国新四化转型。 新四化是指新型工业化、信息化、

14、城镇化和农业现代化。大数据将会改变人类生活生产方式,可以为新四化提供转变发展方式的新动力。 1.大数据可以强力启动内需; 2.大数据可以推动城镇化以智慧城市的新方式发展; 3.大数据有利于改进政府管理方式; 4.大数据产业将会形成新的增长点。,其次,大数据将对微观经济产生重大影响。,IBM的CEO罗睿兰说:“数据将是下一个大的自然资源,将会区分每个行业的胜者与输家。”IBM的全球调查显示:表现优秀的企业使用分析技术的数量比表现较差的企业高五倍。 1.未来以政府、电信、教育、医疗、金融、石油石化和电力等行业为重点的大数据应用,将直接拉动整个社会的应用规模; 2.数据业务将成为各行各业的主营业务,

15、围绕大数据,企业将向分析级服务升级转型,从而改变各行各业的业态; 3.广义的分析级服务得到大发展,包含一切以大数据为基础的高附加值的创新型服务。,再次,大数据的发展有利于促进新兴职业的发展。,在大数据浪潮的冲击下,一门新兴职业即“数据分析师”(数据科学家)正在以势不可挡的气势涌现。大数据使劳动力市场迅速出现了变化,数据分析师成为炙手可热的行业。 麦肯锡全球研究所进行过一次调查,根据调查预计,美国需要14万名至19万名以上具备深度分析专长的人员。而对具备数据知识的经理的需求量超过150万名。 一个在业界不可言喻的现象出现了,数据分析师已经能够成为最为抢手的热门职业。,消极影响,关于大数据所带来的

16、消极影响主要表现为大数据运用和隐私保护之间的矛盾。要在业务中对大数据进行运用,就不可避免的会遇到隐私问题。 首先,对web上的用户个人信息、行为记录等进行收集,在未经用户许可的情况下将数据转让给广告商等第三方,这种行为严重侵犯了用户的个人隐私权,而且会对其造成一定程度的危害; 其次,网页上的行为记录,如浏览记录和购买记录等,如果进行了相当数量的积累,则有可能据此推断出个人的兴趣、爱好、思想倾向等。而对于用户来说,他们很不希望这些信息被别人知道,所以在心理上会感觉到自己的隐私受到了侵犯。,在今天,关于隐私是一个很大的问题,而且以后这个问题还会越来越严重,会被人们高度关注。所以,对于企业来说,不仅要遵守正式法律的限制,而且不能逾越顾客所能接受的最低底线。必须时刻把用户的地位放在首位,尽可能的多为顾客提供便利,尽最大努力赢得用户的理解和支持。,六、大数据面临的挑战和趋势,从大数据带来的影响可知,大数据浪潮既是一种机遇也是一种挑战,必须权衡利弊。 趋势 随着大数据浪潮的加速到来,将出现产业链的整体繁荣。如何

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号